Audio i IA

Audio i IA

De sobte, la IA està a tot arreu en l’edició de llibres.

Un dels debats especialment interessants a la Fira del Llibre Infantil de Bolonya de la setmana passada va ser sobre l’ús de la intel·ligència artificial (IA) en la producció d’audiollibres. Després de tot, va ser només el mes passat que OpenAI va llançar una nova eina de creació de veu [1].

Els audiollibres han experimentat una transformació notable.

Enrere queden els temps dels audiollibres en forma física en cassets i CD. A diferència d’altres parts de l’ecosistema de llibres, els audiollibres són ara gairebé exclusivament descàrregues digitals. El fet de ser un mitjà exclusivament digital fa que els audiollibres siguin un objectiu especialment atractiu per a la IA.

Què hi ha en un nom?

Com anomenarem audiollibres on les paraules pronunciades han estat generades per una màquina en lloc de narrades per un ésser humà?

En els anys noranta, vam anomenar aquest text to speech (TTS) i feia que els llibres fossin accessibles per a persones amb discapacitat visual. Els sistemes TTS, però, eren crus, lluitant per transmetre matisos emocionals en la parla, com el sarcasme i la ironia, que afectaven la percepció i la comprensió del missatge. L’àudio generat per TTS sovint sona monòton i avorrit després d’escoltar-lo durant una estona.

Els avenços en IA durant els últims anys han donat lloc a alguna cosa que és molt millor i que imita realment la parla humana. La denominació veu sintètica ha sorgit per diferenciar-la de la primitiva producció de text a veu d’antic, tal com va defensar a la Fira del Llibre de Bolonya la setmana passada Nathan Hull de Beat Technologies. Amanda D’Acierno, presidenta i editora de Penguin Random House (EUA) Audio Publishing Group, va oferir en canvi el terme veu digital. El seu terme preferit pot conduir a una possible confusió, ja que essencialment tots els audiollibres ara es lliuren en format digital, cosa que difumina la important distinció entre el format del llibre i l’origen de la veu.

La veu sintètica s’ajusta més a la terminologia a la qual ens vam acostumar durant una època anterior de revolució tecnològica quan es van introduir fibres artificials a la fabricació tèxtil. Al cap i a la fi, va ser a la segona meitat del segle XX quan vam aprendre a referir-nos a la roba feta de cotó, llana o lli com a feta de fibres naturals, per distingir-la de les de polièster, niló i altres fibres sintètiques creades per polimerització. molècules precursores derivades del petroli en fils llargs. Encara avui fem servir aquesta terminologia i l’analogia dels audiollibres encaixa com un guant.

Per tant, els audiollibres narrats per humans s’anomenarien audiollibres de veu naturals i els audiollibres narrats per IA com a audiollibres de veu sintètica.

AI Audiobook Quimeres

Naturalment, les coses no són tan senzilles.

Alguns tèxtils barregen fibres naturals amb fibres sintètiques. L’edició d’audiollibres fa el mateix, utilitzant la IA per corregir paraules mal pronunciades sense necessitat de tornar a gravar seccions senceres [2]. Quin percentatge d’intervenció d’IA està permès abans que ja no puguem anomenar el nostre producte un audiollibre de veu natural (“narrat humà”, a la lingo anterior a Bolonya)? No hi ha normes al respecte. Permetem una de cada mil paraules assistides per IA (0,1%), una de cada cent paraules (1%) o potser fins i tot més? Actualment no tenim normes sobre això ni hi ha cap consens de la indústria sobre què és acceptable.

L’ús de l’IA s’ha de revelar a les metadades dels audiollibres de la mateixa manera que la roba té etiquetes que revelen la seva composició? Probablement si!

A més, la IA ja s’utilitza per automatitzar altres parts del procés d’edició dels audiollibres, com ara eliminar sorolls no desitjats, suprimir sons “hmm” i ahh no desitjats, etc. durant tot el procés de postproducció.

Article d’Andrew Rhomberg, Jellybooks, (vist a Proyecto 451) clica aquí per accedir-hi