Article de Proyecto 451 (newsletter).
L’acceleració digital experimentada per moltes parts de la indústria editorial mundial durant la pandèmia, va significar no només una major adopció (i per a alguns consumidors, el descobriment) dels llibres electrònics, sinó també una acceptació en la venda i escolta d’audiollibres. Lògicament, això va portar a moltes editorials a considerar les seves llistes de fons com una font de contingut d’àudio nou i vendible. Speechki, una empresa nord-americana, es va crear just a temps per a aquest nou interès entre molts editors, que generen productes d’àudio a partir de contingut existent. Si bé moltes editorials importants han desenvolupat les seves pròpies divisions per produir audiollibres, i moltes contracten el treball a companyies de producció independents, les despeses segueixen sent una consideració.
La resposta de Speechki a això és l’ús de veus sintètiques. La companyia ofereix 251 veus en 72 idiomes, la qual cosa fa possible obtenir un àudio comercialitzable internacionalment. El sistema va ser dissenyat especialment per a editors, per facilitar els passos tradicionals de producció d’audiollibres. Amb uns pocs clics, els editors poden carregar el text d’un llibre, seleccionar una veu i un idioma, triar algunes de les configuracions d’àudio, incloent-hi la velocitat de la narració i el tipus d’arxiu d’àudio desitjat. Si bé la producció tradicional d’audiollibres pot portar setmanes i, de vegades, mesos, Speechki el redueix a un o dos dies, gràcies a el fet que només requereix 15 minuts per generar un audiollibre de vuit hores i aproximadament 10 hores més per a la “prova d’escolta” i corregir errors.
Part de l’interès de la companyia és eliminar la mística del que ve sota el títol d’un procés d’Intel·ligència Artificial: “No hi ha necessitat d’enganyar o dissimular sobre el fet que un oient està escoltant la veu d’un llibre generada per una màquina . es pot ser absolutament franc sobre el fet que s’està utilitzant una veu sintètica”, diuen els CEO de l’empresa (Publishing Perspectives, 4 minuts).
Seguint en aquesta línia, aquesta setmana va sorgir la notícia que un operador AI-àudio, DeepZen, es va associar amb el distribuïdor nord-americà Ingram per oferir els seus serveis d’AI-àudio. El servei utilitza tecnologia innovadora que replica la veu humana per crear una experiència auditiva que és pràcticament indistingible de la realitat. Desenvolupat específicament per a audiollibres i contingut de format llarg, incorpora intel·ligència artificial, processament de llenguatge natural i algoritmes de pròxima generació. Les veus IA d’DeepZen tenen llicència d’actors de veu i narradors, capturant tots els elements de la veu humana, com el ritme i l’entonació, i una àmplia gamma d’emocions que produeixen patrons de parla més realistes. Es comparen amb la narració humana i estan a un món de distància dels assistents de veu robòtics i monòtons amb els que tots estem familiaritzats.
Ara, el que han preguntar els editors grans i petits en aquesta etapa és: Com serà aquesta tecnologia dins de 3, 5 o 10 anys? Es sentiran còmodes els consumidors amb contingut d’àudio imperfecte però acceptable que no sigui de celebritats si el preu és correcte? Si la resposta a les dues preguntes és sí, i aquesta és una aposta bastant segura, llavors la qualitat de la tecnologia avançarà exponencialment, i el mercat global d’audiollibres podria estar llest per assolir altures que pocs a la indústria d’avui s’atrevirien a admetre (The New Publishing Standard, 2 minuts).