TTS. Actualment qualsevol llibre en format digital és un audio book.

Les sigles TTS signifiquen Text-to-Speech (text a veu). És una tecnologia que permet convertir text escrit en veu parlada. Aquesta tecnologia és molt útil per a persones amb discapacitats visuals o dificultats de lectura, i també pot millorar l’eficiència permetent que els usuaris facin altres tasques mentre escolten. També és possible llegir a més velocitat, i si llegeixes mentre s’escolta pots augmentar la teva comprensió.

La intel·ligència artificial ha millorat significativament la tecnologia de Text-to-Speech (TTS). Algunes de les millores més destacades inclouen:

  1. Veus més naturals: Els models de TTS actuals poden generar àudio que sona molt més humà gràcies a l’ús d’algoritmes de Deep Learning. Això permet una prosòdia i cadència més naturals1.
  2. TTS neuronal: Aquesta tecnologia utilitza xarxes neuronals per crear veus més realistes i expressives2.
  3. Traducció i transcripció: Els sistemes de TTS moderns poden transcriure amb precisió i traduir entre idiomes, millorant la comunicació global1.
  4. Interacció més humana: Les millores en TTS permeten interaccions més intuïtives i semblants a les humanes, fent que els assistents virtuals siguin més efectius i accessibles3.

Aquestes millores han ampliat les aplicacions de TTS en àrees com el servei al client, la creació de contingut digital i la inclusió de persones amb discapacitats visuals o dificultats de lectura.

Personalment, he notat que aplicacions que ja estava fent servir com el gestor de llibres Calibre ha augmentat de manera molt considerable les seves veus amb una qualitat notable. Han aparegut idiomes de forma natural que no fa gaires dies costava d’incloure, estic parlant del nostre estimat català. De moment ens hem de conformar amb d’una qualitat mitjana. Però el canvi és abismal.

Sembla que has trobat informació sobre l’ús de veus TTS en català, com la veu “upc_ona(Spain)” de qualitat mitjana. És probable que la Universitat Politècnica de Catalunya (UPC) hagi treballat en el desenvolupament d’aquestes veus, ja que “upc” podria referir-se a aquesta institució.

El nombre de veus disponibles en un idioma en particular per a sistemes de Text-to-Speech (TTS) pot dependre de diversos factors:

  1. Demanda del mercat: Els idiomes amb més parlants solen tenir més veus disponibles perquè hi ha una demanda més gran per a aquestes veus1.
  2. Recursos lingüístics: La disponibilitat de dades de veu de qualitat per a entrenar models TTS és crucial. Els idiomes amb més recursos lingüístics solen tenir més veus disponibles2.
  3. Inversió en recerca i desenvolupament: Les institucions acadèmiques i empreses que inverteixen en la recerca i desenvolupament de tecnologies TTS poden crear més veus per a un idioma en particular3.
  4. Complexitat lingüística: Alguns idiomes poden ser més difícils de modelar degut a la seva complexitat fonètica i gramatical, el que pot limitar el nombre de veus disponibles2.

2 Edge incorpora un magnífic plugin EpubReader.

Com anirem veient això és ple d’avantatges.

Portant el ratolí a la part baixa de la pantalla surten les opcions per canviar la configuració:

Mida del text 18: color 249-232-180

Veus preferides:

Català:

English UK:

Castella:

fdfdf

Aquestes mateixes veus són utilitzades pel plugin ‘Read Well’ de Edge. Molt útil per a pàgines web.