A Universidade de Vigo busca voluntarios para ensinarlle á intelixencia artificial a falar galego

Juan Ventura Lado Alvela
j. v. lado LA VOZ

SOCIEDADE

 Laura Docío y Andrés Piñeiro, investigadores de la Universidad de Vigo
Laura Docío e Andrés Piñeiro, investigadores da Universidade de Vigo

Precisan persoas de distintas zonas que lean frases para alimentar os algoritmos

21 feb 2023 . Actualizado ás 05:00 h.

Os algoritmos para aprender precisan recibir información, palabras neste caso. Por iso, pola abundancia de datos rexistrados, os programas baseados na intelixencia artificial funcionan ben en inglés e non tanto noutras linguas moito menos habituais nos espazos dixitais, como é o caso do galego. De aí que a Universidade de Vigo, máis concretamente o Centro de Investigación en Tecnoloxías de Telecomunicación (atlanTTic), e a empresa Balidea veñan de poñer en marcha o proxecto falaAI, que pretende xuntar as voces de 6.000 voluntarios para alimentar estas ferramentas. Calquera persoa maior de idade pode colaborar de xeito anónimo lendo as 30 frases propostas polos investigadores a través da plataforma falai.balidea.com. Hai moita variedade entra as propostas, pero nunha primeira proba, indicando o xénero, o municipio de orixe e o acento os exemplos que saen son da vida cotiá, como preguntar polo tempo en Ames, «cando é lúa chea en Camariñas», as datas do San Froilán ou o entroido en Laza, pero tamén as instrucións para pedir cita no médico e outras bastante máis asertivas como «cala!» ou «non estou para hostias».

A investigadora do Departamento de Teoría do Sinal e Comunicacións da Escola de Enxeñería de Telecomunicación Laura Docío Fernández, co respaldo da catedrática Carmen García Mateo, e Andrés Piñeiro Martín, do departamento de I+D+i de Balidea, integran o equipo que ten pon diante o reto de xuntar as gravacións de voces —datasets no argot técnico— necesarias para favorecer este funcionamento. Particularmente o que se pretende e facilitarlle o acceso a trámites as persoas maiores ou con algunha discapacidade.

Linguas minoritarias

«Temos o obxectivo de acadar 6.000 participantes, cumprindo ademais os criterios de que 30 horas de gravación correspondan a persoas de máis de 50 anos; 10 horas correspondan a cada provincia e cun equilibrio de xénero de 40-60%», explica Docío, que incide en que canta maior diversidade de voces teñan mellor.

Ao marxe da saúde ou dos trámites administrativos, estes rexistros de voces, que se tratan en todo momento de xeito anónimo, tamén serven de base para un estudo destinado a por en marcha ferramentas de conversación en linguas nas que hai poucos rexistros. «Un punto importante tamén é o deseño destes conxuntos de datos (que frases gravar, o seu número, como medir e validar a calidade das gravacións de forma automática… ) para poder adestrar os algoritmos de aprendizaxe que usan os axentes conversacionais por voz e utilizalos en escenarios con poucos recursos, como poden ser linguas minoritarias como o croata, danés, checo, búlgaro,...» explica a investigadora principal.

Docío Fernández quere poñer en contexto que é o que perseguen e cales son as capacidades coas que contan porque «non deixan de ser algoritmos que necesitan datos». Fronte á complexidade da lingua, que a fai practicamente inabarcable, o que tratan e de «desenvolver unha serie de dominios nin ámbito moi determinado» relacionado con tarefas cotiás na casa ou servizos básicos como pedir unha cita no médico ou obter información do tempo. «Trátase de contar cos diferentes acentos, as distintas formas de falar e os xeitos que temos de interactuar», por lo que los participantes «poden dicir as frases con pequenas variacións pero o sentido ten que manterse», conclúe a científica, que pon un exemplo: «O obxectivo é que se dis o meu número de teléfono é o... ou dis teño o teléfono número... entenda que está dicindo o mesmo».