Ife Adebara: «Queremos que las lenguas africanas no queden atrás»
Existen idiomas hablados por millones de personas que casi no aparecen en el mundo digital. Mucho menos en la Inteligencia Artificial (IA). Esta doctora en sistemas cognitivos en lingüística ha puesto en marcha el proyecto African Next Voices para crear uno de los mayores bancos de datos en lenguas africanas.
—«Queremos que las lenguas africanas no se queden atrás»
—Existen idiomas hablados por millones de personas que casi no aparecen en el mundo digital. Mucho menos en la Inteligencia Artificial (IA). Esta doctora en sistemas cognitivos en lingüística ha puesto en marcha el proyecto African Next Voices para crear uno de los mayores bancos de datos en lenguas africanas.
—Se estima que en África existen 2.000 lenguas diferentes. ¿Por qué su presencia es tan escasa en la IA?
—No hay suficientes datos disponibles sobre ellas por las políticas lingüísticas que favorecen las lenguas extranjeras, como el inglés o el francés. Las lenguas indígenas rara vez se utilizan en contextos formales, y esto limita la producción de materiales escritos y digitales que podrían servir para el entrenamiento de la IA. Muchas lenguas africanas prosperan en la comunicación informal y cotidiana de forma oral, y no se documenta de forma sistemática. Además, no tienen una ortografía estandarizada, lo que las hace casi inexistentes en el panorama digital, del que se nutre la IA.
—¿Cómo nace el proyecto African Next Voices?
—Es una respuesta a esta escasez de recursos. Queremos abordarlo recopilando, conservando y desarrollando recursos lingüísticos de alta calidad, para una mayor representación digital. Queremos que las lenguas africanas no se queden atrás en el avance mundial de las tecnologías lingüísticas.
—¿Cuál es vuestro objetivo y cómo lo hacéis?
—La intención es recopilar 9.000 horas de datos de voz de alta calidad en unos 17 idiomas que se hablan en África. Así crearemos conjuntos de datos sólidos y representativos para desarrollar y mejorar modelos de IA, incluidos sistemas de reconocimiento de voz y traducción multilingüe. Para que haya diversidad y reflejar el uso real del lenguaje, colaboramos con comunidades locales y con expertos lingüistas, e involucramos a hablantes nativos de diferentes regiones, grupos de edad y niveles educativos. Esto garantiza que las herramientas de IA reflejen las realidades lingüísticas y culturales de las comunidades africanas, también en áreas como la salud, la educación o la agricultura.
—¿Cómo va el proceso?
—Hemos llegado a más del 95 % de la recopilación y transcripción de esos idiomas. Además, nuestro flujo de trabajo respecto a la grabación, la transcripción y el control de calidad, hace que cumplamos con los estándares internacionales para el desarrollo de modelos de IA. Tenemos uno de los conjuntos de datos de voz en lenguas africanas más completos hasta la fecha.
—¿Eso significa que ya podemos mantener conversaciones con la IA en estos idiomas?
—Sí, algunos ejemplos son el hausa, el yoruba, el igbo y el pidgin nigeriano. Pero de forma desigual porque sigue siendo difícil captar con precisión el estilo, la morfología, el tono o las expresiones culturales. Los idiomas con un corpus web —grandes colecciones de textos extraídos de internet— más amplios tienden a aparecer en puntos de referencia multilingües, por lo que las conversaciones generales, los resúmenes o, por ejemplo, las instrucciones, están algo mejor soportados. Los estudios recientes en África revelan grandes diferencias de rendimiento entre estos idiomas y los que tienen muchos recursos.
—¿Cómo es ese proceso de documentación e inclusión en los modelos de IA?
—El proceso comienza con la documentación y validación de los datos para garantizar que todos los registros cumplan con altos estándares éticos y técnicos. Cada archivo de audio es cuidadosamente anotado y transcrito por hablantes nativos, utilizando directrices de transcripción y ortografía para cada idioma. También incluimos metadatos, como los datos demográficos de los hablantes y el ámbito. Una vez completadas la transcripción y el control de calidad, los conjuntos de datos se estructuran, se limpian y se formatean en formatos legibles. Esto incluye, por ejemplo, alinear el habla con el texto, normalizar las transcripciones y garantizar la coherencia entre los idiomas. Por último, se utilizan para entrenar y evaluar modelos de voz y lenguaje, por ejemplo, el reconocimiento automático de voz, la conversión de texto a voz y los sistemas de traducción multilingüe.
—¿Qué impacto tiene este proyecto para los africanos?
—Hacemos que la IA sea accesible a personas que tradicionalmente han sido excluidas por las barreras lingüísticas. Con los modelos de habla y lenguaje entrenados con estos datos interactúan con sistemas digitales como chatbots, líneas de información sanitaria o plataformas educativas, en sus propios idiomas, incluidos aquellos que antes no estaban en el espacio digital. Además, se estimula la innovación local porque desarrolladores, investigadores y startups crean aplicaciones en esos idiomas y arraigadas en sus propios contextos.