Infodatnet: Masakhane, el proyecto africano que quiere traducir los más de 2.000 idiomas locales al inglés usando Natural Language Processing

lunes, 2 de diciembre de 2019

Masakhane, el proyecto africano que quiere traducir los más de 2.000 idiomas locales al inglés usando Natural Language Processing

Aunque el inglés, francés y árabe son tres idiomas muy asentados a lo largo y ancho del continente africano, sus más de 1.216 millones de habitantes hablan diferentes idiomas. No hay cifras oficiales, pero se estima que de de los 7.000 que hay en el mundo, 2.000 están en África, algunos más mayoritarios como el bereber (41 millones de hablantes) y otros más minoritarios como el Shona, que solo hablan siete millones de personas de forma nativa.

Tantos idiomas suponen un esfuerzo hercúleo a la hora de traducirlos a un lenguaje como el inglés, pero la tecnología avanza y permite reducir la carga usando sistemas como el Procesamiento de Lenguaje Natural (NLP, por las siglas en inglés de Natural Language Processing). Desarrollar estos modelos de traducción de lenguajes africanos es lo que se propone el proyecto Masakhane.

Una tarea titánica

El proyecto se compone de tres fases: desarrollar los modelos, aplicar los modelos a los diferentes idiomas y presentar el trabajo en diferentes conferencias para "poner a África en el mapa de NLP" y "traducir Internet y su contenido a nuestros idiomas y viceversa". Sin embargo, para entrenar a un modelo de NLP se necesita un corpus, es decir, una serie de bases de datos bien estructuradas con la información necesaria y lista para ser procesada, y eso es un problema.

En Xataka

Así es Showleap: el traductor de lengua de signos a texto y voz en tiempo real está cada vez más cerca

En Masakhane (que por cierto, significa "Construimos juntos" en isiZulu) citan un artículo de Laura Martinus y Jade Z. Abbott que señala algunos obstáculos a la hora de desarrollar modelos de machine translation para idiomas africanos. El primero es que "la sociedad africana no tiene esperanza en que las lenguas indígenas sean aceptadas como un modo más primario de comunicación", por lo que "hay pocos esfuerzos para financiar y centrarse en la traducción de estos idiomas".

El problema es que al haber tantos idiomas repartidos por el continente es complicado encontrar el corpus para entrenar los modelos

Añade Martinus que faltan recursos idiomáticos, es decir, lotes de datos sobre un dialecto con los que entrenar a los modelos, a lo que se suma que los pocos que existen "son difíciles de encontrar". Señalan desde Masakhane que "a menudo es necesario estar asociado con una institución académica específica en un país específico para obtener acceso a los datos de idioma disponibles para ese país" y que "la investigación existente en sí misma es difícil de descubrir ya que a menudo se publican en conferencias o revistas africanas más pequeñas, que no están disponibles electrónicamente ni indexadas por herramientas de investigación como Google Scholar".

¿Cómo quieren salvar estas barreras? Con la colaboración de investigadores africanos. Para ello, han creado un repositorio colaborativo de Neural Machine Translation usando Joey NMT, una base de código enfocada a los usuarios menos experimentados que tiene pequeñas modificaciones para idiomas con pocos recursos. Como ellos mismos explican:

"La idea es que encuentres un conjunto de datos (o combine varios conjuntos de datos), también conocido como un corpus paralelo, para los idiomas africanos de tu elección (preferiblemente uno que pueda hablar), y entrenes un resultado de línea de base para tu idioma".

¿Cómo encontrar ese corpus tan remoto? Curiosamente, la comunidad de Testigos de Jehová ha estado mucho tiempo traduciendo muchísimos documentos, no todos religiosos, y su corpus paralelo idiomático es bastante extenso y variado, por lo que es posible que un idioma con baja representación y difícil de descubrir esté en la base de datos. En esta tabla se pueden consultar todos los que hay disponibles, ni más ni menos de 562 idiomas. Es una opción, pero dado que hay más de 2.000 idiomas, cabe la posibilidad de que los investigadores tengan que buscar otros recursos. Para procesar los datos, desde el proyecto ponen a disposición de los investigadores recursos en la nube de Google.

Países representados en el proyecto actualmente.

Actualmente participan en el proyecto unos 60 investigadores de diferentes países de África, siendo la mayoría de Sudáfrica, Kenia y Nigeria. Cada uno de ellos debe recoger información sobre sus idiomas nativos y entrenar un modelo. Y es que tener un modelo de traducción fiable es capital a a hora de crear material educativo. Venture Beat explica que, de acuerdo a diferentes estudios, las personas aprenden mejor si estudian en su idioma nativo, algo que en ciertos idiomas africanos es complicado.

Por el momento el proyecto está en la fase de recogida de información y de datasets, aunque ya ha habido algunos avances. A mediados de 2019, Martinus y Abbott presentaron los resultados de sus modelos de neural machine translation para cinco idiomas africanos que fueron entrenados con recursos públicos: isiZulu, Sesoto sa leboa, Setswana, Xitsonga y Bantu.