GT Geopolíticas do Multilinguismo entrevista Daniel Pimienta
.
Por Simone Schwambach y Camila Muniz
Publicado en
Schwambach y Muniz: Actualmente, usted es el director del Observatorio de la Diversidad Lingüística y Cultural en la Internet (OBDILCI), ¿podría explicar en qué consiste el trabajo del OBDILCI y cuál es su recorrido histórico?
Pimienta: OBDILCI prosigue las actividades de un proyecto de FUNREDES del mismo nombre que nació en 1998 y que yo dirigía. Cuando FUNREDES ceso sus actividades, en 2017, mantuve las actividades de ese proyecto y en secuencia formalicé la existencia de una nueva estructura asociativa para enmarcar ese proyecto. La asociación OBDILCI tiene existencia legal en Francia como asociación desde enero de 2021.
OBDILCI es una estructura pionera en el tema de la medición del espacio de las lenguas en la Internet, un tema con implicaciones fuertes en el más general de la promoción de la diversidad lingüística en la Internet porque sin indicadores fiables y perennes es muy complicado desarrollar políticas públicas acertadas. Sin embargo, ese campo cuenta con demasiado pocos actores académicos (y en general actores que no han permanecido) y ha sido abandonado a empresas de marketing pocas trasparentes y con datos donde los sesgos son generalmente no estudiados, a pesar de ser a menudo enormes.
OBDILCI ofrece datos mas confiables y apoyados por metodologías expuestas en el mínimo detalle y sometidas al escrutinio de los pares, en publicaciones científicas. En margen de ese proyecto principal de producción de indicadores que permiten entender mejor la evolución de las lenguas en el ciberespacio, OBDILCI desarrolla proyectos coherentes con su misión de promover la diversidad lingüística y cultural en la Interne, los cuales están expuestos de manera sistemática en su sitio Web y en publicaciones.
Schwambach y Muniz: El principal proyecto del OBDILCI propone un importante cambio de paradigma en investigación sobre la presencia de las lenguas en la internet. ¿Cómo nace el proyecto y cuál su impacto para los estudios lingüísticos?
Pimienta: El proyecto nace en 1998 cuando el presidente francés Chirac hace declaraciones, en una reunión mundial de la francofonía, que demuestran una percepción de una Internet totalmente dominada por el inglés y dejando ningún espacio para cambiar ese estado. En esos tiempos, éramos parte de un movimiento internacional de la sociedad civil, muy amplio, y quisimos demostrar, con datos duros, que la realidad era distinta de esta visión reductora y pesimista. A partir de ahí, los métodos han ido perfeccionándose y la diversidad medida extendiéndose, la dominancia anglófona extrema, siendo un fenómeno transitorio natural de un campo nuevo a la intersección de la informática y la ciencia, dos campos marcados sin duda con un sesgo anglófono mayúsculo. Hoy en día, nuestros datos reflejan una realidad donde la Internet es el espacio con la dosis de multilinguismo la más alta que jamás haya existido. Desde luego, si desafortunadamente las miles de lenguas con figuras de hablantes reducidas quedaron aun afuera, más del 95% de la población mundial puede interactuar con las redes con su lengua materna o segunda (se estima a 750 el numero de lenguas con existencia digital, solo el 10% de las lenguas existentes pero una cifra que recubre más de 96% de hablantes).
El impacto principal de nuestros trabajos es mostrar que el multilinguismo es la esencia del ciberespacio y que la creación de contenidos debe ser una tarea prioritaria para cada lengua, dadas las apuestas mayores planteadas, sea a nivel lingüístico, cultural, económico o geopolítico.
Una Web alojando conocimientos creados en mi lengua y reflejando mi cultura es posible y es mi deber de contribuir en esa dirección, sin dejarme impresionar con datos, a menudo sesgados, que pretenden desmotivarme afirmando una necesidad de pasar por la pretendida lingua franca del ciberespacio. Menos del 20% de la población mundial entiende el inglés, la lingua franca de la Internet es el multilinguismo, apoyado por recursos de traducción cada día más eficientes y disponibles.
Schwambach y Muniz: ¿De qué manera cree usted que el volumen limitado de datos disponibles para el entrenamiento de LLMs (Large Language Models) y los avances en el entrenamiento con datos sintéticos pueden incidir en la diversidad lingüística, sobre todo en las lenguas con pocos recursos digitales?
Pimienta: No estoy suficientemente competente en el tema de los entrenamientos de los LLM con datos sintéticos para opinar con valor agregado; su pregunta me va a motivar a investigar más ese tema.
Mi relación con la informática es muy temprana, he sido estudiante de la primera maestría de informática creada en 1970 en la Universidad de Niza, algunos profesores aprendiendo el tema al mismo tiempo que lo enseñaban, lo que era sumamente pedagógico. Desde entonces he seguido de cerca, en mis estudios y luego en mi trabajo, los progresos de esa disciplina. ¡Los dos subtemas de la inteligencia artificial y de la traducción por programa podrían haber sido las promesas frustradas las más espectaculares de la informática entre 1970 y 2010! Los progresos fueron muy lentos y los resultados, tanto de los mal llamados “sistemas expertos” y de los complejos y caros programas de traducción bastante mediocres. De repente, en los últimos años, con la introducción de totalmente nuevos ángulos de abordaje (aprendizaje profundo, algoritmos neuronales, modelos de lenguas) el paradigma cambio. Los progresos se aceleraron y llegaron a productos espectaculares y al alcance de todos. Nadie puede negar hoy en día que más que espectaculares son extraordinarias las nuevas herramientas de inteligencia artificial y especialmente prácticas las ayudas de traducción que se hacen más versátiles (traducción de sitio web, interpretación en YouTube, …). Estamos viviendo un momento histórico para los dos temas y para la intersección de esos dos temas, un momento que plantea retos tan extraordinarios como las mismas herramientas, retos éticos en mayoría:
- ¿Como dar los debidos créditos a las fuentes abiertas que usan sin restricción los programas de IA, y remunerar debidamente las fuentes no abiertas que puedan usar?
- ¿Como asegurar que las fuentes reflejan debidamente la necesaria diversidad lingüística y cultural y no se transforman en un agente hiper poderoso de aculturación?
- ¿Como controlar y superar los sesgos que vienen dentro de las fuentes seleccionadas?
- ¿Como lograr que las personas que hacen uso entienden que en última medida deben guardar el control de los productos y asegurarse de que los productos no sean parte de las alucinaciones que son un efecto colateral natural y por el momento inevitable de los modelos de lenguas?
- La lista no se termina ahí y es significativo que la encuesta conducida por la universidad Elon hacía más de 300 expertos del tema y de temas adyacentes, y a la cual participe con una contribución en la línea de sus preguntas, sobre el tema de que hay que esperar de la IA en 2040, arrojo resultados donde una forma de pesimismo emerge, así como un grito consensuado para la urgencia e importancia de regulaciones.
Schwambach y Muniz: ¿Con el crecimiento de contenidos generados por inteligencia artificial en internet en los últimos años y el predominio de lenguas como el inglés, cuáles estrategias se podrían adoptar para la promoción digital de lenguas subrepresentadas en el ciberespacio?
Pimienta: El predominio del inglés en la Internet es parte de la historia; Internet es cada día más un ámbito multilingüe y donde los contenidos tienden a ser proporcionados a la cantidad de hablantes de cada lengua. La situación es distinta para las herramientas de la IA, aunque un multilinguismo, aun no tan equilibrado, se manifiesta de manera temprana. Es primordial que cada lengua vea actores que luchan para que su lengua tenga el espacio que merece en esta nueva carrera para instrumentos de la IA.
Todo lo que acabo de expresar es cierto para las lenguas que poseen números de hablantes (L1 o L2) que se cuentan en millones. No es así para las lenguas cuyo numero de hablantes es bajo, y ahí los retos son distintos y a veces dramáticos.
Es útil tener una idea de la amplitud del problema: mas del 80% de las lenguas tienen menos de 100 000 hablantes y el factor económico juega un papel de barrera alta para las recomendadas acciones.
LENGUAS | NUMERO | PORCENTAJE |
Con más de 10 millón de hablantes | 125 | 1.6 % |
Con más de un millón de hablantes | 447 | 6 % |
Con menos de 1 000 000 hablantes | 7158 | 94 % |
Con menos de 100 000 hablantes | 6157 | 81 % |
Con menos de 10 000 hablantes | 4292 | 56 % |
Con menos de 1 000 hablantes | 2310 | 30 % |
TOTAL | 7615 | 100 % |
Para compensar el pesimismo que puede resultar de esas cifras crudas, es importante entender que más de 44% de la población mundial entiende mas de una lengua, y con el juego de las segundas lenguas, las 362 lenguas de más de un millón de hablantes[1] permiten que 96% de la población mundial tienen acceso potencial a la Internet en su lengua materna o su segunda lengua.
Existen muchas familias de lenguas que no se han atribuido una macro-lengua, y las cifras imponen tratarlas de la misma manera que las macro-lenguas. Así, aunque la lengua Maya Yucateco no llega a 1 millón de hablantes, la familia Mayense, que incluye dos lenguas de más de un millón de hablantes, Quekchí y Quiché, reagrupa 31 lenguas por más de 6.5 millones de hablantes. Al igual, la familia Otomangues reagrupa 179 lenguas por un total de mas de 1.7 millones de hablantes, aunque ninguna de las lenguas que la componen llegue a 100 000 hablantes.
El reagrupamiento por familia es una necesidad para afrentar esos retos.
Schwambach y Muniz: ¿Desde su punto de vista, cómo los países del Sur Global pueden integras la IA para posicionar y promover las lenguas dentro de un contexto tecnológico global?
Pimienta: En la respuesta precedente se considero la necesidad de reagrupar lenguas por familias para llegar a cifras críticas que permiten bajar las barreras económicas. Para los países del Sur, una estrategia análoga debe, en la medida del posible, ser considerada: unir esfuerzos entre países que presentan características que lo permiten; el primer criterio que viene a la mente es obviamente regional. América latina debe entender ese reto como un reto regional antes que nacional.
[1] Esa cifra, a diferencia de la del cuadro precedente, toma en cuenta las macro-lenguas que reagrupan en una sola lengua muchas otras lenguas.
Simone Schwambach
Professora auxiliar do Departamento de Linguística e Estudos Orientais da Universidade Complutense de Madri (UCM). É licenciada em Letras pela Universidade de Caxias do Sul e tem um mestrado em ensino de português para hispanófonos. Atualmente é doutoranda do programa de Linguística Teórica e Aplicada da UCM em cotutela com a UFSC.
Camila Muniz
Graduanda em Letras – Língua Portuguesa e Literaturas (Bacharelado) na UFSC. Possui experiência em tecnologias educacionais e interesses de pesquisa em política linguística, diversidade linguística e inteligência artificial.
Deixe uma resposta
Você precisa fazer o login para publicar um comentário.