A preservação de línguas indígenas através da tecnologia
Publicado 18/08/23 por Anna Baisi em Mobile Time

No fim do século 19, houve uma tentativa de criar uma língua universal chamada esperanto – que significa “aquele que tem esperança”. O objetivo do seu inventor, o oftalmologista polonês Ludwig Lázaro Zamenhof (1859-1917), era gerar maior conexão e entendimento entre os diferentes povos. O esperanto não se popularizou, mas hoje, com o uso de tecnologia, é possível perseguir esse objetivo de aproximar os povos não com um idioma universal, mas com a preservação de línguas diversas, muitas delas ameaçadas de extinção, por meio da tecnologia. Pelo menos três grandes empresas têm projetos nesse sentido: Motorola, Google e Meta.
Nheengatu e Kaingang
Com uma lista de critérios para escolher os idiomas na qual a Motorola iria trabalhar, a gerente de globalização e chefe de linguística da Motorola Mobility, Juliana Rebelatto, conta que sua equipe decidiu verificar quais línguas estavam em extinção, de acordo com o Atlas of the World’s Languages in Danger (Atlas Mundial das Línguas em Perigo) da Unesco, para entender qual seria a aceitação da comunidade indígena sobre o engajamento deles com o seu idioma.
Inicialmente, decidiram trabalhar com dois idiomas indígenas da América Latina que estão ameaçados: o Nheengatu, ou Tupi moderno, e o Kaingang. O Guarani, idioma mais falado, foi descartado por contar com diferentes ortografias e dialetos conforme as regiões do Brasil, sendo mais difícil para a equipe decidir qual usar.
O Nheengatu, apesar de não ser uma das línguas mais faladas, é considerado o idioma oficial da Amazônia, pois foi introduzido pelos colonizadores e jesuítas no século 19, que estavam acompanhados do povo Tupinambá. Ao longo dos anos, inúmeras comunidades indígenas foram substituindo seus idiomas pelo Nheengatu. A língua é falada por cerca de 14 mil pessoas na região amazônica brasileira, colombiana e venezuelana. Contudo, com apenas 6 mil falantes no Brasil e 8 mil na Colômbia, a língua corre risco de extinção.
O Kaingang, por sua vez, é a terceira língua indígena mais falada no Brasil, de acordo com o censo do IBGE (Instituto Brasileiro de Geografia e Estatística). O idioma é falado por mais de 30 mil pessoas distribuídas nos estados do Paraná, Rio Grande do Sul, Santa Catarina e região oeste do estado de São Paulo. O problema é que apenas metade dessa comunidade se comunica prioritariamente por essa língua. Isso significa que as crianças não aprendem mais em casa como seu primeiro idioma.
Depois da escolha dos idiomas, o projeto foi desenvolvido em parceria com o professor e pesquisador de antropologia cultural Wilmar da Rocha D’Angelis, da Universidade Estadual de Campinas (Unicamp), que há mais de quatro décadas se dedica à pesquisa de povos indígenas e de seus idiomas. Ele, que já tinha um contato com as regiões que falam essas línguas, fez a ligação entre a comunidade e a equipe da Motorola.
Durante o desenvolvimento, a gerente de globalização da companhia comenta que, por ter se desenrolado no meio da pandemia, o encontro presencial com a comunidade não aconteceu. Tudo se deu de forma online, fazendo “todas as traduções por reuniões de vídeo”, cada pessoa em sua casa. A ponte para esse contato foi feita pelo professor D’Angelis, que esteve acompanhando de perto, fazendo algumas visitas à comunidade.

Ozias Yaguarê Yamã Glória de Oliveira Aripunãguá, ao lado da filha. Falante do Nheengatu, colaborou com a Motorola no projeto. (Foto: Divulgação/Motorola)
Em 2019, o objetivo desse trabalho – até então não realizado – era adicionar as duas línguas indígenas no sistema operacional dos smartphones da Motorola. Desde o início, Rebelatto relata que o intuito não era vender mais celulares, e sim gerar mais inclusão digital. Após dois anos, no início de 2021, o projeto foi lançado, e a Motorola anunciou a inclusão de dois idiomas indígenas do Brasil em seus aparelhos atualizados com Android 11, que poderiam ter acesso às línguas Kaingang e Nheengatu.
Processo
Foram necessários oito tradutores, quatro para cada idioma. Ela conta que, normalmente, as traduções para as línguas que adicionam no sistema operacional costumam passar pelo inglês. No entanto, as pessoas das comunidades e os tradutores e revisores de Kaingang e Nheengatu preferiram passar do português para os idiomas indígenas, o que fez o processo se alongar, por fazer a tradução em três etapas.
Idiomas como italiano, mandarim, português, russo ou japonês, por exemplo, já estão incorporados ao sistema. Isto é, os caracteres já existem, as pessoas conseguem digitar e ler, e a digitalização acontece em questão de horas, ressalta a chefe de linguística. No caso das duas línguas indígenas, o processo é outro, visto que, primeiramente, é preciso criar caracteres específicos para ser integrado e habilitado em um telefone móvel.
Para a tradução, a Motorola usa uma ferramenta comercializada externamente, chamada XTM. Ela é uma ferramenta de gestão de tradução. “As empresas compram licença para poder utilizá-la, e isso permite que não tenha que ficar mandando arquivo, tudo acontece de forma mais automatizada. Tem reaproveitamento de tradução entre uma linha e outra e melhora o tempo de trabalho”, explica.
Depois da tradução feita, eles precisam revisar para ver se aquela linha que traduziram em uma lista faz sentido naquele contexto. Rebelatto dá o exemplo de que muitas vezes o usuário abre o telefone e tem um botão que está escrito “aberto” ao invés de “abrir”. Isso acontece porque a tradução não foi feita naquele contexto.
No caso da revisão, eles forneceram acesso aos revisores locais para uma ferramenta proprietária do time da Motorola, que permite que as telas sejam comparadas lado a lado. Então, do lado esquerdo, estava a tela do celular em português. Do lado direito, em Nheengatu, “para que eles pudessem olhar como isso ficaria no telefone para o usuário final”. Além disso, a empresa enviava kits com arquivos de tradução para que traduzissem usando as suas ferramentas. Ela destaca que todos os processos tiveram explicações sobre como eram feitas e utilizadas essas funcionalidades.
“Nem sempre a palavra era fácil. É uma língua que está em risco de extinção. Então, isso significa que o número de falantes ali está sendo reduzido e até a continuidade da língua está em risco. As crianças não aprendem. Às vezes a criança fala, mas não quer aprender mais, não consegue conversar com avô e avó”, aponta Rebelatto.
Uma das tradutoras do Kaingang, Sueli Krengre Cândido, relatou que sua filha adolescente não estava interessada em aprender a língua, mas que, durante o processo de ver a mãe traduzindo e sabendo que era para ser incorporado no sistema operacional de um celular, começou a perguntar sobre o idioma e falou que “tinha que aprender”. “Então, esse processo de enaltecer a língua, de fortalecer como forma de preservação das línguas indígenas, do povo originário e de toda a bagagem ancestral que a língua traz, é o nosso maior e mais poderoso feedback, o maior impacto que a gente pode causar”, finaliza.
Google Tradutor
No caso do Google, o objetivo de inserir as línguas indígenas surgiu para expandir seu serviço de tradução com idiomas que não são representados na maioria das tecnologias, afirma o engenheiro sênior de software do Google Tradutor, Isaac Caswell. No momento, o serviço suporta um total de 133 idiomas. Desse total, 24 foram adicionados no primeiro semestre do ano passado. A atualização foi feita com a participação de falantes nativos, professores e linguistas usando uma nova tecnologia.
Entre os mais de cem idiomas, três são línguas indígenas sul-americanas: guarani, quíchua e aimará. O guarani é falado por cerca de 7 milhões de pessoas no mundo, sendo uma das línguas oficiais do Paraguai, e quíchua e aimará são falados por povos nativos do Peru, Bolívia e Argentina, estimados em 10 milhões e 2 milhões de pessoas, respectivamente.
Pela primeira vez, a empresa usou o recurso de tradução automática Zero-Shot, ou zero-resource translation, com apenas textos monolíngues, ou seja, o Google Tradutor aprende a traduzir diferentes idiomas sem a necessidade prévia de exemplos. A ideia surgiu do conceito apresentado no artigo Building Machine Translation Systems for the Next Thousand Languages, publicado por um grupo de pesquisadores do Google, no qual os cientistas revelaram como a companhia pode expandir a capacidade dos mecanismos de tradução para idiomas sub-representados sem uma extensa ou bem documentada base de dados na Internet, como é o caso das línguas indígenas.
Em material de estudo, Caswell explica como criaram, de forma detalhada, conjuntos de dados monolíngues de alta qualidade para mais de 1 mil idiomas que não possuem grupos de dados de tradução disponíveis e demonstraram como usar apenas conjuntos de dados monolíngues para treinar modelos de MT (Machine Translation).
Relacionado aos idiomas lançados em 2022, foram criados conjuntos de dados monolíngues desenvolvendo e usando modelos especializados de identificação de linguagem neural combinados com novas abordagens de filtragem. “As técnicas que introduzimos complementam modelos massivamente multilíngues com uma tarefa autossupervisionada para permitir a tradução de texto”, detalha.
Inteligência Artificial (IA)
Em todo o processo de desenvolvimento de recursos, foram necessários mecanismos de machine learning (ML) que reproduzem o mesmo comportamento previsto em idiomas conhecidos e com a maior quantidade de dados de qualidade disponíveis para coletar, treinar e desenvolver os modelos de linguagem que entendem e traduzem os idiomas inseridos.
O engenheiro sênior destaca alguns exemplos de ferramentas de ML usadas durante o projeto, incluindo modelos de detecção e processamento de linguagem natural: o Compact Language Detector v3 – usado para localizar os dados necessários para o trabalho – e modelos de identificação de linguagem com Masked Sequence-to-Sequence, responsável por remover informações a partir dos dados obtidos e treinando a inteligência artificial do Google Tradutor.
“As nossas equipes passaram por diferentes etapas, que envolveram a documentação e a filtragem do material linguístico disponível e existente na Internet, a criação de modelos e o teste dos resultados”, ressalta. Os pesquisadores do Google colaboraram com os falantes nativos dos idiomas e com outras instituições que falam as línguas – sem detalhar quais são elas.
Nas etapas de planejamento e produção do modelo, contaram com o apoio de voluntários que ajudaram a desenvolver filtros e retirar conteúdos ou informações fora da linguagem gerada pela plataforma – situação que pode acontecer durante a automação. Segundo Caswell, os falantes nativos também foram essenciais na revisão dos formatos e padrões de redação de seus idiomas de origem e na aprovação da qualidade do que foi traduzido pela ferramenta.
O projeto ainda está em andamento e em desenvolvimento, e o Google está treinando e testando rigorosamente seu sistema, pois quer “garantir que cada idioma que lançamos atenda a um determinado padrão de qualidade para que as traduções sejam úteis para nossos usuários”, conclui.
Meta
Também no último ano, foi anunciado pela Meta uma iniciativa de longo prazo para criar ferramentas de idiomas e tradução automática que incluirão a maioria dos idiomas do mundo, e isso inclui dois projetos. O primeiro é o No Language Left Behind (NLLB, ou Nenhum Idioma Deixado para Trás, em português), que consiste em construir e treinar um novo modelo de inteligência artificial avançada capaz de aprender com idiomas que têm menos exemplos para treinamento, similar ao projeto do Google Tradutor. Até o momento, são 200 línguas cobertas.

Já o segundo é o Universal Speech Translator (Tradutor de Fala Universal, em português), no qual estão projetando novas abordagens para traduzir a fala em um idioma para outro em tempo real. Assim, será possível incluir idiomas que não têm um sistema de escrita padrão da mesma forma que aqueles que são falados e escritos.
Neste ano, em maio, foi apresentado outro novo projeto, o Massively Multilingual Speech, que expande a tecnologia de fala (fala para texto e texto para fala) para mais de 1,1 mil idiomas – representando um aumento de 10 vezes em relação aos modelos de reconhecimento de fala disponíveis atualmente. Dentro desses 1,1 mil idiomas, o MMS abrange mais de 250 línguas e dialetos presentes na América Latina, incluindo guarani, yanomamö, kamayurá, sanumá, entre outras.
Projeto C4AI e IBM
Além disso, outros projetos estão sendo desenvolvidos, como é o caso de um na USP, por meio do Centro de Inteligência Artificial (C4AI) e IBM Research, que estão em contato, há cerca de um ano, com a comunidade indígena da Terra Indígena Tenonde Porã, no sul da cidade de São Paulo. Com o uso de Processamento de Linguagem Natural (PLN), estão trabalhando na parte de processamento de texto e começando um projeto na área de síntese de texto para voz. A comunidade fala como língua primária o guarani mbya, porém os jovens e as crianças ainda apresentam dificuldades na parte escrita.
A equipe do projeto está desenvolvendo um corretor ortográfico, um completador de palavra e de sentença, e um tradutor, dado um modelo calibrado de IA, através de grandes modelos que foram tratados com milhões de frases de muitas línguas, além de calibrar com outros materiais que procuram no dicionário, nos websites e em textos. É um projeto que busca fortalecer, documentar e preservar o uso das línguas indígenas, e que percorrerá ainda um ou dois anos, estima o vice-diretor do C4AI, Claudio Pinhanez. Seus primeiros protótipos de pesquisa poderão ser testados ainda no segundo semestre de 2023.
O pesquisador destaca que o C4AI e a IBM estão na busca ativa por mais pessoas que tenham interesse em integrar a equipe, entre elas: professores, profissionais, estudantes e alunos indígenas. A ideia é que o projeto conte com indígenas que atuem como professores, linguistas, programadores e profissionais de TI e tradutores.
Se o sonho do esperanto não se concretizou, pelo menos a humanidade, com ajuda da tecnologia, está conseguindo fomentar a comunicação entre pessoas com idiomas diferentes e preservar uma grande diversidade de línguas.
Leia a matéria diretamente na fonte: https://www.mobiletime.com.br/noticias/13/07/2023/projeto-da-usp-e-ibm-usa-ia-para-fortalecer-linguas-indigenas/?swcfpc=1
Saiba mais puxando a rede: https://www.mobiletime.com.br/noticias/13/07/2023/projeto-da-usp-e-ibm-usa-ia-para-fortalecer-linguas-indigenas/?swcfpc=1
Festa Pomerana é reconhecida pelo Poder Executivo como Patrimônio Cultural Imaterial de Rondônia
O reconhecimento garante a preservação e valorização desta cultura na região
Publicada em 25/09/2023 às 09h17
A Festa Pomerana, que mantém viva a tradição destes imigrantes, foi reconhecida pelo Governo do Estado, por meio do Decreto nº 28.455, de 21 de setembro de 2023, como patrimônio cultural de natureza imaterial de Rondônia. O evento tradicional acontece em Espigão do Oeste, garantindo sua proteção sob responsabilidade do Poder Público e assim, o reconhecimento garante a preservação e valorização desta cultura na região.
O parecer foi realizado pela Secretaria da Juventude, Cultura, Esporte e Lazer – Sejucel e aprovado pelo Conselho Estadual de Política Cultural. A Festa Pomerana foi registrada no Livro das Celebrações.
FESTA POMERANA
A Festa Pomerana tem o objetivo de preservar a identidade cultural do povo europeu, como os hábitos, costumes, gastronomia e religião, por exemplo. A abertura da festa, é conduzida pela presidência da Associação dos Pomeranos, e se dá na língua oficial pomerana, com tradução ao português.
A Pomerânia foi extinta no século passado e agregada à uma região da Alemanha por ocasião da 2ª Guerra Mundial, o que serviu de motivação aos pomeranos a emigraram para as Américas do Norte e Sul. No mundo, o Brasil é considerado a localidade de maior concentração de pomeranos que ainda preservam a língua e se instalaram nos estados de Rio Grande do Sul, Santa Catarina e Espírito Santo. O maior contingente migratório de descendentes que veio para Rondônia é o capixaba.
REGISTRO
O Decreto nº 27.147, de 11 de maio de 2022, instituiu o Registro de Bens Culturais de Natureza Imaterial, reconhecendo assim, as manifestações históricas e culturais que contribuíram e continuam contribuindo para a formação da identidade do povo rondoniense, promovendo sua valorização.
Pesquisador colaborador do IPOL lança o Repositório Brasileiro de Legislações Linguísticas (RBLL)
Marcos Paulo, o mais novo pesquisador colaborador do IPOL, Doutor e Mestre em Letras na área de Estudos Linguísticos pela Universidade Federal de Sergipe e Doutorando em Direito na Universidade Federal da Bahia (UFBA), desenvolveu e apresenta o site Repositório Brasileiro de Legislações Linguísticas (RBLL)
Com a formação acadêmica iniciada emFilosofia, chegou a Licenciatura em Letras e através do PROUNI alcançou o Direito. Essa formação plural o conduziu a pesquisas que exploram interdisciplinaridades como Filosofia e Direito, mas foi a interface entre Linguística e Direito que o aproximou das comunidades nos cantos do país. Segundo Marcos, essa interface o conquistou “especialmente por ser uma questão sensível às minorias linguísticas, grupos radicalmente vulneráveis nos mais diversos contextos sociais, porque estão excluídos da comunicação considerada legítima e aceitável.”
Foi no percurso do desenvolvimento de sua tese que chegou ao entendimento de que “uma análise orgânica do sistema jurídico brasileiro em relação às línguas e aos direitos linguísticos seria mais útil e consistente”. Diz que “lidar com a intrincada amálgama entre relações jurídicas, práticas linguísticas e processos histórico-políticos que as conformaram, foi algo especialmente complexo porque a maior parte dos trabalhos que se propuseram a fazer algo semelhante quanto a regimes linguísticos de outros países situavam-se mais estritamente no campo das Ciências Jurídicas (é o caso da tese de Sophie Weerts da Universidade de Louvain, por exemplo). Considerando que nosso objeto já era em si mesmo interdisciplinar, nossa análise também foi construída a partir de interface: como método de trabalho e dispositivo analítico lançamos mão da Análise de Discurso de tradição pecheutiana; para situar, descrever e compreender (em parte) o corpus precisamos recorrer ao próprio Direito (especialmente os ramos Constitucional e Comparado), à Linguística Jurídica e a uma área de Linguística Aplicada denominado Política e Planejamento Linguístico.”
Como um desdobramento que surgiu a partir do levantamento de leis que fez na pesquisa doutoral, Marcos esclarece que “o Repositório Brasileiro de Legislações Linguísticas (RBLL) procura ser um instrumento útil à tutela jurídica das línguas minoritárias do Brasil. Para os beneficiários dessa proteção, ele oferece acesso direto aos instrumentos legais que contém a formalização de seus direitos linguísticos. Para pesquisadores da área e estudiosos em geral, possibilita não apenas o acesso à materialidade textual das leis, mas também a recursos de busca e de agrupamento por língua, tipo de língua, Município, Estado etc. “
Marcos comenta “que durante a pesquisa realizada no Brasil e América Latina se deparou com uma intrincada e complexa teia de questões jurídicas e linguísticas que devem ser continuamente revisitadas do ponto de vista cientifico e acadêmico, mas também político e jurídico. Considerando que estas legislações são publicadas por força da lei mas que acabam ficando dispersas, se não ocultas, nos meandros da web, esboçou o Repositório como uma ferramenta que contribui para a divulgação do valoroso trabalho de cooficialização de línguas iniciado no Município de São Gabriel da Cachoeira, em 2002, contando com a intensa colaboração do IPOL, e que já alcança mais de 67 jurisdições (aí incluídos 66 Municípios e 1 Estado) e 38 línguas (26 indígenas, 10 alóctones e 2 gestuais). O Repositório possui atualmente a coleção “Normas de Cooficialização”, mas pretendemos ampliá-lo para exibir outras coleções de normas relacionadas a línguas minoritárias, bem como apresentar o levantamento de projetos legislativos em andamento, tendo em vista que essa é a fase mais sensível e crucial em termos políticos.”
Por fim, Marcos anota que “somando-se a tudo isso, há o fato de que o Brasil está entre os dez países com a maior diversidade linguística do planeta, mas dispõe de uma proteção jurídica notadamente frágil em relação às línguas minoritárias e às suas comunidades de falantes; precisamos avançar em termos de justiça linguística e para isso é extremamente útil termos acesso aos passos já dados, às conquistas legais que podem tomar como ponto de partida para novas empreitadas. Então o Repositório foi construído animado por múltiplos propósitos: divulgar as leis que já conseguimos promulgar e publicar, que são conquistas a serem conhecidas por seus beneficiários e acompanhadas para que sejam efetivamente implementadas e não apenas documentos de arquivos; fornecer aos pesquisadores que queiram se aventurar pelo Direito Linguístico materialidades a serem melhor investigadas e também uma indicação mínima de seus efeitos jurídicos; ser um espaço de memória no que diz respeito às legislações linguísticas brasileiras.”
Siga o link para conhecer a primeira versão do RBLL:
https://direitolinguistico.com.br/repositorio/
__________________________
Saiba mais.

Em 2015 o IPOL lançou durante a realização do 1 ENMP (Encontro Nacional de Municípios Plurilingues), realizado em Florianópolis, a publicação Leis e línguas no Brasil: o processo de cooficialização e suas potencialidades. Florianópolis: IPOL, 2015. 137p. MORELLO, Rosângela. (Org.). A coordenadora do IPOL Rosangela Morello comenta que “este livro foi concebido no momento em que se imaginava o 1ºENMP. Considerando o objetivo do Encontro de promover uma discussão multifacetada sobre a diversidade linguística e a política de cooficialização de línguas por municípios no Brasil, decidimos reunir, comentando, as leis e demais documentos ligados ao processo de cooficialização com o intuito de oferecer ao leitor uma compreensão histórica desse fato político e social.”


Veja a matéria sobre o livro: http://ipol.org.br/?s=leis+e+l%C3%ADnguas
Renascença do talian
Renascença do talian: cursos, projetos e concursos culturais ajudam a valorizar a língua em Caxias e na região
Reconhecimento como Patrimônio Cultural Imaterial Brasileiro foi divisor de águas na luta para manter viva a língua de referência cultural dos imigrantes italianos

Pelo menos nove grupos musicais e uma polenta de mais de 70 quilos irão transformar a Câmara Municipal de Caxias do Sul no palco de um grande filó na sessão do próximo dia 31. Pelo menos assim promete o músico e radialista Ladir Brandalise, que nesta data irá receber dos vereadores o título de cidadão caxiense, reconhecendo uma trajetória que tem no esforço pela preservação da língua Talian o sentido maior.
A questão é que Ladir e outros abnegados, que ao longo de décadas se esforçam para manter viva a língua que unifica dialetos falados nas regiões de colonização italiana, já não parecem tão utópicos em sua missão – que continua árdua. Desde 2014, quando o talian foi reconhecido como Língua de Referência Cultural Brasileira pelo Instituto de Patrimônio Artístico e Histórico Nacional (Iphan), sendo alçado à qualidade de Patrimônio Cultural Imaterial Brasileiro, percebe-se um movimento de valorização e resgate, pontuado por iniciativas especialmente no âmbito da cultura e da educação.
– Acho que vivemos um momento espetacular de resgate e salvaguarda, desde que se passou a reconhecer o talian como uma língua com gramática própria, com professores habilitados ao ensino e com muitos projetos sendo apresentados e aprovados, dentro desta temática de valorização. Durante a pandemia, por exemplo, fizemos uma série de filós formativos, com recursos da Lei Aldir Blanc, que foram muito emocionantes e serviram de impulso para iniciativas futuras – destaca Ladir Brandalise, que é natural de São Jorge, na Serra.
Siga a leitura… leia mais aqui neste link!
Em Manaus, especialistas discutem formas de revitalizar línguas dos povos indígenas
Por Nicoly Ambrosio Publicado em: 18/08/2023

Siga a leitura diretamente no portal da Amazônia Real, uma agência de jornalismo independente e investigativo Amazônia Real é uma organização sem fins lucrativos criada pelas jornalistas Kátia Brasil e Elaíze Farias em 20 de outubro de 2013, em Manaus, no Amazonas, Norte do Brasil, para fazer jornalismo ético e investigativo, pautado nas questões da Amazônia e de seu povo. A linha editorial é voltada à defesa da democratização da informação, da liberdade de expressão, da liberdade de imprensa e dos direitos humanos.
O jornalismo produzido pela Amazônia Real conta com o trabalho de profissionais com sensibilidade na busca de grandes histórias da Amazônia e de suas populações, em especial daquelas que não têm espaço na grande imprensa.
Siga a matéria no portal e depois navegue em mais conteúdos.












