Tradução automática, para além da frase a frase

Tradutores automáticos trabalham frase a frase, o que leva a um grande número de erros por lhe faltar o contexto. Investigadores financiados pelo FNS estão a melhorar os algoritmos para uma tradução contextualizada, com redução de erros em 30%.

Acedendo a tradutores automáticos
Acedendo a tradutores automáticos. Foto: Rosa Pinto

Trabalhando frase a frase, os algoritmos de tradução omitem uma grande parte do contexto e são fontes de erros. Um projeto suportado pelo Fundo Nacional Suíço (FNS) da Investigação Científica desenvolveu novas técnicas para que os algoritmos considerem melhor o conjunto do texto.

Os cientistas abriram uma nova via para melhorar as aplicações de tradução automática, como o celebre Google Translate, que trata diariamente cerca de 100 mil milhões de palavras.

Os informáticos e os linguistas foram os primeiros a mostrar que era possível melhorar os sistemas de tradução, forçando a inteligência artificial a ultrapassar a ‘frase a frase’, e a cruzar as informações contidas noutro lugar no texto. Uma abordagem que é hoje objeto de trabalho no mundo inteiro.

Os cientistas revelaram os seus últimos resultados a 3 de abril de 2017 durante a conferência da Associação para a Computação Linguística em Valência, Espanha.

Traduzir sem compreender

“Os sistemas de tradução automática não compreendem verdadeiramente o sentido dos textos, explicou Andrei Popescu-Belis, investigador responsável pelo projeto, citado em comunicado do FNS. Os sistemas operam um encontro de uma língua com uma outra seguindo regras estatísticas. Mas sobretudo os tradutores automáticos trabalham frase a frase.

Uma frase isolada não comporta muitas vezes a informação bastante sobre o contexto para poder ser traduzida corretamente. “Os sistemas deveriam poder tomar em conta os dados situados em qualquer outra parte do texto”, indica o investigador.

Para demostrar a sua perspetiva os investigadores estão a debruçar-se, nomeadamente, sobre a questão dos pronomes, palavras como ‘lui’ ou ‘celle-ci’, que se substituem a outros elementos do texto. Muitas vezes estes últimos encontram-se fora da frase a traduzir, daí o grande número de erros dados pelos sistemas automáticos.

Andrei Popescu-Belis dá um exemplo simples, mas que se encontra facilmente nos sistemas mais sofisticados: ‘Ma tante a acheté une excellente voiture. Elle n’est pas très jolie’. Em inglês o Google Translate traduz por ‘My aunt bought an excellent car. But she is not very pretty.’ A aplicação informática traduziu ‘elle’ por ‘she’. Como este pronome é reservado às pessoas de género feminino, o leitor inglês lerá que é ‘ma tante’ que ‘n’est pas très jolie’.

A armadilha da estatística

O sistema é induzido em erro, pois o algoritmo está preparado para que a classificação ‘pas très jolie’ se aplica mais frequentemente a pessoas que a objetos. Se o substituir por ‘rouillée’ ou ‘en panne’, mais frequentemente aplicado aos objetos, o pronome terá mais hipóteses de ser corretamente traduzido por ‘it’. Para obter um resultado pertinente o tradutor automático terá de considerar as informações contidas na primeira frase.

Estas são as grandes linhas de trabalho para os investigadores envolvidos no estudo do Idiap em colaboração com os Departamentos de linguística das universidades de Genebra, na Suíça e de Utrecht, na Holanda, e com o Instituto de Linguística Computacional da Universidade de Zurique.

Os investigadores utilizam essencialmente os tradutores de aprendizagem automática, ou máquina de ensino). Em cada ensaio, eles introduzem ou retiram centenas de parâmetros, que os algoritmos ajustam, até constatar uma melhoria. “Em traços largos nós indicamos ao sistema o número de frases precedentes que ele deve analisar, como ele deve examinar, depois procedemos a testes em condições reais”, indicou Andrei Popescu-Belis.

Google recruta no seio do projeto

Os resultados são encorajadores, segundo Andrei Popescu-Belis. Nos pares de línguas como francês-inglês ou espanhol-inglês, os pronomes induzem em erro os tradutores automáticos em metade dos casos. “Forçando o sistema a considerar as informações externas à frase, nós alcançamos uma redução de taxa de erro em 30%”.

O desafio deste trabalho vai para além da questão dos pronomes: a coerência dos tempos verbais, a escolha da terminologia ou ainda os níveis de polimento constituem alguma da problemática que depende largamente dos textos no seu conjunto, em vez de uma frase isoladamente.

As técnicas desenvolvidas por Andrei Popescu-Belis e pelos seus colegas não estão ainda aperfeiçoadas para os tradutores disponíveis ao grande público, mas elas interessam aos atores que trabalham na computação linguística.

Os trabalhos dos investigadores fizeram “conhecer a necessidade de ultrapassar a tradução automática frase a frase”, o que já está a ter consequências, dado que, conclui Andrei Popescu-Belis, “três jovens investigadores envolvidos no projeto trabalham já estão a trabalhar no mesmo domínio na Google em Zurique. Isto mostra o interesse suscitado pela nossa abordagem.”