Além dos slogans de marketing refinados ao extremo («Onde a língua encontra-se com o mundo», «Construir pontes entre as línguas, as culturas e a tecnologia») e boas intenções («Microsoft Translator Hub ajuda as línguas menos divulgadas a prosperar dando às comunidades locais o poder de construir sistemas de tradução automática»), quais podem ser os objetivos da Microsoft e do seu novo Translator Hub?
Lançado ontem, o Microsoft Translator Hub é um serviço que permite para todos (indivíduos, comunidades locais, empresas) construir, treinar e implantar sistemas personalizados de tradução automática. Destaca o número de línguas alvos suportadas: 1 462, ou seja um número relativamente impressionante para este tipo de ferramenta, o que permite presentá-lo como uma ferramenta para as língua menos divulgadas. Umas boas intenções a priori.
Mas um bemol é necessário logo que começa a fase de treinamento do modelo, uma vez que é necessário alimentá-lo de arquivos de segmentos alinhados que fazem corresponder um texto da língua alvo a um da língua fonte. E a esses arquivos são associados direitos, que você perde de imediato («Ao carregar os meus documentos, eu confirmo que o conteúdo que eu submeto não infringe os direitos autorais, os direitos de publicidade, os direitos de privacidade ou outros direitos de propriedade intelectual. Eu seguro os direitos suficientes sobre o conteúdo para conceder à Microsoft a licença fornecida em seus Termos de Uso», Termos de Uso que não se podem ser mais explícitos).
Podemos ver que sob a aparência de um serviço dedicado às línguas mais ou menos raras (como retransmitido aqui e acolá), a Microsoft vai recuperar suficientes dados para treinar os seu próprios algoritmos de tradução automática o mais barato possível, e detetando ao mesmo tempo as línguas as mais procuradas. Porque lá reside um problema importante das línguas raras, minoritárias ou em perigo: a sub-representação delas na internet (e, portanto, o número muito limitado de dados disponíveis para estabelecer alinhamentos automáticos de corpus).
Podemos ver também que a adição de uma lista significativa de línguas potencialmente suportadas (falando disso, por que se limitar a 1 462?) cria um efeito de anúncio por si mesmo. Doutra maneira, esse Translator Hub teria sido só uma nova ferramenta entre outras.
Deve-se por essa razão abandonar essa ferramenta?
Se quiser desenvolver sem pagar muito uma ferramenta de tradução automática para uma língua pouco representada mas para a qual tem bastante textos originais e traduzidos correspondentes, a oferta da Microsoft pode interessar-lhe, já que poderia ajudar o desenvolvimento futuro de ferramentas de tradução para esse idioma. Mas se você preferir manter a mão sob os seus corpus, vai precisar desenvolver suas próprias ferramentas, ou utilizar ferramentas comerciais.
«Imagine uma rede de centenas de milhares de tradutores automáticos não só treinados para algumas línguas e alguns setores da indústria, mas estabelecidos para uma miríade de pares de línguas, de vários subdomínios e personalizados para cada empresa e cada oferta. [...] Essa rede deverá ser alimentada de um fluxo interminável de palavras traduzidas.» (fonte: Who gets paid for translation in 2020)
Esse futuro já está presente: ter-se de alimentar a máquina, e ao mais barato custo possível. Exploração dos dados da internet, digitalização de livros, corpus alinhados oferecidos pela comunidade… Todas as pistas se podem explorar.
Lançado ontem, o Microsoft Translator Hub é um serviço que permite para todos (indivíduos, comunidades locais, empresas) construir, treinar e implantar sistemas personalizados de tradução automática. Destaca o número de línguas alvos suportadas: 1 462, ou seja um número relativamente impressionante para este tipo de ferramenta, o que permite presentá-lo como uma ferramenta para as língua menos divulgadas. Umas boas intenções a priori.
Mas um bemol é necessário logo que começa a fase de treinamento do modelo, uma vez que é necessário alimentá-lo de arquivos de segmentos alinhados que fazem corresponder um texto da língua alvo a um da língua fonte. E a esses arquivos são associados direitos, que você perde de imediato («Ao carregar os meus documentos, eu confirmo que o conteúdo que eu submeto não infringe os direitos autorais, os direitos de publicidade, os direitos de privacidade ou outros direitos de propriedade intelectual. Eu seguro os direitos suficientes sobre o conteúdo para conceder à Microsoft a licença fornecida em seus Termos de Uso», Termos de Uso que não se podem ser mais explícitos).
Podemos ver que sob a aparência de um serviço dedicado às línguas mais ou menos raras (como retransmitido aqui e acolá), a Microsoft vai recuperar suficientes dados para treinar os seu próprios algoritmos de tradução automática o mais barato possível, e detetando ao mesmo tempo as línguas as mais procuradas. Porque lá reside um problema importante das línguas raras, minoritárias ou em perigo: a sub-representação delas na internet (e, portanto, o número muito limitado de dados disponíveis para estabelecer alinhamentos automáticos de corpus).
Podemos ver também que a adição de uma lista significativa de línguas potencialmente suportadas (falando disso, por que se limitar a 1 462?) cria um efeito de anúncio por si mesmo. Doutra maneira, esse Translator Hub teria sido só uma nova ferramenta entre outras.
Deve-se por essa razão abandonar essa ferramenta?
Se quiser desenvolver sem pagar muito uma ferramenta de tradução automática para uma língua pouco representada mas para a qual tem bastante textos originais e traduzidos correspondentes, a oferta da Microsoft pode interessar-lhe, já que poderia ajudar o desenvolvimento futuro de ferramentas de tradução para esse idioma. Mas se você preferir manter a mão sob os seus corpus, vai precisar desenvolver suas próprias ferramentas, ou utilizar ferramentas comerciais.
«Imagine uma rede de centenas de milhares de tradutores automáticos não só treinados para algumas línguas e alguns setores da indústria, mas estabelecidos para uma miríade de pares de línguas, de vários subdomínios e personalizados para cada empresa e cada oferta. [...] Essa rede deverá ser alimentada de um fluxo interminável de palavras traduzidas.» (fonte: Who gets paid for translation in 2020)
Esse futuro já está presente: ter-se de alimentar a máquina, e ao mais barato custo possível. Exploração dos dados da internet, digitalização de livros, corpus alinhados oferecidos pela comunidade… Todas as pistas se podem explorar.
Microsoft Translator Hub, ou la traduction automatique au service des langues en danger (em francês)
Microsoft Translator Hub, where automatic translation helps endangered languages (em inglês)
Microsoft Translator Hub, o la traducción automática al servicio de las lenguas en peligro (em espanhol)
Sem comentários:
Enviar um comentário