Perdemos o controle? Ou a corrida (meio desesperada) para entender a linguagem das máquinas

Nós ensinamos e agora elas não só aprenderam, como ganharam autonomia e estão desenvolvendo sua própria sabedoria e sua própria linguagem.

Como alerta preocupante artigo da MIT Technology Review US, centenas de cientistas em todo o mundo estão trabalhando juntos para compreender uma das tecnologias emergentes mais poderosas: antes que seja tarde demais.

No artigo, a publicação comenta que mês passado o CEO do Google, Sundar Pichai, anunciou uma nova ferramenta impressionante: um sistema de IA chamado LaMDA que pode conversar com os usuários sobre qualquer assunto.

Para começar, o Google planeja integrar o LaMDA em seu portal de busca principal, seu assistente de voz, e Workplace, sua coleção de software de trabalho baseado em nuvem que inclui Gmail, Docs e Drive. Mas o objetivo final, disse Pichai, é criar uma interface de conversação que permita às pessoas recuperar qualquer tipo de informação – texto, visual, áudio – em todos os produtos do Google apenas perguntando.

O alerta que está por trás desse lançamento, sinalizado pelo MIT, é que a large language model, um algoritmo de aprendizado profundo treinado em enormes quantidades de dados de texto.

Estudos já mostraram como ideias racistas, sexistas e abusivas estão embutidas nesses modelos. Eles associam categorias como médicos com homens e enfermeiras com mulheres; boas palavras com brancos e más palavras com negros. Sondá-los com as instruções certas e eles também começarão a encorajar coisas como genocídio, automutilação e abuso sexual infantil. Devido ao seu tamanho, eles têm uma pegada de carbono chocantemente alta. Por causa de sua fluência, eles facilmente confundem as pessoas, fazendo-as pensar que um humano escreveu seus resultados, o que os especialistas alertam que pode permitir a produção em massa de desinformação.

Mas, alerta a publicação, não é apenas o Google que está implantando essa tecnologia. Os modelos de linguagem de maior perfil até agora foram GPT-2 e GPT-3 da OpenAI, que emitem trechos de texto notavelmente convincentes e podem até mesmo ser reaproveitados para terminar composições musicais e código de computador. A Microsoft agora licencia exclusivamente o GPT-3 para incorporar em produtos ainda não anunciados. O Facebook desenvolveu seus próprios LLMs para tradução e moderação de conteúdo. E muitas startups estão criando dezenas de produtos e serviços com base nos modelos dos gigantes da tecnologia. Em breve, todas as nossas interações digitais – quando enviarmos e-mail, pesquisarmos ou postarmos nas mídias sociais – serão filtradas por meio de LLMs.

O alerta e a preocupação dos cientistas é enorme. Deveria ser a nossa, de toda a sociedade, também.