ANTENA DO POP - Diariamente o melhor do mundo POP, GEEK e NERD!
Shadow

O que poderia perturbar o futuro da IA ​​generativa?

Fala-se muito hoje em dia sobre como a IA generativa pode tirar as pessoas do trabalho. Não se pensa muito em como as pessoas poderiam colocar a IA generativa fora do trabalho. Mas eles poderiam – e muito possivelmente o farão.

A GenAI e os modelos básicos sobre os quais ela se baseia estão atualmente no pico vertiginoso do ciclo de hype do Gartner. Se o modelo do Gartner for sólido, essas ferramentas podem estar prestes a mergulhar no “vale da desilusão” antes de emergirem, daqui a alguns anos, num patamar de produtividade útil.

Há um argumento, no entanto, de que a desilusão poderia engolir os produtos genAI para sempre. Além dos riscos inerentes à confiança no que é essencialmente uma “inteligência” inconsciente e amoral, os usuários também enfrentam perspectivas muito reais de que questões de direitos autorais e privacidade possam ferir mortalmente grandes modelos de linguagem (LLMs) como o ChatGPT.

Vamos colocá-los em ordem.

Um registro nacional Do Not Scrape?

Os editores monetizam o conteúdo. Eles não pretendem que terceiros monetizem esse conteúdo sem permissão, especialmente porque os editores provavelmente já pagaram por isso. Autores profissionais monetizam o que escrevem. Eles também não buscam que terceiros lucrem com seu trabalho sem nenhuma recompensa para o criador. Tudo o que digo aqui sobre conteúdo escrito se aplica igualmente a conteúdo gráfico, de vídeo e qualquer outro conteúdo criativo.

Temos leis de direitos autorais, é claro, que protegem editores e autores contra roubo direto. Isso não ajuda o genAI porque ele rastreia tantas fontes que o resultado final pode não se parecer muito com apenas uma das fontes individuais (embora isso possa acontecer).

No momento, os editores estão procurando ativamente maneiras de impedir que os LLMs extraiam seu conteúdo. É um desafio técnico difícil

Em esse vídeo, Greg Krehbiel, colaborador da MarTech, discute maneiras pelas quais os editores podem tentar bloquear LLMs. Ele também defende a alteração dos termos e condições para preparar os fundamentos para futuras ações judiciais. Como ele parece reconhecer, nenhuma de suas sugestões é certeira. Por exemplo, é viável impedir que o Google rastreie seu site para obter conteúdo, sem também impedir que ele rastreie seu site para colocá-lo nos resultados de pesquisa? Além disso, os processos judiciais são caros.

Mas que tal uma correção regulatória? Você se lembra do incômodo interminável das ligações de telemarketing? O registo Nacional Do Not Call pôs fim a isso. Todos que se importavam podiam registrar seu número e os operadores de telemarketing só podiam continuar ligando para ele, sob o risco de a FTC impor multas pesadas.

Registrar domínios com um registro nacional Do Not Scrape pode ser uma tarefa mais pesada, mas pode-se ver em termos gerais como tal estratégia regulatória pode funcionar. Todas as infrações seriam detectadas? Certamente não. Mas o mesmo vale, por exemplo, para o GDPR. O GDPR exige conformidade não porque todas as infrações sejam detectadas, mas porque as infrações detectadas podem resultar em sanções pesadas – “multas sem precedentes de até 4% da receita global total de uma empresa”.

É tarde demais. GenAI já tem os dados

Quer haja uma solução técnica ou regulatória para impedir que a genAI roube conteúdo, esse cavalo já não saiu do estábulo? Os LLMs já foram treinados em conjuntos de dados inconcebivelmente grandes. Eles podem ser propensos a erros, mas em certo sentido eles sabem tudo.

Bem, eles sabem tudo até alguns anos atrás. O ChatGPT-4 foi pré-treinado em dados com limite de setembro de 2021. Isso significa que há muita coisa que ele não sabe. Vamos nos lembrar do que estamos lidando aqui.

Aprofunde-se: Inteligência Artificial: um guia para iniciantes

GenAI usa algoritmos para prever qual será o próximo melhor trecho de texto a ser criado, com base em todos os milhões de trechos de texto nos quais foi treinado. O que o torna “inteligente” é que pode melhorar os seus próprios algoritmos com base no feedback e na resposta (um ser humano não tem de mexer nos algoritmos, embora, claro, pudesse).

O que a genAI não faz – e não pode fazer – é descobrir coisas sobre o mundo que estão fora do seu conjunto de treinamento de dados. Isto sublinha o ponto defendido por filósofos como Donald Davidson,1 que a IA não tem conexões causais com o mundo. Se quero saber se está chovendo, não confio em um conjunto de dados; Olho pela janela. Em termos técnicos, a genAI pode ter uma excelente sintaxe (gramática), mas é estranha à semântica (significado).

A conclusão a tirar disto é que a IA depende totalmente de criaturas, como nós, que são causalmente conectado ao mundo; quem pode dizer se está chovendo, se há lua no céu, se Jefferson redigiu a Declaração da Independência. Até agora, tem dependido do que as pessoas fizeram no passado. Para permanecer relevante, deve continuar a depender do que as pessoas sozinhas podem fazer.

Se a capacidade dos LLMs de continuarem a extrair conteúdo criado por humanos for significativamente retardada, eles não serão capazes de adicionar, atualizar, corrigir e aumentar seus conjuntos de dados no futuro. O desaparecimento da sua utilidade pode ser lento, mas seria mais ou menos garantido.

Tire as mãos das minhas PII!

Além do desejo de editores, autores e outros criadores de manterem a genAI longe de seu conteúdo, há outro problema muito real que ela enfrentará no futuro imediato. A necessidade de garantir de alguma forma que, no ato de extrair milhões de gigabytes de dados da web, não estejam inadvertidamente apreendendo informações de identificação pessoal (PII) ou outros tipos de dados protegidos pelas regulamentações existentes.

  • A FTC abriu uma investigação sobre a OpenAI sobre questões de proteção ao consumidor.
  • A Itália, como foi amplamente divulgado, simplesmente proibiu o OpenAI e o ChatGPT pelo tratamento de dados pessoais, bem como pela ausência de controlos de verificação de idade. As operações foram restauradas após o cumprimento das exigências italianas.
  • Os desafios europeus ainda não terminaram. A reclamação abrangente arquivado na Polônia alega que a OpenAI está em “violação sistemática” do GDPR.

Basta dizer que os tribunais europeus tendem a ser mais solidários com os direitos dos cidadãos do que com os lucros das grandes tecnologias.

Nem mencionamos confiança e segurança. Essas preocupações foram abordadas em minha recente conversa com o especialista em ciclos de hype de IA do Gartner, Afraz Jaffri, que disse:

A primeira questão é, na verdade, o aspecto da confiança. Independentemente das regulamentações externas, ainda existe uma sensação fundamental de que é muito difícil controlar os resultados dos modelos e garantir que os resultados sejam realmente corretos. Isso é um grande obstáculo.

O que o futuro reserva para a genAI? O ciclo de hype do Gartner

Tudo isso acionará o botão de desligar?

É fácil dizer que a genAI veio para ficar. Muitas pessoas disseram isso. E, de facto, é altamente improvável que um desenvolvimento tecnológico significativo – se não inteiramente novo – seja esquecido ou abandonado. No mínimo, as organizações continuarão a usar esses recursos em seus próprios conjuntos de dados, ou em conjuntos de dados externos determinados com cautela, e isso atenderá a muitos casos de uso importantes.

No entanto, as probabilidades de a genAI ser perturbada, restringida e muito alterada por alguma combinação de bloqueios regulamentares, desafios jurídicos, questões de confiança — e outros obstáculos ainda não vistos — estão bem acima de zero.