Todos estavam olhando para o encanamento errado. O problema da desinformação na IA não é um colapso de modelo futuro; é uma contaminação da camada de recuperação (retrieval) que está acontecendo agora. A IA está ingerindo conteúdo sintético de baixa qualidade, em grande parte produzido pela própria indústria de SEO, e o apresentando como fato. O resultado é um ciclo vicioso onde a web se alimenta de seu próprio eco, e a verdade se torna uma vítima colateral.
- O problema é a recuperação, não o treinamento: A contaminação não ocorre nos longos ciclos de treinamento dos modelos, mas em tempo real, a cada busca. Sistemas de IA (RAG) buscam informações na web ao vivo para formular suas respostas. Se o que eles encontram é lixo, a resposta se torna lixo.
- A indústria de SEO é a fonte da poluição: Na ânsia de recuperar o tráfego perdido para os AI Overviews, agências de SEO escalaram a produção de conteúdo com IA, publicando artigos especulativos e sem fontes. A IA, por sua vez, consome esses artigos, os trata como material de origem e os cita como fatos.
- Não é um ataque, é o modelo operacional padrão: A pesquisa acadêmica provou que é possível “envenenar” a IA com conteúdo malicioso. No entanto, o que vemos hoje não é um ataque deliberado, mas o funcionamento normal do sistema: a web aberta é o corpus, e qualquer um pode escrever para ela.
- A precisão superficial esconde a fragilidade das fontes: Uma análise do New York Times mostrou que, embora as respostas dos AI Overviews tenham se tornado mais precisas na superfície (91% de acertos), em 56% dos casos corretos, a fonte citada não sustentava a afirmação feita. A resposta melhora, a citação piora.
- Grokipedia é o estado terminal: O projeto da xAI de reescrever a Wikipedia com base no “resto da internet” é a personificação do problema: um sistema de IA lendo o conteúdo sintético da web para “corrigir” um repositório de conhecimento humano.
O debate sobre a IA tem se concentrado no “colapso do modelo” — a ideia de que, ao treinar novos modelos com o conteúdo gerado pelos modelos anteriores, a qualidade inevitavelmente se degrada. Essa visão assume que a contaminação é lenta. A realidade é muito mais rápida. Casos como o da especialista Lily Ray, que recebeu da IA uma notícia sobre uma atualização do Google que nunca existiu, ou o do jornalista da BBC, que fez a IA endossar um campeonato de comer cachorro-quente inventado, provam que a contaminação ocorre na velocidade de um rastreamento.
A ironia é que a indústria mais prejudicada por esse ciclo é a mesma que o alimenta. Agências de SEO, pressionadas pela queda no tráfego, usam IA para produzir conteúdo em escala. Esse conteúdo, muitas vezes especulativo e de baixa qualidade, inunda a camada de recuperação da web. Os motores de busca de IA, então, consomem esse conteúdo e o apresentam como informação verificada. A agência original, por sua vez, celebra que seu conteúdo está sendo “superficializado” pela IA.
O problema é sistêmico. O modelo de negócios da IA prioriza a versão gratuita, que é comprovadamente menos confiável, para bilhões de usuários. A camada de citação está se dissociando da autoria, com a IA citando plataformas como Reddit e Facebook, que não podem mais garantir a origem humana de seu próprio conteúdo.
A “serpente digital que morde a própria cauda” não é uma ameaça futura. Ela já está aqui, operando a cada busca. E o veneno está sendo injetado pela mesma indústria que depois se queixa dos sintomas.
Para se aprofundar mais no assunto, acesse o artigo original no The Inference.
AI Search Is Eating Itself & The SEO Industry Is The Source
