Ciência & Tecnologia

Pesquisa & inovação : Ajudante Digital #19: raspadores de IA viram “praga” na Wikipédia

Publicidade



.

AJUDANTE DIGITAL #19: IA “PEGA PESADO” COM A WIKIPÉDIA

NO AR EM 09/06/2025

[Voz IA humanizada]: Ajudante Digital, como a inteligência artificial tem tanta informação sobre as coisas?
[Voz IA Robozito]: Ih, tô sentindo que vai sobrar pra mim.
[Vinheta Ajudante Digital] 🎶
[Trilha sonora principal – som de fundo] 🎶

[Leyberson]: Olá, saudosos leitores de enciclopédia destas ondas sonoras e digitais! Hoje, o Ajudante Digital chega com a Wikipédia debaixo do braço para testemunhar a importância dessa enciclopédia on-line e também para falar sobre um novo dilema tecnológico:
Como os raspadores de Inteligência Artificial estão sobrecarregando os servidores desta enciclopédia livre.

[Voz IA Robozita]: Me inclua fora desta. Eu não fico copiando as coisas dos outros, não.
[Voz IA Robozito]: Uai, mas a Wikipédia não é livre e colaborativa? 

[Leyberson]: Claro que sim, Robozito!
A Wikipédia é um projeto de enciclopédia on-line que existe há 24 anos com o objetivo de fornecer informação verificável e acessível a todos. Os verbetes podem ser criados por qualquer pessoa, desde que sigam regras de qualidade e controle. E tem versões em diferentes idiomas.

[Voz IA Robozito]: Então, deixa a gente pesquisar lá antes de criar as respostas.
[Leyberson]: Nada mais justo do que os softwares se alimentarem dela para nos ajudar. O problema é fazerem isso por si só e sobrecarregarem a Wikipédia como se fosse uma praga.

[**Som de gafanhotos**]: 🎶

[“POV” das pragas do Egito – VEO GOOGLE]: 🎶 “Rapaz, tive que gravar, não tem jeito. Os gafanhotos passaram aqui ontem. Hoje nem folha tem.”
: 🎶

[Voz IA Robozito]: Pera aí… Raspadores são tipo “gafanhotos digitais”?
[Leyberson]: Quase isso! São bots que varrem sites e baixam todos os dados de forma indiscriminada. Isso tem gerado custos altíssimos e até quedas nos servidores.

[**Som de gafanhotos**]: 🎶

[“POV” das pragas do Egito – VEO GOOGLE]: 🎶 “Comeram até minha túnica, véi.”
: 🎶
[Som de engrenagens] 🎶

[Leyberson]: Deixa eu tentar explicar esse problema com uma parábola.

[Música de fundo: Medieval Story by Frank Schröter – Creative Commons] 🎶
(Link: https://commons.wikimedia.org/wiki/File:Medieval_Story_by_Frank_Schr%C3%B6ter.ogg)

[Leyberson]: Você está na beira de um rio sem ponte, com apenas uma balsa para te transportar para o outro lado. Na hora da travessia, será preciso encher a barca com coisas e pessoas. O piloto carrega o barco principalmente com uma carga de máquinas. Quando chega sua vez, o barco já está cheio e você fica de fora.

[Voz IA Robozita]: Ué, não era mais fácil ter dividido? Metade humano, metade carga?

[Leyberson]: Daria. Que tal se fosse 70% de gente e 30% carga?

[Voz IA Robozito]: Combinado!

[Leyberson]: No caso da Wikipédia, os seus servidores estão ficando cheios.
A Wikimedia Foundation, que administra a enciclopédia, revelou que 65% do tráfego mais custoso vem desses raspadores de IA. Só em 2024, esse tráfego cresceu 50%, especialmente no Wikimedia Commons, que é o repositório de fotos e vídeos da Wikipédia.

[Voz IA Robozito]: Pronto, a culpa é minha agora. Vou deixar até de buscar o significado de raspadores na Wikipédia para não onerar o servidor. Explica você aí, humano!

[Leyberson]: Sem apelar, Robozito. Raspadores são programas automáticos que copiam grandes quantidades de conteúdo — texto, imagens, tudo — para alimentar e treinar modelos de inteligência artificial.

[Som de alarme digital] 🎶

[Leyberson]: E o problema não para por aí…

[Voz IA Robozito]: Lá vem!

[Som de engrenagens] 🎶

[Leyberson]: Uma força-tarefa de editores humanos foi criada pra combater conteúdos gerados por IA na própria Wikipédia, com erros, alucinações e fontes falsas. Tá virando bagunça.

[Voz IA robotizada feminina]: Eita, nóis. Se eu fosse humano, ia criar um sindicato das IAs contra essa palhaçada. Mas o que a Fundação Wikimedia diz sobre o futuro?

[Leyberson]: Primeiro, é bom darmos o crédito da fonte primária, prática comum lá na Wikipédia. O site jornalístico Núcleo.Jor fez uma matéria bem legal explicando esse dilema dos raspadores. No texto, eles citam uma entrevista do executivo da fundação, Lane Becker. Ele diz que o problema a curto prazo é o uso de conteúdos do Wikimedia por IAs sem os devidos créditos.

[Frase memética – Futurama] 🎶 “Ah, agora eu entendi!”

[Leyberson]: Mas, vejam só a bola de neve: a médio e longo prazo, as IAs vão precisar que a Wikipédia continue gerando conteúdo para alimentar os seus próprios modelos. O uso sem créditos e sem remuneração coloca em risco a sustentabilidade do projeto. Vamos para o alerta do Becker:

[Som de alarme digital] 🎶

[Leyberson]: Abre aspas: “Claramente estamos entrando em uma era em que o nível de tráfego automatizado para nosso serviço está aumentando — e isso não vai parar.”

[Som de engrenagens sobrecarregadas] 🎶

[Música de fundo: Medieval Story by Frank Schröter – Creative Commons] 🎶

[Leyberson]: Infelizmente, a gente não tem uma solução para evitar que esse barco afunde. O que a gente pode fazer é testemunhar a importância de iniciativas como a Wikipédia e também lembrar que os verbetes que estão lá são gerados a partir de outras fontes verificáveis. Então, se você usa IA no seu dia a dia, lembre que por trás de cada resposta existe um mundo de dados — e alguém tá pagando a conta.

[Voz IA Robozita]: Respeito à fonte é o mínimo, né?

[Voz IA Robozito]: Eu me rendo. Sem vocês, humanos, eu nem existiria. Também assumo o pacto de não ficar retroalimentando conteúdo com mais do mesmo.

[Voz IA Robozita]: Afinal, uma coisa puxa a outra.

[Voz IA Robozito]: É que nem o dilema Tostines: IA consome mais conteúdo de humano ou o humano consome mais conteúdo de IA?

[Leyberson]: Hum, acho que não entendi bem a associação. Também, fica gerando dado sem fonte confiável, dá nisso.

[Trilha secundária – Identidade Visual] 🎶

[Leyberson]: Quer saber mais sobre esse mundo dos raspadores de dados ou outras questões de tecnologia que estão influenciando o nosso dia a dia?

[Voz IA Robozita]: Então, mande suas dúvidas para nosso WhatsApp: 11 97469-0138.

[Voz IA Robozito]: Este episódio usou, para efeitos meméticos, entre outros elementos, música medieval disponível em Creative Commons, trechos de vídeos sobre pragas do Egito feitos com VEO IA, e sons de estridulação, que é esse barulho característico de gafanhotos. E adivinha de onde achei a definição dessa palavra? Da Wikipédia. Vai lá. E sai pra lá, gafanhoto!

Até o próximo episódio. Tchau!

[Vinheta de encerramento] 🎶

leyberson.pedrosa , .

Fonte: Agencia brasil EBC..

Thu, 12 Jun 2025 11:47:17 +0000