Mundo Positivo » Google e OpenAI treinam IAs com vídeos do YouTube, diz jornal

Uma reportagem do jornal The New York Times revela que as empresas Google e OpenAI utilizam materiais públicos postados no YouTube para treinar seus modelos de inteligência artificial, especificadamente o Gemini e o GPT-4. O problema é que o YouTube, de propriedade do Google, proíbe o uso dos vídeos para aplicações fora da plataforma.

Coleta irregular de dados

Segundo a publicação, a OpenAI criou uma ferramenta de transcrição de áudio chamada Whisper que foi utilizada para coletar materiais do YouTube a partir do final de 2021.

Em vez de utilizar os vídeos no treinamento do modelo de IA, a companhia usou as transcrições em textos de mais de um milhão de horas de conteúdo da plataforma. Ainda que esses vídeos sejam “públicos”, a prática viola as políticas do YouTube e os direitos dos criadores de conteúdo.

–
Feedly: assine nosso feed RSS e não perca nenhum conteúdo do Canaltech em seu agregador de notícias favorito.
–

Conteúdos publicados no YouTube são utilizados no treinamento de IAs, diz jornal (Imagem: Reprodução/Freepik)

Nesse caso, as horas de materiais — mesmo que transcritas em texto — reutilizam o trabalho e a produção de milhares de pessoas para o desenvolvimento de uma ferramenta de uma outra empresa, a qual ainda pode ganhar muito dinheiro com seu modelo de IA.

A situação é ainda curiosa em relação ao próprio Google e a sua IA Gemini. O New York Times destaca que a Big Tech também utilizou conteúdos do YouTube para treinar o modelo e, mesmo sendo a proprietária da plataforma, também não teria o direito de coletar esses dados.

Corrida pelos dados

A reportagem do jornal descreve o cenário de corrida das grandes empresas de tecnologia pelos maiores bancos de dados e informações disponíveis para treinar os modelos de inteligência artificial.

“A corrida para liderar o setor de IA tornou-se uma busca desesperada pelos dados digitais necessários para o avanço da tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, pegaram atalhos, ignoraram políticas corporativas e debateram violar a lei”, escreve o Times.

Na corrida por volume de dados para treinar IAs, as Big Techs ignoram políticas (Imagem: Rawpixel/Freepik)

De acordo com a publicação, as atividades recentes dessas companhias ilustram como todas as informações publicadas na web estão sendo usadas pela indústria de IA. A prática pode ser vista como um roubo de conteúdos de propriedade intelectual — sejam eles em texto, áudio ou vídeo.

Essa corrida desesperada das Big Techs está relacionada à necessidade de ter volumes robustos de dados para realizar o treinamento dos modelos de IA nas mais diferentes especialidades. O jornal destaca que esse movimento fez o Google, por exemplo, mudar os termos de serviços de seus produtos para permitir a coleta de dados em documentos públicos no Drive e avaliações de estabelecimentos no Maps.

Sem uma regulamentação sobre essas práticas, as pessoas ficam reféns das Big Techs — sem alternativa de manter seus dados seguros e sem a garantia de que seus trabalhos não sejam usados para treinar IAs, enquanto elas lucram e não pagam pelo uso dessas informações.

Trending no Canaltech:

Fonte: Canaltech