Os dados estão no centro dos sistemas avançados de IA de hoje, mas estão custando cada vez mais – tornando-os fora do alcance de todos, exceto das empresas de tecnologia mais ricas.
No ano passado, James Betker, pesquisador da OpenAI, escreveu um postar em seu blog pessoal sobre a natureza dos modelos generativos de IA e os conjuntos de dados nos quais eles são treinados. Nele, Betker afirmou que os dados de treinamento – e não o design, a arquitetura ou qualquer outra característica de um modelo – eram a chave para sistemas de IA cada vez mais sofisticados e capazes.
“Treinados no mesmo conjunto de dados por tempo suficiente, praticamente todos os modelos convergem para o mesmo ponto”, escreveu Betker.
Betker está certo? Os dados de treinamento são o maior determinante do que um modelo pode fazer, seja responder a uma pergunta, desenhar mãos humanas ou gerar uma paisagem urbana realista?
Certamente é plausível.
Máquinas estatísticas
Os sistemas generativos de IA são basicamente modelos probabilísticos – uma enorme pilha de estatísticas. Eles adivinham, com base em uma grande quantidade de exemplos, quais dados fazem mais “sentido” para serem colocados onde (por exemplo, a palavra “ir” antes de “para o mercado” na frase “Eu vou para o mercado”). Parece intuitivo, então, que quanto mais exemplos um modelo tiver, melhor será o desempenho dos modelos treinados nesses exemplos.
“Parece que os ganhos de desempenho vêm dos dados”, disse Kyle Lo, cientista sênior de pesquisa aplicada do Allen Institute for AI (AI2), uma organização sem fins lucrativos de pesquisa de IA, ao TechCrunch, “pelo menos quando você tiver uma configuração de treinamento estável .”
Lo deu o exemplo do Llama 3 da Meta, um modelo de geração de texto lançado no início deste ano, que supera o modelo OLMo do próprio AI2, apesar de ser arquitetonicamente muito semelhante. O Llama 3 foi treinado com significativamente mais dados do que o OLMo, o que Lo acredita explicar sua superioridade em muitos benchmarks populares de IA.
(Vou salientar aqui que os benchmarks amplamente utilizados na indústria de IA hoje não são necessariamente o melhor indicador do desempenho de um modelo, mas fora de testes qualitativos como o nosso, eles são uma das poucas medidas que temos para prossiga.)
Isso não quer dizer que o treinamento em conjuntos de dados exponencialmente maiores seja um caminho infalível para modelos exponencialmente melhores. Os modelos operam com base no paradigma “entra lixo, sai lixo”, observa Lo, e portanto a curadoria e a qualidade dos dados são muito importantes, talvez mais do que a mera quantidade.
“É possível que um modelo pequeno com dados cuidadosamente projetados supere um modelo grande”, acrescentou. “Por exemplo, o Falcon 180B, um modelo grande, está classificado em 63º lugar no benchmark LMSYS, enquanto o Llama 2 13B, um modelo muito menor, está classificado em 56º.”
Em uma entrevista ao TechCrunch em outubro passado, o pesquisador da OpenAI Gabriel Goh disse que as anotações de maior qualidade contribuíram enormemente para a melhoria da qualidade da imagem no DALL-E 3, o modelo de texto para imagem da OpenAI, em relação ao seu antecessor DALL-E 2. “Eu acho esta é a principal fonte das melhorias”, disse ele. “As anotações de texto são muito melhores do que eram [with DALL-E 2] – nem é comparável.”
Muitos modelos de IA, incluindo DALL-E 3 e DALL-E 2, são treinados com anotadores humanos rotulando os dados para que um modelo possa aprender a associar esses rótulos a outras características observadas desses dados. Por exemplo, um modelo que alimenta muitas fotos de gatos com anotações para cada raça acabará “aprendendo” a associar termos como bobtail e cabelo curto com seus traços visuais distintivos.
Mau comportamento
Especialistas como Lo temem que a crescente ênfase em grandes conjuntos de dados de formação de alta qualidade centralize o desenvolvimento da IA nos poucos intervenientes com orçamentos de milhares de milhões de dólares que podem adquirir esses conjuntos. Grande inovação em dados sintéticos ou a arquitetura fundamental poderia perturbar o status quo, mas nenhuma delas parece estar no horizonte próximo.
“No geral, as entidades que controlam conteúdos potencialmente úteis para o desenvolvimento de IA são incentivadas a trancar os seus materiais”, disse Lo. “E à medida que o acesso aos dados se aproxima, estamos basicamente abençoando alguns pioneiros na aquisição de dados e subindo a escada para que ninguém mais possa ter acesso aos dados para se atualizar.”
Na verdade, onde a corrida para obter mais dados de treinamento não levou a comportamentos antiéticos (e talvez até ilegais), como a agregação secreta de conteúdo protegido por direitos autorais, ela recompensou os gigantes da tecnologia com grandes recursos para gastar no licenciamento de dados.
Modelos de IA generativa, como os da OpenAI, são treinados principalmente em imagens, texto, áudio, vídeos e outros dados – alguns protegidos por direitos autorais – provenientes de páginas públicas da web (incluindo, problematicamente, gerados por IA). Os OpenAIs do mundo afirmam que o uso justo os protege de represálias legais. Muitos detentores de direitos discordam — mas, pelo menos por enquanto, não podem fazer muito para impedir esta prática.
Existem muitos, muitos exemplos de fornecedores de IA generativa que adquirem enormes conjuntos de dados por meios questionáveis para treinar seus modelos. OpenAI supostamente transcreveu mais de um milhão de horas de vídeos do YouTube sem a aprovação do YouTube – ou a aprovação dos criadores – para alimentar seu modelo principal GPT-4. O Google recentemente ampliou seus termos de serviço, em parte para poder acessar Google Docs públicos, avaliações de restaurantes no Google Maps e outros materiais on-line para seus produtos de IA. E diz-se que Meta considerou arriscar processos judiciais para treinar seus modelos em conteúdo protegido por IP.
Enquanto isso, grandes e pequenas empresas dependem de trabalhadores em países do terceiro mundo pagavam apenas alguns dólares por hora para criar anotações para conjuntos de treinamento. Alguns desses anotadores – empregados por startups gigantescas como Scale AI – trabalham literalmente dias a fio para concluir tarefas que os expõem a representações gráficas de violência e derramamento de sangue sem quaisquer benefícios ou garantias de trabalhos futuros.
Custo crescente
Por outras palavras, mesmo os acordos de dados mais honestos não estão propriamente a promover um ecossistema de IA generativo aberto e equitativo.
A OpenAI gastou centenas de milhões de dólares licenciando conteúdo de editores de notícias, bibliotecas de mídia e muito mais para treinar seus modelos de IA – um orçamento muito superior ao da maioria dos grupos de pesquisa acadêmica, organizações sem fins lucrativos e startups. A Meta chegou ao ponto de considerar adquirir a editora Simon & Schuster pelos direitos de trechos de e-books (no final das contas, Simon & Schuster vendeu para a empresa de private equity KKR por US$ 1,62 bilhão em 2023).
Com a expectativa de que o mercado de dados de treinamento de IA crescer de cerca de 2,5 mil milhões de dólares atualmente para perto de 30 mil milhões de dólares dentro de uma década, os corretores e plataformas de dados estão a apressar-se para cobrar o valor mais elevado – em alguns casos, apesar das objeções das suas bases de utilizadores.
Biblioteca de mídia de estoque que a Shutterstock tem tatuado lida com fornecedores de IA que variam de US$ 25 milhões a US$ 50 milhões, enquanto o Reddit afirma ter ganhado centenas de milhões com o licenciamento de dados para organizações como Google e OpenAI. Poucas plataformas com dados abundantes acumulados organicamente ao longo dos anos não tenho parece que assinou acordos com desenvolvedores de IA generativa – do Photobucket ao Tumblr e ao site de perguntas e respostas Stack Overflow.
São os dados das plataformas que devemos vender – pelo menos dependendo dos argumentos jurídicos em que você acredita. Mas na maioria dos casos, os usuários não recebem um centavo dos lucros. E está prejudicando a comunidade mais ampla de pesquisa em IA.
“Os participantes menores não poderão pagar essas licenças de dados e, portanto, não poderão desenvolver ou estudar modelos de IA”, disse Lo. “Temo que isso possa levar à falta de escrutínio independente das práticas de desenvolvimento de IA.”
Esforços independentes
Se há um raio de sol na escuridão, são os poucos esforços independentes e sem fins lucrativos para criar conjuntos de dados massivos que alguém pode usar para treinar um modelo generativo de IA.
EleutherAI, um grupo de pesquisa sem fins lucrativos que começou como um coletivo Discord em 2020, está trabalhando com a Universidade de Toronto, AI2 e pesquisadores independentes para criar The Pile v2, um conjunto de bilhões de passagens de texto provenientes principalmente do domínio público. .
Em abril, a startup de IA Hugging Face lançou o FineWeb, uma versão filtrada do Common Crawl – o conjunto de dados de mesmo nome mantido pela organização sem fins lucrativos Common Crawl, composto por bilhões e bilhões de páginas da web – que o Hugging Face afirma melhorar o desempenho do modelo em muitos benchmarks.
Alguns esforços para liberar conjuntos de dados de treinamento abertos, como os conjuntos de imagens do grupo LAION, esbarraram em direitos autorais, privacidade de dados e outros, desafios éticos e legais igualmente sérios. Mas alguns dos curadores de dados mais dedicados comprometeram-se a fazer melhor. O Pile v2, por exemplo, remove material problemático protegido por direitos autorais encontrado em seu conjunto de dados progenitor, The Pile.
A questão é se algum desses esforços abertos poderá manter o ritmo das Big Techs. Enquanto a recolha e a curadoria de dados continuarem a ser uma questão de recursos, a resposta provavelmente será não – pelo menos não até que algum avanço na investigação nivele o campo de jogo.
Link do Autor