Não há necessidade de se preocupar que suas conversas secretas do ChatGPT foram obtidas em uma violação recentemente relatada dos sistemas da OpenAI. O hack em si, embora preocupante, parece ter sido superficial — mas é um lembrete de que as empresas de IA se tornaram, em pouco tempo, um dos alvos mais suculentos para hackers.
O jornal New York Times relatou o hack com mais detalhes depois que o ex-funcionário da OpenAI, Leopold Aschenbrenner sugeriu isso recentemente em um podcast. Ele chamou isso de um “grande incidente de segurança”, mas fontes anônimas da empresa disseram ao Times que o hacker só teve acesso a um fórum de discussão de funcionários. (Entrei em contato com a OpenAI para confirmação e comentário.)
Nenhuma violação de segurança deve ser tratada como trivial, e espionar conversas internas de desenvolvimento da OpenAI certamente tem seu valor. Mas está longe de um hacker ter acesso a sistemas internos, modelos em andamento, roteiros secretos e assim por diante.
Mas isso deveria nos assustar de qualquer forma, e não necessariamente por causa da ameaça da China ou de outros adversários nos ultrapassarem na corrida armamentista da IA. O fato simples é que essas empresas de IA se tornaram guardiãs de uma quantidade tremenda de dados muito valiosos.
Vamos falar sobre três tipos de dados que a OpenAI e, em menor grau, outras empresas de IA criaram ou aos quais têm acesso: dados de treinamento de alta qualidade, interações em massa de usuários e dados de clientes.
Não se sabe exatamente quais dados de treinamento eles têm, porque as empresas são incrivelmente secretas sobre seus estoques. Mas é um erro pensar que eles são apenas grandes pilhas de dados da web raspados. Sim, eles usam raspadores da web ou conjuntos de dados como o Pile, mas é uma tarefa gigantesca moldar esses dados brutos em algo que pode ser usado para treinar um modelo como o GPT-4o. Uma enorme quantidade de horas de trabalho humano é necessária para fazer isso — só pode ser parcialmente automatizado.
Alguns engenheiros de aprendizado de máquina especularam que, de todos os fatores que entram na criação de um grande modelo de linguagem (ou, talvez, qualquer sistema baseado em transformador), o mais importante é a qualidade do conjunto de dados. É por isso que um modelo treinado no Twitter e no Reddit nunca será tão eloquente quanto um treinado em todos os trabalhos publicados do último século. (E provavelmente por isso que a OpenAI supostamente usaram fontes questionavelmente legais, como livros protegidos por direitos autorais, em seus dados de treinamento, uma prática que eles alegam ter abandonado.)
Portanto, os conjuntos de dados de treinamento que a OpenAI construiu são de tremendo valor para concorrentes, de outras empresas a estados adversários e reguladores aqui nos EUA. A FTC ou os tribunais não gostariam de saber exatamente quais dados estavam sendo usados e se a OpenAI foi honesta sobre isso?
Mas talvez ainda mais valioso seja o enorme tesouro de dados de usuários da OpenAI — provavelmente bilhões de conversas com o ChatGPT sobre centenas de milhares de tópicos. Assim como os dados de pesquisa já foram a chave para entender a psique coletiva da web, o ChatGPT tem seu dedo no pulso de uma população que pode não ser tão ampla quanto o universo de usuários do Google, mas fornece muito mais profundidade. (Caso você não saiba, a menos que você opte por não participar, suas conversas estão sendo usadas para dados de treinamento.)
No caso do Google, um aumento nas buscas por “condicionadores de ar” indica que o mercado está esquentando um pouco. Mas esses usuários não têm uma conversa completa sobre o que querem, quanto dinheiro estão dispostos a gastar, como é sua casa, fabricantes que querem evitar e assim por diante. Você sabe que isso é valioso porque o próprio Google está tentando converter seus usuários para fornecer essas mesmas informações substituindo interações de IA por buscas!
Pense em quantas conversas as pessoas tiveram com o ChatGPT e quão úteis essas informações são, não apenas para desenvolvedores de IAs, mas para equipes de marketing, consultores, analistas… é uma mina de ouro.
A última categoria de dados é talvez a de maior valor no mercado aberto: como os clientes estão realmente usando a IA e os dados que eles próprios forneceram aos modelos.
Centenas de grandes empresas e inúmeras menores usam ferramentas como OpenAI e APIs da Anthropic para uma variedade igualmente grande de tarefas. E para que um modelo de linguagem seja útil para elas, ele geralmente deve ser ajustado ou, de outra forma, ter acesso aos seus próprios bancos de dados internos.
Isso pode ser algo tão prosaico quanto planilhas de orçamento antigas ou registros de pessoal (para torná-los mais facilmente pesquisáveis, por exemplo) ou tão valioso quanto código para um software não lançado. O que eles fazem com as capacidades da IA (e se elas são realmente úteis) é problema deles, mas o fato simples é que o provedor de IA tem acesso privilegiado, assim como qualquer outro produto SaaS.
Esses são segredos industriais, e as empresas de IA estão de repente no centro de uma grande parte deles. A novidade desse lado da indústria carrega consigo um risco especial, pois os processos de IA simplesmente ainda não são padronizados ou totalmente compreendidos.
Como qualquer provedor de SaaS, as empresas de IA são perfeitamente capazes de fornecer níveis padrão de segurança, privacidade, opções locais e, de modo geral, fornecer seus serviços de forma responsável. Não tenho dúvidas de que os bancos de dados privados e as chamadas de API dos clientes Fortune 500 da OpenAI são bloqueados com muita firmeza! Eles certamente devem estar tão cientes ou mais dos riscos inerentes ao manuseio de dados confidenciais no contexto da IA. (O fato de a OpenAI não ter relatado esse ataque é uma escolha deles, mas não inspira confiança para uma empresa que precisa desesperadamente disso.)
Mas boas práticas de segurança não mudam o valor do que elas devem proteger, ou o fato de que atores maliciosos e diversos adversários estão arranhando a porta para entrar. Segurança não é apenas escolher as configurações certas ou manter seu software atualizado — embora, é claro, o básico também seja importante. É um jogo de gato e rato sem fim que, ironicamente, agora está sendo supercarregado pela própria IA: agentes e automatizadores de ataque estão sondando cada canto e fenda das superfícies de ataque dessas empresas.
Não há motivo para pânico — empresas com acesso a muitos dados pessoais ou comercialmente valiosos enfrentam e gerenciam riscos semelhantes há anos. Mas as empresas de IA representam um alvo mais novo, mais jovem e potencialmente mais suculento do que seu servidor empresarial mal configurado ou corretor de dados irresponsável. Mesmo um hack como o relatado acima, sem exfiltrações sérias que saibamos, deve preocupar qualquer um que faça negócios com empresas de IA. Elas pintaram os alvos nas costas. Não se surpreenda quando alguém, ou todos, derem um tiro.
Link do Autor