A Anthropic está lançando um programa para financiar o desenvolvimento de novos tipos de benchmarks capazes de avaliar o desempenho e o impacto dos modelos de IA, incluindo modelos generativos como o seu próprio Claude.
Revelado na segunda-feira, o programa da Anthropic distribuirá subsídios para organizações terceirizadas que podem, como a empresa coloca em uma postagem de blog, “medir efetivamente capacidades avançadas em modelos de IA”. Os interessados podem enviar inscrições para serem avaliadas continuamente.
“Nosso investimento nessas avaliações tem como objetivo elevar todo o campo da segurança de IA, fornecendo ferramentas valiosas que beneficiam todo o ecossistema”, escreveu a Anthropic em seu blog oficial. “Desenvolver avaliações de alta qualidade e relevantes para a segurança continua desafiador, e a demanda está superando a oferta.”
Como destacamos antes, a IA tem um problema de benchmarking. Os benchmarks mais comumente citados para IA hoje fazem um trabalho ruim em capturar como a pessoa média realmente usa os sistemas que estão sendo testados. Também há dúvidas se alguns benchmarks, particularmente aqueles lançados antes do surgimento da IA generativa moderna, sequer medem o que pretendem medir, dada sua idade.
A solução de altíssimo nível e mais difícil do que parece que a Anthropic está propondo é criar parâmetros desafiadores com foco na segurança da IA e nas implicações sociais por meio de novas ferramentas, infraestrutura e métodos.
A empresa pede especificamente por testes que avaliem a capacidade de um modelo de realizar tarefas como realizar ataques cibernéticos, “aprimorar” armas de destruição em massa (por exemplo, armas nucleares) e manipular ou enganar pessoas (por exemplo, por meio de deepfakes ou desinformação). Para riscos de IA relativos à segurança e defesa nacional, a Anthropic diz que está comprometida em desenvolver um “sistema de alerta precoce” para identificar e avaliar riscos, embora não revele na postagem do blog o que tal sistema pode implicar.
A Anthropic também afirma que pretende que seu novo programa apoie pesquisas sobre benchmarks e tarefas “de ponta a ponta” que investiguem o potencial da IA para auxiliar em estudos científicos, conversar em vários idiomas e mitigar preconceitos arraigados, bem como a toxicidade da autocensura.
Para atingir tudo isso, a Anthropic prevê novas plataformas que permitam que especialistas no assunto desenvolvam suas próprias avaliações e testes em larga escala de modelos envolvendo “milhares” de usuários. A empresa diz que contratou um coordenador em tempo integral para o programa e que pode comprar ou expandir projetos que acredita terem potencial para escalar.
“Oferecemos uma gama de opções de financiamento adaptadas às necessidades e ao estágio de cada projeto”, escreve a Anthropic no post, embora um porta-voz da Anthropic tenha se recusado a fornecer mais detalhes sobre essas opções. “As equipes terão a oportunidade de interagir diretamente com os especialistas de domínio da Anthropic da equipe vermelha da fronteira, ajuste fino, confiança e segurança e outras equipes relevantes.”
O esforço da Anthropic para dar suporte a novos benchmarks de IA é louvável — assumindo, é claro, que haja dinheiro e mão de obra suficientes por trás disso. Mas, dadas as ambições comerciais da empresa na corrida da IA, pode ser difícil confiar completamente.
Na publicação do blog, a Anthropic é bastante transparente sobre o fato de que deseja que certas avaliações que financia estejam alinhadas com o Classificações de segurança de IA isto desenvolvido (com alguma contribuição de terceiros, como a organização de pesquisa de IA sem fins lucrativos METR). Isso está bem dentro da prerrogativa da empresa. Mas também pode forçar os candidatos ao programa a aceitar definições de IA “segura” ou “arriscada” com as quais eles podem não concordar completamente.
Uma parte da comunidade de IA também provavelmente discordará das referências da Anthropic aos riscos de IA “catastróficos” e “enganosos”, como os riscos de armas nucleares. Muitos especialistas dizem que há pouca evidência para sugerir que a IA como a conhecemos ganhará capacidades de acabar com o mundo e superar os humanos em breve, se é que isso acontecerá. Alegações de “superinteligência” iminente servem apenas para desviar a atenção das questões regulatórias urgentes da IA do dia, como as tendências alucinatórias da IA, acrescentam esses especialistas.
Em sua postagem, a Anthropic escreve que espera que seu programa sirva como “um catalisador para o progresso em direção a um futuro onde a avaliação abrangente de IA seja um padrão da indústria”. Essa é uma missão que muitos abrem, corporativo-não afiliado esforços para criar melhores benchmarks de IA podem se identificar. Mas ainda não se sabe se esses esforços estão dispostos a unir forças com um fornecedor de IA cuja lealdade, em última análise, está com os acionistas.
Link do Autor