OpenAI lança GPT-Realtime-2 e modelos de voz para tradução e transcrição em tempo real


A OpenAI lançou nesta quinta-feira (7) três modelos de áudio em sua API para o desenvolvimento de aplicativos. O GPT-Realtime-2, o GPT-Realtime-Translate e o GPT-Realtime-Whisper chegam para possibilitar o processamento de pedidos, a tradução de conversas e a transcrição de áudio com redução de latência.

O primeiro deles se trata do GPT-Realtime-2, com raciocínio de classe GPT-5. O sistema gerencia interrupções, correções e mudanças de contexto em tempo real, com foco em conversas ao vivo. A ferramenta ainda permite o uso de preâmbulos de voz enquanto executa ações em segundo plano, por meio de chamadas paralelas de ferramentas.

A janela de contexto do modelo permite conversas longas e com coerência, ao passar de 32 mil para 128 mil tokens. Os desenvolvedores também possuem a opção de definir níveis de raciocínio entre as escalas de mínimo e máximo, conforme a demanda da tarefa.

Clique aqui para ler mais


Link do Autor
Sair da versão mobile