A OpenAI lançou nesta quinta-feira (7) três modelos de áudio em sua API para o desenvolvimento de aplicativos. O GPT-Realtime-2, o GPT-Realtime-Translate e o GPT-Realtime-Whisper chegam para possibilitar o processamento de pedidos, a tradução de conversas e a transcrição de áudio com redução de latência.
O primeiro deles se trata do GPT-Realtime-2, com raciocínio de classe GPT-5. O sistema gerencia interrupções, correções e mudanças de contexto em tempo real, com foco em conversas ao vivo. A ferramenta ainda permite o uso de preâmbulos de voz enquanto executa ações em segundo plano, por meio de chamadas paralelas de ferramentas.
A janela de contexto do modelo permite conversas longas e com coerência, ao passar de 32 mil para 128 mil tokens. Os desenvolvedores também possuem a opção de definir níveis de raciocínio entre as escalas de mínimo e máximo, conforme a demanda da tarefa.
Clique aqui para ler mais
Link do Autor
