API de áudio evolui e quer transformar chamadas ao vivo
OpenAI – A companhia apresentou, na quinta-feira (7), três modelos de áudio capazes de processar, traduzir e transcrever conversas quase sem latência, mirando aplicativos que exigem respostas instantâneas.
- Em resumo: GPT-Realtime-2 agora lida com interrupções e amplia contexto para 128 mil tokens.
Como o GPT-Realtime-2 reduz a latência
O novo modelo opera com raciocínio de classe GPT-5 e executa chamadas paralelas de ferramentas, o que permite que comandos em segundo plano ocorram enquanto a voz de preâmbulo ainda está sendo reproduzida. Segundo testes divulgados, a nova janela de 128k tokens garante coerência mesmo em diálogos extensos, algo antes restrito a soluções mais pesadas. Detalhes técnicos adicionais podem ser conferidos no Canaltech.
“A janela de contexto do modelo permite conversas longas e com coerência, ao passar de 32 mil para 128 mil tokens.”
O que isso significa para apps de tradução
Com a chegada dos modelos GPT-Realtime-Translate e GPT-Realtime-Whisper, desenvolvedores ganham uma base pronta para competir com serviços como Google Tradução e DeepL. A possibilidade de definir níveis de raciocínio — do mínimo ao máximo — abre caminho para experiências customizadas, desde suporte a clientes multilíngue até jogos que reagem por voz em tempo real.
O que você acha? Será que a concorrência conseguirá reagir tão rápido? Para mais novidades sobre inteligência artificial, acesse nossa editoria especializada.
Crédito da imagem: Divulgação / OpenAI