
Компания OpenAI расширила возможности своих API, представив три новые voice-модели, которые обещают сделать взаимодействие с искусственным интеллектом более естественным и динамичным. В фокусе обновления — обработка речи в реальном времени, синхронный перевод и улучшенное понимание сложных запросов.
Первая модель, GPT-Realtime-2, позиционируется как голосовая версия с логическими способностями, сопоставимыми с уровнем GPT-5. Она предназначена для ведения диалогов, которые больше напоминают человеческую беседу, а не стандартный обмен репликами с ИИ. Модель способна обрабатывать сложные запросы, сохраняя контекст и адаптируясь под стиль общения собеседника.
Вторая модель, GPT-Realtime-Translate, специализируется на синхронном переводе. По заявлению разработчиков, она практически не отстаёт от темпа речи человека, что делает её пригодной для применения в международных переговорах, обучении или развлекательных трансляциях. Технология обещает минимизировать задержки, которые традиционно возникают при переводе в реальном времени.
Третья модель, GPT-Realtime-Whisper, ориентирована на распознавание и преобразование потокового аудио в текст. Она способна обрабатывать речь с высокой точностью, что открывает новые возможности для транскрибации подкастов, интервью или деловых встреч. Все три модели интегрируются в существующий API OpenAI, что упрощает их внедрение для разработчиков.
Эти обновления могут стать важным шагом для компаний, работающих с голосовыми интерфейсами, автоматизированными колл-центрами или мультиязычными платформами. Новые модели уже доступны для тестирования, а их полноценный запуск ожидается в ближайшие месяцы. В перспективе такие технологии способны изменить подход к взаимодействию с ИИ, сделав его более интуитивным и адаптивным.


