OpenAI выпустила новые voice-модели для API: что изменилось в обработке речи

Компания OpenAI расширила возможности своих API, представив три новые voice-модели, которые обещают сделать взаимодействие с искусственным интеллектом более естественным и динамичным. В фокусе обновления — обработка речи в реальном времени, синхронный перевод и улучшенное понимание сложных запросов.

Первая модель, GPT-Realtime-2, позиционируется как голосовая версия с логическими способностями, сопоставимыми с уровнем GPT-5. Она предназначена для ведения диалогов, которые больше напоминают человеческую беседу, а не стандартный обмен репликами с ИИ. Модель способна обрабатывать сложные запросы, сохраняя контекст и адаптируясь под стиль общения собеседника.

Вторая модель, GPT-Realtime-Translate, специализируется на синхронном переводе. По заявлению разработчиков, она практически не отстаёт от темпа речи человека, что делает её пригодной для применения в международных переговорах, обучении или развлекательных трансляциях. Технология обещает минимизировать задержки, которые традиционно возникают при переводе в реальном времени.

Третья модель, GPT-Realtime-Whisper, ориентирована на распознавание и преобразование потокового аудио в текст. Она способна обрабатывать речь с высокой точностью, что открывает новые возможности для транскрибации подкастов, интервью или деловых встреч. Все три модели интегрируются в существующий API OpenAI, что упрощает их внедрение для разработчиков.

Эти обновления могут стать важным шагом для компаний, работающих с голосовыми интерфейсами, автоматизированными колл-центрами или мультиязычными платформами. Новые модели уже доступны для тестирования, а их полноценный запуск ожидается в ближайшие месяцы. В перспективе такие технологии способны изменить подход к взаимодействию с ИИ, сделав его более интуитивным и адаптивным.

Автор

Сергей Сергеев

Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

OpenAI выпустила новые voice-модели для API: что изменилось в обработке речи

Автор

Сейчас читают

Оставьте комментарий Отменить ответ

OpenAI выпустила новые voice-модели для API: что изменилось в обработке речи

Автор

Сейчас читают

По теме

Оставьте комментарий Отменить ответ