
Поддержка голоса и изображений будет доступна для владельцев подписок Plus и Enterprise в течение ближайших двух недель, обещает OpenAI. Голосовые функции появятся в приложении для iOS и Android, а распознавание изображений будет доступно на всех платформах.
Пользователи могут выбрать один из пяти вариантов голоса (два мужских, два женских, один нейтральный). Для распознавания речи OpenAI использует свою систему Whisper. Разработчики утверждают, что система распознаёт речь на английском языке практически как человек. Для обучения модели использовали 680 тысяч часов речевых данных. Whisper может корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон.