OpenAI внедряет в ChatGPT функции распознавания голоса и изображений
ChatGPT научилась разговаривать голосом и распознавать фотографии. Новые функции увеличивают варианты использования чат-бота. Например, пользователь сможет сфотографировать достопримечательность и расспросить чат-бота о ней или обсудить интересные детали.

 

Поддержка голоса и изображений будет доступна для владельцев подписок Plus и Enterprise в течение ближайших двух недель, обещает OpenAI. Голосовые функции появятся в приложении для iOS и Android, а распознавание изображений будет доступно на всех платформах.

Пользователи могут выбрать один из пяти вариантов голоса (два мужских, два женских, один нейтральный). Для распознавания речи OpenAI использует свою систему Whisper. Разработчики утверждают, что система распознаёт речь на английском языке практически как человек. Для обучения модели использовали 680 тысяч часов речевых данных. Whisper может корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон.