Компания OpenAI накануне вечером провела презентацию генеративной модели GPT-4o. Буква «О» в названии обозначает сокращение от слова omni — «всесторонний». Нейросеть реагирует на голос в среднем за 320 миллисекунд, что сравнимо с реакцией в разговоре. Новая модель GPT работает с речью, текстом и видео. Она общается естественным голосом, даже умеет шутить и понимать эмоции, а также делает паузы в речи, если ее что-то спросить.
Автор: @OpenAI/YouTube
В ходе презентации технический директор компании Мира Мурати рассказала, что GPT-4o намного быстрее предыдущих версий — нейросеть сможет анализировать содержание документов, видео и изображений, а также переводить речь на слух.
Ведущие попросили GPT-4o рассказать сказку о роботах, а потом резко уточнили, что она должна звучать драматичнее. Затем попросили генеративную модель спеть эту же сказку.
Автор: @OpenAI/YouTube
Также ведущий от руки на листе бумаги записал арифметический пример. Показал его камерой GPT-4o и голосом дал команду его решить. Нейросеть озвучила алгоритм решения.
Автор: @OpenAI/YouTube
Кроме того, в ходе презентации собеседники общались на английском и итальянском — GPT-4o помогал им понимать друг друга.
Автор: @OpenAI/YouTube
C обновленной моделью нейросети пользователи смогут взаимодействовать больше как с голосовым помощником.
GPT-4o будет доступна и для тех, кто не станет оплачивать подписку. Также OpenAI выпустит отдельное приложение для MacОS. Такой же аналог для Windows появится в течение 2024 года.