категории | RSS

AIRI разработал новую ИИ‑модель OmniFusion

Институт AIRI разработал ИИ‑модель OmniFusion, способную анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Об этом 22 ноября 2023 года на конференции AI Journey 2023 заявил доктор физико‑математических наук, СЕО Института искусственного интеллекта AIRI Иван Оселедец. Анализируя предоставленные пользователем изображения, OmniFusion распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве. Об этом рассказали информационной службе Хабра в пресс‑службе AIRI.

По словам разработчиков, модель способна не просто описать картинку, а ответить на сопутствующие вопросы и использовать извлечённую информацию в ходе диалога с человеком. Например, OmniFusion распознаёт сфотографированное блюдо и может предложить рецепт его приготовления. Кроме того, ИИ‑модель находит ответы на логические задачи и графические ребусы, объясняет мемы.

В модели OmniFusion используется способ объединения разных модальностей (картинок и текста) без обучения «с нуля», потому что исследователи построили энкодеры и дообучили уже существующую языковую модель. Обучением модели занималась научная группа FusionBrain института AIRI при участии учёных из Sber AI. В ходе обучения OmniFusion использовали датасеты, составленные из картиночно‑текстовых диалогов и вопросов с ответами по картинкам. Мозговое ядро OmniFusion — это последняя версия GigaChat-7B. 

Разработчики OmniFusion выделяют среди существующих в мире аналогов модели два решения: модель LLaVA и модель GPT-4V от OpenAI, интегрированная в сервис ChatGPT. Модель OpenAI закрыта для сторонних разработчиков, поэтому с ней сравнить разработанную AIRI модель не получилось. Сравнение OmniFusion с открытой моделью LLaVA на основе 10 различных бенчмарков показало, что качество OmniFusion не уступает, а в ряде случаев даже превосходит LLaVA. В основе OmniFusion лежит более «лёгкая» языковая модель. В основе LLaVA лежит языковая модель с 13 мл параметров, в основе OmniFusion лежит модель с 7 млрд. Подробнее о модели, можно почитать тут. Иван Оселедец

Доктор физико-математических наук, СЕО Института искусственного интеллекта AIRI

«Сейчас модель стабильно работает на английском языке и обучается грамотному владению русским, чтобы стать доступной пользователям, а наша команда готовит научную публикацию о процессе создания OmniFusion. Общение с помощью изображений – это новый уровень взаимодействия ИИ-модели с человеком, более естественный и привычный для каждого из нас формат коммуникации. Мы будем продолжать активно развивать модель и добавлять в неё новые модальности».



Источник новости: habr.com

DimonVideo
2023-11-22T20:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика