AIRI разработал новую ИИ‑модель OmniFusion

Разное

20:50 22-11-2023

DimonVideo

AIRI разработал новую ИИ‑модель OmniFusion

Институт AIRI разработал ИИ‑модель OmniFusion, способную анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Об этом 22 ноября 2023 года на конференции AI Journey 2023 заявил доктор физико‑математических наук, СЕО Института искусственного интеллекта AIRI Иван Оселедец. Анализируя предоставленные пользователем изображения, OmniFusion распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве. Об этом рассказали информационной службе Хабра в пресс‑службе AIRI.

По словам разработчиков, модель способна не просто описать картинку, а ответить на сопутствующие вопросы и использовать извлечённую информацию в ходе диалога с человеком. Например, OmniFusion распознаёт сфотографированное блюдо и может предложить рецепт его приготовления. Кроме того, ИИ‑модель находит ответы на логические задачи и графические ребусы, объясняет мемы.

В модели OmniFusion используется способ объединения разных модальностей (картинок и текста) без обучения «с нуля», потому что исследователи построили энкодеры и дообучили уже существующую языковую модель. Обучением модели занималась научная группа FusionBrain института AIRI при участии учёных из Sber AI. В ходе обучения OmniFusion использовали датасеты, составленные из картиночно‑текстовых диалогов и вопросов с ответами по картинкам. Мозговое ядро OmniFusion — это последняя версия GigaChat-7B.

Разработчики OmniFusion выделяют среди существующих в мире аналогов модели два решения: модель LLaVA и модель GPT-4V от OpenAI, интегрированная в сервис ChatGPT. Модель OpenAI закрыта для сторонних разработчиков, поэтому с ней сравнить разработанную AIRI модель не получилось. Сравнение OmniFusion с открытой моделью LLaVA на основе 10 различных бенчмарков показало, что качество OmniFusion не уступает, а в ряде случаев даже превосходит LLaVA. В основе OmniFusion лежит более «лёгкая» языковая модель. В основе LLaVA лежит языковая модель с 13 мл параметров, в основе OmniFusion лежит модель с 7 млрд. Подробнее о модели, можно почитать тут. Иван Оселедец

Доктор физико-математических наук, СЕО Института искусственного интеллекта AIRI

«Сейчас модель стабильно работает на английском языке и обучается грамотному владению русским, чтобы стать доступной пользователям, а наша команда готовит научную публикацию о процессе создания OmniFusion. Общение с помощью изображений – это новый уровень взаимодействия ИИ-модели с человеком, более естественный и привычный для каждого из нас формат коммуникации. Мы будем продолжать активно развивать модель и добавлять в неё новые модальности».

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

AIRI разработал новую ИИ‑модель OmniFusion

Разное

Похожие файлы

В России разработали новую версию вакцины «Спутник V» для борьбы со штаммами «Дельта» и «Омикрон»

В России разработали новый способ изготовления нанотрубок: для микроэлектроники и аккумуляторов

Ученые разработали новый способ изучения наночастиц золота

Саратовские учёные разработали новую конструкцию искусственного клапана сердца