Нейронки 22.12.24
Добрый день, уважаемые читатели! Это новый выпуск нашего дайджеста про нейронки. Сегодня мы сделаем акцент на новом развивающемся виде нейросетей - T2V. Удивительно, насколько быстро они развиваются, и похоже тормозить они не планируют. Итак, приступим!
Свежак: нейросеть Trellis t23d
Однако, стоит начать с отдельной звездочки последних двух недель - нейросети Trellis. Она способна из единой фотографии создать трехмерную модель с достаточно высоким качеством.
Достаточно концептуальненько, модели достаточно низкополигональны, но более чем пригодны для использования в геймдеве, веб разработке, и других подобных задачах. Потестировать можно тут.
Dokdo: Digital Odyssey from Korea
Корейцы выпустили ограниченную демку для нейросети Dokgo.
Демка достаточно простая, однако можно потыкать и попробовать ее функционал. Ссылка.
LXT-Video
Чуть более простая, но при этом полностью открытая модель от компании Lightricks. Эта модель может производить видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей быстрее, чем их можно просматривать. Благодаря обучению на большом наборе данных разнообразных видео, LTX-Video генерирует видео высокого разрешения с реалистичным и разнообразным содержанием. Особенностью этой модели является поддержка как текст-в-видео, так и изображение+текст-в-видео сценариев применения.
Модельку также можно потестировать на HuggingFace, ссылка.
InternVL2.5
В заключение, поговорим про новую омнимодальную модель InternVL 2.5. Модель InternVL 2.5 представляет собой продвинутую многомодальную большую языковую модель, которая развивает архитектуру предыдущих моделей. Основная особенность этой модели заключается в том, что она сохраняет свою изначальную архитектуру, но вводит значительные улучшения в стратегиях обучения и качестве данных.
Модель поддерживает обработку как одиночных изображений, так и видео, и имеет повышенную робастность к шумным данным. Для достижения этой цели была разработана трёхэтапная система обучения, которая включает в себя предварительное обучение, инкрементное обучение и полную настройку модели на основе высококачественных данных.
Говоря про тесты, вот их результаты:
В большинстве тестов старшие модели обходят закрытые модели OpenAI и Gemini. Очень добротные результаты для открытой модели, учитывая что в скором времени 78B модель можно будет запускать ориентировочно на 45 GB видеопамяти. Перспективно, интересно, будем пробовать.
Если говорить про тесты модели, то она показала прекрасные результаты на уровне GPT 4o.
Модельку еще нужно тестировать, однако очевидно, что она сможет переваривать нестанадартные и сложые кейсы, в том числе и на русском языке. Очень хороший результат!
Это последний дайджест в этом году, уже скоро мы начнем накрывать столы, поздравлять близких с Новым Годом и верить Деда Мороза. Всех с наступающим Новым Годом и Рождеством, до новых встреч!