Нейронки. 02.11.24
Приветствую всех слушателей нашего подкаста! Сегодня мы отправимся в захватывающий мир нейросетей — технологий, которые уже меняют и продолжат трансформировать наш мир в ближайшие годы. Мы разберемся, как нейросети учатся, что позволяет им решать задачи, ранее доступные только человеку, и какие перспективы они открывают. Поговорим о том, как эти алгоритмы становятся незаменимыми в самых разных сферах: от медицины и финансов до развлечений и искусства. Готовы? Тогда начнем погружение в мир искусственного интеллекта!
OmniParser
Свежий релиз от Microsoft, которая выпустила одну из первых качественных нейросетей OmniParser. Она может взять скриншот любого пользовательского интерфейса и преобразовать его в структурированный формат.
Зачем это нужно? Для взаимодействия больших языковых моделей с пользовательскими интерфейсами! По факту, ребята взяли за основу идею Anthropic под названием Computer Use. Теперь на основе OmniParser можно создавать открытые приложения для выполнения задач на ПК через пользовательский Обучающие датасеты включают набор данных для детекции данных, созданный из популярных веб-страниц. Под капотом настроенная версия YOLOv8 для распознавания интерактивных элементов и настроенная версия BLIP-2 для описания функций иконок. Такой койктель дает большие надежды на скорую имплементацию технологии в быту и в проектах.
Mochi 1 Preview
Компания Genmo выпустила в свет превью новою t2v модель под названием Mochi 1. Размер 10B и новая архитектура трансформеров AsymmDiT позволили ей добиться хорошего качества генерации в сравнении с конкурентами.
Учитывая, что это первый релиз компании, будем ждать от нее выпуск полноценной модели.
Stable Diffusion 3.5 Medium
Компания StabilityAI после провального выпуска модели Stable Diffusion 3 активно пытается вернуться в строй. Этому свительствует новый релиз модели Stable Diffusion 3.5 Medium, младшей версии недавно выпущенной Stable Diffusion 3.5 Large.
Как и старший брат, модель основана на модифицированной архитектуре Multimodal Diffusion Transformer (MMDiT-X), весом 5.1 ГБ в несжатом виде, а значит квантизованные версии модели можно будет смело запускать на Low-End устройства. ComfyUI и diffusers уже поддерживают работу с этим "чудом инженерной мысли", так что каждый уже может испытать ее в деле.
SmolLM2
Неожиданный релиз от компании HuggingFace, которые только недавно выпустили первую версию SmolLM, а сегодня уже представили обновленную SmolLM2!
Для тех кто в танке, SmolLM это семейство моделей для edge устройств (телефоны, умные устройства). Самая тяжелая модель в квантизованном виде весит менее 2 ГБ, а вес младших моделей находится в районе 300-500 МБ. Таким образом, их можно запустить на любом кирпиче, а на плюс-минус современных телефонах это все будет работать как часы. К сожалению, русский язык не их сильная сторона. Однако, будем ждать релиз от лаборатории Вихря, которые наверняка заинтересуются этой моделью.
Aya Expanse
И последнее на сегодня это релиз от CohereAI, которые выпустили новое семейство SLM Aya Expanse.
Это одно из первых семейств open-weight моделей, ориентированных не на генерацию текста, а на его перевод. Модель выпущена в размерах 8B и 32B, и официально поддерживает 23 языка: Арабский, китайский (упрощённый), китайский (традиционный), чешский, нидерландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.
Звучит очень интригующе, и первичные тесты 8B модели в Ollama показывают очень неплохие результаты! Похоже эпоха DeepL медленно уходит, и ее место очень скоро займут более дешевые и эффективные локальные модели.
Вот и все, мы поговорили о самых интересных моделях недели. Был проведен анонс выпуска корпорацией Meta новой LLama 4 в начале 2025 года, да и другие компании начали выпускать новинки нейросетевой индустрии намнго быстрее. Проще говоря, ближайший год обещает быть очень интересным! Спасибо за уделенное время, приятного Воскресенья!