Нейронки. 02.11.24

Приветствую всех слушателей нашего подкаста! Сегодня мы отправимся в захватывающий мир нейросетей — технологий, которые уже меняют и продолжат трансформировать наш мир в ближайшие годы. Мы разберемся, как нейросети учатся, что позволяет им решать задачи, ранее доступные только человеку, и какие перспективы они открывают. Поговорим о том, как эти алгоритмы становятся незаменимыми в самых разных сферах: от медицины и финансов до развлечений и искусства. Готовы? Тогда начнем погружение в мир искусственного интеллекта!

OmniParser

Свежий релиз от Microsoft, которая выпустила одну из первых качественных нейросетей OmniParser. Она может взять скриншот любого пользовательского интерфейса и преобразовать его в структурированный формат.

Зачем это нужно? Для взаимодействия больших языковых моделей с пользовательскими интерфейсами! По факту, ребята взяли за основу идею Anthropic под названием Computer Use. Теперь на основе OmniParser можно создавать открытые приложения для выполнения задач на ПК через пользовательский Обучающие датасеты включают набор данных для детекции данных, созданный из популярных веб-страниц. Под капотом настроенная версия YOLOv8 для распознавания интерактивных элементов и настроенная версия BLIP-2 для описания функций иконок. Такой койктель дает большие надежды на скорую имплементацию технологии в быту и в проектах.

Mochi 1 Preview

Компания Genmo выпустила в свет превью новою t2v модель под названием Mochi 1. Размер 10B и новая архитектура трансформеров AsymmDiT позволили ей добиться хорошего качества генерации в сравнении с конкурентами.

Учитывая, что это первый релиз компании, будем ждать от нее выпуск полноценной модели.

Stable Diffusion 3.5 Medium

Компания StabilityAI после провального выпуска модели Stable Diffusion 3 активно пытается вернуться в строй. Этому свительствует новый релиз модели Stable Diffusion 3.5 Medium, младшей версии недавно выпущенной Stable Diffusion 3.5 Large.

Как и старший брат, модель основана на модифицированной архитектуре Multimodal Diffusion Transformer (MMDiT-X), весом 5.1 ГБ в несжатом виде, а значит квантизованные версии модели можно будет смело запускать на Low-End устройства. ComfyUI и diffusers уже поддерживают работу с этим "чудом инженерной мысли", так что каждый уже может испытать ее в деле.

SmolLM2

Неожиданный релиз от компании HuggingFace, которые только недавно выпустили первую версию SmolLM, а сегодня уже представили обновленную SmolLM2!

Для тех кто в танке, SmolLM это семейство моделей для edge устройств (телефоны, умные устройства). Самая тяжелая модель в квантизованном виде весит менее 2 ГБ, а вес младших моделей находится в районе 300-500 МБ. Таким образом, их можно запустить на любом кирпиче, а на плюс-минус современных телефонах это все будет работать как часы. К сожалению, русский язык не их сильная сторона. Однако, будем ждать релиз от лаборатории Вихря, которые наверняка заинтересуются этой моделью.

Aya Expanse

И последнее на сегодня это релиз от CohereAI, которые выпустили новое семейство SLM Aya Expanse.

Это одно из первых семейств open-weight моделей, ориентированных не на генерацию текста, а на его перевод. Модель выпущена в размерах 8B и 32B, и официально поддерживает 23 языка: Арабский, китайский (упрощённый), китайский (традиционный), чешский, нидерландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.

Звучит очень интригующе, и первичные тесты 8B модели в Ollama показывают очень неплохие результаты! Похоже эпоха DeepL медленно уходит, и ее место очень скоро займут более дешевые и эффективные локальные модели.


Вот и все, мы поговорили о самых интересных моделях недели. Был проведен анонс выпуска корпорацией Meta новой LLama 4 в начале 2025 года, да и другие компании начали выпускать новинки нейросетевой индустрии намнго быстрее. Проще говоря, ближайший год обещает быть очень интересным! Спасибо за уделенное время, приятного Воскресенья!

Read more

Нейронки 12.01

Коллеги, всех уже с наступившим (уже как 12 дней) Новым 2025 годом! Надеюсь вы хорошо отдохнули, поднабрались сил и идей, и готовы дальше работать и достигать новых успехов! Итак, начнем! Deepseek V3 Начнем мы с прошлогоднего крупного релиза от компании Deepseek, который называется Deepseek V3. На настоящий момент это самая

By Евгений Мухсан

Нейронки 22.12.24

Добрый день, уважаемые читатели! Это новый выпуск нашего дайджеста про нейронки. Сегодня мы сделаем акцент на новом развивающемся виде нейросетей - T2V. Удивительно, насколько быстро они развиваются, и похоже тормозить они не планируют. Итак, приступим! Свежак: нейросеть Trellis t23d Однако, стоит начать с отдельной звездочки последних двух недель - нейросети

By Евгений Мухсан

Нейронки. 08.12.24

Нейросети продолжают революционизировать мир технологий, открывая новые возможности для решения сложных задач и улучшения нашей жизни. На этой неделе мы снова стали свидетелями прорывов и достижений в области искусственного интеллекта. От новейших разработок в области обработки естественного языка до инновационных решений в области компьютерного зрения, я представляю Вам сжатую подборку

By Евгений Мухсан
Нейронки. 24.11.24

Нейронки. 24.11.24

Всем добрый день! Cегодня поговорим про новинки в мире нейросетей. Обсудим что вышло свежего, насколько оно хорошо работает и где это можно применить. Начнем! Qwen 2.5 Coder Ноябрь 2024. Новая SOTA? Долгожданный релиз обновления нейросети Qwen 2.5 Coder, обещающий нам уверенный прирост качества. Так что же поменялось в

By Евгений Мухсан