Нейронки 12.01

Евгений Мухсан

Jan 12, 2025 — 2 min read

Коллеги, всех уже с наступившим (уже как 12 дней) Новым 2025 годом! Надеюсь вы хорошо отдохнули, поднабрались сил и идей, и готовы дальше работать и достигать новых успехов! Итак, начнем!

Deepseek V3

Начнем мы с прошлогоднего крупного релиза от компании Deepseek, который называется Deepseek V3. На настоящий момент это самая большая и сильная открытая llm, содержащая в себе 685 МИЛЛИАРДОВ параметров. Такую крошку не смогут запустить 99% селфхостеров, да и облачным провайдерам без квантизации будет несладко. Спустя почти 3 недели после выхода, она все еще висит на 7 месте в топе мировых моделей, ровно посредине o1-mini и o1-preview.

Рейтинг моделей на 12.01.2025 с сайта https://lmarena.ai/

Очень достойный результат, учитывая что уже появились квантизации до 400 гигабайт. Подарок на новый год от китайцев вышел очень приятный, а еще приятнее то, что модель можно потыкать абсолютно бесплатно в их чате (Кстати, там же они тестируют свою reasoning модель R1, которую выпустят в этом году).

Phi-4

Крупный релиз от Microsoft, продолжающий семейство моделей Phi. Размерность 14B параметров, архитектура классических трансформеров. Модель неплохо подняла свое качество из-за новых датасетов, в том числе и в русском языке.

Однако, особых концептуальных нововведений в модели нет, и в моих юзкейсах работы с текстом она показала себе достойно и явно лучше Phi-3, но для себя применения ей я не нашел. Модель нужно тестировать, и вероятно она очень хорошо покажет себя в работе с английским в RAG системах и в ризонинге.

Moondream 2

Немного про Vision модели, недавно вышла моделька Moondream 2 от разработчика vikhyatk. Чем мне понравился этот релиз? Очень, вот прямо ОЧЕНЬ хорошими навыками анализа картинок. OCR, QA и другие сферы хорошо отрабатываются этим релизом (по крайней мере, на английском языке). По моему ощущению, моделька обошла все предыдущие релизы от LLaMa и Qwen, при этом в помещаясь в размер менее 900 мегабайт. Потестировать можно тут.

Kokoro

Сегодняшний дайджест завершим новой концептуальной TTS моделькой Kokoro-82M. Из названия понятно, что она размером 82M параметров. В чем ее уникальность? В том, что она обучалась всего на 100 часах аудио, и при этом выдает отличный результат для своего размера.

HEARME

0:00

/233.301333

Моделька настолько маленькая, что летает даже на простых CPU. Размер файла модели составляет 346 мегабайт и вес голоса для нее 524 килобайта. Вау, просто вау. Если дообучить модель на более крупном датасете, то можно будет получить качество близкое к проприетарным крупным моделям!

На сегодня пока все, год только начинается, а разгон с новыми моделями (и соответственно, новым качеством и возможностьями) уже пошел. Ждем релизов от других крупных игроков, особенно интересно что выпустят наши китайские братья в Qwen 3. Наблюдаем и смотрим, всем хорошего вечера и удачной рабочей недели!

Нейронки 22.12.24

Добрый день, уважаемые читатели! Это новый выпуск нашего дайджеста про нейронки. Сегодня мы сделаем акцент на новом развивающемся виде нейросетей - T2V. Удивительно, насколько быстро они развиваются, и похоже тормозить они не планируют. Итак, приступим! Свежак: нейросеть Trellis t23d Однако, стоит начать с отдельной звездочки последних двух недель - нейросети

Нейронки. 08.12.24

Нейросети продолжают революционизировать мир технологий, открывая новые возможности для решения сложных задач и улучшения нашей жизни. На этой неделе мы снова стали свидетелями прорывов и достижений в области искусственного интеллекта. От новейших разработок в области обработки естественного языка до инновационных решений в области компьютерного зрения, я представляю Вам сжатую подборку

Нейронки. 24.11.24

Всем добрый день! Cегодня поговорим про новинки в мире нейросетей. Обсудим что вышло свежего, насколько оно хорошо работает и где это можно применить. Начнем! Qwen 2.5 Coder Ноябрь 2024. Новая SOTA? Долгожданный релиз обновления нейросети Qwen 2.5 Coder, обещающий нам уверенный прирост качества. Так что же поменялось в

Нейронки. 02.11.24

Приветствую всех слушателей нашего подкаста! Сегодня мы отправимся в захватывающий мир нейросетей — технологий, которые уже меняют и продолжат трансформировать наш мир в ближайшие годы. Мы разберемся, как нейросети учатся, что позволяет им решать задачи, ранее доступные только человеку, и какие перспективы они открывают. Поговорим о том, как эти алгоритмы становятся