Нейронки 12.01
Коллеги, всех уже с наступившим (уже как 12 дней) Новым 2025 годом! Надеюсь вы хорошо отдохнули, поднабрались сил и идей, и готовы дальше работать и достигать новых успехов! Итак, начнем!
Deepseek V3
Начнем мы с прошлогоднего крупного релиза от компании Deepseek, который называется Deepseek V3. На настоящий момент это самая большая и сильная открытая llm, содержащая в себе 685 МИЛЛИАРДОВ параметров. Такую крошку не смогут запустить 99% селфхостеров, да и облачным провайдерам без квантизации будет несладко. Спустя почти 3 недели после выхода, она все еще висит на 7 месте в топе мировых моделей, ровно посредине o1-mini и o1-preview.
Очень достойный результат, учитывая что уже появились квантизации до 400 гигабайт. Подарок на новый год от китайцев вышел очень приятный, а еще приятнее то, что модель можно потыкать абсолютно бесплатно в их чате (Кстати, там же они тестируют свою reasoning модель R1, которую выпустят в этом году).
Phi-4
Крупный релиз от Microsoft, продолжающий семейство моделей Phi. Размерность 14B параметров, архитектура классических трансформеров. Модель неплохо подняла свое качество из-за новых датасетов, в том числе и в русском языке.
Однако, особых концептуальных нововведений в модели нет, и в моих юзкейсах работы с текстом она показала себе достойно и явно лучше Phi-3, но для себя применения ей я не нашел. Модель нужно тестировать, и вероятно она очень хорошо покажет себя в работе с английским в RAG системах и в ризонинге.
Moondream 2
Немного про Vision модели, недавно вышла моделька Moondream 2 от разработчика vikhyatk. Чем мне понравился этот релиз? Очень, вот прямо ОЧЕНЬ хорошими навыками анализа картинок. OCR, QA и другие сферы хорошо отрабатываются этим релизом (по крайней мере, на английском языке). По моему ощущению, моделька обошла все предыдущие релизы от LLaMa и Qwen, при этом в помещаясь в размер менее 900 мегабайт. Потестировать можно тут.
Kokoro
Сегодняшний дайджест завершим новой концептуальной TTS моделькой Kokoro-82M. Из названия понятно, что она размером 82M параметров. В чем ее уникальность? В том, что она обучалась всего на 100 часах аудио, и при этом выдает отличный результат для своего размера.
Моделька настолько маленькая, что летает даже на простых CPU. Размер файла модели составляет 346 мегабайт и вес голоса для нее 524 килобайта. Вау, просто вау. Если дообучить модель на более крупном датасете, то можно будет получить качество близкое к проприетарным крупным моделям!
На сегодня пока все, год только начинается, а разгон с новыми моделями (и соответственно, новым качеством и возможностьями) уже пошел. Ждем релизов от других крупных игроков, особенно интересно что выпустят наши китайские братья в Qwen 3. Наблюдаем и смотрим, всем хорошего вечера и удачной рабочей недели!