JetBrains открыла Mellum2 — MoE-модель для быстрых AI-сценариев в разработке
Компания JetBrains открыла модель Mellum2, предназначенную для использования в AI-инструментах для разработки ПО. Модель опубликована под лицензией Apache 2.0, веса доступны на Hugging Face. В JetBrains подчёркивают, что Mellum2 обучалась с нуля и рассчитана не на мультимодальные задачи, а на работу с текстом и кодом: маршрутизацию запросов, RAG-конвейеры, суммаризацию, вспомогательных агентов и приватное развёртывание в инфраструктуре компаний.
Mellum2 построена по архитектуре Mixture-of-Experts. При общем размере в 12 млрд параметров на каждый токен активируется только около 2.5 млрд параметров, что должно снижать вычислительные затраты и задержки при инференсе. По утверждению JetBrains, по производительности на бенчмарках модель сопоставима с открытыми моделями близкого размера, но обеспечивает более чем двукратное ускорение инференса.
( читать дальше... )
>>> Источник (jetbrains.com)




