Model Update2026-06-02Hugging Face Blog

JetBrains Lança Mellum2: Modelo MoE de 12 Bilhões de Parâmetros

A JetBrains lançou o Mellum2, um modelo Mixture-of-Experts (MoE) de 12 bilhões de parâmetros projetado para oferecer desempenho de IA eficiente e escalável para aplicações empresariais e de desenvolvedores. Este lançamento marca um passo significativo para tornar a IA poderosa mais acessível, ao mesmo tempo que otimiza os recursos computacionais. A arquitetura Mixture-of-Experts é a chave para a eficiência do Mellum2. Ao contrário dos modelos densos tradicionais que ativam todos os parâmetros para cada entrada, os modelos MoE ativam seletivamente apenas as sub-redes "especialistas" mais relevantes para cada tarefa. Isso significa que o Mellum2 pode alcançar um desempenho comparável ao de modelos muito maiores, usando significativamente menos poder computacional e memória. Com 12 bilhões de parâmetros no total, o Mellum2 encontra um equilíbrio entre capacidade e eficiência. Ele é grande o suficiente para lidar com tarefas complexas como geração de código, compreensão de linguagem natural e análise de dados, mas otimizado o suficiente para rodar em hardware mais modesto do que muitos modelos concorrentes. Isso o torna particularmente atraente para organizações que desejam implantar IA sem investimentos massivos em infraestrutura. A JetBrains, conhecida principalmente por suas ferramentas de desenvolvimento como IntelliJ IDEA e PyCharm, está posicionando o Mellum2 como uma extensão natural de seu ecossistema focado em desenvolvedores. O modelo foi projetado para se integrar perfeitamente aos IDEs da JetBrains, fornecendo conclusão inteligente de código, detecção de bugs e geração de documentação diretamente no ambiente de desenvolvimento. Para aplicações empresariais, o Mellum2 oferece desempenho robusto em benchmarks, mantendo a relação custo-benefício. A arquitetura MoE permite que as organizações escalem o uso de IA sem aumentar proporcionalmente os custos computacionais, tornando-o adequado para implantações de produção de alto volume. O lançamento do Mellum2 reflete uma tendência mais ampla do setor em direção a arquiteturas de IA mais eficientes. À medida que as limitações de simplesmente aumentar o tamanho dos modelos se tornam aparentes, abordagens como a mistura de especialistas oferecem um caminho para melhor desempenho sem um crescimento exponencial dos custos.

Noticias relacionadas