JetBrains 推出 Mellum2：120亿参数混合专家模型

JetBrains 已推出 Mellum2，这是一个拥有120亿参数的混合专家（MoE）模型，旨在为企业和开发者应用提供高效且可扩展的人工智能性能。此次发布标志着在让强大的人工智能更易获取的同时优化计算资源方面迈出了重要一步。混合专家架构是 Mellum2 高效性的关键。与针对每个输入激活所有参数的传统密集模型不同，MoE 模型仅为每个任务选择性地激活最相关的“专家”子网络。这意味着 Mellum2 能够实现与更大模型相媲美的性能，同时显著减少计算能力和内存的使用。凭借总计120亿个参数，Mellum2 在能力与效率之间取得了平衡。它足够大，可以处理代码生成、自然语言理解和数据分析等复杂任务，同时又经过优化，可以在比许多竞争模型更普通的硬件上运行。这使得它对那些希望部署人工智能但无需进行大规模基础设施投资的组织尤其具有吸引力。以 IntelliJ IDEA 和 PyCharm 等开发者工具而闻名的 JetBrains，正将 Mellum2 定位为其以开发者为中心的生态系统的自然延伸。该模型旨在与 JetBrains IDE 无缝集成，直接在开发环境中提供智能代码补全、错误检测和文档生成。对于企业应用，Mellum2 在基准测试中表现出色，同时保持了成本效益。MoE 架构允许组织扩展人工智能使用规模，而无需按比例增加计算成本，使其适用于高吞吐量的生产部署。 Mellum2 的发布反映了业界向更高效人工智能架构发展的更广泛趋势。随着单纯扩大模型规模的局限性日益显现，混合专家等方法为在不指数级增加成本的情况下获得更好性能提供了一条路径。

JetBrains 推出 Mellum2：120亿参数混合专家模型

相关资讯