【环球网科技综合报道】近日,豆包大模型在火山引擎原动力大会上正式亮相,在多项行业主流评测中的成绩也一并披露。据官方公布,豆包大模型在MMLU、BBH、GSM8K、HumanEval等11个评测集上的总分达到76.8分,较上一代“云雀”模型提升了19%。
据悉,此次评测在今年5月进行,涵盖了包括豆包通用模型-pro和云雀Skylark2在内的九款国产大语言模型。在多个维度的测试中,豆包大模型均表现出色。尤其在评估代码能力的HumanEval和MBPP两个评测集上,豆包相比上一代模型提升了约50%的性能,展现出强大的编程能力。同时,在专业知识和指令遵循的评测集上,豆包也分别获得了33%和24%的性能提升。
除了上述方面的优势外,豆包大模型在数学能力、语言理解能力以及综合评测集CMMLU和CEval的评测中也取得了不错的成绩,得分位列前三。这一系列的优异成绩不仅彰显了豆包大模型的技术实力,也体现了其在国产AI领域的领先地位。
值得一提的是,豆包大模型在推出不久后即获得了用户的青睐。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万。