AI魔法学院客服
国产大模型与全球最强大模型大比拼:语义理解、数学推理同台竞技,究竟谁更厉害
随着各种AI模型的快速发展,选择合适的模型成为了研究和开发的一大挑战。最近一段时间,国产模型不断涌现,让人应接不暇。尽管开源的繁荣提供了更多的选择,实际上也造成了选型的困难,尽管业界提供了很多评测基准,但是,很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少,甚至只选择对自己有利的结果。为了更加方便大家对比相关的结果,DataLearner上线了大模型评测综合排行对比表,给大家提供一个更加清晰的对比结果。我们主要关注的是国内开源大模型和一些全球主流模型的对比结果。
 2023-09-06
收藏 复制地址分享海报

随着各种AI模型的快速发展,选择合适的模型成为了研究和开发的一大挑战。最近一段时间,国产模型不断涌现,让人应接不暇。尽管开源的繁荣提供了更多的选择,实际上也造成了选型的困难,尽管业界提供了很多评测基准,但是,很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少,甚至只选择对自己有利的结果。为了更加方便大家对比相关的结果,DataLearner上线了大模型评测综合排行对比表,给大家提供一个更加清晰的对比结果。我们主要关注的是国内开源大模型和一些全球主流模型的对比结果。

DataLearner大模型综合评测对比地址如下:https://www.datalearner.com/ai-models/llm-evaluation

下图是一个截图:

IMG_256

·        

为什么要做大模型的综合对比

·        

·        

各大国产模型在不同评测基准上的表现

·        

§

MMLU的评测结果

§

§

C-Eval评测结果

§

§

AGI Eval评测结果

§

§

GSM8K的评测结果

§

·        

总结

·        

为什么要做大模型的综合对比

简单来说就是希望有一个排行榜可以展示不同模型的评测结果。最近一段时间,清华大学ChatGLM2-6B、阿里巴巴的千问大模型、百川的大模型都陆续开源,中文大模型一篇繁荣。尽管各家在推出自己模型的时候都公布了一些评测结果,但是不同模型选择的评测基准不一样,很难给大家统一的对比结果。例如,有些模型对比结果没有公布业界经常使用的MMLU,而是选择了一些不知名的排行榜,看似结果很好,其实很难有说服力。

为此,DataLearner收集了31个大模型,其中约一半都是国产开源大模型,通过收集它们在MMLUC-EVAL等评测上的评测结果给大家统一展示对比。

首先,给大家介绍一下DataLearner目前收集的4个评测基准:

·        

MMLU:全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在20209月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。论文地址:https://arxiv.org/abs/2009.03300

·        

·        

C-EvalC-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在20235月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。论文地址:https://arxiv.org/abs/2305.08322

·        

·        

AGI Eval:微软发布的大模型基础能力评测基准,在20234月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文,论文地址:https://arxiv.org/abs/2304.06364

·        

·        

GSM8KOpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在202110月份发布,至今仍然是非常困难的一种测试基准,论文地址:https://arxiv.org/abs/2110.14168

·        

可以看到,这四种大模型评测结果都有各自的针对性,从一般的知识与广泛的能力到中英文,再到数学推理,应该说是基本可以覆盖大多数的需求。

各大国产模型在不同评测基准上的表现

并不是所有的大模型都公布了自己在这些评测基准上的结果。但是,经过DataLearner工作人员的收集,基本上覆盖到了可以搜集的结果。下面我们将针对这些评测结果做一个总的概述。

MMLU的评测结果

如前所述,MMLU是一个侧重于一般性广泛的知识能力,涵盖了很广的知识范围。不过主要是英文数据集,但是这个评测对于模型的语义理解等都有较好的评测结果。

下图是所有模型的对比:

IMG_257

从结果看,这个评测被大家的接受程度也很高。除了2个模型(清华大学NLP小组的CPM-Bee和智源AI研究院的Aquila,十分难以理解的结果)外,大家都公布了自己的得分。

IMG_258

毫无疑问,得分最高的是GPT-4,也是唯一一个超过了80分的模型。而谷歌家的模型这一点表现也很不错。其次就是MetaAI开源的LLaMA系列,甚至第一代的LLaMA 65B依然排名第六。而国产模型中阿里巴巴的千问大模型Qwen-7B和智谱AIChatGLM-12B也进入了前10,分别是第九和第十。

C-Eval评测结果

C-Eval主要评测的是中文能力。虽然官方排行榜的第一名是智谱AIChatGLM2,但是由于该模型并不是已公开的某个版本,我们这里也没有收集。结果如下:

IMG_259

在这个评测排名中,国产模型大幅进步。尽管第一名依然是GPT-4,但是第二名已经是智谱AIChatGLM2 12B了,且得分插件不大。而排名前10的模型中,除了OpenAIGPT-4GPT-3.5外,都是国产模型。当然,这也与本次排名中大多数国外模型很少参与这个排名有关。或者一些模型也不支持中文。就不多赘述。

AGI Eval评测结果

AGI Eval是微软提供的评测工具。不过可惜的是很多模型并没有相关的数据。而已有的模型排名如下:

IMG_260

从这个评测结果看,LLaMA的表现很好,而上海人工智能研究院的书生大模型InternLM与元象科技的XVERSE-13B表现都不错。不过,ChatGLM系列没有相关的评测结果,非常可惜。

GSM8K的评测结果

GSM8K是针对数学推理的评测任务,显然也是非常困难的任务。排名如下:

IMG_261

GSM8K的结果不出意外的是GPT-4与谷歌的PaLM2排名靠前。而国产模型中,千问大模型和智谱AIChatGLM2 12B表现也不错。尽管如此,与GPT-4的差距非常大,基本上也就只有它的一半得分。

总结

大模型的评价其实非常复杂,与大家的应用场景也有很大关系。不过,从这些排名看,结果与大家实际使用过程中应该大致是符合的。GPT-4与谷歌的模型在各方面表现都非常好。而国产大模型中,智谱AIChatGLM2系列与千问大模型表现也很稳

希望有更多的大模型可以公布自己的结果,为大家提供一个更好的选择。

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!

出自:https://mp.weixin.qq.com/s/lVQorSHWUmYjDK2MgVm9bg

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
这个创作者的更多内容
Meta无限长文本大模型来了:参数仅7B,已开源
LLM Agent最常见的九种设计模式(图解+代码)
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
查看更多
评论
0 评论
20秒读懂全文
大模型
推荐阅读
· 大模型推理能力增强方法总结
· 无一幸免!OpenAI最强竞对Anthropic:“长上下文”让大模型更不安全
· 全球下载量最大的AI绘画大模型,更新Lightning极速版
· 链接大模型与外部知识,智源开源最强语义向量模型BGE
· 一个产品经理的大模型观察、反思与预测
· 最透彻的大模型PPO原理和源码解读
· 开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群
下载到本地分享

玻璃钢生产厂家湖北公园水景玻璃钢景观雕塑绍兴商场美陈哪里有上海玻璃钢雕塑报价商场美陈dp是什么玻璃钢观音雕塑厂家定做商场美陈图片过年潞城玻璃钢景观雕塑怀集玻璃钢抽象雕塑批发佛山玻璃钢抗战人物雕塑玻璃钢雕塑钢雕塑武汉广场玻璃钢雕塑价格铜陵水果玻璃钢雕塑定做价格玻璃钢动物牛雕塑公司在哪里玻璃钢对雕塑厂的影响秦皇岛小品系列玻璃钢雕塑定做北京工业玻璃钢雕塑摆件白云区玻璃钢雕塑联系方式广东玻璃钢鹿雕塑价格河南步行街玻璃钢雕塑哪家便宜马鞍山欧式玻璃钢雕塑定做价格长沙玻璃钢公仔雕塑图片西宁景区玻璃钢雕塑厂家汕头动物玻璃钢雕塑辽源玻璃钢雕塑公司玻璃钢雕塑大马图片上海景区玻璃钢雕塑制作九台区玻璃钢雕塑工程施工江苏开业商场美陈多少钱朔州玻璃钢雕塑定做太空人玻璃钢雕塑制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化