为何同一个中文大模型,不同评测标准打分差异大?

2023-05-10 17:14:23 来源:雪球网

5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵,论坛上对该评测标准质疑的声音越发多了,这是为什么?大模型评测标准设立的难度又在哪里?


(资料图)

中文评测标准为何重要?

科大讯飞董事长刘庆峰认为:如果要努力追赶OpenAI的进度,需要一套科学系统的评测体系;用这一套科学系统,来判定技术迭代到底到了什么程度,还有哪些任务是不达标的。

第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异,需要针对中文特点开发相应的数据集,以确保评测结果的准确性和公正性。

第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言,而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别,需要不同的评测标准和方法。

第三、中文词汇量和歧义性。中文的词汇量非常大,而且存在很多歧义性,需要更复杂的处理方法和技术,如分词、词性标注、命名实体识别等。

但从当下来看,这貌似又是一个在短期内非常难以兑现的预期。

中文大模型评测标准化很难,SuperCLUE被吐槽选择题方式单一

刚刚发布的文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。

SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

,该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室(简称“计算所NLP”)开发和维护的。

JioNLP评测还提供了多种评测指标和计算工具,以帮助研究者和开发者客观地评估模型的性能和效果,并比较不同模型的优缺点和适用范围。

JioNLP评测方式目前的总下载量达到2.4万次,近三十天下载量为1634次。

通过JioNLP评测,研究者和开发者可以获取实时的评测结果和排名,以及相应的源代码和技术报告,为中文自然语言处理的研究和应用提供参考和支持。

从JioNLP评测的结果来看:文心一言的得分却又高于星火大模型。

这背后的原因是

SuperCLUE是只通过选择题对模型能力进行测试,而JioNLP采用的是客观选择题+主观题(生成题、翻译题和聊天题)进行测试。

但相同的是,在官网留言区对于两个测试标准都出现很多质疑声音。

如:对SuperCLUE评测方法如何限定测试题目数量,生成和创作类评测用选择题测试是否合理,以及建议SuperCLUE像中文Alpaca一样适度公开评测说明和标准。JioNLP也同样存在测试精度、样本量小等问题。

常用的机器学习模型评估标准有7个比较重要的方向:

包括准确度(针对分类能力)、精确度和召回率(模型正确预测的内容占该样本的比例)、对抗攻击鲁棒性(模型在受到输入干扰时保持稳定的能力)、计算效率、均方误差、R方值以及数据隐私。

从当下来看,SuperCLUE的评测方式单一性确实存在一定的弊端,但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。

总的来说,大模型测试标准化是行业所需要的,但同样也是非常难实现的。

$科大讯飞(SZ002230)$$百度(BIDU)$$昆仑万维(SZ300418)$

欢迎大家在评论区评论互动~

关注见智研究Pro,获取更多行业热点解析

关键词:

相关文章

热文推荐

为何同一个中文大模型,不同评测标准打分差异大?
为何同一个中文大模型,不同评测标准打分差异大?

5月9日中文通用大模型综合性评测基准SuperCLUE正式发......更多>

当前要闻:【学无“指”境·03期】中证500进入“击球区”,你准备好“挥棒”了吗?
当前要闻:【学无“指”境·03期】中证500进入“击球区”,你准备好“挥棒”了吗?

刚刚过去的周末,看到不少投资者在谈论素有“投资界春......更多>

管住你的性格弱点,赚钱才有可能
管住你的性格弱点,赚钱才有可能

巴菲特说,对于投资,最重要的不是你的智商,而是你的......更多>

“乌龙”?大V出手,基金瞬间直逼涨停-每日热文
“乌龙”?大V出手,基金瞬间直逼涨停-每日热文

业内有名的投顾大V“E大”,在其官微发文称买入华宝中......更多>

排行推荐

港交所陈翊庭:港交所将推动多项市场制度改革 持续拓展和优化互联互通机制
港交所陈翊庭:港交所将推动多项市场制度改革 持续拓展和优化互联互通机制
5月10日,港交所未来科技峰会在深圳举行。会上,港交... 更多>
【天天速看料】宁德时代成立私募基金合伙企业
【天天速看料】宁德时代成立私募基金合伙企业
厦门溥泉私募基金管理合伙企业(有限合伙)成立,出资... 更多>
*ST雪发:雪松实业等关联方事项不会对公司产生重大不利影响|世界快资讯
*ST雪发:雪松实业等关联方事项不会对公司产生重大不利影响|世界快资讯
*ST雪发(002485)披露股票交易异动公告称,近期公司... 更多>
理想汽车:第一季度营收187.9亿元 全球热门
理想汽车:第一季度营收187.9亿元 全球热门
理想汽车:第一季度营收187 9亿元,市场预期186 8亿... 更多>
热点聚焦:接下来需求弱势轮动到晶圆代工、设备、零部件了。
刚看到芯片ETF创阶段性新低了。再更新一下接下来的风... 更多>
为什么看好网宿科技300017?|当前快报
很多人可能不了解网宿科技的业务,网宿科技是做什么的... 更多>
每日投顾发车信息汇总:大盘回调看投顾机构都在买什么 全球热推荐
以下是截取的部分投顾主理人的发车观点:$永动机股票... 更多>
阿里系淘天集团首次亮相,定调“三新”变革
阿里巴巴组织架构调整后,新组建的淘天集团5月10日首... 更多>
全球观点:硅业分会:多晶硅短期需求减少 价格扩大跌幅
本周国内N型料价格区间在16 0-17 1万元 吨,成交均... 更多>
热门看点:伦敦金属交易所(LME):铝库存增加8700吨
伦敦金属交易所(LME):铝库存增加8700吨,铜库存增加3... 更多>
环球微动态丨交通银行副行长周万阜:预计二季度对公信贷增速较一季度将放缓 项目储备总体较为充裕
对于二季度信贷投放,交通银行副行长周万阜今日在“上... 更多>
首钢股份:4月新能源汽车用电工钢销量同比增长约97% 焦点观察
首钢股份5月10日晚间公告,4月,公司经营生产顺稳。公... 更多>
新城镇邓善沽村:帮扶慰问困境群众 真情关怀温暖人心 全球聚焦
在4月和5月开展的走访工作中,新城镇邓善沽村党组织得... 更多>
5月10日国内黄金期货涨0.46%-天天最新
中国经济网北京5月10日讯今日,上海期货交易所日间盘... 更多>

萍乡市芦溪县全县党建融合工作现场

每日热议!李云泽同志任国家金融监督

民生银行pos机刷卡手续费标准_刷卡

追踪鲸鱼在北极航行

严查“靠电吃电”!这家央企,两高

道氏理论的主要内容和缺陷_道氏理论

世界观点:摩托罗拉Moto Razr 40

青金石有哪些功效 文章为你讲解清

【环球报资讯】深圳本地股尾盘异动

阿里巴巴戴珊:今年会在用户规模上