SuperCLUE?大模型测评榜单惊险“李逵李鬼”!
随着国内百度、阿里、讯飞等各大厂商陆续发布大语言模型,百模大战的态势愈演愈烈、一触即发。各类评测也纷纷登场,分析到底谁才是国产ChatGPT的“扛把子”。
评测榜单是技术圈常见的一个评估维度。不过,前提是榜单得是公开透明、且具有权威性,国内外行业巨头都参与并认可,榜单才具有公信力,否则就会成为一家之言,毫无说服力,甚至会诱导大众。近日,一份自称“中文通用大模型综合性评测基准SuperCLUE”发布,权威性待考证,存在三点较大疑问。
(资料图)
SuperCLUE而非SuperGLUE,啥啥分不清楚
众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了NLP领域的发展。
这次这份SuperCLUE评测的发起方为Chinese GLUE组织 (简称CLUE),CLUE是仿照GLUE由国内民间组织的评测,权威度和影响力与GLUE相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和CLUE分不清楚,堪称李逵和李鬼。
从评测排名显示来看,刚发布的讯飞星火大模型在总榜单和子榜单中均排名第一位,仅次于人类排名和GPT-4、GPT-3.5。而国内发布最早、实力最强的文心一言却排在榜单最后。
2月翻车,4月卷土重来,心虚火速删除官网关联信息
还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。
而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。
徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。
该SpuerClue榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。
仅用100道评测题目就出来了一份“权威报告”
最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就100道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威SuperGlue榜单,题目一般都得有2万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?
任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。
要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众。投机取巧,终皆散去。苦练内功,才是王道。
标签:
众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上
今天来聊聊关于全屋定制家具品牌排行榜的价格表,全屋定制家具品牌排行榜的文章,现在就为大家来简单介绍下
1、首先用CAD软件打开一个文件,进入主编辑界面。2、2、然后在界面下方找到注释监视器的快捷图标,下图高亮
1、首先认清自己,了解自己,有何专长,有何能力,爱好。2、 2规划下自己的近期,想从事什么样的行业?达到
1、和合是都具足了,也就是很多的缘都集中在一起的意思,例如,一颗种子,在泥土里接受了养分,有水的灌溉
5月10日,杉杉股份2022年年度股东大会在宁波召开,表决选举了公司第十一届董事会非独立董事议案等。此前卷
荟萃国际(控股)(08041)发布截至2023年3月31日止9个月第三季度业绩,该
西洋参价格,西洋参的价格一般在几百元,包装高档的就贵点了,我觉得主要是贵在了包装上,有的人说单卖的西
今年618大促期间,腾讯广告与阿里妈妈UniDesk再度整合资源和产品,打造四大核心升级。
图为德令哈(托素)750千伏输变电工程。国网青海省电力公司建设公司供图中新网西宁5月10日电(赵国仲康旭伟
1、酸和甜可以互为反义苦和乐相对辣。2、非要找一个反义词。3、应该是淡第二解:酸甜苦辣这个词组的反义词
老小区焕发新活力,这个废弃露台改造的屋顶花园为啥受欢迎?,露台,绿植,绿化,花坛,小区,屋顶花园
被点名单位:深圳市交通运输局龙华管理局南都今年3月底曾报道,深圳市龙华区民丰路天桥意外被一超限高货车
每经AI快讯,5月10日,理想汽车美股盘前涨近5%,第一季度营收187 9亿元,同比增长96%。每日经济新闻
常州市长江森林音乐节活动地址位于常州市新北区新龙生态林核心区阳光原野大草坪,2023年6月22日-6月23日将
中国经济网北京5月10日讯中国汽研(SH:601965)今日股价涨停,截至收盘报23 57元,涨幅9 99%,总市值236 84亿元。
周三,英镑 日元上涨0 29%至171 099附近。英镑方面,数据显示,英国零售业正加快复苏,4月零售业的增速超出
目前美国注册管理会计师协会未针对考试的报名设立规范性的报名条件,即不强制要求考生必须满足学历条件、工
悦达起亚被曝管理岗轮休一休就一年!官方回应
李亚鹏的债务不断增加,他的房子被迫拍卖,他的妻子和女儿被赶出家门,禁止乘坐飞机,他的直播业务也被暂停
图为梁军正在绘制设计图纸。 周悦翔 摄中新网西宁5月10日电题:“天路”上的木工“守艺人”:一个人就...
1、荷叶不沾水,因为荷叶上有纳米尺度的绒毛。2、通过电子显微镜,人们观察到荷叶表面覆盖着无数尺寸约10微
徐克的武侠剑走偏锋,深得观众们的喜爱。就连大卫波德维尔都说,“西方人追捧香港电影,很大程度上是徐...
每经AI快讯,5月10日,豪森股份在互动平台表示,公司2023年一季度已签约+已中标未签约的500万(含税)以上
2023年春季长沙市教师资格认定网上申报将于6月7日开始,网络办理提交资料阶段为第三阶段,资料提交时间为6
“您好,我对社会保险方面的政策比较感兴趣,您可以详细介绍一下吗?”“我们企业是小微企业,在减税降...
热熔类防水卷材“搭接缝不透水性”测试项目,不仅是防水材料及配套辅助材料在进场、验收过程中的重要环...
2023年承德中考成绩查询时间预计是7月3号。2023年承德中考时间是6月21日至6月22日。承德中考考试科目:语文
近日,辽宁省市场监督管理局正式批准国网大连供电公司(大连市电能计量器具检定站)筹建“辽宁省碳计量...
2022年城镇单位就业人员工资水平保持增长
西洋参价格多少钱一斤
来源 :互联网
Copyright @ 2015-2018 太平洋it网版权所有 备案号:豫ICP备2022016495号-17 联系邮箱:93 96 74 66 9@qq.com