当前位置:首页 > 上海注册公司 > 正文内容

开源AI新王被指造假不要迷信大模型的榜单了

admin1年前 (2024-09-30)上海注册公司30

  APPSO (ID:appsolution),作者:appso,原文标题:《号称打败 GPT-4o 的开源 AI 新王被指造假,不要迷信大模型的榜单了》,题图来自:AI生成

  • ? 基准测试可能泄题或被操控,影响真实表现

  你有没有想过一个问题:AI模型是怎么论资排辈的?

  和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。

  不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。

  基准测试的好处是直观,榜单这么一拉,得分高低一目了然,比大段的文字更有拉拢用户的效果。

  然而,测归测,准不准就不一定了。因为最近的一个疑似造假事件,基准测试的可信度又下降了一层。

  9月6日,Reflection 70B的出现,仿佛是个奇迹。它来自名不见经传的纽约初创公司HyperWrite,却自封了“世界顶级开源模型”的称号。

  开发者Matt Shumer是怎么证明这一点的呢?用数据。

  在多项基准测试中,参数仅有70B的它,打败了GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B等一众大佬。比顶尖闭源模型还有性价比,瞬间惊艳众人。

  Reflection 70B并非从石头里蹦出来,自称基于Meta的Llama 3.1 70B,花了3周训练,用到了一种新的技术Reflection-Tuning,可以让AI检测自身推理中的错误,并在回答之前纠正。

  用人类思维类比,这有点像《思考,快与慢》从系统一到系统二的转换,提醒AI悠着点,别脱口而出,而是减慢推理速度,也减少幻觉,给出更合理的答案。

  9月8日,第三方测评机构Artificial Analysis表示,他们没能复现基准测试的结果。

  Matt Shumer回复了质疑,解释第三方的结果更差,是因为Reflection 70B的权重在上传到Hugging Face时出现了问题,导致模型的性能不如内部的API版本。

  理由蹩脚了点,两者交锋有来有回,随后Artificial Analysis又表示,他们拿到了私有API的权限,表现确实不错,但还是没有达到当初官宣的水平。

  紧接着,X、Reddit的网友们也加入了“打假”队伍,质疑Reflection 70B是直接在基础测试集上训练的LoRA,基础模型是Llama 3,所以能在榜单刷分,实则能力不行。

  甚至有人指责,Reflection 70B套壳了Claude,从头到尾就是在骗人。

  9月11日,面对舆论,Matt Shumer团队给出了声明,否认了套壳Claude,尚不清楚为什么基准测试的分数没法复现。

  分数虚高,可能是一开始就错了,数据污染,或者配置错误,请大家再给他们一些时间。

  目前事件还没有最终的定论,但至少说明一个问题,AI榜单的可信度需要打个问号,拿刷榜的高分自我营销,对不明真相的群众而言很有迷惑性。

  五花八门的大模型考试,人类的排名焦虑

  让我们回到最基础的问题:怎么评价一款大模型的性能?

  一个比较简单粗暴的方式是看参数量,比如Llama 3.1就有多个版本,8B适合在消费级GPU上部署和开发,70B适合大规模AI原生应用。

  如果说参数量是“出厂设置”,表现模型的能力上限,基准测试则是通过“考试”,评估模型在具体任务中的实际表现,至少有数十种,侧重点不同,彼此分数还不互通。

  2020年发布的MMLU,又称大规模多任务语言理解,是目前最主流的英文评测数据集。

  它包含约1.6万个多项选择题,覆盖数学、物理、历史、法律、医学等57个科目,难度从高中到专家,是一种通用智力测试。模型回答正确的题目越多,水平就越高。

  但是,他们也不隐瞒,提示Gemini和GPT-4的方式不同,前者是CoT(逐步推理),后者是5-shot,所以这个分数可能不够客观。

  当然,也有测试大模型各项细分能力的基准测试,列举起来就太多了。

  GSM8K主要考察小学数学,MATH也考数学,但更偏竞赛,包括代数、几何和微积分等,HumanEval则考Python编程。

  除了数理化,AI也做“阅读理解”,DROP让模型通过阅读段落,并结合其中的信息进行复杂推理,相比之下,HellaSwag侧重常识推理,和生活场景结合。

  虽然英文居多,中文大模型也有自己的基准测试,比如C-Eval,由上海交通大学,清华大学,爱丁堡大学共同完成,涵盖微积分等52个学科的近1.4万道题目。

  中文基准测试SuperCLUE测试逻辑与推理

  那么“评卷老师”是谁?大概分为三种,一是自动化程序,比如编程的基准测试,模型生成的代码通过自动执行验证正确与否,二是用GPT-4等更强大的模型做裁判,三是人工。

  混合拳这么一打,比四书五经六艺全面多了。但基准测试也存在严重的隐患。背后的公司“既当裁判又当运动员”,和老师怕学生作弊的情况如此相似。

  一个隐患是容易泄题,导致模型“抄答案”。

  如果基准测试的测试集是公开的,模型可能已经在训练过程中“见过”这些问题或答案,导致模型的表现结果不真实,因为模型可能不是通过推理解答问题,而是记住了答案。

  这就涉及到数据泄露和过拟合的问题,导致模型的能力被高估。

  人民大学等高校的研究指出,与评估集相关的数据偶尔会用于模型训练

  还有一个隐患是花样作弊,这里有很大的人为操作空间。

  Reflection 70B在X被讨论得如火如荼的时候,英伟达高级研究科学家Jim Fan发帖表示:操纵基准测试,不难。

  比如,从“题库”入手,基于测试集的改写例子训练模型。将测试集里的问题以不同的格式、措辞、语言重写,可以让一个13B的模型在MMLU、GSM8K、HumanEval等基准测试中打败GPT-4,倒反天罡。

  同时,也可以改变“做题方式”,增加推理的算力,通过自我反思(Self-reflection)、思维树(Tree of Thought)等,让模型减慢推理、多次推理,从而提高准确性。

  很惊讶,到了2024年9月,人们仍然为MMLU或HumanEval的分数兴奋。这些基准测试已经严重失效,操控它们可以成为本科生的作业。

  另外,基准测试的难度,可能不一定跟得上AI的发展速度,因为它们通常是静态的、单一的,但AI在狂奔。

  参与开发MMLU的AI安全研究员Dan Hendrycks,在今年4月告诉Nytimes,MMLU可能还有一两年的保质期,很快会被不同的、更难的测试取代。

  百模大战,人类社会的排名焦虑被传递给了AI,各种暗箱操作之下,AI排行榜成为一种营销工具,却鱼龙混杂,不那么可信。

  但很多时候,有数据、有标准,事情才好办。

  基准测试是一个结构化的打分框架,可以作为用户选择模型的一个因素,也可以帮助模型进步。做中文基准测试的C-Eval甚至直言:“我们的最重要目标是辅助模型开发。”

  基准测试有其存在价值,关键是怎么变得更权威、更可信。

  我们已经知道,如果测试集被用于模型训练,可能导致模型在基准测试“作弊”,一些第三方的测评,便从这个缺口入手。

  数据标注公司Scale AI的SEAL研究实验室,很强调自身数据集的私密性。很好理解,“闭卷考”,才能见真章。

  目前,SEAL可以测试模型的编码、指令跟踪、数学和多语言能力,未来还会增加更多测评的维度。

  除了做题、打分的模式,还有一种更接地气的基准测试:竞技场。

  其中的代表是Chatbot Arena,由卡内基梅隆大学、加州大学伯克利分校等研究人员的非营利组织LMSYS发起。

  它让匿名、随机的AI模型相互竞争,并由用户投票选出最佳模型,然后使用国际象棋等竞技游戏常用的Elo评分系统排名。

  具体来说,我们可以在线向两个随机选择的匿名模型A和B提问,然后给两个答案投个票,更喜欢A,更喜欢B,平局,还是都不喜欢,这时候,我们才能看到A和B模型的真面目。

  我提的问题是之前难倒过很多AI的“9.9还是9.11大”,两个模型都答错了,我点了个踩,发现抽中的幸运儿一个是GPT-4o,一个是法国的Mixtral。

  Chatbot Arena的长处很明显,海量用户提出的问题,肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见摸得着用得了,排名也就更接近现实世界的需求。

  不像一些基准测试,测试高等数学,测试输出安不安全,其实离研究更近,离大多数用户的需求很远。

  但也有人持反对意见,认为Chatbot Arena会被少数用户的偏见影响,萝卜青菜各有所爱,有些用户可能喜欢更长的答案,也有些用户欣赏言简意赅,文无第一,这怎么比?

  所以,Chatbot Arena最近做出了一个调整,区分了“风格”和“内容”这两个指标,“内容”是说什么,“风格”是怎么说。通过控制对话长度和格式的影响,排名发生了改变。

  简言之,怎么测,基准测试都不能保准,也不能被迷信,它们只是一种参考,就像高考只能反映学生的部分能力。

  当然,最令人不满的行为,是主观地在基准测试刷榜,为自己背书,单纯地追求华而不实的排名。

  回归初衷,我们都是要用AI解决现实问题,开发产品,写段代码,生成图片,做个心理咨询收获点情绪价值......基准测试没法帮你回答,哪个AI讲话更好听。

  假的真不了,用脚投票,小马过河,才是最朴素的道理。那些更主观、更个人的感受和体验,仍然要用我们的实践换取。

  如对本稿件有异议或投诉,请联系文集:拥抱“AI”频道:前沿科技

  私域题集,做特化逻辑路径,刷分,最后产出赛博价值,和某些群体何其相似

  AI榜单的公正性和公平性,那真是至关重要的?!任何可能影响的因素,都应该被严肃对待?。Chatbot Arena的用户投票方式,那真是个好主意?,更能反映出AI的真实表现。我们不能盲目相信榜单,要有自己的判断和思考?。寻找更公正、公平、真实的评价方式,那才是关键?。

  1v1单挑90万轮之后,“最强大模型”花落谁家?

  大语言模型评测是怎么被玩儿烂的?

  GPT最大竞争对手Claude,也发布了史诗级更新

  现在的大模型榜单,真就没一个可信的

  NaturePortfolio©

  GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应

  大模型新测试基准发布,最强开源Llama 3尴尬了

  OpenAI发布GPT-4:能识图能算税,ChatGPT再次进化

  Claude 3惊现自我意识?我们找到了这些细节

  2023年科技界热度之王:AI大模型的崛起与影响

  十万亿参数,能堆出一个通用人工智能么?

  什么样的算法工程师,收入更高?

  专业解读MOSS和ChatGPT精髓,精妙设定细思极恐

  5大AI测评:让你一天“摸鱼”4小时

  OpenAI重磅发布GPT-4o,国内大模型能跟上吗?

  对话百度李彦宏:开源模型是智商税,AI Agent正在爆发

  您的赞赏金额会直接进入作者的虎嗅账号

葛毅明微信号
公司注册/产业招商/厂房土地租售:400 0123 021
或微信/手机:13391219793 
请说明您的需求、用途、税收、公司、联系人、手机号,以便快速帮您对接资源。 
长按/扫一扫加葛毅明的微信号

版权声明:本文由注册公司招商引税奖励平台发布,如需转载请注明出处。部份内容收集于网络,如有不妥之处请联系我们删除 400-0123-021 或 13391219793

“开源AI新王被指造假不要迷信大模型的榜单了” 的相关文章

【创业故事】潘晶:布局未来智慧医疗产业的“核爆点”

【创业故事】潘晶:布局未来智慧医疗产业的“核爆点”

  他们是理想主义者,是坚韧的行动派,是新时代新青年。   掌舵创业这条路,信念是他们的指南针,家国是他们的精神灯塔,实干是他们共同的行动和语言。守正创新而不是踯躅不前,坚守初心而不是随波逐流,坚韧而行奋斗不止,他们是汇聚在上海市工商联青创联的优秀青年企业家们。...

【招标】上海交通大学医学院附属新华医院奉贤院区污水处理设备

【招标】上海交通大学医学院附属新华医院奉贤院区污水处理设备

  【招标】上海交通大学医学院附属新华医院奉贤院区项目污水处理设备采购项目招标公告项目所在地区:上海市,市辖区,奉贤区本上海交通大学医学院附属新华医院奉贤院区项目污水处理设备采购项目已由项目审批/核准/备案机关批准,项目资金来源为国有资金 320万元,招标人为上海交通大学医学院附属新华医...

万里扬投资成立智能压铸公司注册资本5000万

万里扬投资成立智能压铸公司注册资本5000万

  天眼查App显示,近日,浙江万里扬智能压铸有限公司成立,法定代表人为王峰,注册资本5000万人民币,经营范围包括有色金属铸造;锻件及粉末冶金制品制造;锻件制品销售等。股权穿透图显示,该公司由浙江万里扬股份有限公司间接全资控股。   来源为金融界的作品,均为版权作品,...

上海交大新学院奠基!“大零号湾”又一重要地标启动建设

上海交大新学院奠基!“大零号湾”又一重要地标启动建设

  由内容质量、互动评论、分享传播等多维度分值决定,勋章级别越高(),代表其在平台内的综合表现越好。   原标题:上海交大,新学院奠基!“大零号湾”又一重要地标启动建设   上海交大,新学院奠基!“大零号湾”又一重要地标启动建设   ...

上海交通大学-工商信息-电话地址-火标网

上海交通大学-工商信息-电话地址-火标网

  3dd3d3644d475160fd192a9e60d73647   2021年06月13日 22时21分更新   说明:风险扫描中的数据是基于公开信息通过风险模型大数据分析后的结果,仅供用户参考,并不代表火标网的任何明示、暗示之观点或保证。若因参...

上海交通大学上海高级金融学院无线网络升级改造项目竞争性磋商

上海交通大学上海高级金融学院无线网络升级改造项目竞争性磋商

  当前位置:首页政采公告地方公告竞争性磋商公告   工程/建筑安装工程/智能化安装工程/计算机网络系统工程,货物/通用设备/计算机设备及软件/计算机网络设备/其他网络设备   上海交通大学上海高级金融学院无线网络升级改造项目 采购项目的潜在供应商应在...