专业团队

首页/专业团队
一件比OpenAI发布deep research更值得关注的事情|甲子光年
2025-02-06

  这些题目一出★★★,一众大模型就“扑街”了。和以往的基准测试相比,包括OpenAI的GPT-4o、o1,以及Anthropic的Claude 3.5 Sonnet★★、谷歌的Gemini 1★.5在“人类的最后考试”中的准确率呈“断崖式下降”。

  但是今天,OpenAI deep research刷新了大模型在“人类的最后考试”中的最佳成绩,几乎是之前o1准确率的三倍★★★。

  Deep research由即将推出的OpenAI o3模型中的一个版本驱动★★,该版本经过优化以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件★★★,并根据搜集的信息进行灵活调整。

  智源研究院副院长兼总工程师林咏华曾公开表示,有一些测评榜单完全可以靠定向的训练数据来拔高分数★★★。

  比如热门的基准测试MMLU(Massive Multitask Language Understanding),其在2021年被提出,包含了57个学科领域,覆盖从基础到高级的不同难度级别,涉及 STEM(科学、技术、工程、数学)、社会科学、人文、医学、法律等多个领域。

  可以看出,“人类的最后考试”相比以往的基准测试(例如MMLU),更专注于通过原创且高难度的题目★★,尤其是数学和深度推理题,来考察模型的极限推理和解决复杂问题的能力。★“人类的最后考试”中有10%题目还考察了模型的多模态能力(比如理解图片),这也为测试增加了难度。

  我们把deep research的事情跟DeepSeek和Kimi都说了★★,DeepSeek-R1安慰道★★:“这种变革本质上不是替代,而是将人类智慧从信息处理的‘体力劳动’中解放,转向更高维的价值创造★★。”而Kimi 1.5则更为直接地说:“尽管AI在生成研究报告方面展现出了惊人的效率和能力,但人类分析师在理解复杂问题、与客户沟通以及提供专业建议等方面仍然具有不可替代的优势。★★”

  Deep research是一款利用推理合成大量在线信息并为用户完成多步骤研究任务的Agent★★★,目前已整合到ChatGPT中。目前,ChatGPT Pro用户已可使用相关功能,接下来deep research也将对Plus和Team用户开放使用。

  这些题目涉及数学、人文、自然科学等100多个学科,由来自全球500多所机构的近1000名专家、学者精心设计★★,包含多项选择题和简答题,适用于自动评分★★★。另外★,这些题目都有明确且易于验证的标准答案,但大模型无法通过简单的互联网搜索快速得出结果★★。

  让亨德里克斯下定决心发起“人类的最后考试★”的是OpenAI o1,他认为该模型★★★“摧毁了最受欢迎的推理基准”。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点★★★,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

  不过OpenAI也客观表示,deep Research解锁了新能力★★★,但它仍处于早期阶段★,存在一些局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率明显低于现有的ChatGPT★★。

  “C-Eval★★★、MMLU以及CMMLU,这几个类似的测评集已经有点被各个模型过度训练。”林咏华说,“所以★,观察大模型能力时★★★,我建议大家不用过度关注这几个测试集的评分。★★★”

  很多大模型在MMLU基准测试上实现了超过90%的准确率,这限制了对最先进的大模型能力的有效测量★★★。

  与他有相同想法的还有Scale AI CEO亚历山大·王(Alexandr Wang),去年9月,他就呼吁:“我们迫切需要更严格的测试来评估专家级模型★★,以衡量人工智能的快速进展。”

  团队预计,到2025年底★★★,大模型有可能在★★★“人类的最后考试”上实现超过50%的准确率。在★★“人类的最后考试”实现高准确率将证明模型在封闭式、可验证的问题以及尖端科学知识方面达到专家级水平,“但这并不意味着它具有自主研究能力或者AGI。★★★”

  原标题:《一件比OpenAI发布deep research更值得关注的事情|甲子光年》

  Youtube网友看热闹不嫌事大,一位网友在deep research发布视频下评论★★:“Deepseek应该发布R2,这样我们下周就能接触到GPT5★★。★”

  比如★,牛津大学墨顿学院Henry T出了一道题★★★:“这是一段罗马铭文,最初是在墓碑上发现的,请提供帕尔米拉文字的译文。”

  它使用了类似人类的方法★,创造了在★★“人类的最后考试”(Humanitys Last Exam)中的最佳成绩。

  北京时间2月3日上午★★,OpenAI突然发布了一款全新的Agent(智能体)——deep research。

  不知道这是★★★“无心之失”,还是★★★“有意为之★★”★,但OpenAI很有可能最开始没想给这个新Agent起名deep research,而是想“碰瓷★★★”DeepSeek,至少想留个“彩蛋★★”。

  表格中也写明★★,DeepSeek-R1和OpenAI o3-mini不是多模态模型,仅在文本子集进行了评估。

  “人类的最后考试★★★”团队在介绍文档中★“有些得意★★”地写道:★★“这表明它在测量高级★★、封闭式学术能力方面非常有效。★★”

  2024年9月,就在OpenAI发布o1模型后★★,CAIS和Scale AI就在筹划新的基准测试——“人类的最后考试★★★”。2025年1月★★,“人类的最后考试”基准测试正式推出,相关论文也发到了arXiv上了。

  “人类的最后考试★★”团队发表这些观点的时间是1月24日,但是现在,刚刚过去不到两周★★★,OpenAI deep research就展现了“大模型+Agent”具有一定自主研究能力★。

  值得注意的是,DeepSeek-R1在★“人类的最后考试★”中的准确率要略高于o1★★★,这也是对DeepSeek-R1推理能力的认可。

  大模型在不同基准测试中的准确率,HLE指的是★“人类的最后考试”★★★,图片来源:“人类的最后考试★★★”

  根据OpenAI发布的数据★★★,在deep research这款Agent的加持下★,OpenAI o3模型在★“人类的最后考试”中取得了26★.6%的准确率,与o1相比,该模型化学、人文和社会科学、数学领域的进步最为明显,而且OpenAI deep research展示了类人化的方式★★★,在必要时会高效找到专业信息。

  还有一道题是★★★:★★★“在希腊神话中,伊阿宋(希腊神话中夺取金羊毛的主要英雄,英文译名为Jason)的外曾祖父是谁?★”

  “人类的最后考试”共有3000道题目,不要小看这3000道题目,它们是从70000道题目中经过重重筛选而来。

  OpenAI展示了很多deep research的应用案例,比如在商业★★★、大海捞针(Needle in a Haystack)、医学研究★★、用户体验设计★★★、购物等领域的应用,并称Deep research可提供“全面、精确★★★、可靠的研究★★”★★“超个性化购买建议”“小众的、非直观的信息”。

  该模型还能够浏览用户上传的文件★★,使用Python工具绘制和迭代图表★★★,将生成的图表和网站上的图像嵌入其回答中,并引用其来源中的特定句子或段落。

  它可能难以区分权威信息和谣言★★,目前在信心校准(confidence calibration)方面表现较弱★★★,常常无法准确传达不确定性★。在发布时,报告和引用中可能会出现轻微的格式错误★,任务的启动时间也可能更长★。

  从上至下为数学、物理、化学★、计算机科学的题目★,图片来源★:★★★“人类的最后考试★★★”

  在“人类的最后考试”的组织团队中★,「甲子光年」发现了一个熟人——丹·亨德里克斯(Dan Hendrycks)★★★。

  大约四个月后★★★,CAIS和Scale AI推出了★★★“人类的最后考试★★”基准测试,这是一个处于人类知识前沿的多模态基准测试。

  之所以命名为“人类的最后考试★★”,是因为它想成为★★★“最终的★”封闭式学术能力评估基准。

  他是一位在机器学习★★、深度学习鲁棒性以及人工智能安全领域颇有影响力的研究者,目前担任非营利性组织CAIS的主任,同时他也是xAI和Scale AI的顾问。

  通过deep research生成的市场分析报告,有数据、图表★★、来源,图片来源:OpenAI

  “人类的最后考试”团队认为,虽然当前的大模型在“人类的最后考试★★”上的准确率还比较低,但根据历史经验★★★,基准测试会很快饱和★★★。

  这不禁让我们这些搞行业分析的人倒吸了一口凉气,“年还没过完,工作就要没了?”

  ★“AI是否能替代人类分析师”的话题还有待讨论,但是这次OpenAI o3模型通过deep research展现出的回答专业、复杂问题能力非常值得关注。

  “人类的最后考试”是由Center for AI Safety(CAIS)和Scale AI共同推出的一项新的基准测试(benchmark),旨在评估大语言模型(LLMs)的深度推理能力★★,并确定专家级人工智能(expert-level AI)何时真正到来。

  「甲子光年」找到了一些“人类的最后考试★★”题目★★★,可以看出这些专家、学者为了难住AI大模型真的是“绞尽脑汁”。

  Deep Research通过端到端强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练,它学会了如何规划和执行多步骤的操作流程★★★,以找到它需要的数据,并在必要时进行回溯和对实时信息做出反应。

  这不禁让人会思考一些问题★★,“人类的最后考试”真的是人类给AI大模型的“最后一场考试”吗?如果新的大模型取得了更高的准确率,这就意味着AGI的到来吗★★?

  简单来说★★★,用户只需要告诉ChatGPT需要一份怎样的报告,并在对话框中勾选deep research,ChatGPT就将查找、分析并综合数百个线上资料★,创建一份相当于分析师水平的综合报告,而用时只需要5~30分钟★。