Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!_每日快讯(日常热点指南)

Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!


Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

  2025-06-18 23:57:31     简体|繁體
http://mrkx.qghjm.com/1157260.html

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

新智元报道

编辑:KingHZ

【新智元导读】编程智能体确实厉害!Transformer作者LlionJones初创公司,专门收集了NP难题并测试了AI智能体,结果竟在上千人竞赛中排第21!这意味着,它已经比绝大多数人写得好了。

物流路径选择、人员排班、工厂调度、电网平衡、旅行路线……

这些贴近现实的优化任务,看似日常,实则难度极高。

难点在于:一旦问题规模扩大,传统算法几乎无法计算出最优解。

通常只能依赖启发式或近似算法来接近答案。

这正是NP难(Non-deterministicPolynomial-timehard)题的典型特征。

面对如此复杂的问题,AI能否胜任?编程智能体表现如何?

为探索这一问题,SakanaAI与AtCoder展开合作,共同构建了ALE-Bench(ALgorithmEngineeringBenchmark)。

联合创始人LlionJones是Transformer八子之一

不同于传统的编程基准测试,ALE-Bench聚焦于需要长推理和创造性思维的高难度的NP难题。

由于NP-困难性质,这类问题本身没有明确的最优解,因此分数可以不断提升。

研究人员认为,它有潜力成为新一代推理与编程能力的重要评估标准。

为了应对这类问题,这次研究特别设计了端到端的智能体ALE-Agent。

它以Gemini2.5Pro为基础,采用两大核心策略:

(1)通过Prompt提供常用算法与技术的领域知识;

(2)推理阶段生成不同多样解法进行性能增强。

在现实环境中,ALE-Agent已经展现出强大能力。

图1:ALE-Bench概览。(左)ALE-Bench整合历届AtCoder启发式竞赛题目,如路径规划、任务调度等无已知最优解的复杂优化问题,并依据评分对提交程序进行排名。(右)ALE-Bench支持从基础大语言模型(LLM)到具备结构化引导能力的智能体(scaffoldedagent)进行全面评估:智能体接收任务后提交代码,可选择性调用测试运行与可视化工具,像人类选手一样迭代优化解决方案

以下图2为例,任务描述如下:

编写一个程序,输入为二维网格上的大量取送请求(pickup-deliverypairs),任务是从中选择指定数量的请求,并规划一条从仓库出发、最终回到仓库的路径。

路径必须满足如下约束:对于每一个被选择的请求,必须先访问其取件点,再访问其对应的送达点。

程序的目标是使这条路径的总长度尽可能短。

评分以路径总长度为依据,路线越短,得分越高。

(每组输入的CPU时间限制为2秒)

图2:来自ALE-Bench的示例问题(ahc006)

5月,编程竞赛平台AtCoder举办了一场启发式竞赛(AtCoderHeuristicCompetition,AHC),吸引了全球顶尖开发者参与.

智能体与1,000名人类选手同场竞技,进行实时比拼。

最终,ALE-Agent表现出色,排名第21,跻身前2%。

AtCoder启发式竞赛第47届(AHC047)的排行榜中,名为「fishylene」的第21名选手,实为SakanaAI提交的智能体ALE-Agent。

这一成果标志着AI在解决现实世界中的优化问题方面取得了突破。

论文链接:https://arxiv.org/abs/2506.09050

数据集:https://huggingface.co/datasets/SakanaAI/ALE-Bench

代码:https://github.com/SakanaAI/ALE-Bench

NP难题

编程智能体新基准

ALE-Bench基于AtCoder启发式竞赛(AHC)构建而成。

为什么AHC值得关注?

因为AHC是AtCoder举办的知名编程比赛之一:

每次比赛开始时,主办方都会发布一道全新设计的题目。

图2所示即为一道典型路径规划题目。这些任务大多对计算资源要求较高,每个测试用例的运行时间限制通常为2到10秒。

AHC提供两种比赛形式:短期赛(持续约4小时)和长期赛(为期1~2周)。

两者在题目设计和挑战难度上存在显著差异。

短期赛的问题有时可以通过模拟退火(simulatedannealing)、束搜索(beamsearch)等标准算法来求解;

而长期赛更看重深度分析与反复试验,解法往往靠「磨」出来。

图3展示了比赛过程中选手得分逐步提升的过程。

图3:AHC中的长期赛中,得分上升

在为期两周的AHC014竞赛中,图3展示了每个时间点上特定排名的得分显示出持续的进步。

图3中线条颜色,标记了不同的颜色层级,例如,性能perf=2800(第6名)和性能perf=1200(第379名)。

但无论是哪种形式,想要获得高分都要针对问题本身,进行推理与反复调优。

随着比赛推进,选手可以不断提交优化后的解法,从而逐步提升得分。

图4:评级和平均表现分布。截至2025年5月1日,至少参与过5次的用户的累积评级和平均表现分布(背景颜色表示不同的评级层级)

编程新基准:没有最佳答案

为了构建ALE-Bench,在HuggingFace上,研究团队发布了包含40道AHC题目的数据集,这些题目均来自截至2025年4月底前举办的正式比赛。

数据集:https://huggingface.co/datasets/SakanaAI/ALE-Bench/tree/main

这个数据集被称为完整版(fullversion),还额外提供了一个精简版(liteversion),其中精选了10道具有代表性的题目,方便快速评估和测试。

每道题目的数据包包含四大部分:

ALE-Agent

算法工程设计智能体

在算法工程中,智能体还有多大的发展潜力?

为了初步探讨ALE-Bench所打开的研究空间,这次探索了算法工程领域的特定用途智能体。

该领域具有一些独特特性。

对许多问题类型而言,已有成熟的高层策略,而选择正确的整体方案至关重要。

然而,即使整体思路正确,具体的实现细节、超参数设置和微调优化仍可能显著影响最终结果。

基于这一点,在ALE-Agent原型中,研究团队提出并实现了两种技术:

方法一:结合领域知识的提示策略。

将算法工程中常见技术的专家知识直接嵌入提示词中,例如模拟退火(simulatedannealing)和束搜索(beamsearch)。提示内容涵盖搜索空间和评估函数的设计、邻域生成方式,以及常用的加速技巧。

方法二:注重多样性的解空间搜索。

研究者采用基于最优优先搜索(best-firstsearch)的方法,利用大语言模型(LLM)生成并优化解的候选项。

为避免过早丢弃有潜力的解路径,在算法中加入类似束搜索的扩展策略,使每个节点能一次性生成多个子节点。

这种宽度扩展有助于保留高潜力假设,并在实际操作中,通过并行生成候选方案有效减少API延迟,尤其在使用大型推理模型时优势明显。

具体见附录B。

研究团队让ALE-Agent参加了两次实时竞赛(AHC046和AHC047),与超过1000名人类参赛者遵守相同规则竞争。

结果如下:

ALE-Bench上的评估结果

研究团队在ALE-Bench上对更广泛的组合优化问题进行了评估。

除了ALE-Agent,还测试了其他最先进的AI模型,这些模型在4小时内通过自我优化持续改进解决方案(见上图)。

使用标准优化方法的AI模型,表现大致相当于人类参赛者的前50%,而ALE-Agent的表现达到了前6.8%,显示出显著的性能提升。

完整实验设置和结果请参阅论文。

分析与洞察

在识别复杂优化问题的算法改进方面,ALE-Agent训练得很有竞争力。

更进一步,研究者还观察了它在算法改进中的表现。

观察迭代优化过程时,研究人员发现它经常应用领域知识来提升得分。

例如,它会加速搜索算法和微调超参数,就像该领域的顶尖人类专家一样。

在AHC047实时竞赛中,ALE-Agent取得了前2%的成绩。

以下是一些迭代创新的例子:加速分数计算和改进邻域搜索。

ALE-Agent使用泊松分布近似来加速分数计算,这是提升AHC047得分的关键策略(代码见此处,第254-276行)。

ALE-Agent为模拟退火算法设计了更高效的邻域搜索策略,通过引入更多样化的移动方式,扩展了解决方案空间的探索,最终将其排名从第82提升至第21(初始代码见此处,第304-342行;最终代码见此处,第492-771行)。

ALE-Agent为何能在AHC047中名列前茅?

其中关键原因是人类与AI解决问题方式的差异。

在4小时的比赛中,人类最多可能优化代码十几次,而当前AI能进行大约100次修订。

此外,ALE-Agent能生成数百甚至数千个潜在解决方案。

这种高速、并行的生成能力,让AI在短时限比赛中展现出独特优势。

图5:迭代优化过程中公开分数与代码文件大小的变化趋势。该图表展示了四小时周期内,生成代码文件大小与对应公开评估分数的同步演变过程。图中右侧的点位表示更晚的时间节点

研究者还发现,当前AI非常擅长使用模拟退火,这是AHC中常用的算法(例如,ALE-Agent在AHC039的最佳解决方案,如果参加实际比赛将排名第5)。

未来工作

尽管取得了成功,ALE-Agent仍有一些局限性:

虽然ALE-Agent在4小时比赛和适合模拟退火的问题上表现良好,但在为期两周的比赛或需要不同类型算法的问题上表现不佳。

它在基于实验分析设计算法(需要通过观察程序行为进行试错)时也显得吃力。

未来改进方向包括:

最终目标是打造一个算法工程能力媲美甚至超越顶尖人类算法工程师的AI。

参考资料:

https://sakana.ai/ale-bench/

https://x.com/hardmaru/status/1934767617895747862

海量资讯、精准解读,尽在新浪财经APP

编辑:KingHZ

【新智元导读】编程智能体确实厉害!Transformer作者LlionJo 来源:市场资讯


免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2025年 » « 06月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    30

    最新资讯

    [开户代运营]口腔种植 矫正 全口假牙客户表单,全国不限量,可指定区域要求,欢迎咨询合作
  • 2025-06-19 03:05:59

     

    (上海成效)支付宝灯火广告亿级流量开放,小程序免费搭建代运营陪跑,灯火广告投放,寻各行业广告主
  • 2025-06-19 02:59:54

     

    喜报|万泰生物荣获“2025金牛上市公司科创奖”
  • 2025-06-19 02:53:49

     

    “曹操”,来了!
  • 2025-06-19 02:47:44

     

    iFixit 实测苹果 iPad 自助维修服务:拆卸屏幕就需 32 个步骤
  • 2025-06-19 02:41:40

     

    中国声学首登全球顶级音频舞台,CanJam上海展新品汇聚
  • 2025-06-19 02:35:35

     

    正午阳光再出杀手锏大剧!王凯杨采钰杨烁加盟,央视又淘到宝了
  • 2025-06-19 02:29:30

     

    赵丽颖蜕变为酷炫女神,遭遇热议引发关注,真实一面让人心疼
  • 2025-06-19 02:23:26

     

    四川省苍溪县云峰镇:100余亩黄花喜获丰收
  • 2025-06-19 02:17:20

     

    2025中国影视之夜,刘诗诗生图惊艳,高定造型尽显东方神韵!
  • 2025-06-19 02:11:17

     

    8岁小孩偷花1万多买26箱荔枝,父亲称“妃子笑是高端品种”货不对板,律师解析
  • 2025-06-19 02:05:11

     

    同龄女星颜值反差:有人少女时期美到惊艳,有人却颜值 “翻车”
  • 2025-06-19 01:59:06

     

    海口警方回应赤裸幼童被关铁笼,当务之急是救救孩子
  • 2025-06-19 01:53:02

     

    董宇辉别跟“李”混一起,一看就两路人,网络文明大会尴尬了
  • 2025-06-19 01:46:57

     

    性能比肩DeepSeek-R1,MiniMax仅花380万训出推理模型性价比新王
  • 2025-06-19 01:40:52