
机器之心发布
Agent 从来不是不会用浏览器,仅仅豪侈太多时刻在探索 ——BrowserBC 把东谈主类轨迹蒸馏成可复用 Skill 来完成 Behaviour Cloning,用户点遍,Agent 照着就能跑通。
神色发布后 6 小时,BrowserBC 仍是激发了国外开源社区过 2500 条磋磨酌量,登上了 Twitter 的 Today News。AI 社区具影响力的前沿论文和开源神色共享者 AK 也热心并共享了该神色。
读
今天的 Web Agent,仍是不缺「会操作」这件事。
Claude、Codex 这类 Agent 能看页面、能识别按钮和输入框,能、输入、跳转、提交。着实卡住它们的,是另个问题:每接个新任务、每换个新网站,险些都要让强、也贵的阿谁模子,从启动再把通盘经过摸索遍。
而这种「从摸索」,往往摸着摸着就出岔子:陷进死轮回,在几个页面之间反复横跳;缓缓偏离初的任务意图,越走越远;在搜索恶果里来往切换却永久没读全;或者明明仍是很接近谜底,却提前收手、草草交差。
在摸索遍之后呢?就算此次幸运作念成了,这点涵养也往往跟着这轮对话起挥发。下次同类任务,再换个 Agent,还要从新试错、再踩遍雷同的坑。
于是,个很朴素的问题浮出水面:能不行作念次、复用好屡次?
具体点 —— 能不行让东谈主把任务细腻作念遍,把这遍操作里的「门谈」包下来,然后交给个低廉、小的模子,让它照着作念,就能完成同类任务?
Einsia AI 旗下 Navers Lab 发布的开源神色 BrowserBC 给出的谜底,是条三步范式:录制 → 转写成 Skill → 委派实施。
录制:在浏览器里作念任务的时候,把全过程完好记载下来 —— 任务指示、每步的页面不雅察(既有渲染出来的截图,也有结构化的 DOM / 可访谒树快照)、用户的每个动作(、输入、跳转、提交,并带着对应的元素定位)、页面给出的响应(页面跳转、校验与报错信息、完成信号),以及任务终落到哪个景况。
转写:要害在于,它不是把这段操作存成段「回放剧本」,而是由模子把它转写成份当然话语的 Skill—— 份证明书式的「妙技卡」,写清爽这类任务该怎样作念、怎样判断作念对了。
实施:再把这份 Skill 交给猖狂个模子去读。它据此在的确页面上我方落地操作,而不是机械复刻某次的坐标。
说得凡俗点,BrowserBC 有点像 agentic 时间的「按键」。
传统的按键,会把东谈主的鼠标和键盘敲击录下来再回放 —— 但它录的是写死的坐标和按键,页面变、布局动,整段剧本坐窝就废了。
BrowserBC 录的不是坐标,而是把这遍操作转写成份讲清「该作念什么、怎样看成念完」的妙技:它能被另个模子读懂,能在变了样的页面上举反三,也能被不断并、复用 —— 它是那种会「结识」、能挪动、还能径直交给别东谈主用的按键。
这也揭示出 BrowserBC 的中枢 —— 妙技从那处来,和妙技由谁来实施,不错分开。
东谈主在浏览器里把任务作念遍,这遍操作被转写成妙技;之后照着妙技把同类任务作念下去的,是另个、哪怕小、低廉的模子。妙技旦被转写成当然话语,就能在模子之间解放地传递、复用、组。
这正是通往「通用网页浏览」的要害身手:把东谈主类每天的浏览器行动蒸馏给 Agent 去作念。
BrowserBC 把东谈主类的浏览器操作轨迹蒸馏成可复用的当然话语妙技保定钢绞线价格,为 Agent 提供访谒生分网站时的 "有野心先验"。
东谈主类次录制
Agent 就能模拟
络续:https://mp.weixin.qq.com/s/dMAPeqDszlY0eDopwPAu0w
酌量团队录制了个 case:
任务很常见:旅行前念念要在主义地找处宽解、便、实惠的民宿,需要在预订网站输入时刻、处所、预约东谈主数,按照网站评分、评分数目筛选,而且排序找出内部的选项。这类任务看起来不难,然则小模子经常栽在它上头 —— 不是不睬撤职务,而是要么不知谈怎样用筛选,要么产生幻觉输出虚构信息假装完成。
步,录制。酌量团队先让个东谈主把它完好作念遍:过问彀站 → 输入时刻处所东谈主数 → 应用适的筛选器 → 阅读总计搜索恶果 → 找到佳选项。通盘过程被原样记载下来。
二步,转写成 Skill。系统把这段操作转写成张妙技卡,而不是段坐标回放。卡片上写的是这类任务的通用门谈:
意图:在预订网站找到佳的住宿选项;
要害身手:先写基本信息,搜索之后逐项应用筛选器 —— 这正是小模子容易不睬解或者作念不到的地;
完成判据:后输出不错东谈主工核查的版块;
要避的坑:官筛选器可能和用户本体需要的圭臬不样,如有需要则需要我方编写剧本筛选。
三步,委派给个小模子实施。这张卡片被交给个较着小的模子,让它去完成另外次旅程的信息检索,作念同类型的任务。莫得这张卡顷刻,他要么磕趔趄绊卡死或者很久才凑合完成任务,要么径直输出幻觉;拿到卡片后,它坐窝知谈要输入什么信息,要核查什么界面,哪些要依赖网站官哪些要我方判别 —— 于是厚实地把任务作念结束。
就这么,BrowserBC 把「操作浏览器」这件每天都在发生的事,形成了不错被 Agent 复用的妙技。东谈主把路趟通次、由系统转写成证明书 Agent 型负责照着证明书把同类路走顺。
而且,这条路是可复用、可扩展的。东谈主类访谒网站的散播效用幂律散播:常见的站点组成了东谈主类访谒的大部分,关于这些站点,用的东谈主越多,Skill 库就会管制得越完备;要害的是,针对疏淡的长尾散播,BrowserBC 使得东谈主们再也不需要等那些逾期的旧网站我方来提供 MCP(或官 Agent 接口)了。
执行是,无数老网站永远不会门为 Agent 洞开套干净的机器接口;而 BrowserBC 径直复用东谈主类在「给东谈主看的那套界面」上积攒下来的操作涵养 —— 只须东谈主能用浏览器把它用起来,Agent 就能借由蒸馏出的妙技把它用起来。换句话说,个网站能不行被 Agent 访谒,不再取决于网站愿不肯意配、肯不肯升,而取决于有莫得东谈主仍是在这个网站上走通过路。这恰正是「通用」二字的底气所在。
法:怎样把次操作转写成能用的 Skill
又怎样把越来越多的 Skill 管起来
BrowserBC 将嘈杂的浏览轨迹清洗、蒸馏为可复用的当然话语妙技,并杰出组织成可扩展的妙技图,后检索磋磨妙技指 Agent 完成新任务。
BrowserBC 的法部分,其实就报告两个问题:段操作该怎样记忆、记忆时要隆重什么;以及记忆出来的盈篇满籍个 Skill,该怎样惩处。
个问题:怎样转写,以及要稀奇隆重什么?
原始的浏览器轨迹往往至极嘈杂 —— 内部有误、意旨的恭候、肖似尝试、临时的页面景况,还可能夹着秘密信息。因此在转写之前保定钢绞线价格,BrowserBC 会先作念清洗,并按语义把轨迹切成段段连贯的子过程,而不是按固定长度硬切。
每段会先被抽成份「把柄(evidence)」:保留任务指示、这段操作前后的页面景况、用户接收的要害身手、页面给出的响应、以及胜利或失败的信号。
然后,把把柄转写成结构化的当然话语 Skill 卡,用固定字段说清爽 "该作念什么、怎样判断进展、怎样算完成、失败了怎样办",以及它从哪来、在什么场景下适用。 这么张卡,既能径直喂给话语模子当作高下文,又便东谈主去审阅和修改。
这里有个该隆重的原则:只保留「可挪动的过程常识」,剥离「会变、会流露的细节」。
要剥掉的:精准坐标、DOM 采纳器、临时 ID、登录态、秘密文本,以及任何指向具体谜底、针对评测 checker 的内容;
要留住的:在语义层面「该作念什么、怎样判断进展、怎样算完成」。
举个例子,钢绞线厂家张「填表单」妙技卡写的是「按语义标签找到对应字段、把任务给定的值原样填进去、提交后阐发页面出现胜利景况」,而不是「点 (x, y)、再点阿谁 id 是某串字符的按钮」。
原因很径直:网页天天在变,布局、DOM、版块、登录态都会变,克隆坐标和采纳器其脆弱;而克隆「作念什么 + 怎样判断完成」才着实挪动得动。
还有两点值得提:
其,条胜利轨迹就足以蒸出个可用妙技(它自身就描摹了种可行解的结构);而把同任务的屡次尝试(含失败)放在起,妙技会稳 —— 胜利的运行强化实施身手,失败的运行则流露缺失的前置条件、催生出显式的收复战略。
其二,转写时要作念遍流露查验:妙技卡只该记可复用的过程,不该把具体谜底夹带进去。
二个问题:Skill 怎样惩处?
如若每条轨迹都生成个相互立的妙技,库很快就会失控:肖似、冗余、致使相互突破。
BrowserBC 的作念法是把库组织成张妙技图(skill graph)。每当产生个候选妙技,系统就判断该把它新增(add)为个新节点、并(merge)进已有妙技、照旧登记为某个通用妙技的特化(specialize):
当两个妙技介意图、前置条件、身手、果、休止把柄上相互相容时,就并;
当它们适用条件不同、需要的信息不同、或管制相互突破时,就保捏分开。
图里的节点是妙技,边是妙技之间的相关 —— 时刻依赖、特化、同子贪图下的替代案、以及同景况下的互斥。于是个通用过程(比如「填表单」)不错连到它的多样特化(支付、改贵寓)和对应的失败收复妙技,而不把它们压成条扁平的条件。
这张图带来三件事,也正是 BrowserBC 所说的 scalable 的着实含义:把肖似的演示并成可复用的节点,而不是限堆样本;让检索和新只动磋磨的局部区域;撑捏增量精深 —— 来条新轨迹,只新受影响的妙技偏执邻居。需要强调的是,这张图的价值在于 "组织":学习与复用的基本单太初终是那张当然话语妙技卡,而图把这些卡片有序地存放、检索和新起来,正是妙技库能捏续膨大却不失控的要害。
到了实施端,检索也刻意作念得很轻:按语义相似度(有荒谬信息时再叠加与刻下页面高下文的兼容)挑出小撮磋磨妙技,塞进 Agent 的高下文,剩下的落地交给 Agent 我方读取刻下页面来完成。妙技既不是可实施剧本,也不是要照搬的演示,它仅仅把 Agent 往蒸馏出来的行动形式上引,而每个具体动作仍然是对着刻下页面现挑的。
实验与酌量
妙技带来跨基准、跨站点的致升迁
BrowserBC 先在 WebArena-Hard 上袭取锻练:258 个经东谈主类核验的任务,遮掩 GitLab、电商偏执后台、论坛、跨站点组等六类自托管站点。实验严格规章变量 ——Agent、动作接口、步数与时刻预算一齐固定,唯变量是要不要注入 BrowserBC 检索到的 Skill。恶果是:base agent 胜利率为 60.5(156/258),注入妙技后升迁到 81.4(210/258),升迁了 20.9 个百分点,救援了基线本来失败的 54 个任务。
强的锻练来自 ClawBench:152 个任务跑在的确线上网站上,页面布局与操作经过会在不同运行间变化,且以写操作为主。这个设定抽掉了「靠牵挂取巧」的可能 —— 任何编码精准坐标、DOM 采纳器或缓存页面景况的妙技,在这里只会越用越糟。恶果是:skill-free 基线只解出 50/152(32.9),注入妙技后解出 104/152(68.4),升迁 35.5 个百分点,险些把解出的任务数翻了倍,且在一齐八个类别上广阔成立。
BrowserBC 在 WebArena-Hard 与 ClawBench 上的能进展。
事实上,妙技不仅升迁胜利率,还镌汰了完成任务所需的交互。在 WebArena-Hard 任务上,Agent 的平均器具调用次数从 31.2 降到 22.7(−27.3)。这与「妙技作为经过先验」的定位致:它削减了试探航与反复的页面稽查,而把底层 grounding 留给实施时的及时页面景况。
BrowserBC 既能升迁交互率,又能让蒸馏出的妙技在不同模子间挪动。
酌量:Skill 是份「带置信度的先验」,不是条号令。
有个细节很证明问题:在 WebArena-Hard 上,如若强制 Agent 逐字照搬检索到的妙技 —— 哪怕刻下页面把柄与它矛盾 —— 胜利率只好 77.5;而让它采纳使用、在与页面突破时以页面为准,才到 81.4。杰出,约 3.9(10/258)的任务里,盲目照搬妙技反而把本来能作念对的作念坏了。这刚巧印证了那条中枢判断:当然话语妙技的价值在于「指示战略」,落地永远要交给实施模子去读刻下页面。
酌量二:妙技是「蒸馏次、低廉复用」的模子关对象。
BrowserBC 的个联想主张是:妙技不错由个强模子蒸馏次,再交给另个低廉的 Agent 在实施时复用。咱们在 WebArena-Hard 任务上,把「蒸馏妙技的模子」与「实施妙技的模子」交叉组,赢得两点论断。其,妙技质料主要在蒸馏阶段决定:Sonnet-4.6 蒸馏出的妙时间同期大幅升迁两个实施器(+24 与 +20 个百分点),而 Qwen-3.7 蒸馏的妙技只带来隐微增益。其二,质料妙时间跨实施器挪动:装备了 Sonnet-4.6 妙技的小 Agent 达到 77,迫临大 Agent 的 80,径直坐实了「蒸馏次、低廉复用」的设念念。
酌量三:剩下的难,难在「实施」而非「缺常识」。
对仍然失败的案例作念东谈主工审计后发现,瓶颈大多落在实施精度,而不是虚浮常识:长表单漏掉某个字段、贪图对象有歧义、长程任务把预算耗在中间页、或者模子我方理过长「跑飞」。这些情况里妙技自身是对的、也用上了,扫尾身分是「按经过实施的保真度」—— 也即是底层模子的才能。这也划出了「小模子实施」的可行畛域:妙时间补「该怎样作念」,补不了「手稳不稳」。
酌量四:挪动到浏览器除外 ——OSWorld 案例酌量。
论文还在 30 个 OSWorld 作风的 Ubuntu 桌面任务上作念了次会诊的挪动酌量 —— 需要证明的是,这并非把它当作项完好的 OSWorld 刷榜,而是检会「法的哪部分能挪动」。30 个任务里,17 个在配上匹配妙技后赢得,证明过程先验照实能跨过浏览器的畛域施展作用。着实可挪动的并不是浏览器属的动作序列,而是那份过程先验 —— 前置条件、语义景况如何滚动、程度里程碑、休止把柄、失败如何收复。在浏览器里它落在页面、络续、表单上;在桌面上则落在窗口、文献、对话框、捏久建树上。剩下的案例则划出了法的畛域:少数任务本来就有余浮浅、不需要妙技;部分卡在 GUI 规章自身(窗口焦点、模态弹窗、文献采纳器景况)而非缺常识;还有个别案例因为检索到错配的妙技被「自信地带偏」。也即是说,当缺的是「经过结构」时,妙技有效;当缺的是底层 GUI grounding、或检索喂错了先验时,妙技帮不上忙,致使会添乱。
BrowserBC 的意旨不啻是个法
BrowserBC 不是个炫技的法。它着实膺惩的地在于,它指明了东谈主类浏览器轨迹的价值:这是东谈主类群体在浏览器迷宫中走出来的操作旅途。BrowserBC 作念的事情,即是把这些隐含涵养的轨迹蒸馏成 Agent 可用的 skill。
中枢启发在于:
,升迁 Agent 的 Browser Using 才能,其实要害在于给它补王人完备的网页逻辑常识。
二,东谈主类与诬捏寰球的交互过程,自身即是种尚未被充分期骗的数据资源。
三,如若这些轨迹不错被捏续蒸馏和惩处复用,那么 Agent 就不错从 “不错” 操作网页”,渐渐走向 “” 操作网页。
是以,BrowserBC 的中枢不是教 Agent 网页 —— 它是在信息不完备的环境里,用东谈主类轨迹为 Agent 补上有野心所需的先验。
在这个意旨上,着实决定 Web Agent 上限的,从来不是 “是否不祥复现某个浏览器操作经过”,也不是 “是否快速组装出个看似可运行的系统” 或是 “Demo 出个热点办法”,而是是否着实构建了不错捏续积攒、可复用、可挪动的涵养结构。
这可能是 让 Web Agent 从能用走向好用的临门脚。天津市瑞通预应力钢绞线有限公司相关词条:铁皮保温 塑料挤出机 钢绞线 玻璃卷毡厂家 保温护角专用胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述保定钢绞线价格,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。