怀化锚索 废弃向量荐!蚂蚁用8B小模子构建「用户“话”像」,达成跨任务跨模子通用并拿下SOTA

 新闻资讯    |      2026-02-10 08:01
钢绞线

怎么作念个爆款大模子愚弄?怀化锚索

这或许是 2026 年 AI 建造者们都在关心的问题。当算力和能不再是唯的护城河,"爆款"意味着大模子要能地"收拢"每名具体的用户,而个化恰是其中的要道技能之。

那么,大模子时间应该若何作念个化呢?面,传统的荐系统和对话模子经常依赖 ID Embedding 或特定参数(如 LoRA)来暗示用户偏好。这种不成解释、难以搬动的"黑盒"范式,正在成为镣铐。另面,大模子坚决的理能力和生成能力为破传统范式的局限带来了契机,让个化不错从"黑盒"走向"白盒"。

近日,蚂蚁和东北大学询查团队(后简称"团队")出 AlignXplore+,在大模子个化上达成了种文本化用户建模的新范式,让复杂的用户偏好不错被东说念主和机器同期相识,同期具备很好的膨胀和搬动。

为什么是"文本"?

△  图 1 个化域从基于向量 / 参数的用户暗示向基于文本的用户暗示的范式换取。

( a ) 传统法生成的用户属参数和向量与检修模子考究耦,因此法搬动。

( b ) 团队始创了种基于文本的范式,该范式能断出与模子和任务关的偏好转头,动作通用接口,赋能各样下流模子完成各样化任务。

事实上,按照当今的个化技能阶梯,论是静态的用户向量照旧为每个用户微调个模子,实验上都是不透明的"黑盒"。

团队以为,这种暗示式有两项根底的痛点:

1. 不成解释:用户法相识、也法修改被系统界说的"我方",这在防御隐秘和肆意权的 AI Agent 时间是不成禁受的。

2. 法搬动:要道的是,向量和参数频繁与特定的模子架构度绑定。你在荐系统里的恒久酷好,法径直被聊天机器东说念主复用;你在 A 模子里的画像,换了 B 模子就成了乱码。

"文本是通用的接口,而向量是封锁的孤岛。"

基于这么的底层念念考,团队提倡了种范式周折:舍弃隐空间中的向量,径直用当然说话来归纳和相识析用户的偏好。

这种基于文本的偏好归纳,不仅东说念主眼可读、可控,勤奋的是它解耦了偏好理与下流的模子和任务——论是荐、写稿照旧闲聊,论是 GPT、Llama 照旧 Qwen,都不错缝"读懂"这个用户。

AlignXplore+:三大中枢特,重构用户相识范式

比较于现存的用户相识和对都法,AlignXplore+ 达成了三大杰出:

1. 全域通用:破数据孤岛。

AlignXplore+ 不再局限于单的交互面孔。它被联想用于处理果真全国中异构的数据源。论是应付集会上的发帖、电商平台的,照旧新闻流的浏览纪录,AlignXplore+ 都能将其统消化,索要出价值的偏好摘录。这使得它简略从碎屑化的数字萍踪中,拼集出个好意思满的用户全貌。

2. 致搬动:次画像,处处通用。

从"单任务"到"万能愚弄",它破了任务鸿沟,将能力从反应聘请膨胀到了荐和生成等平素的个化愚弄中;从"特定模子"到"通用接口",它果真达成了跨模子的搬动。AlignXplore+ 生成的画像,不错被任何下流大模子径直读取和使用。

3. 实战适配:惧果真全国数据噪点。

手机号码:13302071130

果真全国的交互是流式的,亦然充满噪点的。AlignXplore+ 不需要每次都重新"阅读"用户的生,而是像东说念主类缅想样,基于旧的摘录和新的交互不停演化;而濒临果真场景中常见的"不信号"(如穷乏明确负反馈的数据和跨平台混数据),预应力钢绞线它依然能保抓矫健的理能力,受杂音打扰。

AlignXplore+ 具体是什么?怀化锚索

团队提倡了种面向大模子个化对都的统框架,中枢贪图惟有个:让大模子在不重训、不续训前提下,抓续相识用户。

△  图 2 检修框架综合。

该框架包含两个主要阶段。

( a ) SFT 阶段:通过"生成 - 考证 - 并"历程创建质料检修数据,该历程通过确保对多个改日交互的准确瞻望,综生成的偏好转头。

( b ) & ( c ) RL 阶段:此阶段摄取课程剪枝计策,考中理密集型样本,并通过蕴蓄励函数化偏好转头,以提高流式场景中的恒久有。

在这个框架下,团队将"用户偏勤学习"拆解为两个中枢神志:

1. SFT 阶段:质料数据的"生成 - 考证 - 融"。为了科罚文本化的偏好归纳"太泛"或"太偏"的问题,团队联想了套 Pipeline,让模子基于多种可能的改日交互行径来反刻下的偏好,并引入了"行径考证"机制,确保生成的用户偏好能准确瞻望用户行径。

2. RL 阶段:面向改日的"课程学习"仅有 SFT 是不够的。团队引入了强化学习(RL),并联想了两个要道机制:

课程剪枝(Curriculum Pruning):筛选出那些"难但可解"的理价值样本,避模子在浅易或不成解的样本上空转;

蕴蓄励(Cumulative Reward):让模子不仅关心刻下的偏好有,要关心生成的用户偏好在改日抓续交互中的可演化,适合流式新。

AlignXplore+:小参数撬动大模子,越基线

相较于现存法,AlignXplore+ 在用户相识准确、搬动能力和鲁棒上达成了升。

1. 果升:8B 模子越 20B/32B 开源模子

在包含荐(Recommendation)、复兴聘请(Response Selection)和复兴生成(Response Generation)的九大基准测试中,仅有 8B 参数的 AlignXplore+ 在平平分数上获取了 SOTA 的收获。

平均得分 75.10,对提高幅度比 GPT-OSS-20B 出 4.2。

在复杂任务上发达尤为隆起(如 AlignX),考证了显式理比隐式向量能捕捉层意图。

2. 搬动能力升:果真达成"次画像,处处通用"

AlignXplore+ 生成的用户偏好,展现了惊东说念主的 Zero-shot 搬动能力:

跨任务搬动(Cross-Task):在对话任务中生成的偏好,径直拿去指新闻荐,依然有。

跨模子搬动(Cross-Model):这是文本接口的大势。AlignXplore+ 生成的偏好,径直给 Qwen2.5-7B 或 GPT-OSS-20B 等不同的下流模子使用,均能带来矫健的能提高。这意味着你的用户偏好不再被单模子锁定。

3. 鲁棒升:适合果真全国的"不数据"

果真场景经常惟灵验户的纪录(正样本),而穷乏明确的负反馈。实验标明,即便移除了通盘的负样本,AlignXplore+ 依然保抓了权贵的能势,展现了坚决的理鲁棒。

用户的果真历史行径经常是杰出多种域的。实验成果显露,即使将不同域的历史纪录(如电影 + 政新闻)混在起,AlignXplore+ 依然能抽丝剥茧,捕捉多重酷好,而不像传统模子那样将酷好"平均化"。

面向改日:构建透明、互通的 User-Centric AI

尽管 AlignXplore+ 也曾解说了"文本即接口"在个化域的纷乱后劲,但这仅仅个驱动。团队以为,跟着 AI Agent 的爆发,用户暗示(User Representation)将成为通不同 Agent 的中枢契约。下步,团队将连续探索:

流式理的限:在长周期的流式交互中,如安在新文本偏好时保抓纯粹与?

的用户行径:在果真全国的多种异构用户数据中,如何地挖掘出用户的果真、的偏好?

通用的检修范式:在濒临各样化的交互面孔时,如何构建果真的通用个化理引擎?

作家先容

该职责得作家为东北大学软件学院博士生刘禹廷,当今在蚂蚁实习。蚂蚁询查员武威为共同孝敬者及通信作家。

关联聚合

Arxiv:

https://arxiv.org/pdf/2601.04963

GitHub:

https://github.com/AntResearchNLP/AlignXplorePlus

Huggingface:

https://huggingface.co/VanillaH1/AlignXplore-Plus

键三连「点赞」「转发」「留意心」

宽饶在批驳区留住你的见识!

—  完  —

咱们正在招聘名眼疾手快、关心 AI 的学术裁剪实习生  � �

感酷好的小伙伴宽饶关心 � �  了解细目

� � 点亮星标 � �

科技前沿进展逐日见怀化锚索

相关词条:铝皮保温     隔热条设备     钢绞线厂家玻璃棉    泡沫板橡塑板专用胶