《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 业界动态 > 摩尔线程大模型对齐研究获国际顶级学术会议认可

摩尔线程大模型对齐研究获国际顶级学术会议认可

URPO框架入选AAAI 2026
2025-11-14
來源:IT之家

11 月 13 日消息,摩爾線程提出的新一代大語言模型對齊框架 —— URPO 統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文近日被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議 AAAI 2026 收錄,為簡化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

format,f_avif.avif.jpg

▲ 圖源:摩爾線程官方公眾號 | URPO 統(tǒng)一獎勵與策略優(yōu)化框架

據(jù)介紹,在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線程 AI 研究團隊提出了 URPO 統(tǒng)一獎勵與策略優(yōu)化框架,將“指令遵循”(選手)和“獎勵評判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓(xùn)練階段實現(xiàn)同步優(yōu)化。URPO 從以下三方面攻克技術(shù)挑戰(zhàn):

數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗證推理數(shù)據(jù)和開放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于 GRPO 訓(xùn)練的信號格式。

自我獎勵循環(huán):針對開放式指令,模型生成多個候選回答后,自主調(diào)用其“裁判”角色進行評分,并將結(jié)果作為 GRPO 訓(xùn)練的獎勵信號,形成一個高效的自我改進循環(huán)。

協(xié)同進化機制:通過在同一批次中混合處理三類數(shù)據(jù),模型的生成能力與評判能力得以協(xié)同進化。生成能力提升帶動評判更精準(zhǔn),而精準(zhǔn)評判進一步引導(dǎo)生成質(zhì)量躍升,從而突破靜態(tài)獎勵模型的性能瓶頸。

實驗結(jié)果顯示,基于 Qwen2.5-7B 模型,URPO 框架超越依賴獨立獎勵模型的傳統(tǒng)基線:在 AlpacaEval 指令跟隨榜單上,得分從 42.24 提升至 44.84;在綜合推理能力測試中,平均分從 32.66 提升至 35.66。作為訓(xùn)練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出的評判能力在 RewardBench 獎勵模型評測中取得 85.15 的高分,表現(xiàn)優(yōu)于其替代的專用獎勵模型(83.55 分)。

從摩爾線程官方獲悉,目前,URPO 已在摩爾線程自研計算卡上實現(xiàn)穩(wěn)定高效運行。同時,摩爾線程已完成 VERL 等主流強化學(xué)習(xí)框架的深度適配


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。