IT之家 5 月 14 日音讯,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报导称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启示,选用新式强化学习(RL)范式,强化模型推理才能。
大型言语模型(LLMs)经过外部东西提高功用已成为抢手趋势,这些东西协助 LLMs 在搜索引擎、计算器、视觉东西和 Python 解说器等范畴表现出色。但现有研讨依靠组成数据集,无法捕捉清晰的推理进程,导致模型仅仿照外表形式,而非真实了解决议计划进程。
为了提高 LLMs 的东西运用才能,现有办法探究了多种战略。首要包含两方面:榜首,数据集收拾和模型优化。研讨者创立大规模监督数据集,并运用监督微调(SFT)和直接偏好优化(DPO)强化学习等技能,将 LLMs 与外部东西整合,扩展其功用。
第二,改善推理进程。从传统的练习时扩展转向测验时杂乱战略。前期办法依靠进程级监督和学习奖赏模型,辅导推理轨道。
这些办法虽有用,却仍受限于组成数据的缺少。研讨者指出,经过这些战略,LLMs 能处理单轮或多轮东西调用,但缺少自主推理的深度。
英伟达联合宾夕法尼亚州立大学、华盛顿大学,组成专业团队,合作开发 Nemotron-Research-Tool-N1 系列,针对现有办法的局限性,学习 DeepSeek-R1 的成功,开发轻量级监督机制,专心于东西调用的结构有用性和功用正确性。
Nemotron-Research-Tool-N1 系列并非依靠显式标示的推理轨道,而是选用二元奖赏机制,让模型自主开展推理战略。
研讨者一致处理了 xLAM 和 ToolACE 等数据集(供给单轮和多轮东西调用轨道)的子集,并规划了轻量级提示模板,辅导东西生成进程。
该模板运用 <think>...</think > 标签清晰指示中心推理,并用 < tool_call>...</tool_call > 标签封装东西调用,这样避免了过度拟合特定提示形式。
骨干模型为 Qwen2.5-7B / 14B,并测验了 LLaMA 系列变体,以评价泛化才能。在 BFCL 基准测验中,Nemotron-Research-Tool-N1-7B / 14B 模型表现出色,逾越了 GPT-4o 等关闭源模型,以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。
与相同数据源的 SFT 基准比较,该模型优势显着,证明了 RL 办法的有用性。在 API-Bank 基准上,Tool-N1-7B / 14B 的准确率别离比 GPT-4o 高出 4.12% 和 5.03%。这些成果验证了新办法的潜力,协助 LLMs 更自主地生成推理战略。研讨者总结以为,这标志着从传统 SFT 向 RL 范式的改变。
IT之家附上参阅地址
Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning
作者/ IT时报记者 钱立富
修改/ 钱立富 孙妍
美国任意加征关税,犹如一场无差别扫射,子弹横飞之下很多工业伤痕累累。作为全球化协作模范的信息通信业未能幸免,而这场关税风暴掀起的巨浪,也在反噬美国通信业本身。
关于诺基亚、爱立信这些欧洲电信设备大厂来说,美国是其非常重要的商场,关税大幅举高,无疑使其产品进入美国商场的本钱大幅上升。假如美国本乡具有颇具竞争力的电信设备商,这自然是利好,能够趁机“吃下”国外厂商的比例,促进电信范畴制造业回流。但对美国来说,严酷的现实是,它自己没有尖端实力的电信设备商。
在关税大幅进步的局势下,美国运营商要么添加本钱开支,在产品收购上花费更多,并导致美国电信服务费用提价,要么减缓产品收购的脚步,怠慢网络布置的速度。无论是哪一种挑选,都会损伤美国运营商和顾客的利益。
欧洲电信双雄的“忧伤”
由于长时刻面对美国政府以国家安全危险为由的严厉约束,华为、中兴简直被彻底扫除在美国商场之外。现在,爱立信、诺基亚在美国电信设备商场占有主导地位,三星也占有必定比例。
记者查阅了诺基亚2024年财报,数据显现,其在北美商场的净出售额到达53.81亿欧元,在全体收入中的占比到达28%,只是落后于“大本营”欧洲区域(占比33%)。而从事务细分范畴来看,在网络基础设施范畴,美洲商场收入在全体中的占比高达41%;在移动网络范畴,占比到达30%;在云和网络服务范畴,占比到达39%。
没有赢家!作者/ IT时报记者 钱立富修改/ 钱立富 孙妍美国任意加征关税,犹如一场无差别扫射,子弹横飞之下很多工业伤痕累累。作为全球化协作模范的信息通信业未能幸免,而这场关税风暴掀起的巨浪,也在...
12月26日,来自安全重庆微信大众号的音讯,高荣琴、王加龙等8名个人,杨波、唐春梅等2个集体被确立为2022年重庆市拔刀相助先进个人(集体)拟赞誉目标。关于2022年重庆市拔刀相助先进个人(集体)的公...
新华社金边4月22日电 题:推动中柬命运一起体建造迈出新脚步新华社记者吴长伟 孙楠四月的金边,喜庆弥漫。国家主席习近平在柬埔寨传统新年之际应邀对柬进行国事访问。访问期间,习近平主席同柬埔寨领导人共叙友...
00:05制造 彭启云二审 林潇三审 闵捷告发/反应...
众星聚集!备受瞩目的2024赛季乒超联赛在长沙拉开帷幕。12月12日-16日 ,本赛季乒超联赛榜首阶段竞赛在湖南长沙中南大学体育馆进行。在首个竞赛日里,由王楚钦、梁靖崑等一众国乒顶尖选手领衔的山东魏桥...
本文转自【央视新闻客户端】当地时间11月22日,数百名来自哥伦比亚、委内瑞拉、洪都拉斯等国家的移民在墨西哥南部韦拉克鲁斯州登上一列货运列车,前往美国与墨西哥边境。在长期步行行进后,移民期望经过“搭便车...