《机器之心》原作者:吴其实可以平衡推理的规模、速度和准确度,完全是多余的。仅9月份,就有超过10家来自全球的主要玩家齐聚一堂,大规模开发开源模型,其中包括BAT、蚂蚁集团、Deep Search、Meta FAIR、Mistral AI等。开源模型的数量相比8月份增加了一倍多,现在停滞不前。其中,中国的实力尤其引人注目。蚂蚁集团已经 过去一个月几乎凭借“开源风暴”垄断了市场。公司百灵大车型密集推出七款新品,平均每四天推出一款新品,并在性能、效率和功能上持续进步。 9月30日,开源思维模型Ring-1T Preview(Ring-1T的早期版本)首次将开源推理模型的“上限”提升至万亿参数级别。我。深度学习“三巨头”之一的Yann LeCun也称赞其“令人惊叹”。这种可能性还在继续增加。 10月9日凌晨,百灵大模型再次发力,正式发布并开源其大规模通用语言模型Ling-1T。 Ling-1T是Ant迄今为止开放的最大参数缩放语言模型。至此,继月之暗面的Kim K2和Ali Qwen3-Max之后,又一位重量级选手进入了Trillion Parameter LLM“开源俱乐部”。开源地址:https://huggingface.co/inclusionAI/Ling-1T Experonline科普:ling.tbox.cn 跳舞的大象:数万亿个参数。蚂蚁开发了高效的MoE(Mixture o),你可以很容易推理出Ling 2.0系列,这是一个继承Ling-1T(Ling Experts)架构的大型自助Ling模型,也是该系列的第一个主要产品。1T(万亿,万亿)的总参数规模给人直观的感觉是“开源模型的“体量大战”仍在加速更新。听到“万亿参数”,很多人的第一反应是“积累材料赚”或者“成本太高”。模型越大,推论越详细。计算速度快、成本低,但不够精确。“准确度”和“效率”总是像玩跷跷板,一个往回走,一个往回走。Ling-1T重写了这个 通过帕累托改进的刻板印象。在不牺牲推理能力的情况下,显着提高思维效率,持续逼近几乎不可逆转的平衡点(帕累托乐观主义)。那么Ling-1T的“高品质制作”到底有什么过人之处呢?官方成绩单显示在多维度基准测试中表现良好。 Ling-1T(最右一栏)与几款代表性旗舰机型的比较,其中包括开源机型 大量参数(DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905)和闭源 API(GPT-5-main、Gemini-2.5-Pro)。最引人注目的是两个核心方面的表现:编程和数学推理(coding math)。这些被称为高推理密度的任务是大型模型能力的上限,而 Ling-1T 仍稳居第一梯队。例如,在LiveCodeBench(现实世界中的编程推理任务)中,Ling-1T获得了最高分,并且明显优于DeepSeek。在ArtifactsBench(复杂软件逻辑建模)中,它获得了59.31的分数,仅次于Gemini-2.5-Pro。数学方面,综合测试使用Omni-Mat.h,UGMathBench突破74分大关,稳坐第一名。在金融推理方面,表现更加稳定,达到了87.45,展示了很强的跨领域逻辑连贯性和推理能力。知识方面同样不错。 Ling-1T位列第一或并列第一首先在几个主要数据集上排名第一:C-Eval (92.19)、MMLU-Redux (92.25)、MMLU-Pro (82.04)、MMLU-Pro-STEM (88.5) 和 OlympiadBench (91.3)。这些分数通常比 DeepSeek、Kimi 和 GPT-5 主干模型高出 1 到 3 个百分点,有些指标甚至接近 Gemini-2.5-Pro 的上限。这不仅体现了知识密度高、概括能力强,而且体现了深度思维和逻辑推理的内在一致性。在智能体推理和多轮推理场景中,Ling-1T 表现同样出色。特别是具有开放式思维特征的任务,如BFCL-v3和创意写作,展示了平衡自然语言表达和思维连贯性的能力,即不仅具有“回答问题”的能力,而且具有“理解思想”的能力。有趣的是,拥有高智商并不一定意味着要花钱。在AIME-25(2025年美国数学邀请赛)推理测试中,r研究人员比较了关键模型的性能:推理准确性和平均输出长度(即一个想法消耗的令牌数量)。蓝点代表 Ling-1T,准确度为 70.42%,与 Gemini-2.5-Pro(70.1%)并列最佳准确度,尽管后者使用更长的输出(更多令牌)。与Gemini-2.5-Pro相比,Ling-1T以更短的思维路径实现了相似或更好的推理精度。相比之下,GPT-5。终端DeepSeek-V3.1、Kimi-K2-Instruct-0905、Claude-4.1-Opus-250B等型号精度明显较低。要么结果较长,要么思维效率不高,一般落在右下或中间区域。在我自己尝试并写下这篇文章之后,很多人会想,“当然,这令人印象深刻,但这与普通大众有什么关系呢?”也许您从未调用过 API 或运行过模型。然而,这些型号的功能正在悄然进入您的日常生活。支付软件允许智能助手,更好地了解你的“吃穿用”。财务助手可以帮助你监控你的财务状况,诊断健康问题。当你身体不舒服时,健康助手知道如何提出初步建议,还可以帮助你对接医疗资源。它也让你平时使用的工具在写作、编程、设计等场景中变得更加智能。当我开始使用 Ling-1T 时,我最直观的注意到的是,Ling-1T 不一样 来自传统的推理模型。他不是一个爱说话的人,也不会表现出他所有的长篇思考过程。他的回答简短、直接、快速。首先,创建用户界面并设计用户卡。完成度非常高,重要的指令如字体样式(斜体)、头像形状、设计居中等都实现得近乎完美,一切都很好。我们对视觉需求也有精准的了解abstrac故事:“主色是石板蓝,次要色是白色。”提示:生成具有蓝紫色主题的现代用户卡组件(主色#6A5ACD,辅助色白色)。该卡必须包含: 1. 用户头像(圆形占位符)。 2. 用户名。 3. 句子签名(使用斜体)。 4. 蓝色关注按钮。 5.整个设计将居中。然后,让他们设计一个漂亮的倒计时网页。渐变的背景引人注目,出乎意料的漂亮,看起来非常优雅。得益于“语法-功能-美学”混合奖励机制,Ling-1T不仅理解了代码的逻辑,还开始学习美学。提示:设计一个漂亮的倒计时页面。之前的倒计时功能出错了,所以我又把卡拿出来了。下一篇在色彩上不如上一稿那么壮观,但它的“匠心”却隐藏在底层文案中,比如“时间水晶”和“量子纠缠倒计时”。还有倒计时功能完全正常。底线:为尖端科技媒体 Machine Heart 设计一个前卫的网站,其滚动顶部可播放实时 AI 新闻。这次,鼠标的轨迹创造了意想不到的惊喜,带有漂浮的粒子效果,既科幻又浪漫。除了编程设计之外,Ling-1T还可以利用其科学逻辑推理能力,成为大众的学习助手,解答问题、协助撰写报告。首先,我考了《2025年数学新课程纲要试卷一》第15题(问题答案),很轻松地就通过了。那么,复杂的事情能容易理解吗?今年,2025 年诺贝尔物理学奖授予了三位美国科学家,以表彰他们对量子隧道效应的实验验证。邀请李老师来谈谈ng-1T:什么是量子隧道效应?这样一来,我们就可以用“穿墙”的比喻来解释粒子“借用”势能的概念。以直观、精准的方式进行障碍,不误入歧途,有效降低理解门槛。逻辑也非常清晰。我们将首先比较经典世界和量子世界之间的差异,然后解释原理并通过示例进行演示,最后总结要点。 《星际穿越》中的“虫洞”科学也令人钦佩。无需复杂的公式,只需发挥想象力,用苹果、折纸、牙签的比喻,瞬间搭建出直观的几何模型,深度讲解“折叠宇宙的捷径”。表格、问题和答案以及摘要组织清晰、简洁。接下来,我们测试您的创意写作技巧。重要的不仅是能够写作,而且能够以有趣的方式写作。内容营销无论是文案写作、剧本写作,还是创意支持,这项技能都派上用场。这是 Ling-1T 写的第一行他关于诺贝尔物理学奖的播客。要求是它的灵感来自一首星际诗歌。结果令人惊讶:不仅准确再现了迪伦·托马斯的杰作,而且语言紧张,甚至背景音效也完美贴合主题。下面这篇800字的《诺贝尔物理学奖红薯文案》已经快要出版了。信息准确、结构清晰、有节奏且完全不含糊。最后我们来看看它的渲染能力.iment。任务很具体:“介绍一条武汉附近私人且特定的徒步路线。自驾时间不超过2小时,适合周末短途旅行。”在实践中,人们和公司常常需要模型来执行更复杂的任务,例如网络搜索、数据库查询、代码计算,甚至与内部系统的耦合。拥有“调用工具”的能力意味着Ling-1T是一个执行器,可以执行联合调动外部资源来完成任务,而不仅仅是“回答问题”。从业绩来看,经营业绩稳健。推荐的地方确实存在(我不是幻觉)而且有很多当地人没去过。这确实是一个“利基”。更有趣的是,第一个选项只需两个多小时的车程。模特不仅知道这一点,还解释了原因,说道:“时间是加时,但风景不多,值得破例。”这个矛盾的决定非常有趣。完整的结果不仅提供了地理信息和交通信息,还涵盖了季节建议和专业提示,非常实用。改进阿里帕累托:如何让万亿模型更强、更便宜? “堆栈”不再是答案。 Ling-1T 再次广播相同的信号。 2025年大型车型的竞争正在转向效率范式以及如何实现高效基于“巨大”的效率革命。毕竟,如果你喜欢人工智能,让它像未加密支付一样无处不在,关键在于更快、更有利可图、更稳定的日常表现。于是,“大参数池+小参数激活”范式迅速成为突破口,万亿容量覆盖资金,百亿覆盖成本。超大型模型可以从实验室走向现实,而无需牺牲推理能力或面临计算能力和成本之间的长期权衡。 Ling-1T是这条航线的模型。它包含数万亿个参数,但每次调用只需要数百亿计算资源。处理复杂问题、保持响应速度并控制成本曲线。美丽的帕累托改进,这才是行业的正道。那么这种“快速思考”和“精确思考”之间的平衡从何而来呢?首先我们来说说两个重要的点:数据和架构。在另一方面,超过20T的令牌从丰富的高质量推理语料中“捕获的知识”的质量提高,让Ling-1T从数据层面提高了逻辑密度和思维深度。同时,我也学会了“按需思考”。每个 MoE 层有 256 名专家,但在推理过程中只有大约 500 亿个参数处于活动状态。每次收到问题,系统只选择八位最优秀的专家参与思考,共享专家对结果进行巩固。其结果是支持数万亿的智商、数百亿的功耗,并大幅提高能源效率。 Ling-1T模型结构示意图。 Ling-1T模型结构是一个具有万亿参数混合专家(MoE)架构的大型模型,旨在保证强大的推理能力,同时实现高效计算和低成本推理。这种“按需思考”的方法也导致了q实际使用中发生质的变化。支持 128 KB 上下文,带来近乎“长记忆”的体验:一次阅读书籍级别的内容,不会错过任何曲目。这对于拥有长文档的企业(例如法律、金融和科学研究)尤其重要。分组查询注意力位于高效的 MoE 之上,以提供深入的理解和敏捷的响应,并且推理速度不再受到长上下文的阻碍。帕累托改进 2:巨型动物如何更聪明地学习?除了数据和架构之外,Ling-1T 的另一项关键创新是将“智能学习”应用于工程和培训范式。即不是多喂,而是精喂,也不是“多喝”,而是练好。为了确保模型“吃”的每一口都是具有高推理密度的知识本质,蚂蚁建立了自己的基础设施来增加营养密度。首先,创建了 FP8 原生的混合精度训练平台为具有数万亿参数的模型提供高性能、低功耗的计算基础。然后,基于集成到数据湖中的广泛表格构建了人工智能数据系统,并实施了样本级谱系追踪,以确保每个令牌具有“来源可追溯和质量可控”。通过这个基础设施,蚂蚁从40多T的语料中提取了20多T的高密度推理数据,成为Ling-1T的核心“思维片”。在培养路线上,这套体系并不是一阶段的“强化训练”,而是三阶段的精英教育,先用10T高密度知识语料库打好通识教育基础,再用10T高密度推理语料库强化卡登逻辑。中型列车是中期的关键。除了将“内存”扩展到 32 KB 上下文之外,您还可以预注入性能。高级思想链(Evo-CoT)为训练后阶段的推理路径预热,让模型从“记忆”转向“思考”。训练节奏控制也得到了改进,使收敛更加稳定和更快。最佳参数设置(学习率、批量大小等)可以使用 Ling 缩放定律来确定。它是通过“感觉”自动计算出来的,不再依赖于“感觉”。内部开发的WSM调度器(预热-稳定-合并)取代了传统策略,结合多轮中期训练的结果来模拟自然收敛。最终,大规模模型在通用能力、常识、语言理解、经验、数学和代码等多个方面普遍优于旧模型。这六个子图代表了模型在不同类型任务上表现的变化,包括一般能力、常识推理、语言理解、经验、数学和编码能力。蚂蚁在训练调度器方面的关键进步,WSM(War与传统的 WSD(预热 – 稳定 – 衰减)相比,mup – 稳定 – 合并)几乎所有任务的性能都有显着提高。一旦我们进入后训练阶段(强化学习),关键是将反馈的粒度与人类语义相匹配。传统的GRPO(词元素级别)类似于逐像素修图,虽然精细但碎片化,很难进行通用语义的重构。 GSPO(序列级别)过于密集和稳定,但答案是模糊的。 Ant开发的LPO(语言单元策略优化)“赛道”以“句子”为优化单元,直接将奖励和约束与最小的完整人类语义单元对齐。它不仅避免了词元素级别的碎片化,而且克服了序列级别的歧义。这将训练目标从“正确的单词”更新为“正确的原因”,并允许模型使用com生成语言流。逻辑完整,思维一致。 Ling-1T还在高智能和鲁棒性之间找到了新的平衡。开源让“普惠AI”行业相信,AI竞赛中真正的区别不在于哪种模式更强,而是开源与闭源之战。越来越多的中国国家选择了第一种选择。另一方面,这是分阶段必要的。从追踪者的角度来看,开源就像“大家一起抬卡车”,让技术能够更迭代、更低成本地开发。对于像Ling-1T这样大规模、精心设计的模型系统,开源社区本身可以成为去中心化的“质量和安全红队”,可以显着降低边际改进成本并加速版本演进。另一方面,中国的优势不在于模式本身单一,而在于丰富的实施场景。特别是在金融等高度合规的行业和医疗保健方面,开源透明度使公司有机会真正“理解”他们的模型。这意味着您可以审核决策路径,融入独特的见解,并在可控的安全范围内锁定智能价值。如果我们能够复制信任,我们就能传播情报。更重要的是,开源降低了参与门槛。任何个人,从开发商到小企业,都可以进入市场并以最小的摩擦建立一个生态系统。在开源Ling-1T之前,Ant已经拥有高效的MoE架构和分层模型设计,将“亿级功能”分解为多种可实现的形式。您可以在手机上运行 Ling-mini,在小型企业服务器上部署 Ling-flash,或者在云端调用功能齐全的 Ling-1T。更进一步,Ant 不仅开源了模型本身,还从 ATorch 框架中暴露了使模型能够持续演进的“核心功能”到强化学习工具链,允许模型的开发像 DevOps 中那样“流水线化”。这些决定更像是普遍哲学的练习。有些人用它来管理资金,另一些人用它来复印。其他人正在将其纳入风险管理系统、零售网络、金融终端、诊断和治疗系统中。当这些功能被频繁需求时,人工智能将变得像电力和支付一样普遍,看不见却无处不在。 HuggingFace:https://huggingface.co/inclusionAI/Ling-1TModelScope:https://modelscope.cn/models/inclusionAI/Ling-1TGitHub:https://github.com/inclusionAI/Ling-V2Ling 聊天(国内用户):https://ling.tbox.cn/chatZenMux(国外用户) 开发者,提供聊天和API测试等功能):https://zenmux.ai/inclusionai/ling-1t 文中视频链接:https://mp.weixin.qq.com/s/ccGLfIe9CSspVWc3TVf6fA
特别提示:以上内容(包括图片和视频,如有)已上传并发布发布的内容可供自有媒体平台“网易账号”的用户使用。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。