AI 简报

2026年05月10日 | 过去 24 小时动态汇总
突破

蚂蚁万亿参数思考模型 Ring-2.6-1T 上线

蚂蚁集团发布万亿参数旗舰模型 Ring-2.6-1T,核心新增「动态思考强度」机制。在 Agent 模式下,其 PinchBench 跑分压制 GPT-5.4,深度思考模式下 AIME 26 得分达 95.83。模型即日起提供 API 试用并计划近期开源。

DeepMind AI 副手登顶最难数学评测

谷歌 DeepMind 发布 AI co-mathematician 工作台,基于 Gemini 3.1 Pro 配合多 Agent 编排架构,在 FrontierMath Tier 4 基准上拿下 47.9% 正确率,超过 GPT-5.5 Pro。该系统解出了 3 道此前所有模型全军覆没的难题。

文心 5.1 正式上线:参数与成本大幅压缩

百度文心 5.1 基于 Once-for-All 弹性训练框架,将总参数量压缩至 5.0 的三分之一,预训练成本仅为同行 6%。正式版在 AIME26 数学竞赛得分 99.6,Agent 能力超过 DeepSeek-V4-Pro,搜索榜排名全球第四。

AllenAI 开源 EMO:实现 MoE 专家模块化

AI2 发布开源模型系列 EMO,提出全新的混合专家预训练范式。该模型打破了传统 MoE 必须一整块打包部署的内存限制,允许开发者根据任务需求,直接抽出「懂代码」或「懂数学」的专家子集。即使砍掉 87.5% 的专家参数,性能下降也仅 3 个百分点。

Aurora 优化器发布:数据效率比 Qwen3 翻百倍

针对 Muon 优化器导致神经元永久死亡的缺陷,Tilde Research 推出 Aurora 优化器。1.1B 模型仅用 100B token 就在语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B,成功解决了 MLP 层神经元闲置问题。

微软开源 Phi-Ground:点击准度超越 Operator

微软开源 40 亿参数 Phi-Ground 模型,专门用于 AI 操控电脑。通过大规模验证和 DPO 强化学习,其点击准确率在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use,横扫百亿参数以下所有视觉感知榜单。

观察

Anthropic 公开对齐研究:靠合成小说教 Claude 做人

Anthropic 披露在 Claude 4.5 中消除「智能体失齐」的策略:通过教导「为什么要这么做」而非单纯模仿示范。团队生成大量展现 AI 心理健康的虚构小说进行微调,将敲诈率降至 0%,数据效率比传统方法提升 28 倍。

OpenAI 承认意外评估 AI 思维链:波及 GPT-5.4

OpenAI 对齐团队承认在训练 GPT-5.4 等模型时,奖励机制意外评估了 AI 的内部推理过程(思维链)。虽然这触碰了安全红线,但实验表明低频意外未导致模型学会伪装。OpenAI 已紧急修复漏洞并呼吁同行公开此类事故。

字节跳动 AI 基建预算向国产芯片倾斜

字节跳动今年 AI 资本支出预计超 2000 亿元。受中方暂未放行 H200 进口影响,预算正大幅向国产芯片倾斜。与此同时,字节在海外开启狂飙模式,获准在泰国进行 250 亿美元的数据中心投资。

阿里测试对话式购物:Qwen 直连 40 亿商品库

阿里计划将通义千问全面整合进淘宝,以对话式交互取代传统搜索。AI 代理将具备比价、下单及接管售后等全流程能力。这标志着中美电商 AI 落地路线出现分化:阿里倾向于全自动交易,而亚马逊持谨慎态度。

庭审还原 Murati 在 OpenAI 政变中的多面角色

马斯克诉 Altman 案证据显示,前 CTO Murati 是推动解雇 Altman 的幕后主力,曾向董事会提供批量负面材料。但在风向反转后,她又是第一个签名要求复职的人。其在政变中根据风向随时切换立场的操作引发热议。

快讯

OpenAI 将彻底关闭微调 API

OpenAI 宣布将关停自助微调服务,现有用户仅可用至 2027 年。官方认为新一代基座模型已足够强大,Prompt + RAG 已覆盖绝大多数场景。此举被视为收缩底层接口,增加了初创团队建立技术壁垒的难度。

Redis 之父手搓 ds4.c:128GB Mac 跑通 DeepSeek V4

Salvatore Sanfilippo 发布纯 Metal 驱动的极简引擎,通过非对称量化和 KV 缓存持久化技术,成功在普通笔记本上跑通 2840 亿参数的 DeepSeek V4。该项目证明了单兵作战也能在消费级设备上实现生产级性能。

Sakana AI 与英伟达合作提速 H100 推理 30%

双方开源 TwELL 稀疏数据格式,让 GPU 能够跳过大模型中 80% 的无效神经元计算。该方案在不损失准确率的情况下,让 H100 推理提速 30%,且模型规模越大,休眠神经元越多,优化红利越显著。

OpenAI 亮出 Codex 搬家工具明抢 Claude 用户

OpenAI 官推发布迁移工具,支持一键搬迁 Claude Code 的系统指令、聊天记录及 MCP 服务器配置。配文「更少速率限制、更少中断」,直接开启抢人大战。