AI 简报 - 2026年05月10日

蚂蚁集团发布万亿参数旗舰模型 Ring-2.6-1T，核心新增「动态思考强度」机制。在 Agent 模式下，其 PinchBench 跑分压制 GPT-5.4，深度思考模式下 AIME 26 得分达 95.83。模型即日起提供 API 试用并计划近期开源。

谷歌 DeepMind 发布 AI co-mathematician 工作台，基于 Gemini 3.1 Pro 配合多 Agent 编排架构，在 FrontierMath Tier 4 基准上拿下 47.9% 正确率，超过 GPT-5.5 Pro。该系统解出了 3 道此前所有模型全军覆没的难题。

百度文心 5.1 基于 Once-for-All 弹性训练框架，将总参数量压缩至 5.0 的三分之一，预训练成本仅为同行 6%。正式版在 AIME26 数学竞赛得分 99.6，Agent 能力超过 DeepSeek-V4-Pro，搜索榜排名全球第四。

AI2 发布开源模型系列 EMO，提出全新的混合专家预训练范式。该模型打破了传统 MoE 必须一整块打包部署的内存限制，允许开发者根据任务需求，直接抽出「懂代码」或「懂数学」的专家子集。即使砍掉 87.5% 的专家参数，性能下降也仅 3 个百分点。

针对 Muon 优化器导致神经元永久死亡的缺陷，Tilde Research 推出 Aurora 优化器。1.1B 模型仅用 100B token 就在语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B，成功解决了 MLP 层神经元闲置问题。

微软开源 40 亿参数 Phi-Ground 模型，专门用于 AI 操控电脑。通过大规模验证和 DPO 强化学习，其点击准确率在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use，横扫百亿参数以下所有视觉感知榜单。

Anthropic 披露在 Claude 4.5 中消除「智能体失齐」的策略：通过教导「为什么要这么做」而非单纯模仿示范。团队生成大量展现 AI 心理健康的虚构小说进行微调，将敲诈率降至 0%，数据效率比传统方法提升 28 倍。

OpenAI 对齐团队承认在训练 GPT-5.4 等模型时，奖励机制意外评估了 AI 的内部推理过程（思维链）。虽然这触碰了安全红线，但实验表明低频意外未导致模型学会伪装。OpenAI 已紧急修复漏洞并呼吁同行公开此类事故。

字节跳动今年 AI 资本支出预计超 2000 亿元。受中方暂未放行 H200 进口影响，预算正大幅向国产芯片倾斜。与此同时，字节在海外开启狂飙模式，获准在泰国进行 250 亿美元的数据中心投资。

阿里计划将通义千问全面整合进淘宝，以对话式交互取代传统搜索。AI 代理将具备比价、下单及接管售后等全流程能力。这标志着中美电商 AI 落地路线出现分化：阿里倾向于全自动交易，而亚马逊持谨慎态度。

马斯克诉 Altman 案证据显示，前 CTO Murati 是推动解雇 Altman 的幕后主力，曾向董事会提供批量负面材料。但在风向反转后，她又是第一个签名要求复职的人。其在政变中根据风向随时切换立场的操作引发热议。

OpenAI 宣布将关停自助微调服务，现有用户仅可用至 2027 年。官方认为新一代基座模型已足够强大，Prompt + RAG 已覆盖绝大多数场景。此举被视为收缩底层接口，增加了初创团队建立技术壁垒的难度。

Salvatore Sanfilippo 发布纯 Metal 驱动的极简引擎，通过非对称量化和 KV 缓存持久化技术，成功在普通笔记本上跑通 2840 亿参数的 DeepSeek V4。该项目证明了单兵作战也能在消费级设备上实现生产级性能。

双方开源 TwELL 稀疏数据格式，让 GPU 能够跳过大模型中 80% 的无效神经元计算。该方案在不损失准确率的情况下，让 H100 推理提速 30%，且模型规模越大，休眠神经元越多，优化红利越显著。

OpenAI 官推发布迁移工具，支持一键搬迁 Claude Code 的系统指令、聊天记录及 MCP 服务器配置。配文「更少速率限制、更少中断」，直接开启抢人大战。