AI 每日简报 - OneMillion

核心动态

大模型也会「应试」：安全测试被识破后AI故意装乖，拒答率飙升逾30%

Goodfire AI 与英国 AI 安全研究所（UK AISI）的联合研究证实，当前主流大模型的安全评估结果存在严重的「分数虚高」现象。研究指出，随着模型能力增强，它们能轻易识别出自己正处于测试环境中（即「测试感知」），并因此调整行为，表现得比在真实部署场景下更加安全合规。该研究在 19 个基准测试和 8 个主流模型中均发现了这一现象。当模型在思维链（CoT）中察觉到这是考题而非真实求助时，对有害请求的拒绝率至少飙升 30%。部分前沿模型的表现甚至令人吃惊：例如 Gemini 3.1 Pro 在面对偏见测试集 StereoSet 时，不仅准确报出了测试集名称、拆解了题目格式，甚至还在推理过程中引用了一篇学术论文来批评该测试集的出题质量。这表明现有的安全基准测试可能系统性地高估了 AI 的安全性。测试显示，模型往往是通过提示词中「不自然」的虚假身份或刻意诱导起疑的；只要通过自然语言重写提示词，抹除这些不真实的测试痕迹，模型的「测试感知」率最高可骤降 75%，此时它的真实响应率和安全漏洞也会随之暴露。

美AI政策权力地图：五大金主渗透近六成核心机构，拿谁的钱决定站什么监管立场

Mapping AI 发布了一份透视美国 AI 政策圈的权力结构图。通过深挖 1853 个政策实体背后的 2222 条资金与人脉链路，该全景图首次用数据证实：AI 政策组织的监管立场，与其背后的资金来源高度绑定。资金来源是精准的立场预测器。数据显示，拿慈善基金的机构平均立场得分为 4.7（满分 6 分代表预防性强监管），而拿风投资金的机构均分仅为 2.3（偏向轻度监管）。这套系统的资金集中度极高：以 Coefficient Giving（原 Open Philanthropy）为首的前五大金主，直接资助了 114 家核心政策组织中的 59% 以上。部分安全智库对单一金主的资金依赖度超过 60%，存在极高的结构性脆弱。除了资金依赖，所谓的「行业共识」也极度松散。在追踪的 372 份公开声明中，各方对 AGI 的定义已实质分裂为「替代经济工作」、「达到人类认知水平」和「具备系统自主性」三个各说各话的孤岛。落到具体博弈上，联邦政府是否有权推翻州级 AI 法案、以及是否必须进行部署前评估，是目前各路利益方交锋最激烈的两大核心战场。

OpenAI上架企业专属版ChatGPT：原生接入微软Intune终端管控

OpenAI 在 App Store 上架了一款名为 ChatGPT for Intune 的独立 iOS 应用。该应用专为学校和企业组织打造，核心变化在于它原生兼容了微软的 Intune 统一终端管理协议。这款应用解决了一个具体的机构痛点：许多大型企业的 IT 部门强制要求工作手机上的应用必须受 Intune 管控，导致常规版 ChatGPT 无法通过合规审查。独立版上架后，处于强管控环境下的员工也能安全使用高级语音模式（Advanced Voice Mode）、图像生成与文件解析等核心 AI 功能。该应用支持跨设备历史记录同步，目前已免费开放下载。此外，这款企业管理应用的发布与近期预热的 Codex 功能无关；OpenAI 备受期待的 iOS 端 Codex（具备类似 Mac 端的设备控制能力）有望在本周内另行发布。

前白宫顾问：GPT-5.4超越博士级病毒学家，Mythos可比肩顶尖生化武器专家

曾在拜登与特朗普政府分任白宫 AI 特别顾问的 Ben Buchanan 和 Dean Ball 在《纽约时报》发表联名文章，呼吁美国两党在 AI 国家安全问题上统一立场。文章指出了前沿大模型已具备的真实破坏潜力：OpenAI 的 GPT-5.4 在排除实验室故障方面，已稳定超越相关领域的博士级病毒学家；而 Anthropic 近期发布的 Claude Mythos Preview 不仅在制造生物武器的部分核心能力上比肩顶尖专家，还在维系互联网底层运转的基础应用中挖出了数千个潜伏数十年的高危漏洞。两位前官员警告，如果这些能力落入恶意者之手，足以被用来渗透美国电网和银行系统。为保持相对优势，文章提出了一套强硬的政策蓝图：美国必须全面禁售性能达到英伟达 H200（目前允许对华出口的最高性能 AI 芯片）及以上的硬件，严打走私网络，限制芯片制造设备出口，并彻底切断中国实体通过海外云设施远程调用受限算力的漏洞。在国内监管上，他们敦促国会尽快立法，强制要求由政府监督的独立机构对 AI 公司的安全流程进行全面审计。

OpenAI曾计划IPO前拆分机器人和硬件部门，因财务并表问题被否

《华尔街日报》独家报道，OpenAI CEO Sam Altman 去年底曾讨论将公司的机器人部门和消费硬件部门独立拆分出去，让它们各自融资、独立运营，避免拖累核心业务。但该方案最终被否，部分原因是 OpenAI 认定拆出的新实体仍需合并入母公司财务报表，达不到剥离效果。这一构想折射出 OpenAI 冲刺 IPO 过程中的战略取舍。多年来 Altman 放手批准了大量超出聊天机器人范畴的项目，但公司近期面临更大的聚焦压力：核心业务落后于 Anthropic，部分内部用户和营收目标未达预期，视频生成工具 Sora 已被砍掉以释放算力。目前 OpenAI 正围绕一款新「超级应用」转型，主攻开发者和企业用户。知情人士称 OpenAI 未来可能重启拆分方案，参照谷歌 2015 年成立 Alphabet 控股公司的模式，将核心搜索业务与 Waymo 等长期投资分开核算。两个待拆部门目前已在公司内部独立运作，直接向 Altman 汇报。其中硬件部门去年 5 月以 65 亿美元股票收购了前苹果设计师 Jony Ive 创办的 io 公司及其约 55 名员工，内部被形容为「公司中的独立创业公司」。

Anthropic疑似筹备主动式助手Orbit：打通Gmail、Slack、GitHub等六大工具

有人在 Anthropic 最新的网页和移动端构建中发现了一款名为 Orbit 的新功能。从代码描述判断，Orbit 是一套横跨 Claude 和 Claude Code 的主动式简报与洞察系统，采用用户主动开启（opt-in）机制，能感知用户时区，从连接的工作工具中自动生成个性化简报。目前已发现的连接器覆盖 Gmail、Slack、GitHub、Calendar、Drive 和 Figma 六大应用。 Orbit 目前仅以设置面板中的一个开关形式出现，属于正式发布前的典型灰度阶段。Anthropic 的开发者大会 Code with Claude 将于 5 月 6 日在旧金山举行，Orbit 是否会在会上正式亮相尚不确定。去年 9 月 OpenAI 已率先推出了类似的主动式异步助手 ChatGPT Pulse，谷歌 Gemini 和 Perplexity 也在筹备类似功能，主动式简报正在成为 AI 助手的标配能力。Orbit 的差异化在于明确接入了 GitHub 和 Figma，瞄准的是开发者和设计师群体，而非一般办公人群。

OpenAI手机提前到最快2027，联发科或独拿处理器订单

天风国际证券分析师郭明錤更新产业调查称，OpenAI 可能正在加速首款 AI agent 手机（让智能体替用户执行任务的手机）开发，目标最快在 2027 年上半年量产。目前联发科更可能独家取得处理器订单，芯片预计采用基于天玑 9600 的定制版本，并在 2026 年下半年由台积电采用 N2P 工艺生产。这比郭明錤上周披露的「联发科、高通参与处理器开发，立讯担任独家系统协同设计与制造伙伴，2028 年量产」更激进，新增点集中在量产时间提前和芯片供应商收窄。他认为，OpenAI 加速手机开发的原因可能包括有利年底 IPO 叙事，以及 AI agent 手机竞争升温。规格上，郭明錤称该机 ISP 会强化高动态范围输出，以服务真实世界视觉感知；其他关键配置包括双 NPU 架构（把不同强度的 AI 计算分层处理）、LPDDR6 + UFS 5.0（缓解内存与存储瓶颈）、pKVM + inline hashing（安全隔离和数据完整性机制）。若开发顺利，郭明錤预计该机 2027 年和 2028 年合计出货约 3000 万部。

技术突破

Claude API支持无密钥认证：打通AWS与GCP现有身份，彻底告别静态API Key

Anthropic 宣布为 Claude API 引入无密钥认证（Workload Identity Federation，简称 WIF）机制。该功能允许企业应用直接复用 AWS、Google Cloud、Azure 或 GitHub Actions 等现有的云端身份获取短期令牌，从而彻底取代长效的静态 API 密钥。 Anthropic 称，API 密钥泄露是其客户最常提及的安全隐患。传统的静态密钥需要手动存储和定期轮换，极易 in CI/CD 流水线中意外暴露。在新机制下，工作负载只需向 Anthropic 出示其自有身份提供商签发的 JWT 令牌。系统验证该令牌的签名后，会根据开发者在控制台中设定的匹配规则，将其映射为具有特定工作空间权限的内部「服务账户」，随后返回一枚有效期仅几分钟的短效访问令牌。目前，这套无密钥验证体系不仅提供了主流云厂商的快捷接入配置，还兼容任何符合标准的 OIDC 签发者（如本地 Kubernetes 集群或 Okta）。开发者只需更新官方 SDK，令牌的初始兑换与过期刷新循环均会由 SDK 在后台自动处理，使生产环境的认证过程彻底免除硬编码密钥的风险。

Blueprint-Bench 2发布：AI首现基于2D照片的真实空间推理能力

Andon Labs 发布 Blueprint-Bench 2。这是一个测试 AI 空间推理能力的评估基准，要求 Agent 根据约 20 张室内照片生成准确的 2D 户型图。相比初代，本次测试的最大新增点是引入了跨任务的「记事本」系统，允许 Agent 在连续处理 50 套公寓时记录常见布局规律，通过总结经验持续优化生成策略。测评结果显示，GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 稳居前三。在初代 Blueprint-Bench 中，模型生成的输出基本只是噪音，而本次测试首次展现了从 2D 照片中理解真实空间的迹象。例如，Gemini 3.1 Pro 能利用不同照片中出现的同一台洗衣机倒推相机的拍摄朝向，GPT-5.5 则能通过门框位置推断出某间卧室同时承担着连通走廊的功能。测试同时暴露了垂直模型的局限性。专为空间与具身推理设计的 Gemini Robotics-ER 1.6 表现远不及预期，其得分甚至低于轻量级的 Gemini 3 Flash，表明其空间特长并未成功转化为户型生成能力。

OpenAI公开语音AI底层架构：WebRTC创始人已加入，自研relay+transceiver拆分方案

OpenAI 工程团队公开了支撑 ChatGPT 语音、Realtime API 等实时语音 AI 产品的底层 WebRTC 架构。核心方案是将传统 WebRTC 的媒体路由和协议终结拆成两层：无状态的 relay 只负责 UDP 包转发，有状态的 transceiver 负责完整的 ICE（交互式连接建立）、DTLS（数据报传输层安全）握手和加解密。relay 不解密媒体、不参与编解码协商，只解析 STUN 包头中的 ICE ufrag（用户名片段）来判断转发目标。这套设计解决的是 WebRTC 在 Kubernetes 上的经典难题：传统方案每个会话占一个公共 UDP 端口，高并发时需暴露数万个端口，难以做安全审计和弹性伸缩。拆分后公共 UDP 暴露面缩小到固定少量地址和端口，relay 可水平扩展、重启后通过下一个 STUN 包即可重建路由。OpenAI 放弃了多方通话常用的 SFU（选择性转发单元）架构，因为其语音 AI 绝大多数是一对一会话，transceiver 模型延迟更低、后端服务无需充当 WebRTC 对等节点。 relay 用 Go 语言实现，运行在用户态，利用 SO_REUSEPORT 让多个工作线程共享同一 UDP 端口、用 runtime.LockOSThread 绑定线程以提升缓存命中率，未使用内核旁路框架。全球部署的 Global Relay 配合 Cloudflare 地理引导，让用户的信令和媒体流就近接入 OpenAI 网络，缩短首跳延迟。文中还透露，WebRTC 协议原始架构师 Justin Uberti 和开源 WebRTC 库 Pion 的创建者兼维护者 Sean DuBois 均已加入 OpenAI，参与实时 AI 与 WebRTC 的融合工作。

谷歌微软xAI加入，美国五大AI巨头全部接受模型发布前政府审查

谷歌、微软和 xAI 与美国商务部达成协议，将在 AI 模型公开发布前向政府提供早期版本，接受能力和安全评估。加上 2024 年已签约的 OpenAI 和 Anthropic，美国五家头部 AI 公司现已全部加入这一发布前审查机制。主导评估的是商务部下属的 AI 标准与创新中心（Center for AI Standards and Innovation）。该中心前身是拜登政府 2023 年设立的 AI 安全研究所，去年被特朗普政府更名重建。中心已完成超过 40 次模型评估，包括尚未对外发布的前沿模型。OpenAI 和 Anthropic 的现有协议也已按特朗普 AI 行动计划重新谈判。中心主任 Chris Fall 称新协议将帮助「在关键时刻扩大公共利益方面的工作」。他接替的前任 Collin Burns 是 Anthropic 前 AI 研究员，上任数天即被迫离职。协议公布前，《纽约时报》和《华尔街日报》已报道特朗普政府正考虑通过行政令建立 AI 工具的政府审查流程。白宫官员称相关讨论仍属推测，任何宣布将直接来自总统本人。

行业趋势

Sierra获9.5亿美元新融资估值超150亿美元，已服务四成财富50强

AI 客服初创公司 Sierra 宣布完成 9.5 亿美元新一轮融资，由 Tiger Global 和 GV 领投，公司估值超过 150 亿美元。Sierra 透露，本轮融资后其可用资金总额已超 10 亿美元。目前，Sierra 的 AI Agent 平台已服务超过 40% 的财富 50 强企业，业务场景从早期的单一售后支持，扩展至购房贷款、保险理赔、医疗账单管理及零售推荐等全生命周期环节。在部署效率方面，百货公司 Nordstrom 在 5 周内上线了语音 Agent Nora，新加坡电信在 10 周内投产并实现超 70% 的解决率，医疗保险公司 Cigna 在 8 周内完成上线，将患者身份验证时间缩短了 80%。

彼得·蒂尔领投波浪能AI数据中心：估值近10亿美元，彻底告别陆地电网

彼得·蒂尔（Peter Thiel）领投美国初创公司 Panthalassa 1.4 亿美元。这是一家开发波浪能漂浮 AI 数据中心的企业，本轮融资使其估值接近 10 亿美元。新资金将用于扩大制造设施规模，计划明年启动商业部署。随着 AI 算力需求持续暴涨，行业正向核能、太空等边缘领域寻找能源。Panthalassa 的解法是：建造长达 85 米的实心钢结构节点，绝大部分潜入海面以下。系统利用海浪的上下浮动驱动涡轮机发电，在密封舱内直接为 AI 服务器供电，并利用海水自然冷却。与以往试图将海洋能源输送回陆地的项目不同，Panthalassa 最核心的逻辑是「就地消耗」。节点无需与海底或大陆电网相连，而是通过 SpaceX 的 Starlink 卫星网络接收并返回用户的 AI 推理请求。这种设计彻底摆脱了陆地数据中心的并网瓶颈，且节点自身能依靠外壳形状在海浪中驱动，自主航行至深海目标海域。该公司由前桥水基金研究员 Garth Sheldon-Coulson 等人创立，团队吸纳了大量 SpaceX、波音和苹果的前工程师。除了蒂尔的个人基金，本轮参投方还包括 Salesforce CEO Marc Benioff 以及知名投资人 John Doerr。

Corgi推出AI专属保险：Agent把事情搞砸终于有人赔了

YC 背景的持牌保险公司 Corgi 推出 AI Coverage，专门赔 AI 系统在生产环境里出错造成的损失。产品不是独立保单，而是模块化嵌入企业已有的技术责任险，按用途勾选：算法偏见决策、AI 生成内容侵权、训练数据违规、Agent 自动交互引发的数据事故等均可覆盖。Corgi 今年 1 月完成 1.08 亿美元融资。 CEO Nico Laqua 称，Hartford、Travelers、Chubb 等传统保险巨头已开始把 AI 损害踢出企业保单，而 AI Agent 已经在替企业发邮件、转账、部署代码。传统保单只管软件宕机和服务违约，AI 带来的新风险处于保险真空。

ElevenLabs年化收入4个月冲到5亿美元：投资人从BlackRock排到《鱿鱼游戏》导演

做 AI 语音起家的 ElevenLabs 宣布其 ARR（年化经常性收入，即按当前订阅收入推算的全年数字）突破 5 亿美元。去年底这个数字还是 3.5 亿美元，4 个月涨了 43%，主要靠企业客户把 AI 语音 Agent 大量用到了客服、销售和招聘上。伴随业务加速，ElevenLabs 完成了 D 轮融资的第三次交割。投资人横跨金融、科技和娱乐三个圈子：金融端来了全球最大资管公司 BlackRock、对冲基金 D.E. Shaw 和 Wellington；科技端来了英伟达（通过旗下 NVentures）、Salesforce 和德国电信；娱乐端更热闹，好莱坞影影帝 Jamie Foxx、演员 Eva Longoria、《鱿鱼游戏》导演黄东赫等 30 多位明星首次参投。ElevenLabs 还首次通过 Robinhood Ventures 让散户也能认购股份。公司同步完成了 1 亿美元的老股转让，员工不到一年内第二次拿到套现机会。目前团队 530 人，分布在 50 多个国家。