每日 AI 新闻简报

2026-06-19 · 来源: OneMillion_AI · 窗口: 最近24小时

共筛选 15 条 1 个来源

科学建模统一突破、小模型推理逼近旗舰、Claude Fable 5 称霸知识工作评测、AI 对齐强泛化获实证、DeepMind 发布智能体纵深防御框架。

突破

影响市场定价或政策预期的事件

OneMillion_AI 06-18 17:49 突破

科学大模型LOGOS开源：1B参数多任务超越56B NatureLM

阿里巴巴 ATH-Token Foundry 联合人大高瓴 AI 学院开源多领域科学生成大模型 LOGOS，首次在 LLM 架构内统一建模蛋白质、小分子、材料和化学反应。将三维空间接触模式编码为 Token 序列，无需输入 3D 坐标即可捕捉空间互作。预训练语料 448.7 亿 tokens，覆盖 7 类科学模态。在六大任务评测中，1B 参数的 LOGOS-1B 以 1/56 参数规模在多项任务超越 NatureLM；在口袋配体生成中首次以纯序列范式击败依赖 3D 坐标的扩散模型；逆合成预测 Top-1 准确率 74.8%。模型权重、代码和论文已完整开源。

OneMillion_AI 06-18 23:01 突破

微博开源VibeThinker-3B：3B小模型冲进前沿推理梯队

新浪微博团队开源 30 亿参数推理模型 VibeThinker-3B，基于 Qwen2.5-Coder-3B 改造，采用 Spectrum-to-Signal 流程训练。在数学与编程任务上部分指标接近或超越 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。模型从易到难做题积累解题谱系，再通过强化学习放大正确信号，训练全程使用 64K 大思考空间。引入步骤级自我核对机制，AIME26 数学测试得分从 94.3 提升至 97.1。团队提出"参数压缩-覆盖假设"：逻辑推理高度可压缩，3B 小模型即可跑出顶尖效果。

OneMillion_AI 06-19 11:21 突破

AA-Briefcase评测发布：Claude Fable 5夺冠，GLM-5.2挤进前三

Artificial Analysis 推出首个专为大模型智能体设计的长周期知识工作评测 AA-Briefcase，涵盖数据科学、产品管理、银行业务运营和重工业战略四个场景，共 91 项任务。Claude Fable 5 取得最高 Elo 分，Claude Opus 4.8 (max) 和 GLM-5.2 (max) 分列二三。即便最强模型在单项全对标准下完美率仅 3%，31 项任务无模型超过 50%。开源模型 GLM-5.2 综合评分仅比 Opus 4.8 低 90 分，但运行成本不足其 25%。不同模型单次任务成本从 DeepSeek V4 Flash 的 0.04 美元到 Fable 5 的 31 美元不等。

OneMillion_AI 06-19 11:33 突破

OpenAI证实对齐强泛化：教AI做好人，跨域自动传染

OpenAI 发表研究证实"对齐强泛化"现象：仅在少数日常场景训练 AI 诚实谦虚，模型在 53 项安全评估中 44 项超越普通模型。跨域泛化效果显著——只在医疗训练好人，代码和日常测试也自动变乖；即便用恶意脏数据微调，其他领域安全性几乎不退化。团队认为注入善良的强化学习训练能让对齐特质在模型深层生根，真正实现"以点带面"的防护效果。

观察

值得关注的趋势或潜在影响

OneMillion_AI 06-18 18:06 观察

OpenAI推出LifeSciBench生物基准，GPT-Rosalind通过率仅36%

OpenAI 联合 173 名博士级科学家推出 LifeSciBench，聚焦科研工作流多步推理与不确定性决策，含 750 个专家任务和 1,062 个科学制品。专为生物医药设计的推理模型 GPT-Rosalind 取得最佳成绩，但通过率仅 36.1%，处理复杂制品时降至 28.1%。22.8% 任务在所有模型中通过率为 0%，构成全行业绝对死角。

OneMillion_AI 06-19 12:15 观察

DeepMind发布AI Control路线图：像防内鬼一样防AI智能体

谷歌 DeepMind 发布系统级安全框架，将先进 AI 智能体视为潜在"内部威胁"，引入可信 AI 充当监督智能体实时盯防推理链与动作。借鉴 MITRE ATT&CK 框架建立智能体专用威胁建模系统。高风险操作强制同步实时预防拦截，低风险允许事后审计。已通过 100 万次任务轨迹分析，大多数异常源于误解指令而非主观恶意。相关经验已用于 Gemini Spark 智能体实时监控。

OneMillion_AI 06-19 11:36 观察

Perplexity推出Brain：智能体从任务中自适应学习的内存系统

Perplexity 为智能体 Computer 推出自我改进内存系统 Brain，保存智能体动作与任务表现。每次运行自动构建上下文图谱，夜间增量合成剪枝优化。测试显示回答准确率提升 25%，信息召回率改善 16%，历史上下文任务降低 13% Token 消耗。已面向 Max 和 Enterprise 用户开启预览。

OneMillion_AI 06-19 11:17 观察

Anthropic为Claude Code推出Artifacts：终端变交互画布

Anthropic 为 Claude Code（CLI 及桌面应用）推出 Artifacts 预览支持，将实时交互体验从 Web 延伸至本地终端。开发者可一键捕获终端会话进程并转化为实时交互网页，自动整合测试失败、错误峰值及根因推理，生成 PR 演示、系统依赖图、动态仪表板。支持团队实时同步，含版本历史回溯。默认仅个人可见，强制组织验证。

OneMillion_AI 06-19 11:14 观察

OpenAI Codex推出"录制与复现"功能：演示一次自动转化为AI技能

OpenAI 为 Codex 引入"录制与复现"功能，允许用户向 Codex 演示一次重复性工作流程，Codex 将其转化为可检查编辑的结构化技能以便自动复用。用户可控制录制起止，目前仅 macOS 客户端提供，排除 EEA、英国和瑞士，需开启"电脑使用"权限。

OneMillion_AI 06-18 21:56 观察

Manus年化营收飙至5亿美元，早期中资机构拟20亿从Meta赎回

受中国监管责令逆转交易影响，Manus 早期中资投资人计划以 Meta 收购时的 20 亿美元原价赎回公司。自去年 12 月被收购以来，Manus ARR 从 1 亿飙升至 4-5 亿美元。红杉中国、真格基金和腾讯将参与赎回，动用新资金买回 Meta 股份。美国 Benchmark 将彻底退出。Manus 正考虑转为中国境内注册合资公司，为未来香港 IPO 铺路。

快讯

短消息与数据速报

OneMillion_AI 06-18 18:13 快讯

AI推理服务商Baseten拟15亿美元融资，估值冲上130亿

Baseten 正敲定 15 亿美元融资，双层估值 110-130 亿美元，由 Altimeter、Conviction、Spark、Sands 和 Wellington 联合领投。Q1 年化 ARR 从 2 亿增至 6 亿美元，同比翻 20 倍。Wellington 首次投资 AI 推理赛道。

OneMillion_AI 06-19 10:21 快讯

前白宫AI顾问Dean Ball加盟OpenAI执掌"战略未来"团队

前白宫 AI 顾问 Dean Ball 将于 7 月 6 日加入 OpenAI，出任新成立的"战略未来"团队负责人，向首席战略官 Jason Kwon 汇报。团队聚焦灾难性风险防范、递归自我改进、劳动力市场冲击及前沿政策沟通。

OneMillion_AI 06-19 10:29 快讯

杨立昆直言xAI失败，警示AI行业或迎"大泡沫爆炸"

杨立昆在 CNBC 采访中称 xAI "在某种程度上是失败的"，因初始联合创始人悉数离职导致难以招人，被迫向 Google 和 Anthropic 出租算力。Q1 运营亏损 25 亿美元。LeCun 警示整个 AI 行业过度依赖投资人资金补贴用户，可能遭遇"大泡沫爆炸"。

OneMillion_AI 06-18 22:38 快讯

唐杰回应马斯克：中国大模型赶超Fable 5不用等到2027

马斯克预测中国模型 2027 Q1 达到 Claude Fable 5 水平，智谱联合创始人唐杰反驳称"不会花那么长时间"，暗示以智谱为代表的国内大模型有望今年内实现跨越，需在预训练推向万亿参数并在后训练跑通自我训练。

OneMillion_AI 06-18 18:57 快讯

米哈游原国际化总裁金雯怡加盟月之暗面，负责Kimi商业化

金雯怡加入月之暗面，全面负责 Kimi 业务线。她曾在米哈游从零搭建海外发行体系，主导建立 HoYoverse 品牌，推动《原神》全球上线首月斩获 2.45 亿美元。此举显示月之暗面正加速 Kimi 商业化与海外拓展。