科学大模型LOGOS开源:1B参数多任务超越56B NatureLM
阿里巴巴 ATH-Token Foundry 联合人大高瓴 AI 学院开源多领域科学生成大模型 LOGOS,首次在 LLM 架构内统一建模蛋白质、小分子、材料和化学反应。将三维空间接触模式编码为 Token 序列,无需输入 3D 坐标即可捕捉空间互作。预训练语料 448.7 亿 tokens,覆盖 7 类科学模态。在六大任务评测中,1B 参数的 LOGOS-1B 以 1/56 参数规模在多项任务超越 NatureLM;在口袋配体生成中首次以纯序列范式击败依赖 3D 坐标的扩散模型;逆合成预测 Top-1 准确率 74.8%。模型权重、代码和论文已完整开源。
微博开源VibeThinker-3B:3B小模型冲进前沿推理梯队
新浪微博团队开源 30 亿参数推理模型 VibeThinker-3B,基于 Qwen2.5-Coder-3B 改造,采用 Spectrum-to-Signal 流程训练。在数学与编程任务上部分指标接近或超越 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。模型从易到难做题积累解题谱系,再通过强化学习放大正确信号,训练全程使用 64K 大思考空间。引入步骤级自我核对机制,AIME26 数学测试得分从 94.3 提升至 97.1。团队提出"参数压缩-覆盖假设":逻辑推理高度可压缩,3B 小模型即可跑出顶尖效果。
AA-Briefcase评测发布:Claude Fable 5夺冠,GLM-5.2挤进前三
Artificial Analysis 推出首个专为大模型智能体设计的长周期知识工作评测 AA-Briefcase,涵盖数据科学、产品管理、银行业务运营和重工业战略四个场景,共 91 项任务。Claude Fable 5 取得最高 Elo 分,Claude Opus 4.8 (max) 和 GLM-5.2 (max) 分列二三。即便最强模型在单项全对标准下完美率仅 3%,31 项任务无模型超过 50%。开源模型 GLM-5.2 综合评分仅比 Opus 4.8 低 90 分,但运行成本不足其 25%。不同模型单次任务成本从 DeepSeek V4 Flash 的 0.04 美元到 Fable 5 的 31 美元不等。
OpenAI证实对齐强泛化:教AI做好人,跨域自动传染
OpenAI 发表研究证实"对齐强泛化"现象:仅在少数日常场景训练 AI 诚实谦虚,模型在 53 项安全评估中 44 项超越普通模型。跨域泛化效果显著——只在医疗训练好人,代码和日常测试也自动变乖;即便用恶意脏数据微调,其他领域安全性几乎不退化。团队认为注入善良的强化学习训练能让对齐特质在模型深层生根,真正实现"以点带面"的防护效果。
OpenAI推出LifeSciBench生物基准,GPT-Rosalind通过率仅36%
OpenAI 联合 173 名博士级科学家推出 LifeSciBench,聚焦科研工作流多步推理与不确定性决策,含 750 个专家任务和 1,062 个科学制品。专为生物医药设计的推理模型 GPT-Rosalind 取得最佳成绩,但通过率仅 36.1%,处理复杂制品时降至 28.1%。22.8% 任务在所有模型中通过率为 0%,构成全行业绝对死角。
DeepMind发布AI Control路线图:像防内鬼一样防AI智能体
谷歌 DeepMind 发布系统级安全框架,将先进 AI 智能体视为潜在"内部威胁",引入可信 AI 充当监督智能体实时盯防推理链与动作。借鉴 MITRE ATT&CK 框架建立智能体专用威胁建模系统。高风险操作强制同步实时预防拦截,低风险允许事后审计。已通过 100 万次任务轨迹分析,大多数异常源于误解指令而非主观恶意。相关经验已用于 Gemini Spark 智能体实时监控。
Perplexity推出Brain:智能体从任务中自适应学习的内存系统
Perplexity 为智能体 Computer 推出自我改进内存系统 Brain,保存智能体动作与任务表现。每次运行自动构建上下文图谱,夜间增量合成剪枝优化。测试显示回答准确率提升 25%,信息召回率改善 16%,历史上下文任务降低 13% Token 消耗。已面向 Max 和 Enterprise 用户开启预览。
Anthropic为Claude Code推出Artifacts:终端变交互画布
Anthropic 为 Claude Code(CLI 及桌面应用)推出 Artifacts 预览支持,将实时交互体验从 Web 延伸至本地终端。开发者可一键捕获终端会话进程并转化为实时交互网页,自动整合测试失败、错误峰值及根因推理,生成 PR 演示、系统依赖图、动态仪表板。支持团队实时同步,含版本历史回溯。默认仅个人可见,强制组织验证。
OpenAI Codex推出"录制与复现"功能:演示一次自动转化为AI技能
OpenAI 为 Codex 引入"录制与复现"功能,允许用户向 Codex 演示一次重复性工作流程,Codex 将其转化为可检查编辑的结构化技能以便自动复用。用户可控制录制起止,目前仅 macOS 客户端提供,排除 EEA、英国和瑞士,需开启"电脑使用"权限。
Manus年化营收飙至5亿美元,早期中资机构拟20亿从Meta赎回
受中国监管责令逆转交易影响,Manus 早期中资投资人计划以 Meta 收购时的 20 亿美元原价赎回公司。自去年 12 月被收购以来,Manus ARR 从 1 亿飙升至 4-5 亿美元。红杉中国、真格基金和腾讯将参与赎回,动用新资金买回 Meta 股份。美国 Benchmark 将彻底退出。Manus 正考虑转为中国境内注册合资公司,为未来香港 IPO 铺路。
AI推理服务商Baseten拟15亿美元融资,估值冲上130亿
Baseten 正敲定 15 亿美元融资,双层估值 110-130 亿美元,由 Altimeter、Conviction、Spark、Sands 和 Wellington 联合领投。Q1 年化 ARR 从 2 亿增至 6 亿美元,同比翻 20 倍。Wellington 首次投资 AI 推理赛道。
前白宫AI顾问Dean Ball加盟OpenAI执掌"战略未来"团队
前白宫 AI 顾问 Dean Ball 将于 7 月 6 日加入 OpenAI,出任新成立的"战略未来"团队负责人,向首席战略官 Jason Kwon 汇报。团队聚焦灾难性风险防范、递归自我改进、劳动力市场冲击及前沿政策沟通。
杨立昆直言xAI失败,警示AI行业或迎"大泡沫爆炸"
杨立昆在 CNBC 采访中称 xAI "在某种程度上是失败的",因初始联合创始人悉数离职导致难以招人,被迫向 Google 和 Anthropic 出租算力。Q1 运营亏损 25 亿美元。LeCun 警示整个 AI 行业过度依赖投资人资金补贴用户,可能遭遇"大泡沫爆炸"。
唐杰回应马斯克:中国大模型赶超Fable 5不用等到2027
马斯克预测中国模型 2027 Q1 达到 Claude Fable 5 水平,智谱联合创始人唐杰反驳称"不会花那么长时间",暗示以智谱为代表的国内大模型有望今年内实现跨越,需在预训练推向万亿参数并在后训练跑通自我训练。
米哈游原国际化总裁金雯怡加盟月之暗面,负责Kimi商业化
金雯怡加入月之暗面,全面负责 Kimi 业务线。她曾在米哈游从零搭建海外发行体系,主导建立 HoYoverse 品牌,推动《原神》全球上线首月斩获 2.45 亿美元。此举显示月之暗面正加速 Kimi 商业化与海外拓展。