Sakana AI 推出 DiffusionBlocks,分块训练显著压低显存占用
新训练框架把模型拆成多个模块独立更新,将训练显存从“随层数线性增长”改写为按块抽样,目标是让大模型训练在更低门槛硬件上可行。
时间窗口:过去 24 小时|来源优先:Telegram 频道 OneMillion_AI|已按影响力筛选 14 条高价值动态
模型、架构与智能体基础设施的关键进展
高信号、偏技术与产品底座
新训练框架把模型拆成多个模块独立更新,将训练显存从“随层数线性增长”改写为按块抽样,目标是让大模型训练在更低门槛硬件上可行。
这款 198B 稀疏 MoE 模型主打代码、联网搜索和多模态执行,强调高吞吐与本地硬件适配,定位是可直接上生产的 Agent 底座。
六层记忆框架结合 System 1 / System 2 与演化链设计,重点解决跨会话记忆碎片化、偏好漂移和幻觉问题,适合长期任务型智能体。
模型在 8B 总参数下每次仅激活 1B,强调本地离线推理、长上下文与多语言体验优化,继续强化端侧智能路线。
新旗舰模型在软件开发、知识工作和工具辅助推理上全面增强,并同步降低 API 计费价格,继续拉高高端模型能力上限。
Anthropic 把大型代码迁移、跨仓库排障和对抗性测试做成并行编排流程,强调多轮审查与断点续跑,指向更强的工程自动化。
产业格局、平台路线与生态变化
关注趋势与结构性变化
苹果在端侧与云端之间重新划分任务边界,同时引入第三方模型与硬件安全能力,说明 iPhone 时代的 AI 架构正在重写。
这家由前 Apple Vision Pro 主管创立的公司把重点放在 50 毫秒级延迟与实时生成,显示世界模型正向交互式产品形态靠拢。
流量数据显示 Gemini 和 Claude 的相对份额持续上升,消费级 AI 的流量与使用习惯正在从单极走向多极竞争。
Google 通过提高免费可用性与使用效率来缓解用户对额度消耗的反馈,说明产品竞争已从“模型性能”延伸到“成本体验”。
图像生成评测体系继续完善,模型之间的差距开始通过更细粒度的 benchmark 被放大,后续有助于推动视觉生成竞赛更透明。
融资、发布、渠道与政策的即时消息
快速扫读即可
资金将主要用于前沿研究与算力扩张;企业级需求和收入增长是本轮融资最重要的背景。
项目大幅重构核心代码,并升级 swarm 协作与安全防御,适合关注开源 Agent 生态的人持续跟踪。
产品线继续收敛,旧模型退场意味着平台将进一步把资源集中到新一代主力模型与更统一的使用体验上。
腾讯把 AI 能力继续嵌入浏览器入口,显示大模型产品正加速向高频分发场景下沉。