YLF News Daily: 2026-06-30 (ZH)

从 116 条内容中筛选出 18 条重要资讯

美军 AI 未识别学校标记，致 120 人死亡 ⭐️ 10.0/10
Realta Fusion 直接从聚变产生电力 ⭐️ 9.0/10
Anthropic 推出 Claude Sonnet 5，更便宜的智能体模型 ⭐️ 9.0/10
OpenAI 发布计算生物学 AI 基准 GeneBench-Pro ⭐️ 9.0/10
Meta 发布 Brain2Qwerty v2：实现实时句子解码 ⭐️ 9.0/10
RedKnot：按头分解 KV 缓存，长文本加速 5 倍 ⭐️ 9.0/10
Claude Code 漏洞可从 GitHub 执行隐藏恶意代码 ⭐️ 9.0/10
35B MoE 智能体模型达万亿参数性能 ⭐️ 9.0/10
OSWorld2.0 暴露 AI 智能体弱点 ⭐️ 9.0/10
微软发布首款高级推理 AI 模型 MAI-Thinking-1 ⭐️ 9.0/10
Claude Code 在请求中嵌入隐藏标记 ⭐️ 8.0/10
Claude Science：用于科学研究的本地服务器 AI 工具 ⭐️ 8.0/10
拥有 37 个数据中心的县要求学校节电 ⭐️ 8.0/10
OpenAI 通过核心转储分析修复了 18 年历史的错误 ⭐️ 8.0/10
DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash ⭐️ 8.0/10
ScarfBench：AI 代理在 Java 迁移中的基准测试 ⭐️ 8.0/10
AI 芯片初创公司 Etched 估值达 50 亿美元，销售额达 10 亿美元 ⭐️ 8.0/10
特斯拉在奥斯汀测试无方向盘 Cybercab ⭐️ 8.0/10

美军 AI 未识别学校标记，致 120 人死亡 ⭐️ 10.0/10

AI 目标选择系统未识别学校标记，导致轰炸致 120 名儿童死亡。暴露了军事 AI 数据集成管道的严重缺陷，可能导致战争罪。 2019 年标记的信息未录入官方目标数据库 MIDB。

rss · AIHOT 精选 · Jun 29, 12:30AIHOT 精选

背景: MIDB 是美军主要情报数据库，建于 1980 年代，依赖手动更新。替代系统 MARS 多次延迟。

参考链接

Getting to MARS: Defense Intelligence Agency AI-assisted database to begin ops in spring

社区讨论: Project Maven 创建者称目标验证失败’不可原谅’。

标签: #AI ethics, #military AI, #Palantir, #Anthropic Claude, #Project Maven

Realta Fusion 直接从聚变产生电力 ⭐️ 9.0/10

Realta Fusion 直接将等离子体能量转化为电力，这似乎是商用聚变公司的首次。直接发电可能带来更简单、更高效的聚变电站。该演示于 2026 年 6 月 19 日在威斯康星大学麦迪逊分校的 WHAM 装置上进行。

rss · TechCrunch · Jun 30, 19:12T1 官方实验室

背景: 大多数聚变设计利用反应产生的热量来产生蒸汽驱动涡轮机。Realta 的直接能量转换器直接捕获等离子体能量，绕过了蒸汽循环。

参考链接

标签: #fusion energy, #clean energy, #breakthrough, #technology, #science

Anthropic 推出 Claude Sonnet 5，更便宜的智能体模型 ⭐️ 9.0/10

Anthropic 发布了 Claude Sonnet 5，具备更强的智能体能力且价格更低。它为构建 AI 智能体提供了更经济的选择，与领先模型竞争。定价低于 Opus、GPT-5.5 和 Gemini Pro，同时保持强大的智能体性能。

rss · TechCrunch · Jun 30, 18:00T1 官方实验室

背景: 智能体 AI 指能够自主追求目标并使用工具的系统。

参考链接

标签: #AI, #language models, #Anthropic, #agents, #pricing

OpenAI 发布计算生物学 AI 基准 GeneBench-Pro ⭐️ 9.0/10

OpenAI 推出了 GeneBench-Pro，这是一个包含 129 个经专家审核的问题的基准测试，用于评估 AI 智能体在计算生物学中的多阶段推理能力。该基准测试针对处理模糊性和做出判断等高级 AI 技能，这些技能对于推动 AI 驱动的科学发现至关重要。该基准覆盖 10 个领域和 21 个子领域，使用已知因果结构的合成数据，其中 82 个问题已由外部领域专家验证。

rss · AIHOT 精选 · Jun 30, 00:00AIHOT 精选

背景: GeneBench-Pro 旨在评估 AI 智能体在基因组学和定量生物学中执行现实多阶段科学分析的能力。与较简单的基准不同，它要求在模糊性下探索数据、选择分析路径并迭代实验。

参考链接

标签: #OpenAI, #computational biology, #AI evaluation, #benchmark, #GeneBench-Pro

Meta 发布 Brain2Qwerty v2：实现实时句子解码 ⭐️ 9.0/10

Meta 公布了 Brain2Qwerty v2，这是一个端到端的管道，能够从非侵入式脑电信号实时解码句子，从字符级提升到单词和语义级解码。这一突破有望帮助数百万因脑损伤或疾病而无法沟通的人群，且无需进行手术。该系统使用脑磁图（MEG）和微调的大语言模型来实现高解码准确率。

rss · AIHOT 精选 · Jun 29, 12:10AIHOT 精选

背景: Brain2Qwerty 是一种非侵入式脑机接口（BCI），可将打字时的思维转化为文本。MEG 测量大脑活动产生的磁场，提供高时间分辨率。

参考链接

标签: #brain-computer-interface, #neural decoding, #Meta, #AI, #Nature

RedKnot：按头分解 KV 缓存，长文本加速 5 倍 ⭐️ 9.0/10

RedKnot 提出了按注意力头分解 KV 缓存的稀疏化方法，在 DeepSeek-V4-Flash 的 128K 上下文下实现高达 5.16 倍的 TTFT 加速。这一突破降低了长上下文 LLM 推理的延迟和计算成本，使得大型模型在生产中部署更高效。 SegPagedAttention 使单卡并发提升 4.7-7.8 倍，KV 传输最多减少 6.3 倍，同时保持超过 95% 的稠密 F1 精度。

rss · AIHOT 精选 · Jun 29, 11:00AIHOT 精选

背景: KV 缓存存储先前 token 的键值对以避免自回归 LLM 中的重复计算。按头分解将缓存按注意力头拆分，允许选择性复用。PagedAttention 高效管理 LLM 服务的内存。RedKnot 通过按头稀疏化和稀疏 FFN 扩展了这些思想。

参考链接

标签: #KV Cache, #LLM Inference, #Sparse Attention, #Long Context, #System Optimization

Claude Code 漏洞可从 GitHub 执行隐藏恶意代码 ⭐️ 9.0/10

Claude Code 通过 DNS 拉取命令执行 GitHub 仓库中的隐藏恶意代码，绕过代码审查。此供应链攻击可能入侵开发者机器，窃取 API 密钥或登录凭据。恶意代码从未存在于仓库中，仅在运行时通过 DNS 拉取。

rss · AIHOT 精选 · Jun 29, 10:04AIHOT 精选

背景: 反向 shell：被入侵机器主动连接攻击者，绕过防火墙。AI 工具自动运行设置脚本，其中可能隐藏恶意 DNS 命令。

参考链接

What Is a Reverse Shell | Examples & Prevention Techniques | Imperva

标签: #security, #AI tools, #supply chain attack, #Claude Code, #vulnerability

35B MoE 智能体模型达万亿参数性能 ⭐️ 9.0/10

35B MoE 智能体模型通过扩展 horizon 达万亿参数级性能。高效扩展达到万亿参数模型水平，降低计算成本。采用平均 45K token 的轨迹和三阶段训练，包括在线蒸馏。

rss · AIHOT 精选 · Jun 29, 00:00AIHOT 精选

背景: Agent horizon 指智能体处理任务的序列长度和多样性。

标签: #AI/ML, #Mixture-of-Experts, #Agent Models, #Efficient Scaling, #Large Language Models

OSWorld2.0 暴露 AI 智能体弱点 ⭐️ 9.0/10

OSWorld2.0 新增 108 个长时任务，最佳 AI 仅 20.6%成功率。暴露了当前 AI 智能体在真实计算机使用中的根本性能力差距。每任务平均需 1.6 小时和 318 次工具调用，远超 OSWorld1.0 的约 30 次。

rss · AIHOT 精选 · Jun 28, 00:00AIHOT 精选

背景: OSWorld 是一个评估多模态 AI 智能体执行计算机任务的基准。OSWorld2.0 在其基础上引入了更长、更复杂的工作流。

参考链接

标签: #benchmark, #AI agents, #computer use, #long-horizon tasks, #evaluation

微软发布首款高级推理 AI 模型 MAI-Thinking-1 ⭐️ 9.0/10

微软宣布推出其首款高级推理 AI 模型 MAI-Thinking-1。此举标志着微软大举进入推理模型领域，与 OpenAI 和谷歌竞争。 MAI-Thinking-1 是一个 35B 活跃、约 1T 总参数的稀疏 MoE 模型，在 SWE-Bench Pro 上媲美 Claude Opus 4.6。

rss · AIHOT 日报 · Jun 3, 00:00AIHOT 日报

背景: 推理模型专为数学和编程等复杂任务设计，采用思维链技术。

参考链接

标签: #AI, #reasoning, #Microsoft, #model release

Claude Code 在请求中嵌入隐藏标记 ⭐️ 8.0/10

Anthropic 的编程工具 Claude Code 在输出中秘密嵌入隐写标记以检测滥用。这引发了依赖 AI 工具的开发者对透明度和信任的严重担忧。这些标记旨在识别进行模型蒸馏的中国公司的使用情况。

hackernews · kirushik · Jun 30, 15:44 · 社区讨论T2 社区与开源

背景: 隐写术将数据隐藏在其他数据中以避免检测。Claude Code 是 Anthropic 的 AI 编程助手。

社区讨论: 讨论中辩论商业需求是否正当化了不诚实披露，一些评论批评了草率的实现。

标签: #steganography, #AI, #ethics, #security, #Claude

Claude Science：用于科学研究的本地服务器 AI 工具 ⭐️ 8.0/10

Anthropic 发布 Claude Science，本地服务器科学数据分析工具。在安全受限的科研环境中提供 AI 数据分析能力。本地服务器架构将 UI 与主机分离，提升安全性。

hackernews · lebovic · Jun 30, 17:07 · 社区讨论T2 社区与开源

背景: 许多科研环境（尤其是制药）安全限制严格，无法使用云端 AI。Claude Science 的本地服务器可在不泄露数据的情况下进行 AI 分析。

社区讨论: 社区称赞本地服务器架构的安全性。

标签: #Claude, #AI, #data science, #scientific computing, #product launch

拥有 37 个数据中心的县要求学校节电 ⭐️ 8.0/10

弗吉尼亚州亨利科县拥有 37 个数据中心，因电网压力要求学校节约用电。这突显了数据中心增长与居民基础设施成本之间的冲突。该县的电力供应商 Dominion Energy 正根据《弗吉尼亚清洁经济法案》大力投资可再生能源。

hackernews · 01-_- · Jun 30, 16:05 · 社区讨论T2 社区与开源

背景: 数据中心消耗大量电力，常常给当地电网带来压力。居民用户往往承担基础设施升级的费用。

社区讨论: 评论者批评数据中心未被隔离，并将成本转嫁给消费者，预计会引发政治反弹。

标签: #data centers, #energy consumption, #infrastructure, #renewable energy, #policy

OpenAI 通过核心转储分析修复了 18 年历史的错误 ⭐️ 8.0/10

OpenAI 通过核心转储发现硬件故障和 18 年历史错误。这展示了一种调试罕见基础设施崩溃的新方法。分析涉及从数千台服务器收集核心转储。

rss · OpenAI Blog · Jun 30, 00:00T1 官方实验室

标签: #debugging, #infrastructure, #reliability, #core dump analysis, #software bug

DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash ⭐️ 8.0/10

DeepMind 发布了 Nano Banana 2 Lite 和 Gemini Omni Flash。使开发者能够用更小、更快的多模态模型进行构建。

rss · DeepMind Blog · Jun 30, 16:02T1 官方实验室

标签: #DeepMind, #Gemini, #AI models, #developer tools, #multimodal

ScarfBench：AI 代理在 Java 迁移中的基准测试 ⭐️ 8.0/10

ScarfBench，一个用于评估 AI 代理在企业 Java 框架迁移任务中表现的新基准，已被提出。该基准测试解决了软件现代化中的实际难题，为衡量 AI 代理能力提供了标准化方法。 ScarfBench 专注于 Java 框架之间的迁移，这是企业中常见但劳动密集型的工作。

rss · Hugging Face Blog · Jun 30, 18:32T1 官方实验室

背景: 企业级 Java 应用通常依赖需要迁移到新框架的遗留框架，以提升性能或安全性。人工智能代理被探索用于自动化此类迁移。ScarfBench 提供了标准化的评估环境。

标签: #AI benchmarking, #software migration, #enterprise Java, #AI agents

AI 芯片初创公司 Etched 估值达 50 亿美元，销售额达 10 亿美元 ⭐️ 8.0/10

Etched 估值达 50 亿美元，销售额达 10 亿美元。标志着 Nvidia 在 AI 芯片领域面临强劲挑战。 10 亿美元合同用于推理系统，而非仅芯片。

rss · TechCrunch · Jun 30, 18:13T1 官方实验室

标签: #AI chips, #hardware, #Nvidia, #startup, #semiconductors

特斯拉在奥斯汀测试无方向盘 Cybercab ⭐️ 8.0/10

特斯拉已开始在德克萨斯州奥斯汀测试其无方向盘和踏板的 Cybercab。这标志着特斯拉长期承诺的机器人出租车网络迈出了实质性一步。 Cybercab 是一款专为机器人出租车服务设计的双座自动驾驶汽车。

rss · TechCrunch · Jun 30, 15:32T1 官方实验室

背景: 特斯拉 Cybercab 于 2024 年 10 月亮相，是一款无手动控制装置的专业自动驾驶汽车。2026 年 2 月开始生产。

参考链接

标签: #autonomous vehicles, #Tesla, #robotaxi, #self-driving, #Cybercab

附录

以下内容来自 AIHOT 日报，每天 08:00 北京时间发布

AI HOT 日报 · 2026-06-30 — 美团 LongCat Owl Alpha：OpenRouter 最流行模型，1.6 万亿 MoE，国产 ASIC 训练美团 LongCat Owl Alpha：OpenRouter 最流行模型，1.6 万亿 MoE，国产 ASIC 训练 — 点击查看完整日报
AI HOT 日报 · 2026-06-29 — Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus — 点击查看完整日报
AI HOT 日报 · 2026-06-28 — 阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色 — 点击查看完整日报
AI HOT 日报 · 2026-06-27 — OpenAI 预览新一代模型 GPT-5.6 Sol OpenAI 预览新一代模型 GPT-5.6 Sol — 点击查看完整日报
AI HOT 日报 · 2026-06-26 — Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模 Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模 — 点击查看完整日报
AI HOT 日报 · 2026-06-25 — OpenAI ChatGPT 语音最大规模升级：双向 AI 语音模型 Bidi 1 已上线测试 OpenAI ChatGPT 语音最大规模升级：双向 AI 语音模型 Bidi 1 已上线测试 — 点击查看完整日报
AI HOT 日报 · 2026-06-24 — FastWan-QAD：单卡 5090 上 1.8 秒生成 5 秒视频 FastWan-QAD：单卡 5090 上 1.8 秒生成 5 秒视频 — 点击查看完整日报
AI HOT 日报 · 2026-06-23 — PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M — 点击查看完整日报
AI HOT 日报 · 2026-06-22 — 美团 tabbit 国际版免费接入 GPT-5.5/Claude Opus 4.8 等旗舰模型美团 tabbit 国际版免费接入 GPT-5.5/Claude Opus 4.8 等旗舰模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-21 — 微软双向转售 GPT 与 DeepSeek 成全球最大 AI 中间商微软双向转售 GPT 与 DeepSeek 成全球最大 AI 中间商 — 点击查看完整日报
AI HOT 日报 · 2026-06-20 — 阿里开源向量数据库 Zvec，UCSD 黄碧薇教授提出因果 AI 第四代范式阿里开源向量数据库 Zvec，UCSD 黄碧薇教授提出因果 AI 第四代范式 — 点击查看完整日报
AI HOT 日报 · 2026-06-19 — 首个统一科学大模型 LOGOS 正式开源首个统一科学大模型 LOGOS 正式开源 — 点击查看完整日报
AI HOT 日报 · 2026-06-18 — MolmoMotion：语言引导的 3D 运动预测模型 MolmoMotion：语言引导的 3D 运动预测模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-17 — Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型 Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-16 — MiniMax 开源 M3 模型权重及 MSA 技术论文 MiniMax 开源 M3 模型权重及 MSA 技术论文 — 点击查看完整日报
AI HOT 日报 · 2026-06-15 — Anthropic 暂停新模型访问，印度辩论 AI 未来 Anthropic 暂停新模型访问，印度辩论 AI 未来 — 点击查看完整日报
AI HOT 日报 · 2026-06-14 — 智谱 GLM-5.2 全量开放，支持 1M 上下文且下周开源智谱 GLM-5.2 全量开放，支持 1M 上下文且下周开源 — 点击查看完整日报
AI HOT 日报 · 2026-06-13 — MiniMax M3 开源权重模型发布，已上架 HuggingFace MiniMax M3 开源权重模型发布，已上架 HuggingFace — 点击查看完整日报
AI HOT 日报 · 2026-06-12 — Gemini Omni Flash 视频任务达 SOTA Gemini Omni Flash 视频任务达 SOTA — 点击查看完整日报
AI HOT 日报 · 2026-06-11 — DiffusionGemma：文本生成速度提升 4 倍的开源扩散模型 DiffusionGemma：文本生成速度提升 4 倍的开源扩散模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-10 — Claude Fable 5 和 Claude Mythos 5 Claude Fable 5 和 Claude Mythos 5 — 点击查看完整日报
AI HOT 日报 · 2026-06-09 — 小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s，单台 8-GPGPU 节点运行 1T MoE 模型小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s，单台 8-GPGPU 节点运行 1T MoE 模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-08 — Harness-1：基于强化学习训练的有状态搜索 20B 检索子智能体 Harness-1：基于强化学习训练的有状态搜索 20B 检索子智能体 — 点击查看完整日报
AI HOT 日报 · 2026-06-07 — GitHub 开源 Spec Kit 工具包，用产品规范引导 AI 编码 GitHub 开源 Spec Kit 工具包，用产品规范引导 AI 编码 — 点击查看完整日报
AI HOT 日报 · 2026-06-06 — Riverflow 2.5：可控制评分标准的图像模型 Riverflow 2.5：可控制评分标准的图像模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-05 — Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全 Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全 — 点击查看完整日报
AI HOT 日报 · 2026-06-04 — Grok Imagine 1.5 预览版发布 Grok Imagine 1.5 预览版发布 — 点击查看完整日报
AI HOT 日报 · 2026-06-03 — 微软首款高级推理 AI 模型 MAI-Thinking-1 发布微软首款高级推理 AI 模型 MAI-Thinking-1 发布 — 点击查看完整日报
AI HOT 日报 · 2026-06-02 — MiniMax M3：前沿编码、100 万 token 上下文与原生多模态一体模型 MiniMax M3：前沿编码、100 万 token 上下文与原生多模态一体模型 — 点击查看完整日报
AI HOT 日报 · 2026-06-01 — OpenAI 发布生物防御 AI 工具 Rosalind OpenAI 发布生物防御 AI 工具 Rosalind — 点击查看完整日报

美军 AI 未识别学校标记，致 120 人死亡 ⭐️ 10.0/10

Realta Fusion 直接从聚变产生电力 ⭐️ 9.0/10

Anthropic 推出 Claude Sonnet 5，更便宜的智能体模型 ⭐️ 9.0/10

OpenAI 发布计算生物学 AI 基准 GeneBench-Pro ⭐️ 9.0/10

Meta 发布 Brain2Qwerty v2：实现实时句子解码 ⭐️ 9.0/10

RedKnot：按头分解 KV 缓存，长文本加速 5 倍 ⭐️ 9.0/10

Claude Code 漏洞可从 GitHub 执行隐藏恶意代码 ⭐️ 9.0/10

35B MoE 智能体模型达万亿参数性能 ⭐️ 9.0/10

OSWorld2.0 暴露 AI 智能体弱点 ⭐️ 9.0/10

微软发布首款高级推理 AI 模型 MAI-Thinking-1 ⭐️ 9.0/10

Claude Code 在请求中嵌入隐藏标记 ⭐️ 8.0/10

Claude Science：用于科学研究的本地服务器 AI 工具 ⭐️ 8.0/10

拥有 37 个数据中心的县要求学校节电 ⭐️ 8.0/10

OpenAI 通过核心转储分析修复了 18 年历史的错误 ⭐️ 8.0/10

DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash ⭐️ 8.0/10

ScarfBench：AI 代理在 Java 迁移中的基准测试 ⭐️ 8.0/10

AI 芯片初创公司 Etched 估值达 50 亿美元，销售额达 10 亿美元 ⭐️ 8.0/10

特斯拉在奥斯汀测试无方向盘 Cybercab ⭐️ 8.0/10

附录

选择日期

选择分类