从 116 条内容中筛选出 18 条重要资讯
- 美军 AI 未识别学校标记,致 120 人死亡 ⭐️ 10.0/10
- Realta Fusion 直接从聚变产生电力 ⭐️ 9.0/10
- Anthropic 推出 Claude Sonnet 5,更便宜的智能体模型 ⭐️ 9.0/10
- OpenAI 发布计算生物学 AI 基准 GeneBench-Pro ⭐️ 9.0/10
- Meta 发布 Brain2Qwerty v2:实现实时句子解码 ⭐️ 9.0/10
- RedKnot:按头分解 KV 缓存,长文本加速 5 倍 ⭐️ 9.0/10
- Claude Code 漏洞可从 GitHub 执行隐藏恶意代码 ⭐️ 9.0/10
- 35B MoE 智能体模型达万亿参数性能 ⭐️ 9.0/10
- OSWorld2.0 暴露 AI 智能体弱点 ⭐️ 9.0/10
- 微软发布首款高级推理 AI 模型 MAI-Thinking-1 ⭐️ 9.0/10
- Claude Code 在请求中嵌入隐藏标记 ⭐️ 8.0/10
- Claude Science:用于科学研究的本地服务器 AI 工具 ⭐️ 8.0/10
- 拥有 37 个数据中心的县要求学校节电 ⭐️ 8.0/10
- OpenAI 通过核心转储分析修复了 18 年历史的错误 ⭐️ 8.0/10
- DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash ⭐️ 8.0/10
- ScarfBench:AI 代理在 Java 迁移中的基准测试 ⭐️ 8.0/10
- AI 芯片初创公司 Etched 估值达 50 亿美元,销售额达 10 亿美元 ⭐️ 8.0/10
- 特斯拉在奥斯汀测试无方向盘 Cybercab ⭐️ 8.0/10
美军 AI 未识别学校标记,致 120 人死亡 ⭐️ 10.0/10
AI 目标选择系统未识别学校标记,导致轰炸致 120 名儿童死亡。 暴露了军事 AI 数据集成管道的严重缺陷,可能导致战争罪。 2019 年标记的信息未录入官方目标数据库 MIDB。
rss · AIHOT 精选 · Jun 29, 12:30AIHOT 精选
背景: MIDB 是美军主要情报数据库,建于 1980 年代,依赖手动更新。替代系统 MARS 多次延迟。
社区讨论: Project Maven 创建者称目标验证失败’不可原谅’。
标签: #AI ethics, #military AI, #Palantir, #Anthropic Claude, #Project Maven
Realta Fusion 直接从聚变产生电力 ⭐️ 9.0/10
Realta Fusion 直接将等离子体能量转化为电力,这似乎是商用聚变公司的首次。 直接发电可能带来更简单、更高效的聚变电站。 该演示于 2026 年 6 月 19 日在威斯康星大学麦迪逊分校的 WHAM 装置上进行。
rss · TechCrunch · Jun 30, 19:12T1 官方实验室
背景: 大多数聚变设计利用反应产生的热量来产生蒸汽驱动涡轮机。Realta 的直接能量转换器直接捕获等离子体能量,绕过了蒸汽循环。
参考链接
标签: #fusion energy, #clean energy, #breakthrough, #technology, #science
Anthropic 推出 Claude Sonnet 5,更便宜的智能体模型 ⭐️ 9.0/10
Anthropic 发布了 Claude Sonnet 5,具备更强的智能体能力且价格更低。 它为构建 AI 智能体提供了更经济的选择,与领先模型竞争。 定价低于 Opus、GPT-5.5 和 Gemini Pro,同时保持强大的智能体性能。
rss · TechCrunch · Jun 30, 18:00T1 官方实验室
背景: 智能体 AI 指能够自主追求目标并使用工具的系统。
标签: #AI, #language models, #Anthropic, #agents, #pricing
OpenAI 发布计算生物学 AI 基准 GeneBench-Pro ⭐️ 9.0/10
OpenAI 推出了 GeneBench-Pro,这是一个包含 129 个经专家审核的问题的基准测试,用于评估 AI 智能体在计算生物学中的多阶段推理能力。 该基准测试针对处理模糊性和做出判断等高级 AI 技能,这些技能对于推动 AI 驱动的科学发现至关重要。 该基准覆盖 10 个领域和 21 个子领域,使用已知因果结构的合成数据,其中 82 个问题已由外部领域专家验证。
rss · AIHOT 精选 · Jun 30, 00:00AIHOT 精选
背景: GeneBench-Pro 旨在评估 AI 智能体在基因组学和定量生物学中执行现实多阶段科学分析的能力。与较简单的基准不同,它要求在模糊性下探索数据、选择分析路径并迭代实验。
参考链接
标签: #OpenAI, #computational biology, #AI evaluation, #benchmark, #GeneBench-Pro
Meta 发布 Brain2Qwerty v2:实现实时句子解码 ⭐️ 9.0/10
Meta 公布了 Brain2Qwerty v2,这是一个端到端的管道,能够从非侵入式脑电信号实时解码句子,从字符级提升到单词和语义级解码。 这一突破有望帮助数百万因脑损伤或疾病而无法沟通的人群,且无需进行手术。 该系统使用脑磁图(MEG)和微调的大语言模型来实现高解码准确率。
rss · AIHOT 精选 · Jun 29, 12:10AIHOT 精选
背景: Brain2Qwerty 是一种非侵入式脑机接口(BCI),可将打字时的思维转化为文本。MEG 测量大脑活动产生的磁场,提供高时间分辨率。
参考链接
标签: #brain-computer-interface, #neural decoding, #Meta, #AI, #Nature
RedKnot:按头分解 KV 缓存,长文本加速 5 倍 ⭐️ 9.0/10
RedKnot 提出了按注意力头分解 KV 缓存的稀疏化方法,在 DeepSeek-V4-Flash 的 128K 上下文下实现高达 5.16 倍的 TTFT 加速。 这一突破降低了长上下文 LLM 推理的延迟和计算成本,使得大型模型在生产中部署更高效。 SegPagedAttention 使单卡并发提升 4.7-7.8 倍,KV 传输最多减少 6.3 倍,同时保持超过 95% 的稠密 F1 精度。
rss · AIHOT 精选 · Jun 29, 11:00AIHOT 精选
背景: KV 缓存存储先前 token 的键值对以避免自回归 LLM 中的重复计算。按头分解将缓存按注意力头拆分,允许选择性复用。PagedAttention 高效管理 LLM 服务的内存。RedKnot 通过按头稀疏化和稀疏 FFN 扩展了这些思想。
参考链接
标签: #KV Cache, #LLM Inference, #Sparse Attention, #Long Context, #System Optimization
Claude Code 漏洞可从 GitHub 执行隐藏恶意代码 ⭐️ 9.0/10
Claude Code 通过 DNS 拉取命令执行 GitHub 仓库中的隐藏恶意代码,绕过代码审查。 此供应链攻击可能入侵开发者机器,窃取 API 密钥或登录凭据。 恶意代码从未存在于仓库中,仅在运行时通过 DNS 拉取。
rss · AIHOT 精选 · Jun 29, 10:04AIHOT 精选
背景: 反向 shell:被入侵机器主动连接攻击者,绕过防火墙。AI 工具自动运行设置脚本,其中可能隐藏恶意 DNS 命令。
标签: #security, #AI tools, #supply chain attack, #Claude Code, #vulnerability
35B MoE 智能体模型达万亿参数性能 ⭐️ 9.0/10
35B MoE 智能体模型通过扩展 horizon 达万亿参数级性能。 高效扩展达到万亿参数模型水平,降低计算成本。 采用平均 45K token 的轨迹和三阶段训练,包括在线蒸馏。
rss · AIHOT 精选 · Jun 29, 00:00AIHOT 精选
背景: Agent horizon 指智能体处理任务的序列长度和多样性。
标签: #AI/ML, #Mixture-of-Experts, #Agent Models, #Efficient Scaling, #Large Language Models
OSWorld2.0 暴露 AI 智能体弱点 ⭐️ 9.0/10
OSWorld2.0 新增 108 个长时任务,最佳 AI 仅 20.6%成功率。 暴露了当前 AI 智能体在真实计算机使用中的根本性能力差距。 每任务平均需 1.6 小时和 318 次工具调用,远超 OSWorld1.0 的约 30 次。
rss · AIHOT 精选 · Jun 28, 00:00AIHOT 精选
背景: OSWorld 是一个评估多模态 AI 智能体执行计算机任务的基准。OSWorld2.0 在其基础上引入了更长、更复杂的工作流。
参考链接
标签: #benchmark, #AI agents, #computer use, #long-horizon tasks, #evaluation
微软发布首款高级推理 AI 模型 MAI-Thinking-1 ⭐️ 9.0/10
微软宣布推出其首款高级推理 AI 模型 MAI-Thinking-1。 此举标志着微软大举进入推理模型领域,与 OpenAI 和谷歌竞争。 MAI-Thinking-1 是一个 35B 活跃、约 1T 总参数的稀疏 MoE 模型,在 SWE-Bench Pro 上媲美 Claude Opus 4.6。
rss · AIHOT 日报 · Jun 3, 00:00AIHOT 日报
背景: 推理模型专为数学和编程等复杂任务设计,采用思维链技术。
标签: #AI, #reasoning, #Microsoft, #model release
Claude Code 在请求中嵌入隐藏标记 ⭐️ 8.0/10
Anthropic 的编程工具 Claude Code 在输出中秘密嵌入隐写标记以检测滥用。 这引发了依赖 AI 工具的开发者对透明度和信任的严重担忧。 这些标记旨在识别进行模型蒸馏的中国公司的使用情况。
hackernews · kirushik · Jun 30, 15:44 · 社区讨论T2 社区与开源
背景: 隐写术将数据隐藏在其他数据中以避免检测。Claude Code 是 Anthropic 的 AI 编程助手。
社区讨论: 讨论中辩论商业需求是否正当化了不诚实披露,一些评论批评了草率的实现。
标签: #steganography, #AI, #ethics, #security, #Claude
Claude Science:用于科学研究的本地服务器 AI 工具 ⭐️ 8.0/10
Anthropic 发布 Claude Science,本地服务器科学数据分析工具。 在安全受限的科研环境中提供 AI 数据分析能力。 本地服务器架构将 UI 与主机分离,提升安全性。
hackernews · lebovic · Jun 30, 17:07 · 社区讨论T2 社区与开源
背景: 许多科研环境(尤其是制药)安全限制严格,无法使用云端 AI。Claude Science 的本地服务器可在不泄露数据的情况下进行 AI 分析。
社区讨论: 社区称赞本地服务器架构的安全性。
标签: #Claude, #AI, #data science, #scientific computing, #product launch
拥有 37 个数据中心的县要求学校节电 ⭐️ 8.0/10
弗吉尼亚州亨利科县拥有 37 个数据中心,因电网压力要求学校节约用电。 这突显了数据中心增长与居民基础设施成本之间的冲突。 该县的电力供应商 Dominion Energy 正根据《弗吉尼亚清洁经济法案》大力投资可再生能源。
hackernews · 01-_- · Jun 30, 16:05 · 社区讨论T2 社区与开源
背景: 数据中心消耗大量电力,常常给当地电网带来压力。居民用户往往承担基础设施升级的费用。
社区讨论: 评论者批评数据中心未被隔离,并将成本转嫁给消费者,预计会引发政治反弹。
标签: #data centers, #energy consumption, #infrastructure, #renewable energy, #policy
OpenAI 通过核心转储分析修复了 18 年历史的错误 ⭐️ 8.0/10
OpenAI 通过核心转储发现硬件故障和 18 年历史错误。 这展示了一种调试罕见基础设施崩溃的新方法。 分析涉及从数千台服务器收集核心转储。
rss · OpenAI Blog · Jun 30, 00:00T1 官方实验室
标签: #debugging, #infrastructure, #reliability, #core dump analysis, #software bug
DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash ⭐️ 8.0/10
DeepMind 发布了 Nano Banana 2 Lite 和 Gemini Omni Flash。 使开发者能够用更小、更快的多模态模型进行构建。
rss · DeepMind Blog · Jun 30, 16:02T1 官方实验室
标签: #DeepMind, #Gemini, #AI models, #developer tools, #multimodal
ScarfBench:AI 代理在 Java 迁移中的基准测试 ⭐️ 8.0/10
ScarfBench,一个用于评估 AI 代理在企业 Java 框架迁移任务中表现的新基准,已被提出。 该基准测试解决了软件现代化中的实际难题,为衡量 AI 代理能力提供了标准化方法。 ScarfBench 专注于 Java 框架之间的迁移,这是企业中常见但劳动密集型的工作。
rss · Hugging Face Blog · Jun 30, 18:32T1 官方实验室
背景: 企业级 Java 应用通常依赖需要迁移到新框架的遗留框架,以提升性能或安全性。人工智能代理被探索用于自动化此类迁移。ScarfBench 提供了标准化的评估环境。
标签: #AI benchmarking, #software migration, #enterprise Java, #AI agents
AI 芯片初创公司 Etched 估值达 50 亿美元,销售额达 10 亿美元 ⭐️ 8.0/10
Etched 估值达 50 亿美元,销售额达 10 亿美元。 标志着 Nvidia 在 AI 芯片领域面临强劲挑战。 10 亿美元合同用于推理系统,而非仅芯片。
rss · TechCrunch · Jun 30, 18:13T1 官方实验室
标签: #AI chips, #hardware, #Nvidia, #startup, #semiconductors
特斯拉在奥斯汀测试无方向盘 Cybercab ⭐️ 8.0/10
特斯拉已开始在德克萨斯州奥斯汀测试其无方向盘和踏板的 Cybercab。 这标志着特斯拉长期承诺的机器人出租车网络迈出了实质性一步。 Cybercab 是一款专为机器人出租车服务设计的双座自动驾驶汽车。
rss · TechCrunch · Jun 30, 15:32T1 官方实验室
背景: 特斯拉 Cybercab 于 2024 年 10 月亮相,是一款无手动控制装置的专业自动驾驶汽车。2026 年 2 月开始生产。
标签: #autonomous vehicles, #Tesla, #robotaxi, #self-driving, #Cybercab
附录
以下内容来自 AIHOT 日报,每天 08:00 北京时间发布
-
AI HOT 日报 · 2026-06-30 — 美团 LongCat Owl Alpha:OpenRouter 最流行模型,1.6 万亿 MoE,国产 ASIC 训练 美团 LongCat Owl Alpha:OpenRouter 最流行模型,1.6 万亿 MoE,国产 ASIC 训练 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-29 — Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus — 点击查看完整日报
-
AI HOT 日报 · 2026-06-28 — 阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色 阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-27 — OpenAI 预览新一代模型 GPT-5.6 Sol OpenAI 预览新一代模型 GPT-5.6 Sol — 点击查看完整日报
-
AI HOT 日报 · 2026-06-26 — Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模 Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-25 — OpenAI ChatGPT 语音最大规模升级:双向 AI 语音模型 Bidi 1 已上线测试 OpenAI ChatGPT 语音最大规模升级:双向 AI 语音模型 Bidi 1 已上线测试 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-24 — FastWan-QAD:单卡 5090 上 1.8 秒生成 5 秒视频 FastWan-QAD:单卡 5090 上 1.8 秒生成 5 秒视频 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-23 — PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M — 点击查看完整日报
-
AI HOT 日报 · 2026-06-22 — 美团 tabbit 国际版免费接入 GPT-5.5/Claude Opus 4.8 等旗舰模型 美团 tabbit 国际版免费接入 GPT-5.5/Claude Opus 4.8 等旗舰模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-21 — 微软双向转售 GPT 与 DeepSeek 成全球最大 AI 中间商 微软双向转售 GPT 与 DeepSeek 成全球最大 AI 中间商 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-20 — 阿里开源向量数据库 Zvec,UCSD 黄碧薇教授提出因果 AI 第四代范式 阿里开源向量数据库 Zvec,UCSD 黄碧薇教授提出因果 AI 第四代范式 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-19 — 首个统一科学大模型 LOGOS 正式开源 首个统一科学大模型 LOGOS 正式开源 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-18 — MolmoMotion:语言引导的 3D 运动预测模型 MolmoMotion:语言引导的 3D 运动预测模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-17 — Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型 Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-16 — MiniMax 开源 M3 模型权重及 MSA 技术论文 MiniMax 开源 M3 模型权重及 MSA 技术论文 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-15 — Anthropic 暂停新模型访问,印度辩论 AI 未来 Anthropic 暂停新模型访问,印度辩论 AI 未来 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-14 — 智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源 智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-13 — MiniMax M3 开源权重模型发布,已上架 HuggingFace MiniMax M3 开源权重模型发布,已上架 HuggingFace — 点击查看完整日报
-
AI HOT 日报 · 2026-06-12 — Gemini Omni Flash 视频任务达 SOTA Gemini Omni Flash 视频任务达 SOTA — 点击查看完整日报
-
AI HOT 日报 · 2026-06-11 — DiffusionGemma:文本生成速度提升 4 倍的开源扩散模型 DiffusionGemma:文本生成速度提升 4 倍的开源扩散模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-10 — Claude Fable 5 和 Claude Mythos 5 Claude Fable 5 和 Claude Mythos 5 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-09 — 小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型 小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-08 — Harness-1:基于强化学习训练的有状态搜索 20B 检索子智能体 Harness-1:基于强化学习训练的有状态搜索 20B 检索子智能体 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-07 — GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码 GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-06 — Riverflow 2.5:可控制评分标准的图像模型 Riverflow 2.5:可控制评分标准的图像模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-05 — Nemotron 3.5 Content Safety:面向全球企业 AI 的可定制多模态安全 Nemotron 3.5 Content Safety:面向全球企业 AI 的可定制多模态安全 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-04 — Grok Imagine 1.5 预览版发布 Grok Imagine 1.5 预览版发布 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-03 — 微软首款高级推理 AI 模型 MAI-Thinking-1 发布 微软首款高级推理 AI 模型 MAI-Thinking-1 发布 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-02 — MiniMax M3:前沿编码、100 万 token 上下文与原生多模态一体模型 MiniMax M3:前沿编码、100 万 token 上下文与原生多模态一体模型 — 点击查看完整日报
-
AI HOT 日报 · 2026-06-01 — OpenAI 发布生物防御 AI 工具 Rosalind OpenAI 发布生物防御 AI 工具 Rosalind — 点击查看完整日报