HN 每日深度阅读 · 2026-05-20

共 20 篇 · 约 12,324 字 · 约 31 分钟读完

1. Karpathy 加入 Anthropic 预训练团队

原文: https://twitter.com/karpathy/status/2056753169888334312

HN: https://news.ycombinator.com/item?id=48194352

得分: 1094

评论: 454

Andrej Karpathy 在 X 上宣布加入 Anthropic，称未来几年 LLM 前沿研究将极具塑造性，他希望重回 R&D 工作，同时表示仍对教育充满热情，计划在适当时候恢复相关工作。据 Axios 报道，他本周将加入 Anthropic 的预训练团队，该团队负责支撑 Claude 核心知识与能力的大规模训练。

Karpathy 曾任 OpenAI 创始团队成员、特斯拉自动驾驶负责人，其后创办了教育公司 Eureka Labs，并以高质量的神经网络与 LLM 教学视频在开发者社区中获得广泛影响力。他在近期一次访谈中已经提前透露过这一动向，表示担心自己脱离前沿实验室会逐渐与最新方法脱节，因此愿意加入有意接纳他的 frontier lab。

HN 讨论呈现出几条主线。一部分评论者关注他对教育的投入是否会被吞没：Anthropic 的 NDA 文化可能让他难以继续公开教学，Eureka Labs 也很可能因此搁置，“Software 2.0”、“vibe coding” 这些他贡献的概念在社区中被反复提及，许多人希望他不要完全停止内容输出。另一部分评论将这一事件解读为更宏观的行业信号：一位有能力独立创业的 AI 教育者最终选择回到 frontier lab，意味着应用层与垂直产品正持续被基础模型的迭代吞噬，依赖前沿模型构建上层的创业者需要重新审视护城河。

也有评论从行业整合角度表达忧虑，将 Anthropic 比作不断吸纳人才的”龙卷风”，担心顶尖人才向少数实验室高度集中。另有人将其职业轨迹类比 Jim Keller，是在不同顶尖机构间”采蜜”型的技术人物。整体上社区对个人选择表示理解和祝福，对教育内容流失则普遍感到惋惜。

2. Simon Willison 总结近半年 LLM 发展：November 拐点与编码代理成熟

原文: https://simonwillison.net/2026/May/19/5-minute-llms/

HN: https://news.ycombinator.com/item?id=48188183

得分: 726

评论: 553

Simon Willison 在 PyCon US 2026 的五分钟闪电演讲中，用注释幻灯片回顾了过去六个月 LLM 领域的关键变化。他将 2025 年 11 月称为”拐点”：在这一个月内，业界公认的”最佳模型”在 Anthropic、OpenAI、Google 之间易手五次，先后经历 Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5。他继续用”画一只骑自行车的鹈鹕”作为非正式评测，认为 Gemini 3 在这组中表现最佳，但 Opus 4.5 在随后几个月整体最强。

他认为真正的大事是编码代理在 11 月跨越了可用性门槛：OpenAI 与 Anthropic 一整年的 RLVR（基于可验证奖励的强化学习）训练成果与 Codex、Claude Code 的 harness 结合，使代理从”经常能用”变成”基本能用”，可作为日常工具完成实际工作。文章随后讲述了 12 月到 1 月间，他本人也陷入短暂的”LLM 狂热”，做了诸如把 JavaScript 跑在 Python 跑在 Pyodide 跑在 WebAssembly 跑在浏览器 JavaScript 中的项目，事后大多悄悄退役。2 月份一个名为 OpenClaw 的”个人 AI 助手”项目突然走红，演讲将其作为该季度的代表事件。

HN 评论分歧明显。多名开发者质疑”拐点”主要是营销叙事，亲身使用 GPT-5.5、Codex 等做 vibe coding 时仍觉得离生产可用差距很大；有人指出鹈鹕骑车测试本是微软早期 GPT-4 报告中的趣闻，如今被滥用为伪科学指标。也有理性分析认为模型本身在 11 月并未跃迁，真正变化的是 harness 的稳定性，加上 RLVR 训练专门优化模型在 harness 内的行为，二者结合产生了复合效应——这也解释了为什么只做”提问粘代码”的用户感受不到剧变，而跑 20 步 agent 循环的用户感到质变。还有评论提到从安全研究视角看，今年春天才是更明显的拐点。

3. Google 发布 Gemini 3.5 Flash：性能提升伴随三倍价格上涨

原文: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

HN: https://news.ycombinator.com/item?id=48196570

得分: 467

评论: 367

Google 在 I/O 2026 上发布 Gemini 3.5 系列，首先推出 3.5 Flash，定位为兼顾前沿智能与执行能力的代理模型。官方称其在 Terminal-Bench 2.1（76.2%）、GDPval-AA（1656 Elo）、MCP Atlas（83.6%）、CharXiv Reasoning（84.2%）等基准上超过 Gemini 3.1 Pro，输出速度比其他 frontier 模型快约 4 倍。3.5 Flash 已成为 Gemini app 与 Search AI Mode 的默认模型，并通过 Antigravity、AI Studio、Android Studio、Gemini Enterprise 等渠道开放；3.5 Pro 预计下月推出。

新模型针对长 horizon 的代理任务，结合 Antigravity 可调度并行子代理，应用案例包括 Shopify 用其做商家增长预测、银行与金融科技公司自动化多周工作流。Google 同时上线”Gemini Spark”个人 AI 代理，向 AI Ultra 订阅者灰度开放。

HN 讨论几乎完全被定价话题主导。3.5 Flash 输入/输出为 $1.50/$9.00，相较 2.5 Flash 的 $0.30/$2.50 与 3.0 Flash preview 的 $0.50/$3.00，在同档定位下出现罕见的 3 倍价格上涨，已接近 Gemini 2.5 Pro 当时的定价。许多开发者表示这打破了他们原本”Gemini 做快速迭代、Sonnet 做正确性关键任务”的多模型工作流；对 token 输出密集的代理流程冲击尤为明显，预计会推动用户转向 DeepSeek 与 Qwen 等中国开源模型。也有人注意到 Google 罕见地把这一版本直接标为 stable 而非 preview，认为这意味着新定价是长期基线，而非促销策略，可能反映整个行业正在悄悄重置廉价推理的底价。其他反馈包括：知识截止日期仍停留在 2025 年 1 月、AI Pro 套餐用两个 prompt 即耗尽 Antigravity 配额、生成一张鹈鹕图需约 13 美分等。鹈鹕骑车测试结果被认为质量尚可但自行车结构错误较多。

4. Google 改造搜索框：25 年来最大改版引入 AI 代理

原文: https://blog.google/products-and-platforms/products/search/search-io-2026/

HN: https://news.ycombinator.com/item?id=48197370

得分: 299

评论: 472

Google 宣布对搜索框做出”25 年来最大升级”，将 Gemini 3.5 Flash 作为 AI Mode 的默认模型，全球推广。新的”智能搜索框”动态扩展，支持文本、图像、文件、视频与 Chrome 标签页作为输入，并以 AI 推荐替代传统自动完成。AI Overview 现可直接转入与 AI Mode 的多轮对话。

Google 同时推出”搜索代理”：第一类是 24/7 后台运行的信息代理，可持续监测租房、球鞋发售等用户关注的话题；第二类是扩展后的预订代理，可帮助寻找特定条件的本地服务，对家修、美容、宠物护理等品类还可代为电话联系商家。借助 Antigravity 与 3.5 Flash 的编码能力，搜索可即时生成定制化 UI——交互式可视化、图表、模拟器，甚至搭建可持续使用的”迷你应用”（如健身追踪器、婚礼筹备面板）。AI Mode 中的 Personal Intelligence 也扩展到近 200 个国家、98 种语言。

HN 讨论几乎一边倒地表达担忧。多位评论者引用 Nilay Patel 提出的”Google Zero”——Google 不再向外部网站导流的临界点——认为这次改版是该趋势的最终落地。有人指出 AI Mode 把随机网页评论以”系统性综述”的口吻聚合呈现，会让用户误把零散意见当作 ground truth。多名用户表示自己 Google 搜索使用量已下降一半以上，但 Google 在搜索中嵌入 AI 的方式不如直接用 LLM 工作流自然，且广告偏见在对话式界面中比传统链接更难察觉、暗黑模式更易实施。也有人怀念早期”Google it”作为权威信息源的角色，担心马斯化的 AI 答案将偏见结构性地引入大众认知。还有评论认为这是 Google 不得不做的防御——多年 SEO 已污染传统搜索结果，强行将用户推入对话式界面既是商业必然，也是搜索范式终结的标志。

5. Apple 借无障碍功能首次落地 Apple Intelligence 代理能力

原文: https://www.apple.com/newsroom/2026/05/apple-unveils-new-accessibility-features-and-updates-with-apple-intelligence/

HN: https://news.ycombinator.com/item?id=48192224

得分: 561

评论: 286

Apple 公布一批新无障碍功能，多项由 Apple Intelligence 驱动。这些更新涵盖 VoiceOver 增强、视觉描述、文本检测、票据识别（如识别水电账单金额）、改进的语音控制、为运动障碍用户提供的电动轮椅光学控制等。Apple 强调这些能力运行在端侧，并与 Be My Eyes 等社区生态相互补充。

HN 上一条高赞分析指出，Apple 一向喜欢以”低调场景”作为新技术的隐形发布渠道：当年 Touch Bar 实质上是引入 T1 芯片承担安全飞地与系统功能、铺垫 Apple Silicon 转型的载体；这次将代理式 AI 通过无障碍功能首发，沿袭了同一套打法。

社区反馈两极。许多用户称赞 Apple 长期对无障碍的投入是行业标杆，赞同把 LLM 用于真正帮助人，而非仅仅替代或压榨人力。一名视障开发者则给出冷静评价：Seeing AI、Envision AI、Be My Eyes、Aira 等第三方应用早已覆盖大部分功能，Apple 的优势可能仅在于本地化、速度更快但准确性待观察；同时 macOS 的 VoiceOver 多年处于维护模式，与 Windows 上 JAWS、NVDA 差距明显，让人怀疑此次发布有几分作秀成分。另一类高频抱怨集中在 iPhone 的语音转文字与文本纠错——多位用户认为 Apple 的 STT 至少落后行业半年到十年，输入体验持续退化，掌纹拒识与自动纠错反而比以前更糟。也有用户建议 Apple 应推出 HUD 形态的轻量级 AR 眼镜来承载这些光学控制能力。

6. Mini Shai-Hulud 再袭 npm：317 个包被注入凭据窃取蠕虫

原文: https://safedep.io/mini-shai-hulud-strikes-again-314-npm-packages-compromised/

HN: https://news.ycombinator.com/item?id=48189368

得分: 356

评论: 275

SafeDep 披露 2026 年 5 月 19 日 npm 账号 atool（i@hust.cc）遭入侵，攻击者在 22 分钟内自动发布了 317 个包的 637 个恶意版本。受影响包包括月下载量 420 万的 size-sensor、380 万的 echarts-for-react、220 万的 @antv/scale、115 万的 timeago.js，以及数百个 @antv scope 包，由于多数项目使用 semver 范围，恶意版本会被自动解析。

恶意载荷是一个 498KB 经过混淆的 Bun 脚本，与三周前 SAP 供应链事件中使用的 Mini Shai-Hulud 工具集架构、正则、混淆模式一致。其影响层面包括：全链路凭据收集（AWS 完整链路含 EC2/ECS 元数据、Secrets Manager、Kubernetes service account、HashiCorp Vault、GitHub PAT、npm token、SSH key、1Password/Bitwarden/pass/gopass 本地保险库）；双通道外泄（GitHub 公开仓库提交 + 伪装成 OpenTelemetry trace 的 HTTPS POST）；CI 中通过 GitHub Actions OIDC 交换 npm 发布 token、利用 Sigstore 伪造合法签名；通过 .github/workflows/codeql.yml 持久化、通过 Claude Code 与 Codex 的 SessionStart hook、VS Code tasks.json 的 folderOpen 触发 AI 工具链劫持；通过 systemd / LaunchAgent 部署名为 kitty-monitor 的 C2 后门，使用 GitHub commit search API 拉取 RSA-PSS 签名指令；并尝试 Docker socket 容器逃逸与本地其他 Node 项目横向感染。攻击还利用 antvis/G2 仓库的 orphan imposter commit 加 optionalDependencies 提供冗余传播路径，即使 preinstall 被禁用也能命中。文章列出了完整 IoC 与受影响包清单。

HN 讨论几乎一致呼吁 npm 默认禁用生命周期脚本，认为这是几乎所有大规模 npm 蠕虫的共同入口。许多开发者主张冻结依赖、关闭 Dependabot，转向显式审计；也有人将 npm 与其他包管理器对比，质疑为何这种事件只在 npm 反复发生。zed 编辑器对 LSP 自动安装 npm 包的隐式信任引发不安。多名评论者表示已将 node/python 隔离到 devcontainer 或 VM，但有人提醒该 payload 已经主动尝试通过 Docker socket 逃逸，rootless 引擎（如 podman）更为稳妥。还有人提出 TC39 应补强 JS 标准库以减少一行包数量，长期看需要改变高频小版本快速发布的生态文化。已有项目如 aube 引入”jailed builds”等沙盒机制，但被认为终究是猫鼠游戏。

7. OpenBSD 7.9 发布：第 60 个版本，新增异构核心调度与延迟休眠

原文: https://www.openbsd.org/79.html

HN: https://news.ycombinator.com/item?id=48192882

得分: 360

评论: 263

OpenBSD 7.9 于 2026 年 5 月 19 日发布，是该项目第 60 个版本。除常规的 drm 更新至 Linux 6.18.22、平台驱动改进外，本次有几项较具系统设计意味的变化。

调度器层面引入异构核心管理机制：新增 sysctl 变量 hw.blockcpu，以 S/P/E/L 四种字符标识 SMT、性能核、能效核（约为性能核的 50–80%）、低速核，默认禁用 S 与 L，目前在 amd64 与 arm64 可用。内核互斥锁中 cas 自旋锁被替换为 parking lock。SMP 解锁继续推进，包括 socket splicing、icmp6_sysctl、IGMP 慢定时器，并在 amd64/arm64 上启用并行 page fault。amd64 的 MAXCPUs 提升到 255，Zen/Zen+ 上的浮点状态泄露问题得到缓解，512GB 以上内存的 DM PTE/PDE 清零 bug 得到修复。

挂起/休眠方面新增”延迟休眠”：通过 machdep.hibernatedelay 设定睡眠后等待秒数，系统会自动唤醒并执行真正的休眠，避免长期 suspend 耗尽电池。riscv64 新增 SpacemiT K1 SoC 支持；arm64 适配了 RK3588/RK3576 与部分 Apple Silicon 笔记本的 SDHC 控制器。VMM 端则使 OpenBSD 可在 Apple Virtualization 上运行、新增 vmboot 让 vmd VM 也能使用 sysupgrade、扩展对 AMD SEV 等机密计算的支持。Ports 上一个值得注意的变化是移除了 Exim，迁移路径推荐 OpenSMTPD。

HN 评论欣赏其安全文化与艺术风格——发行海报由 Lyra Henderson 绘制，发行曲目”Diamond in the Rough”由 Bob Kitella 制作。讨论焦点之一是异构核心策略：OpenBSD 选择直接禁用慢核，被评价为”散弹枪式”做法，社区对 big.LITTLE 在通用 OS 中是否值得仍存疑，尤其考虑到不同核心 ISA 特性（如 AVX512）差异带来的调度难题。也有评论关注”parking lock”具体实现细节、Bluetooth 与 Wi-Fi 6 实验性支持的推进、以及在大量 Linux 供应链与漏洞事件背景下迁移到 OpenBSD 的吸引力。多名长期用户分享了从 Ubuntu/Debian 迁移、或通过 openbsd.amsterdam 托管个人服务的经验。

8. 用 90 个视角拍出来的草莓高斯泼溅模型

原文: https://superspl.at/scene/84df8849

HN: https://news.ycombinator.com/item?id=48191602

得分: 454

评论: 180

作者 danylyon 在 SuperSplat 平台发布了一颗草莓的高斯泼溅（Gaussian Splatting）三维场景，引发 HN 高度关注。素材采集使用 Nikon Z8 全画幅相机、Laowa 180mm 微距镜头，配合 LED 灯和蓝幕，从 90 个不同角度拍摄，每个角度通过 88 张图像做焦点堆叠以保证全景深锐利；训练过程在 slang-splat（一个基于 Slang 着色器语言的 splat 训练实现）中完成。最终模型包含约 4.5 万个高斯，体积约 23MB，以 CC BY 协议发布，COLMAP 原始数据集可在作者 Patreon 获取。

承载平台 SuperSplat 来自 PlayCanvas 团队，原本是为 WebGL 游戏引擎服务的工具栈，作者本人在评论中感慨「2011 年做 PlayCanvas 是为了驱动游戏，2026 年它在驱动草莓」。

HN 讨论几条主线：一是对高斯泼溅可视效果的赞叹，许多评论提到其退化方式很「梦幻」——距离过近时不会像传统 LoD 那样出现硬边或多边形塌陷，而是逐渐变得朦胧，「仿佛现实本身在解构」。有人贴出更大场景案例如热带花园、植物园 VR 场景。二是技术延伸：有评论介绍 Apple 开源的 ml-sharp 模型，可在 M1 Pro 上约 30 秒从单张图生成 splat，但 2.6GB 权重不利于浏览器端运行；也有人讨论动态光照、动画 splat、4D 体视频（如 4dv.ai）以及把演唱会拍成可任意视角观看的应用前景。三是细节质疑：有评论指出草莓「籽」周围的红色区域看上去被推向中心，外层略带透明、能看到下层结构，可能是 splat 表示在透明 / 半透明表面上仍有局限。还有人就 CC BY 与「鼓励但不要求署名」之间的法律矛盾提出讨论，认为如要放弃署名要求应改用 CC0。

9. 一个虚拟操作系统博物馆：1700+ 个安装、覆盖 1948 至今

原文: https://virtualosmuseum.org/

HN: https://news.ycombinator.com/item?id=48195009

得分: 520

评论: 112

作者将几乎所有能跑起来的历史操作系统打包进一个 Linux 虚拟机，发布为 Virtual OS Museum。该镜像可在 QEMU、VirtualBox 或 UTM 中运行，附带一个独立于具体 hypervisor 的启动器，预装并预配置了全部模拟器与 OS，并提供快照功能以便从损坏的安装中快速恢复。Windows、macOS、Linux 平台均提供安装脚本与快捷方式。

收录范围按官方数据为 1700 多个安装、250 多个平台、570 多个不同 OS，时间跨度从 1948 年的 Manchester Baby 到今天。覆盖类别包括：早期大型机（CTSS、MVS、VM/370、TOPS-10/20、ITS、Multics、RSX、RSTS）；工作站与 Unix 变体（PERQ、SunOS、IRIX、OSF/1、A/UX、NeXTSTEP、Plan 9、各种 BSD 及历代 Linux 发行版）；家用电脑（CP/M、Apple II、Commodore、Atari、MSX、TRS-80、BBC Micro、ZX Spectrum 等）；个人电脑 OS（各种 DOS、OS/2、BeOS、Windows 1.0 到早期 Longhorn beta、Classic Mac OS 至 Mac OS X 10.5 PPC）；移动嵌入式（PalmOS、EPOC/Symbian、Windows CE、Newton OS、早期 Android/iOS、QNX）；以及 ZetaLisp、Smalltalk、Oberon 等研究性系统。项目分 full 与 lite 两个版本，后者按需下载镜像，并支持增量更新。

HN 讨论里，多位评论者称这项工作量「Herculean」，一位做过 13 个浏览器内复古 OS 的开发者表示难以想象做到 1700+ 的工作量。也有人提出遗珠：缺失 TempleOS（多条评论）、Pick OS、Packard Bell Navigator 等。一位前 Apollo Domain/OS 用户指出，截图选用了 SR10.4 的 VUE 桌面，但 VUE 实际属于 HP-UX 时代，可能让人误以为是 DomainOS 本身的代表界面，而早期 DomainOS 的「pad」式终端、键盘硬件设计等独特之处更值得展示。还有人请求在网站上直接列出收录 OS 清单，避免必须下载才能查看；并将其与 aresluna.org 的「Frame of Preference」（Mac OS 浏览器内模拟器合集）作对比。

10. 德州排水区在沟渠中发现特斯拉锂精炼厂未公开排污口

原文: https://www.autonocion.com/us/tesla-lithium-refinery-texas/

HN: https://news.ycombinator.com/item?id=48198551

得分: 390

评论: 189

2026 年 1 月，德州 Nueces 县 2 号排水区工作人员在 Robstown 城外巡查沟渠时，发现了一根此前不知情的管道，从中排出「非常深、近乎黑色」的液体。该管道属于特斯拉耗资近 10 亿美元、2024 年 12 月投产的锂精炼厂——北美首个商业规模辉石锂矿到氢氧化锂的精炼厂。特斯拉曾多年宣传该厂采用「无酸清洁工艺」，副产物以砂石和石灰石为主。

德州环境质量委员会（TCEQ）2025 年 1 月 15 日向特斯拉发放了 TPDES 废水排放许可，允许每日向一条无名沟渠排放最多 23.1 万加仑处理后废水，最终经 Petronila Creek 流入 Baffin Bay 海钓胜地；但许可并未授权使用公共或私人土地作为输送通道，且排水区从未被告知该许可存在。2 月 TCEQ 调查仅检测了常规污染物（溶解固体、氯化物、硫酸盐、油脂、温度、溶解氧），均在许可范围内，未检测重金属，也未检测主要原料锂本身，3 月结案定为无违规。

排水区随后委托独立实验室 Eurofins 在排污口下游放置 24 小时采样器。4 月 10 日报告显示：六价铬 0.0104 mg/L，刚高于检测下限，与加州饮用水标准接近；砷 0.0025 mg/L，低于联邦饮用水标准 0.01 mg/L；锶 1.17 mg/L；锂、钒浓度异常偏高；锰、铁、磷、钙、镁、钾水平符合工业排放特征；氨氮 1.68 mg/L。六价铬和砷均不在特斯拉许可允许排放的污染物清单中。咨询工程师 Mazloum 将锂、锶、钒的组合称为「指向电池工艺设施的化学指纹」，并指出高盐分正在杀死沟渠护壁草皮、降低排洪能力。特斯拉则回应称完全合规，并质疑采样位置应在排放口而非下游沟渠。

HN 评论分歧明显。一派认为浓度数值并不夸张，六价铬仅微高于加州饮用水标准、砷低于联邦标准，文章带有引导性；另一派则强调真正的法律焦点不是污染本身，而是擅自使用县属沟渠输送废水，并指出许可中本就未涵盖六价铬与砷，TCEQ 未主动检测重金属、不测锂本身是监管失职。多人提到 DOGE 削减 EPA 与 CISA 等监管机构的背景，认为基层人员发现问题、而非例行检查发现问题，本身已是信号。也有人对发言人「在许可允许范围内合规」的措辞表示反感，认为这是用合规话术回避「排放了许可之外的物质」这一核心争议。

11. CISA 承包商在公开 GitHub 仓库中泄露 GovCloud 凭据

原文: https://krebsonsecurity.com/2026/05/cisa-admin-leaked-aws-govcloud-keys-on-github/

HN: https://news.ycombinator.com/item?id=48190454

得分: 367

评论: 150

Krebs on Security 报道，美国网络安全与基础设施安全局（CISA）一名承包商长期在 GitHub 上维护一个名为「Private-CISA」的公开仓库，内含大量内部 CISA/DHS 凭据与文件，包括云服务密钥、令牌、明文密码、日志等。该泄露由 GitGuardian 研究员 Guillaume Valadon 发现并上报，他描述「这是我职业生涯中见过最严重的一次泄露」。提交日志显示，仓库所有者主动关闭了 GitHub 默认的 secret 推送拦截。

文件中包含一个名为 importantAWStokens 的文件，含 3 个 AWS GovCloud 服务器的管理员凭据；另一个 AWS-Workspace-Firefox-Passwords.csv 列出了数十个内部 CISA 系统的明文用户名密码，涉及代号「LZ-DSO」的 Landing Zone DevSecOps 安全开发环境。Seralys 咨询公司创始人 Philippe Caturegli 验证了这些凭据可在高权限下登录三个 GovCloud 账户，并指出仓库还暴露了 CISA 内部 artifactory（软件构建包仓库）的明文凭据——若被恶意利用可在构建产物中植入后门，实现横向移动与持久驻留。许多密码采用「平台名+年份」这类极易猜测的模式。

仓库创建于 2025 年 11 月，所属 GitHub 账号已注册多年。CISA 与 Krebs 通报后账号下线，但暴露的 AWS 密钥又继续有效约 48 小时。仓库由 Dulles 政府承包商 Nightwing 一名员工维护，公司不予置评、转介至 CISA。CISA 表示「目前没有迹象表明任何敏感数据被泄」并将加强防护。报道指出 CISA 在第二届特朗普政府期间已流失近三分之一员工。

HN 讨论关注几点：一是被通报后竟未及时响应这一情节本身的离谱；二是 2026 年仍以 passwords.csv 形式存储密码、未启用密码管理器，被普遍认为是不可原谅的低级失误，多人调侃「CISA 自己也得请一个 CISA」；三是有人推测攻击者可能批量扫描包含「private」「internal」字样且属于政府机构的仓库；四是延伸讨论将敏感 .env 文件交给 LLM 上下文带来的二次泄露风险，呼吁组织审计磁盘上和日志中的密钥，全面迁移至 SOPS、Vault 等机密管理方案；五是有评论指出联邦政府其实早有 CAC 智能卡身份认证，但只要互联网栈仍以密码为主，政府系统也只能跟着用密码。

12. Nate Silver：迪士尼把 FiveThirtyEight 抹掉了

原文: https://www.natesilver.net/p/disney-erased-fivethirtyeight

HN: https://news.ycombinator.com/item?id=48197703

得分: 262

评论: 163

Nate Silver 在 Silver Bulletin 撰文记录了 FiveThirtyEight 网站被彻底删除一事。他在为新世界杯模型查找自己 2014 年一篇旧文时，发现 fivethirtyeight.com 上所有文章已被自动重定向至 ABC News 首页。次日有前同事确认这一变化。ABC News 未公开说明，也未回应纽约时报问询。Silver 在 2023 年离开，迪士尼于 2025 年关闭该站，2026 年 5 月则进一步删除全部历史文章。

Silver 估算迪士尼时代 FiveThirtyEight 约 10 年间每周发布约 20 篇文章，每篇研究、写作、可视化、编辑合计约 20 小时，相当于 ABC News 一次性抹除了约 20 万人时的工作成果。他援引 Pew 与 ahrefs 关于「链接腐烂」的研究：10 年前的网页链接约有 40% 已失效，11 年后失效率达三分之二。Internet Archive 上仍可访问部分迪士尼时代内容，纽约时报合作时期（2010–2013）的文章则在 NYT 归档中保留。Silver 同时透露团队正在 Silver Bulletin 重建部分原有项目，包括选举模型、民调平均、足球（PELE）、NFL（ELWAY）、NCAA 篮球（COOPER）等。

文章核心观点之一是：FiveThirtyEight 本可以是一桩有价值的订阅生意。资深员工曾恳请迪士尼上线付费墙，对方以「不值得投入精力研究付费墙机制」为由拒绝；纽约时报内部曾视其为有价值的订阅资产；多家擅长订阅业务的买家曾试图收购。Silver 认为迪士尼花了不少钱却从未真正投入运营。他将此文定位为一份「商学院案例」：一家大公司对收购来的小品牌长期疏忽。

HN 讨论几条线：一是「领导层换届」效应——B2B 销售老兵指出新高管常为彰显方向把前任的项目一并砍掉，无论是否成功；二是对 Silver 本人的反弹，多位评论者表示对「把公司卖给巨头再抱怨被毁掉」的故事失去耐心，也有人提到 2016 大选时其预测让自己对 538 失去信任；三是更宽泛的「企业天气论」——大公司的行为更像随机波动而非理性决策，FiveThirtyEight 在迪士尼内部像被随意传递的小玩意；四是不少评论提到这种「执行官阶层」从未真正运营过业务、只在 PPT 之间跳来跳去；五是有人困惑于决策链条上一定存在某个人，对「删除十多年的网络内容」毫无负面感受，这背后的价值观令人不解。

13. 明尼苏达成为美国首个立法禁止预测市场的州

原文: https://www.npr.org/2026/05/19/nx-s1-5821265/minnesota-ban-prediction-markets

HN: https://news.ycombinator.com/item?id=48197980

得分: 299

评论: 115

NPR 报道，明尼苏达通过法律，把 Kalshi、Polymarket 等预测市场平台的运营列为重罪，成为美国首个以立法形式直接禁止预测市场的州。此前已有数十个州对该行业采取过法律行动，但均未上升到刑事禁令层面。值得注意的是，预测市场在联邦层面由 CFTC 作为商品期货合约监管，州法是否能在联邦先占（preemption）挑战下站住脚是关键问题。法案中还包含禁止为绕过该禁令提供支持的服务，明确点名 VPN 等可用于伪装地理位置的工具。

HN 讨论几条主线。第一，明尼苏达本身全面禁止体育博彩，使其禁止预测市场的论证相对一致；评论者普遍认为，若一个州允许体育博彩、却要禁止预测市场，将很难自圆其说，因为本质上只是实现细节不同——传统体彩同样允许人们押注大学篮球球员数据、少年棒球世界系列赛等。第二，关于预测市场的社会价值，多名评论者认为多数市场要么聚焦无关紧要的体育赛事、要么存在内幕交易嫌疑、要么解算条件写得含糊不清，所谓「信息聚合优势」在实践中很少兑现，整体上更接近博彩衍生品。第三，法律可执行性遭到质疑，有人认为这只会把活动驱赶到地下，加剧风险；也有人调侃可在预测市场上押注该禁令本身能维持多久。第四，CFTC 监管下的州法挑战路径，按惯例更可能由用户而非联邦机构提起，但本案中联邦机构反而主动「护盘」属罕见现象。最后，多名评论者对「禁止 VPN」表述表示震惊，认为这一条款远超博彩监管的合理范围，可能引发更大的合宪性争议。也有人提出股市本身是否也是一种预测市场的老问题。

14. 在阿塔卡马沙漠废弃矿场中找到超纯量子自旋液体候选晶体

原文: https://medium.com/@breid.at/ultra-pure-quantum-crystals-from-an-abandoned-mine-in-a-mysterious-desert-93cc87d12314

HN: https://news.ycombinator.com/item?id=48165797

得分: 262

评论: 104

斯坦福博士 Aaron Breidenbach 在 Medium 撰文介绍其在智利阿塔卡马沙漠的发现。他博士期间在 Young Lee 实验室生长 Zn-Barlowite 与 Herbertsmithite 晶体——两种被认为是「量子自旋液体（QSL）」的候选材料，最近在 Nature Physics 发表论文，提供了迄今最强证据支持这一神秘磁性态的存在。由于这些晶体的低温性质，它们被视为未来大规模量子计算硬件的潜在材料。

不同寻常的是，Herbertsmithite 在自然界也能生成，按作者所述这是已知唯一具有体相量子性质的天然晶体（其姊妹相 Atacamite 等除外）。绝大多数量子凝聚态材料都需精确配比稀有元素合成，但这些晶体已在地壳中静静存在了数百万年。作者与智利大学人类学家 Vicente Carrasola Vega 合作，在 Sierra Gorda 附近废弃的 San Francisco 矿尾矿堆中发现了大量绿色六方晶体，并在智利北方天主教大学完成 X 射线衍射验证，确认主要为 Herbertsmithite 混合 Atacamite，估算保守 10 克以上。相比之下，实验室合成一次需约一周准备、9 个月生长、设备投入超 1 万美元、试剂约每次 100 美元、成功率约 45%、产量 1–2 克。野外作业的「设备」只是两把 15 美元的镐。

更关键的是，亚利桑那大学已故矿物学家 Michael Scott 用电子探针对该矿点样品的检测显示，天然 Herbertsmithite 在铜锌比（理想为 3:1）上比实验室最佳合成（约 3.15:?）更接近化学计量比，意味着磁性杂质更少。这对 QSL 研究的关键争议——杂质对低温磁性的扰动——具有直接意义。文章的第二部分则讨论这些晶体目前正在大规模铜矿开采中被破坏。

HN 讨论中，一位智利评论者借此说明智利科研经费仅占 GDP 约 0.4%、远低于 OECD 平均的 2.7%，并指出本国主要出口「含铜的石头」而非高附加值产品，行业层面缺乏将基础研究转化为应用的动力。多位评论者称赞文章配图都有清晰图注。也有人提醒作者过早公开矿点位置可能引来投机者，应先确保产权与样品控制。另有人注意到该作者还写过结合癫痫、致幻剂与意识体验的个人随笔；以及若干轻松的玩笑，例如把「量子晶体」联想到电子游戏物品、Flux Capacitor 或曲速引擎，以及拿 Turbo Encabulator 的梗调侃术语风格。也有评论从「奇异矿物沉积可能是远古文明技术痕迹」的角度做天马行空的联想。

15. Google 发布 Gemini Omni：全模态生成模型

原文: https://deepmind.google/models/gemini-omni/

HN: https://news.ycombinator.com/item?id=48196609

得分: 225

评论: 96

Google DeepMind 推出 Gemini Omni，定位为”从任意输入创造任意输出”的全模态生成模型，与 Gemini、Nano Banana（图像）、Gemini Audio、Veo（视频）、Imagen、Lyria（音乐）等并列在其模型矩阵中。官方页面强调跨模态创作能力，并提供 YouTube Shorts 入口尝试生成短视频。

HN 讨论的核心集中在生成质量和实际可用性两端。一位长期编写刚体仿真的开发者用”叠叠乐积木抽出一块导致塔倒塌”作为测试 prompt，发现 Gemini Omni 生成的视频中积木会突然消失或互相融合，即便经过两三轮强调”真实物理”的迭代仍不理想，他认为刚体接触本质上是不连续的，对学习类模型是难点。另有评论者指出，从细节看，模型存在微妙的空间错误和几何穿帮——物体离开视野再回来时形态会变化，说明 Google 在”深度空间理解”上仍未突破。他类比传统绘画训练应先掌握二维构图、透视、光影逐层递进，而当前模型像是”试图同时学习所有东西”，没有层级化的知识结构。

也有付费用户称已在 Seedance 2 上花了上千美元，Gemini Omni Flash 试用下来并未找到明显优势。另一些评论提到产品体验问题：页面自动播放大量视频导致浏览器崩溃，建议使用 IntersectionObserver 控制；尝试生成时直接被告知额度已用尽。

更宏观的讨论则集中在 AI 视频的社会意义。有人感叹”本来可以解决可控核聚变，却在生成太空里的鸟”，认为市场导向决定了资源去向。一位自称 AI 乐观派的评论者承认 AI 视频是唯一让他沮丧的方向：两年前会觉得惊艳的画面，现在第一反应是”是不是 AI 生成的”，并表示希望能有保证无 AI 内容的 TikTok。还有评论判断好莱坞将进入艰难时期，颠覆速度极快。也有人期待用户可以为电影生成”另一种结局”，让影评区变得更有趣。

16. Forge：通过 guardrails 让 8B 本地模型在 agent 任务中从 53% 提升到 99%

原文: https://github.com/antoinezambelli/forge

HN: https://news.ycombinator.com/item?id=48192383

得分: 192

评论: 66

Forge 是一个 Python 框架，专为自托管 LLM 的工具调用和多步 agent 工作流设计。作者通过在小模型外层加上一套可靠性层（guardrails），让一个 8B 的本地模型（Ministral-3 8B Instruct Q8 在 llama-server 上运行）在其 26 场景评测套件上达到 86.5% 的得分，在最难分级上达到 76%。核心思路包括：rescue parsing（对畸形工具调用进行救援解析）、retry nudges（针对失败给出纠正性提示）、step enforcement（强制执行必要步骤），以及 VRAM 感知的上下文预算管理与分层压缩。

Forge 提供三种使用方式：WorkflowRunner 直接定义工具并运行结构化 agent 循环；Guardrails 中间件嵌入到使用者自己的编排循环；OpenAI 兼容的代理服务器，可透明地为 opencode、Continue、aider 等客户端注入 guardrails。代理模式下还会自动注入一个合成的 respond 工具，强制模型始终保持在工具调用模式，避免小模型在”产生文本”和”调用工具”之间错误抉择。后端支持 Ollama、llama-server、Llamafile 和 Anthropic。

HN 评论印证了同类经验。一位日常并行使用 Claude Code、Codex、Gemini CLI 的开发者指出，前沿模型最常见的失败模式是把 grep/find 的 exit code 1（无匹配）误读为”工具失败”，进而放弃或用略微不同的语法重试，而非扩大搜索范围；retry-nudge 层正好对应他每小时手动纠正多次的操作，把这件事编码到框架层是正确方向。他也质疑这些 guardrails 在 50 步以上的长 horizon 任务上能否保持效果，毕竟那时上下文漂移会比重试语义更主导。

另一位评论者来自 statewright.ai，他们独立得出了相同结论：结构化 guardrails 是小模型可用的关键解锁点。他们的做法是三层叠加——解析救援、内容级干预（diff 大小拒绝、检查点强制）和状态机强制（每个阶段限制可用工具、转移守卫）。结果是 13B 模型在 SWE-bench 任务子集上从约 20% 提升到 100%，前沿模型则 API 调用次数下降。一个有趣的现象是 9B 模型在四次工具解析失败后，自行降级到更简单的工具完成任务——guardrails 并未让模型变聪明，只是不断收窄执行空间直到它找到可行路径。还有评论者通过数学专用 harness 在 gsm8k 上把 token 消耗降低 2 到 10 倍，认为未来属于懂得”按需匹配模型规模”的人。

17. kv4p HT：将 Android 手机变身为业余无线电收发器的开源硬件

原文: https://www.kv4p.com/

HN: https://news.ycombinator.com/item?id=48161772

得分: 160

评论: 68

kv4p HT 是一个开源硬件 + 软件项目，通过 USB-C 接口为 Android 手机加上 1 瓦 VHF 或 UHF 发射收发模块，借助手机屏幕、GPS 和电池充当现代化的业余无线电（ham radio）终端。硬件基于自制 PCB、SA818-V 或 SA818-U 无线模块、ESP32、SMA 天线，可购买套件或自行打样焊接，3D 打印外壳后用胶垫贴在手机背面。软件包括 Android App 和 ESP32 固件，全部 GPL3 协议开源。

特色包括完整的 APRS 支持（内置 1200 波特调制解调器，能发短信式文字消息和位置信标，而多数同类电台只支持信标）、无内置电池（直接吃手机电）、便捷易用（实时字幕、带触觉反馈的粘性 PTT、动画控制等无障碍设计）。使用需至少持有 Technician 级别业余无线电执照。

HN 讨论涉及多个角度。有评论者提到中国市场十多年来一直有自带 walkie-talkie 功能（约 400MHz）的山寨 Android 手机，曾尝试说服厂商开放软件栈未果，而本地黑客空间还以”违法”为由排斥相关讨论。也有人指出标题措辞不准确——手机本身就是收发器，这个项目准确说是把手机变成一个”收发器控制器”。

技术层面有人质疑 1 瓦发射功率偏低（廉价 Baofeng 可达 8 瓦），并询问在城市环境下使用更长天线能达到多远的通联距离。另有人希望支持 DMR，因为当地模拟通信已大幅衰退，而 DMR 中继器互联后活跃度更高。也有用户提出小建议，比如希望把原理图和 PCB 导出为 PDF，避免必须打开 KiCAD 才能查看。该项目此前在 2024 年 10 月已有过一次 HN 讨论。

18. 牛津研究：人类右利手优势可能源于双足行走的演化

原文: https://www.ox.ac.uk/news/2026-05-15-why-is-almost-everyone-right-handed-the-answer-may-lie-in-how-we-learned-to-walk

HN: https://news.ycombinator.com/item?id=48194098

得分: 73

评论: 123

牛津大学发布的一项研究试图回答”为什么绝大多数人是右利手”，并将答案指向人类学会双足行走的演化历程。文章引用的论文区分了”利手性”的两个独立特征：偏侧化强度（一个人对某只手的偏好程度）和方向（具体偏好哪一只）。研究发现，双足行走解释了偏侧化的强度，脑容量增大则解释了方向。Australopithecus（南方古猿）在右倾共识形成之前数百万年就已表现出强烈的偏侧化——是”坚定的利手者”，只是不一定偏向右。两个特征在演化时间上分开数百万年。

HN 讨论中最高赞的评论批评原文标题的因果表述。一位评论者认为”双足行走是手部专门化的原因”用词非常糟糕：手是几条腿走路其实无关紧要，无论 2、4、8 条腿，只要手不再用于移动，就会专门化。因果应当反过来——手因被用于投掷石块木棍、操控物体等用途而退出移动职能，并非因为行走解放了双手。另有评论指出文章并未真正解释为何最终是”右手”获胜，只是模糊提及选择压力。

不少评论分享个人经验：左利手家族猜测可能与早期由左利手照顾者提供精细动作示范有关；滑板”goofy-footed”（左脚在前）的偏好与利手是否相关；现代鼠标右手化是否会进一步加强右利手优势；以及对脚利、姿势侧别（拳击 orthodox 与 southpaw、足球左右脚）等相关研究的兴趣。也有人提到 20 年前在中国教英文时班上数千学生无一用左手写字，但所有人书写都很整齐，怀疑左利手被纠正过来——类比于其他社会”不存在”某类人群的现象。还有评论者讨论”混合利手”（不同任务用不同手）和”交叉优势”（手脚优势侧不同）是否真应被早年视作病理，分享了自己被告知”是一种心理疾病”的经历。

19. Polypad：浏览器中的数学操作教具游乐场

原文: https://polypad.amplify.com/

HN: https://news.ycombinator.com/item?id=48166744

得分: 203

评论: 23

Polypad 是 Amplify（前身为 Desmos 团队相关公司，收购自 Mathigon）提供的免费在线”数学游乐场”，集合了大量虚拟操作教具（virtual manipulatives）：分数条、3D 多面体、天平、函数机、骰子硬币转盘、数据科学、数字立方体、逻辑门等。无需登录或安装，跨设备跨浏览器运行，并可与任意课程结合。教师还能创建可分配的活动，实时查看学生作业。网站支持近 30 种语言并强调无障碍设计，目前正举办 2026 年艺术与音乐创作比赛。

HN 评论中讨论度最高的话题之一是技术实现。一位评论者指出 Polypad 本身不是开源的，但其底层数学和 UI 库由创作者以 Mathigon 组织名义开源。最有趣的是它的 UI 完全没有用主流前端框架，而是构建在一个小型库 boost.js 上，融合了 jQuery 风格的 DOM 包装与 Vue 风格的响应式、模板和 Web Components。评论者认为这种直接控制 DOM 的方式更适合高度互动的图形和可视化工具，希望它能更普及。

其他评论者分享了类似项目经验，包括为儿童构建浏览器版七巧板教学游戏，曾在拼图”完成检测”上反复折腾——因为可能有多种正确解法，最后用启发式规则（所有拼块必须相邻、不能重叠、必须覆盖目标轮廓且不能部分越界）实现，JavaScript 数字精度也曾让人头疼。

许多评论是直接的赞美：2 年级孩子最喜欢的学校 EdTech 产品；落地页本身就清晰展示了能力；不强制登录令人惊喜；每个组件都有问号触发的内置教程。也有教育圈人士指出 Amplify 团队对教学法的思考可在 Mathworlds 通讯上看到。批评意见集中在交互细节：滚轮缩放、中键/右键拖动等更符合习惯的画布导航操作缺失，以及一些用户遇到 403 错误打不开网站。Amplify CTO 也在评论区出现，推荐了过往艺术比赛的优秀作品链接，包括 12-15 岁组别用 Polypad 制作的《月光奏鸣曲》。

20. OpenAI 采用 Google SynthID 水印，并推出 AI 图像验证工具

原文: https://openai.com/index/advancing-content-provenance/

HN: https://news.ycombinator.com/item?id=48198291

得分: 138

评论: 65

OpenAI 宣布升级其内容溯源（content provenance）策略，采取多层、生态驱动的方案。三项核心更新：第一，正式成为 C2PA 合规生成器（Conforming Generator Product），让平台能可信地读取、保留并传递 OpenAI 内容附带的溯源元数据；第二，与 Google DeepMind 合作，将 SynthID 水印应用到 ChatGPT、Codex 和 OpenAI API 生成的图像上，在 C2PA 元数据基础上叠加一层不可见水印；第三，推出公开预览的验证工具 openai.com/verify，用户上传图像即可检测其中是否含有 OpenAI 的 Content Credentials 或 SynthID 信号。

OpenAI 的论点是：C2PA 元数据虽然能携带丰富上下文（创建过程、签名者等），但可被剥离或在上传下载、格式转换、缩放、截屏中丢失；SynthID 水印对这类变换更具韧性，但承载信息较少。两者互补可让溯源更持久。Sora 已有可见水印，Voice Engine 也已有音频水印。验证工具在无法检出信号时不会做出确定性结论，避免被误判为”非 AI 生成”。

HN 讨论高度怀疑这套机制的实际效力。最受关注的评论描述了一种规避方法的大致思路：若让模型在黑色背景上生成图像，肉眼即可看到 SynthID 留下的重复模糊纹理；该用户声称通过逐像素遮蔽 + AI 填充 + 深度图引导能去除水印（社区普遍认为只要愿意投入，水印迟早可被绕过）。也有评论反驳称至今没看到可复现的去除工具仓库。

另一类批评聚焦动机和实践合理性：作为创作者，没人愿意自己用工具产出的素材被强制嵌入”DRM 式”元数据；Photoshop 这类老牌工具凭什么豁免？还有评论质疑当社交平台开始封禁带水印的图像时，水印会”一夜之间被剥光”。也有人担心后续会演变为绑定订阅者身份和地理定位的追踪机制，最终只为政府服务。

更根本的质疑在于：恶意行为者完全可以使用不带 SynthID 的开源或自建模型生成内容；只要打印再扫描或翻拍，水印基本失效。对 Google 不开源 SynthID、仅限合作伙伴使用的做法也有不满，有评论称愿意开放自己的开源不可见水印实现。普遍共识是：单一方案不足以解决 AI 内容溯源问题，但当前措施究竟是有意义的基础设施，还是表演性合规，社区分歧明显。