HN 每日深度阅读 · 2026-05-20
本期主线指向前沿实验室的人才与产品节奏正同步加速:Karpathy 回归 Anthropic 折射出顶级研究者向 frontier lab 集中的引力,Simon Willison 则把 2025 年 11 月标记为编码代理真正可用的拐点;
共 20 篇 · 约 12,324 字 · 约 31 分钟读完
1. Karpathy 加入 Anthropic 预训练团队
- 原文: https://twitter.com/karpathy/status/2056753169888334312
- HN: https://news.ycombinator.com/item?id=48194352
- 得分: 1094
- 评论: 454
Andrej Karpathy 在 X 上宣布加入 Anthropic,称未来几年 LLM 前沿研究将极具塑造性,他希望重回 R&D 工作,同时表示仍对教育充满热情,计划在适当时候恢复相关工作。据 Axios 报道,他本周将加入 Anthropic 的预训练团队,该团队负责支撑 Claude 核心知识与能力的大规模训练。
Karpathy 曾任 OpenAI 创始团队成员、特斯拉自动驾驶负责人,其后创办了教育公司 Eureka Labs,并以高质量的神经网络与 LLM 教学视频在开发者社区中获得广泛影响力。他在近期一次访谈中已经提前透露过这一动向,表示担心自己脱离前沿实验室会逐渐与最新方法脱节,因此愿意加入有意接纳他的 frontier lab。
HN 讨论呈现出几条主线。一部分评论者关注他对教育的投入是否会被吞没:Anthropic 的 NDA 文化可能让他难以继续公开教学,Eureka Labs 也很可能因此搁置,“Software 2.0”、“vibe coding” 这些他贡献的概念在社区中被反复提及,许多人希望他不要完全停止内容输出。另一部分评论将这一事件解读为更宏观的行业信号:一位有能力独立创业的 AI 教育者最终选择回到 frontier lab,意味着应用层与垂直产品正持续被基础模型的迭代吞噬,依赖前沿模型构建上层的创业者需要重新审视护城河。
也有评论从行业整合角度表达忧虑,将 Anthropic 比作不断吸纳人才的”龙卷风”,担心顶尖人才向少数实验室高度集中。另有人将其职业轨迹类比 Jim Keller,是在不同顶尖机构间”采蜜”型的技术人物。整体上社区对个人选择表示理解和祝福,对教育内容流失则普遍感到惋惜。
2. Simon Willison 总结近半年 LLM 发展:November 拐点与编码代理成熟
- 原文: https://simonwillison.net/2026/May/19/5-minute-llms/
- HN: https://news.ycombinator.com/item?id=48188183
- 得分: 726
- 评论: 553
Simon Willison 在 PyCon US 2026 的五分钟闪电演讲中,用注释幻灯片回顾了过去六个月 LLM 领域的关键变化。他将 2025 年 11 月称为”拐点”:在这一个月内,业界公认的”最佳模型”在 Anthropic、OpenAI、Google 之间易手五次,先后经历 Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5。他继续用”画一只骑自行车的鹈鹕”作为非正式评测,认为 Gemini 3 在这组中表现最佳,但 Opus 4.5 在随后几个月整体最强。
他认为真正的大事是编码代理在 11 月跨越了可用性门槛:OpenAI 与 Anthropic 一整年的 RLVR(基于可验证奖励的强化学习)训练成果与 Codex、Claude Code 的 harness 结合,使代理从”经常能用”变成”基本能用”,可作为日常工具完成实际工作。文章随后讲述了 12 月到 1 月间,他本人也陷入短暂的”LLM 狂热”,做了诸如把 JavaScript 跑在 Python 跑在 Pyodide 跑在 WebAssembly 跑在浏览器 JavaScript 中的项目,事后大多悄悄退役。2 月份一个名为 OpenClaw 的”个人 AI 助手”项目突然走红,演讲将其作为该季度的代表事件。
HN 评论分歧明显。多名开发者质疑”拐点”主要是营销叙事,亲身使用 GPT-5.5、Codex 等做 vibe coding 时仍觉得离生产可用差距很大;有人指出鹈鹕骑车测试本是微软早期 GPT-4 报告中的趣闻,如今被滥用为伪科学指标。也有理性分析认为模型本身在 11 月并未跃迁,真正变化的是 harness 的稳定性,加上 RLVR 训练专门优化模型在 harness 内的行为,二者结合产生了复合效应——这也解释了为什么只做”提问粘代码”的用户感受不到剧变,而跑 20 步 agent 循环的用户感到质变。还有评论提到从安全研究视角看,今年春天才是更明显的拐点。
3. Google 发布 Gemini 3.5 Flash:性能提升伴随三倍价格上涨
Google 在 I/O 2026 上发布 Gemini 3.5 系列,首先推出 3.5 Flash,定位为兼顾前沿智能与执行能力的代理模型。官方称其在 Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)、MCP Atlas(83.6%)、CharXiv Reasoning(84.2%)等基准上超过 Gemini 3.1 Pro,输出速度比其他 frontier 模型快约 4 倍。3.5 Flash 已成为 Gemini app 与 Search AI Mode 的默认模型,并通过 Antigravity、AI Studio、Android Studio、Gemini Enterprise 等渠道开放;3.5 Pro 预计下月推出。
新模型针对长 horizon 的代理任务,结合 Antigravity 可调度并行子代理,应用案例包括 Shopify 用其做商家增长预测、银行与金融科技公司自动化多周工作流。Google 同时上线”Gemini Spark”个人 AI 代理,向 AI Ultra 订阅者灰度开放。
HN 讨论几乎完全被定价话题主导。3.5 Flash 输入/输出为 $1.50/$9.00,相较 2.5 Flash 的 $0.30/$2.50 与 3.0 Flash preview 的 $0.50/$3.00,在同档定位下出现罕见的 3 倍价格上涨,已接近 Gemini 2.5 Pro 当时的定价。许多开发者表示这打破了他们原本”Gemini 做快速迭代、Sonnet 做正确性关键任务”的多模型工作流;对 token 输出密集的代理流程冲击尤为明显,预计会推动用户转向 DeepSeek 与 Qwen 等中国开源模型。也有人注意到 Google 罕见地把这一版本直接标为 stable 而非 preview,认为这意味着新定价是长期基线,而非促销策略,可能反映整个行业正在悄悄重置廉价推理的底价。其他反馈包括:知识截止日期仍停留在 2025 年 1 月、AI Pro 套餐用两个 prompt 即耗尽 Antigravity 配额、生成一张鹈鹕图需约 13 美分等。鹈鹕骑车测试结果被认为质量尚可但自行车结构错误较多。
4. Google 改造搜索框:25 年来最大改版引入 AI 代理
Google 宣布对搜索框做出”25 年来最大升级”,将 Gemini 3.5 Flash 作为 AI Mode 的默认模型,全球推广。新的”智能搜索框”动态扩展,支持文本、图像、文件、视频与 Chrome 标签页作为输入,并以 AI 推荐替代传统自动完成。AI Overview 现可直接转入与 AI Mode 的多轮对话。
Google 同时推出”搜索代理”:第一类是 24/7 后台运行的信息代理,可持续监测租房、球鞋发售等用户关注的话题;第二类是扩展后的预订代理,可帮助寻找特定条件的本地服务,对家修、美容、宠物护理等品类还可代为电话联系商家。借助 Antigravity 与 3.5 Flash 的编码能力,搜索可即时生成定制化 UI——交互式可视化、图表、模拟器,甚至搭建可持续使用的”迷你应用”(如健身追踪器、婚礼筹备面板)。AI Mode 中的 Personal Intelligence 也扩展到近 200 个国家、98 种语言。
HN 讨论几乎一边倒地表达担忧。多位评论者引用 Nilay Patel 提出的”Google Zero”——Google 不再向外部网站导流的临界点——认为这次改版是该趋势的最终落地。有人指出 AI Mode 把随机网页评论以”系统性综述”的口吻聚合呈现,会让用户误把零散意见当作 ground truth。多名用户表示自己 Google 搜索使用量已下降一半以上,但 Google 在搜索中嵌入 AI 的方式不如直接用 LLM 工作流自然,且广告偏见在对话式界面中比传统链接更难察觉、暗黑模式更易实施。也有人怀念早期”Google it”作为权威信息源的角色,担心马斯化的 AI 答案将偏见结构性地引入大众认知。还有评论认为这是 Google 不得不做的防御——多年 SEO 已污染传统搜索结果,强行将用户推入对话式界面既是商业必然,也是搜索范式终结的标志。
5. Apple 借无障碍功能首次落地 Apple Intelligence 代理能力
Apple 公布一批新无障碍功能,多项由 Apple Intelligence 驱动。这些更新涵盖 VoiceOver 增强、视觉描述、文本检测、票据识别(如识别水电账单金额)、改进的语音控制、为运动障碍用户提供的电动轮椅光学控制等。Apple 强调这些能力运行在端侧,并与 Be My Eyes 等社区生态相互补充。
HN 上一条高赞分析指出,Apple 一向喜欢以”低调场景”作为新技术的隐形发布渠道:当年 Touch Bar 实质上是引入 T1 芯片承担安全飞地与系统功能、铺垫 Apple Silicon 转型的载体;这次将代理式 AI 通过无障碍功能首发,沿袭了同一套打法。
社区反馈两极。许多用户称赞 Apple 长期对无障碍的投入是行业标杆,赞同把 LLM 用于真正帮助人,而非仅仅替代或压榨人力。一名视障开发者则给出冷静评价:Seeing AI、Envision AI、Be My Eyes、Aira 等第三方应用早已覆盖大部分功能,Apple 的优势可能仅在于本地化、速度更快但准确性待观察;同时 macOS 的 VoiceOver 多年处于维护模式,与 Windows 上 JAWS、NVDA 差距明显,让人怀疑此次发布有几分作秀成分。另一类高频抱怨集中在 iPhone 的语音转文字与文本纠错——多位用户认为 Apple 的 STT 至少落后行业半年到十年,输入体验持续退化,掌纹拒识与自动纠错反而比以前更糟。也有用户建议 Apple 应推出 HUD 形态的轻量级 AR 眼镜来承载这些光学控制能力。
6. Mini Shai-Hulud 再袭 npm:317 个包被注入凭据窃取蠕虫
SafeDep 披露 2026 年 5 月 19 日 npm 账号 atool(i@hust.cc)遭入侵,攻击者在 22 分钟内自动发布了 317 个包的 637 个恶意版本。受影响包包括月下载量 420 万的 size-sensor、380 万的 echarts-for-react、220 万的 @antv/scale、115 万的 timeago.js,以及数百个 @antv scope 包,由于多数项目使用 semver 范围,恶意版本会被自动解析。
恶意载荷是一个 498KB 经过混淆的 Bun 脚本,与三周前 SAP 供应链事件中使用的 Mini Shai-Hulud 工具集架构、正则、混淆模式一致。其影响层面包括:全链路凭据收集(AWS 完整链路含 EC2/ECS 元数据、Secrets Manager、Kubernetes service account、HashiCorp Vault、GitHub PAT、npm token、SSH key、1Password/Bitwarden/pass/gopass 本地保险库);双通道外泄(GitHub 公开仓库提交 + 伪装成 OpenTelemetry trace 的 HTTPS POST);CI 中通过 GitHub Actions OIDC 交换 npm 发布 token、利用 Sigstore 伪造合法签名;通过 .github/workflows/codeql.yml 持久化、通过 Claude Code 与 Codex 的 SessionStart hook、VS Code tasks.json 的 folderOpen 触发 AI 工具链劫持;通过 systemd / LaunchAgent 部署名为 kitty-monitor 的 C2 后门,使用 GitHub commit search API 拉取 RSA-PSS 签名指令;并尝试 Docker socket 容器逃逸与本地其他 Node 项目横向感染。攻击还利用 antvis/G2 仓库的 orphan imposter commit 加 optionalDependencies 提供冗余传播路径,即使 preinstall 被禁用也能命中。文章列出了完整 IoC 与受影响包清单。
HN 讨论几乎一致呼吁 npm 默认禁用生命周期脚本,认为这是几乎所有大规模 npm 蠕虫的共同入口。许多开发者主张冻结依赖、关闭 Dependabot,转向显式审计;也有人将 npm 与其他包管理器对比,质疑为何这种事件只在 npm 反复发生。zed 编辑器对 LSP 自动安装 npm 包的隐式信任引发不安。多名评论者表示已将 node/python 隔离到 devcontainer 或 VM,但有人提醒该 payload 已经主动尝试通过 Docker socket 逃逸,rootless 引擎(如 podman)更为稳妥。还有人提出 TC39 应补强 JS 标准库以减少一行包数量,长期看需要改变高频小版本快速发布的生态文化。已有项目如 aube 引入”jailed builds”等沙盒机制,但被认为终究是猫鼠游戏。
7. OpenBSD 7.9 发布:第 60 个版本,新增异构核心调度与延迟休眠
- 原文: https://www.openbsd.org/79.html
- HN: https://news.ycombinator.com/item?id=48192882
- 得分: 360
- 评论: 263
OpenBSD 7.9 于 2026 年 5 月 19 日发布,是该项目第 60 个版本。除常规的 drm 更新至 Linux 6.18.22、平台驱动改进外,本次有几项较具系统设计意味的变化。
调度器层面引入异构核心管理机制:新增 sysctl 变量 hw.blockcpu,以 S/P/E/L 四种字符标识 SMT、性能核、能效核(约为性能核的 50–80%)、低速核,默认禁用 S 与 L,目前在 amd64 与 arm64 可用。内核互斥锁中 cas 自旋锁被替换为 parking lock。SMP 解锁继续推进,包括 socket splicing、icmp6_sysctl、IGMP 慢定时器,并在 amd64/arm64 上启用并行 page fault。amd64 的 MAXCPUs 提升到 255,Zen/Zen+ 上的浮点状态泄露问题得到缓解,512GB 以上内存的 DM PTE/PDE 清零 bug 得到修复。
挂起/休眠方面新增”延迟休眠”:通过 machdep.hibernatedelay 设定睡眠后等待秒数,系统会自动唤醒并执行真正的休眠,避免长期 suspend 耗尽电池。riscv64 新增 SpacemiT K1 SoC 支持;arm64 适配了 RK3588/RK3576 与部分 Apple Silicon 笔记本的 SDHC 控制器。VMM 端则使 OpenBSD 可在 Apple Virtualization 上运行、新增 vmboot 让 vmd VM 也能使用 sysupgrade、扩展对 AMD SEV 等机密计算的支持。Ports 上一个值得注意的变化是移除了 Exim,迁移路径推荐 OpenSMTPD。
HN 评论欣赏其安全文化与艺术风格——发行海报由 Lyra Henderson 绘制,发行曲目”Diamond in the Rough”由 Bob Kitella 制作。讨论焦点之一是异构核心策略:OpenBSD 选择直接禁用慢核,被评价为”散弹枪式”做法,社区对 big.LITTLE 在通用 OS 中是否值得仍存疑,尤其考虑到不同核心 ISA 特性(如 AVX512)差异带来的调度难题。也有评论关注”parking lock”具体实现细节、Bluetooth 与 Wi-Fi 6 实验性支持的推进、以及在大量 Linux 供应链与漏洞事件背景下迁移到 OpenBSD 的吸引力。多名长期用户分享了从 Ubuntu/Debian 迁移、或通过 openbsd.amsterdam 托管个人服务的经验。
8. 用 90 个视角拍出来的草莓高斯泼溅模型
- 原文: https://superspl.at/scene/84df8849
- HN: https://news.ycombinator.com/item?id=48191602
- 得分: 454
- 评论: 180
作者 danylyon 在 SuperSplat 平台发布了一颗草莓的高斯泼溅(Gaussian Splatting)三维场景,引发 HN 高度关注。素材采集使用 Nikon Z8 全画幅相机、Laowa 180mm 微距镜头,配合 LED 灯和蓝幕,从 90 个不同角度拍摄,每个角度通过 88 张图像做焦点堆叠以保证全景深锐利;训练过程在 slang-splat(一个基于 Slang 着色器语言的 splat 训练实现)中完成。最终模型包含约 4.5 万个高斯,体积约 23MB,以 CC BY 协议发布,COLMAP 原始数据集可在作者 Patreon 获取。
承载平台 SuperSplat 来自 PlayCanvas 团队,原本是为 WebGL 游戏引擎服务的工具栈,作者本人在评论中感慨「2011 年做 PlayCanvas 是为了驱动游戏,2026 年它在驱动草莓」。
HN 讨论几条主线:一是对高斯泼溅可视效果的赞叹,许多评论提到其退化方式很「梦幻」——距离过近时不会像传统 LoD 那样出现硬边或多边形塌陷,而是逐渐变得朦胧,「仿佛现实本身在解构」。有人贴出更大场景案例如热带花园、植物园 VR 场景。二是技术延伸:有评论介绍 Apple 开源的 ml-sharp 模型,可在 M1 Pro 上约 30 秒从单张图生成 splat,但 2.6GB 权重不利于浏览器端运行;也有人讨论动态光照、动画 splat、4D 体视频(如 4dv.ai)以及把演唱会拍成可任意视角观看的应用前景。三是细节质疑:有评论指出草莓「籽」周围的红色区域看上去被推向中心,外层略带透明、能看到下层结构,可能是 splat 表示在透明 / 半透明表面上仍有局限。还有人就 CC BY 与「鼓励但不要求署名」之间的法律矛盾提出讨论,认为如要放弃署名要求应改用 CC0。
9. 一个虚拟操作系统博物馆:1700+ 个安装、覆盖 1948 至今
- 原文: https://virtualosmuseum.org/
- HN: https://news.ycombinator.com/item?id=48195009
- 得分: 520
- 评论: 112
作者将几乎所有能跑起来的历史操作系统打包进一个 Linux 虚拟机,发布为 Virtual OS Museum。该镜像可在 QEMU、VirtualBox 或 UTM 中运行,附带一个独立于具体 hypervisor 的启动器,预装并预配置了全部模拟器与 OS,并提供快照功能以便从损坏的安装中快速恢复。Windows、macOS、Linux 平台均提供安装脚本与快捷方式。
收录范围按官方数据为 1700 多个安装、250 多个平台、570 多个不同 OS,时间跨度从 1948 年的 Manchester Baby 到今天。覆盖类别包括:早期大型机(CTSS、MVS、VM/370、TOPS-10/20、ITS、Multics、RSX、RSTS);工作站与 Unix 变体(PERQ、SunOS、IRIX、OSF/1、A/UX、NeXTSTEP、Plan 9、各种 BSD 及历代 Linux 发行版);家用电脑(CP/M、Apple II、Commodore、Atari、MSX、TRS-80、BBC Micro、ZX Spectrum 等);个人电脑 OS(各种 DOS、OS/2、BeOS、Windows 1.0 到早期 Longhorn beta、Classic Mac OS 至 Mac OS X 10.5 PPC);移动嵌入式(PalmOS、EPOC/Symbian、Windows CE、Newton OS、早期 Android/iOS、QNX);以及 ZetaLisp、Smalltalk、Oberon 等研究性系统。项目分 full 与 lite 两个版本,后者按需下载镜像,并支持增量更新。
HN 讨论里,多位评论者称这项工作量「Herculean」,一位做过 13 个浏览器内复古 OS 的开发者表示难以想象做到 1700+ 的工作量。也有人提出遗珠:缺失 TempleOS(多条评论)、Pick OS、Packard Bell Navigator 等。一位前 Apollo Domain/OS 用户指出,截图选用了 SR10.4 的 VUE 桌面,但 VUE 实际属于 HP-UX 时代,可能让人误以为是 DomainOS 本身的代表界面,而早期 DomainOS 的「pad」式终端、键盘硬件设计等独特之处更值得展示。还有人请求在网站上直接列出收录 OS 清单,避免必须下载才能查看;并将其与 aresluna.org 的「Frame of Preference」(Mac OS 浏览器内模拟器合集)作对比。
10. 德州排水区在沟渠中发现特斯拉锂精炼厂未公开排污口
2026 年 1 月,德州 Nueces 县 2 号排水区工作人员在 Robstown 城外巡查沟渠时,发现了一根此前不知情的管道,从中排出「非常深、近乎黑色」的液体。该管道属于特斯拉耗资近 10 亿美元、2024 年 12 月投产的锂精炼厂——北美首个商业规模辉石锂矿到氢氧化锂的精炼厂。特斯拉曾多年宣传该厂采用「无酸清洁工艺」,副产物以砂石和石灰石为主。
德州环境质量委员会(TCEQ)2025 年 1 月 15 日向特斯拉发放了 TPDES 废水排放许可,允许每日向一条无名沟渠排放最多 23.1 万加仑处理后废水,最终经 Petronila Creek 流入 Baffin Bay 海钓胜地;但许可并未授权使用公共或私人土地作为输送通道,且排水区从未被告知该许可存在。2 月 TCEQ 调查仅检测了常规污染物(溶解固体、氯化物、硫酸盐、油脂、温度、溶解氧),均在许可范围内,未检测重金属,也未检测主要原料锂本身,3 月结案定为无违规。
排水区随后委托独立实验室 Eurofins 在排污口下游放置 24 小时采样器。4 月 10 日报告显示:六价铬 0.0104 mg/L,刚高于检测下限,与加州饮用水标准接近;砷 0.0025 mg/L,低于联邦饮用水标准 0.01 mg/L;锶 1.17 mg/L;锂、钒浓度异常偏高;锰、铁、磷、钙、镁、钾水平符合工业排放特征;氨氮 1.68 mg/L。六价铬和砷均不在特斯拉许可允许排放的污染物清单中。咨询工程师 Mazloum 将锂、锶、钒的组合称为「指向电池工艺设施的化学指纹」,并指出高盐分正在杀死沟渠护壁草皮、降低排洪能力。特斯拉则回应称完全合规,并质疑采样位置应在排放口而非下游沟渠。
HN 评论分歧明显。一派认为浓度数值并不夸张,六价铬仅微高于加州饮用水标准、砷低于联邦标准,文章带有引导性;另一派则强调真正的法律焦点不是污染本身,而是擅自使用县属沟渠输送废水,并指出许可中本就未涵盖六价铬与砷,TCEQ 未主动检测重金属、不测锂本身是监管失职。多人提到 DOGE 削减 EPA 与 CISA 等监管机构的背景,认为基层人员发现问题、而非例行检查发现问题,本身已是信号。也有人对发言人「在许可允许范围内合规」的措辞表示反感,认为这是用合规话术回避「排放了许可之外的物质」这一核心争议。
11. CISA 承包商在公开 GitHub 仓库中泄露 GovCloud 凭据
Krebs on Security 报道,美国网络安全与基础设施安全局(CISA)一名承包商长期在 GitHub 上维护一个名为「Private-CISA」的公开仓库,内含大量内部 CISA/DHS 凭据与文件,包括云服务密钥、令牌、明文密码、日志等。该泄露由 GitGuardian 研究员 Guillaume Valadon 发现并上报,他描述「这是我职业生涯中见过最严重的一次泄露」。提交日志显示,仓库所有者主动关闭了 GitHub 默认的 secret 推送拦截。
文件中包含一个名为 importantAWStokens 的文件,含 3 个 AWS GovCloud 服务器的管理员凭据;另一个 AWS-Workspace-Firefox-Passwords.csv 列出了数十个内部 CISA 系统的明文用户名密码,涉及代号「LZ-DSO」的 Landing Zone DevSecOps 安全开发环境。Seralys 咨询公司创始人 Philippe Caturegli 验证了这些凭据可在高权限下登录三个 GovCloud 账户,并指出仓库还暴露了 CISA 内部 artifactory(软件构建包仓库)的明文凭据——若被恶意利用可在构建产物中植入后门,实现横向移动与持久驻留。许多密码采用「平台名+年份」这类极易猜测的模式。
仓库创建于 2025 年 11 月,所属 GitHub 账号已注册多年。CISA 与 Krebs 通报后账号下线,但暴露的 AWS 密钥又继续有效约 48 小时。仓库由 Dulles 政府承包商 Nightwing 一名员工维护,公司不予置评、转介至 CISA。CISA 表示「目前没有迹象表明任何敏感数据被泄」并将加强防护。报道指出 CISA 在第二届特朗普政府期间已流失近三分之一员工。
HN 讨论关注几点:一是被通报后竟未及时响应这一情节本身的离谱;二是 2026 年仍以 passwords.csv 形式存储密码、未启用密码管理器,被普遍认为是不可原谅的低级失误,多人调侃「CISA 自己也得请一个 CISA」;三是有人推测攻击者可能批量扫描包含「private」「internal」字样且属于政府机构的仓库;四是延伸讨论将敏感 .env 文件交给 LLM 上下文带来的二次泄露风险,呼吁组织审计磁盘上和日志中的密钥,全面迁移至 SOPS、Vault 等机密管理方案;五是有评论指出联邦政府其实早有 CAC 智能卡身份认证,但只要互联网栈仍以密码为主,政府系统也只能跟着用密码。
12. Nate Silver:迪士尼把 FiveThirtyEight 抹掉了
Nate Silver 在 Silver Bulletin 撰文记录了 FiveThirtyEight 网站被彻底删除一事。他在为新世界杯模型查找自己 2014 年一篇旧文时,发现 fivethirtyeight.com 上所有文章已被自动重定向至 ABC News 首页。次日有前同事确认这一变化。ABC News 未公开说明,也未回应纽约时报问询。Silver 在 2023 年离开,迪士尼于 2025 年关闭该站,2026 年 5 月则进一步删除全部历史文章。
Silver 估算迪士尼时代 FiveThirtyEight 约 10 年间每周发布约 20 篇文章,每篇研究、写作、可视化、编辑合计约 20 小时,相当于 ABC News 一次性抹除了约 20 万人时的工作成果。他援引 Pew 与 ahrefs 关于「链接腐烂」的研究:10 年前的网页链接约有 40% 已失效,11 年后失效率达三分之二。Internet Archive 上仍可访问部分迪士尼时代内容,纽约时报合作时期(2010–2013)的文章则在 NYT 归档中保留。Silver 同时透露团队正在 Silver Bulletin 重建部分原有项目,包括选举模型、民调平均、足球(PELE)、NFL(ELWAY)、NCAA 篮球(COOPER)等。
文章核心观点之一是:FiveThirtyEight 本可以是一桩有价值的订阅生意。资深员工曾恳请迪士尼上线付费墙,对方以「不值得投入精力研究付费墙机制」为由拒绝;纽约时报内部曾视其为有价值的订阅资产;多家擅长订阅业务的买家曾试图收购。Silver 认为迪士尼花了不少钱却从未真正投入运营。他将此文定位为一份「商学院案例」:一家大公司对收购来的小品牌长期疏忽。
HN 讨论几条线:一是「领导层换届」效应——B2B 销售老兵指出新高管常为彰显方向把前任的项目一并砍掉,无论是否成功;二是对 Silver 本人的反弹,多位评论者表示对「把公司卖给巨头再抱怨被毁掉」的故事失去耐心,也有人提到 2016 大选时其预测让自己对 538 失去信任;三是更宽泛的「企业天气论」——大公司的行为更像随机波动而非理性决策,FiveThirtyEight 在迪士尼内部像被随意传递的小玩意;四是不少评论提到这种「执行官阶层」从未真正运营过业务、只在 PPT 之间跳来跳去;五是有人困惑于决策链条上一定存在某个人,对「删除十多年的网络内容」毫无负面感受,这背后的价值观令人不解。
13. 明尼苏达成为美国首个立法禁止预测市场的州
NPR 报道,明尼苏达通过法律,把 Kalshi、Polymarket 等预测市场平台的运营列为重罪,成为美国首个以立法形式直接禁止预测市场的州。此前已有数十个州对该行业采取过法律行动,但均未上升到刑事禁令层面。值得注意的是,预测市场在联邦层面由 CFTC 作为商品期货合约监管,州法是否能在联邦先占(preemption)挑战下站住脚是关键问题。法案中还包含禁止为绕过该禁令提供支持的服务,明确点名 VPN 等可用于伪装地理位置的工具。
HN 讨论几条主线。第一,明尼苏达本身全面禁止体育博彩,使其禁止预测市场的论证相对一致;评论者普遍认为,若一个州允许体育博彩、却要禁止预测市场,将很难自圆其说,因为本质上只是实现细节不同——传统体彩同样允许人们押注大学篮球球员数据、少年棒球世界系列赛等。第二,关于预测市场的社会价值,多名评论者认为多数市场要么聚焦无关紧要的体育赛事、要么存在内幕交易嫌疑、要么解算条件写得含糊不清,所谓「信息聚合优势」在实践中很少兑现,整体上更接近博彩衍生品。第三,法律可执行性遭到质疑,有人认为这只会把活动驱赶到地下,加剧风险;也有人调侃可在预测市场上押注该禁令本身能维持多久。第四,CFTC 监管下的州法挑战路径,按惯例更可能由用户而非联邦机构提起,但本案中联邦机构反而主动「护盘」属罕见现象。最后,多名评论者对「禁止 VPN」表述表示震惊,认为这一条款远超博彩监管的合理范围,可能引发更大的合宪性争议。也有人提出股市本身是否也是一种预测市场的老问题。
14. 在阿塔卡马沙漠废弃矿场中找到超纯量子自旋液体候选晶体
斯坦福博士 Aaron Breidenbach 在 Medium 撰文介绍其在智利阿塔卡马沙漠的发现。他博士期间在 Young Lee 实验室生长 Zn-Barlowite 与 Herbertsmithite 晶体——两种被认为是「量子自旋液体(QSL)」的候选材料,最近在 Nature Physics 发表论文,提供了迄今最强证据支持这一神秘磁性态的存在。由于这些晶体的低温性质,它们被视为未来大规模量子计算硬件的潜在材料。
不同寻常的是,Herbertsmithite 在自然界也能生成,按作者所述这是已知唯一具有体相量子性质的天然晶体(其姊妹相 Atacamite 等除外)。绝大多数量子凝聚态材料都需精确配比稀有元素合成,但这些晶体已在地壳中静静存在了数百万年。作者与智利大学人类学家 Vicente Carrasola Vega 合作,在 Sierra Gorda 附近废弃的 San Francisco 矿尾矿堆中发现了大量绿色六方晶体,并在智利北方天主教大学完成 X 射线衍射验证,确认主要为 Herbertsmithite 混合 Atacamite,估算保守 10 克以上。相比之下,实验室合成一次需约一周准备、9 个月生长、设备投入超 1 万美元、试剂约每次 100 美元、成功率约 45%、产量 1–2 克。野外作业的「设备」只是两把 15 美元的镐。
更关键的是,亚利桑那大学已故矿物学家 Michael Scott 用电子探针对该矿点样品的检测显示,天然 Herbertsmithite 在铜锌比(理想为 3:1)上比实验室最佳合成(约 3.15:?)更接近化学计量比,意味着磁性杂质更少。这对 QSL 研究的关键争议——杂质对低温磁性的扰动——具有直接意义。文章的第二部分则讨论这些晶体目前正在大规模铜矿开采中被破坏。
HN 讨论中,一位智利评论者借此说明智利科研经费仅占 GDP 约 0.4%、远低于 OECD 平均的 2.7%,并指出本国主要出口「含铜的石头」而非高附加值产品,行业层面缺乏将基础研究转化为应用的动力。多位评论者称赞文章配图都有清晰图注。也有人提醒作者过早公开矿点位置可能引来投机者,应先确保产权与样品控制。另有人注意到该作者还写过结合癫痫、致幻剂与意识体验的个人随笔;以及若干轻松的玩笑,例如把「量子晶体」联想到电子游戏物品、Flux Capacitor 或曲速引擎,以及拿 Turbo Encabulator 的梗调侃术语风格。也有评论从「奇异矿物沉积可能是远古文明技术痕迹」的角度做天马行空的联想。
15. Google 发布 Gemini Omni:全模态生成模型
- 原文: https://deepmind.google/models/gemini-omni/
- HN: https://news.ycombinator.com/item?id=48196609
- 得分: 225
- 评论: 96
Google DeepMind 推出 Gemini Omni,定位为”从任意输入创造任意输出”的全模态生成模型,与 Gemini、Nano Banana(图像)、Gemini Audio、Veo(视频)、Imagen、Lyria(音乐)等并列在其模型矩阵中。官方页面强调跨模态创作能力,并提供 YouTube Shorts 入口尝试生成短视频。
HN 讨论的核心集中在生成质量和实际可用性两端。一位长期编写刚体仿真的开发者用”叠叠乐积木抽出一块导致塔倒塌”作为测试 prompt,发现 Gemini Omni 生成的视频中积木会突然消失或互相融合,即便经过两三轮强调”真实物理”的迭代仍不理想,他认为刚体接触本质上是不连续的,对学习类模型是难点。另有评论者指出,从细节看,模型存在微妙的空间错误和几何穿帮——物体离开视野再回来时形态会变化,说明 Google 在”深度空间理解”上仍未突破。他类比传统绘画训练应先掌握二维构图、透视、光影逐层递进,而当前模型像是”试图同时学习所有东西”,没有层级化的知识结构。
也有付费用户称已在 Seedance 2 上花了上千美元,Gemini Omni Flash 试用下来并未找到明显优势。另一些评论提到产品体验问题:页面自动播放大量视频导致浏览器崩溃,建议使用 IntersectionObserver 控制;尝试生成时直接被告知额度已用尽。
更宏观的讨论则集中在 AI 视频的社会意义。有人感叹”本来可以解决可控核聚变,却在生成太空里的鸟”,认为市场导向决定了资源去向。一位自称 AI 乐观派的评论者承认 AI 视频是唯一让他沮丧的方向:两年前会觉得惊艳的画面,现在第一反应是”是不是 AI 生成的”,并表示希望能有保证无 AI 内容的 TikTok。还有评论判断好莱坞将进入艰难时期,颠覆速度极快。也有人期待用户可以为电影生成”另一种结局”,让影评区变得更有趣。
16. Forge:通过 guardrails 让 8B 本地模型在 agent 任务中从 53% 提升到 99%
- 原文: https://github.com/antoinezambelli/forge
- HN: https://news.ycombinator.com/item?id=48192383
- 得分: 192
- 评论: 66
Forge 是一个 Python 框架,专为自托管 LLM 的工具调用和多步 agent 工作流设计。作者通过在小模型外层加上一套可靠性层(guardrails),让一个 8B 的本地模型(Ministral-3 8B Instruct Q8 在 llama-server 上运行)在其 26 场景评测套件上达到 86.5% 的得分,在最难分级上达到 76%。核心思路包括:rescue parsing(对畸形工具调用进行救援解析)、retry nudges(针对失败给出纠正性提示)、step enforcement(强制执行必要步骤),以及 VRAM 感知的上下文预算管理与分层压缩。
Forge 提供三种使用方式:WorkflowRunner 直接定义工具并运行结构化 agent 循环;Guardrails 中间件嵌入到使用者自己的编排循环;OpenAI 兼容的代理服务器,可透明地为 opencode、Continue、aider 等客户端注入 guardrails。代理模式下还会自动注入一个合成的 respond 工具,强制模型始终保持在工具调用模式,避免小模型在”产生文本”和”调用工具”之间错误抉择。后端支持 Ollama、llama-server、Llamafile 和 Anthropic。
HN 评论印证了同类经验。一位日常并行使用 Claude Code、Codex、Gemini CLI 的开发者指出,前沿模型最常见的失败模式是把 grep/find 的 exit code 1(无匹配)误读为”工具失败”,进而放弃或用略微不同的语法重试,而非扩大搜索范围;retry-nudge 层正好对应他每小时手动纠正多次的操作,把这件事编码到框架层是正确方向。他也质疑这些 guardrails 在 50 步以上的长 horizon 任务上能否保持效果,毕竟那时上下文漂移会比重试语义更主导。
另一位评论者来自 statewright.ai,他们独立得出了相同结论:结构化 guardrails 是小模型可用的关键解锁点。他们的做法是三层叠加——解析救援、内容级干预(diff 大小拒绝、检查点强制)和状态机强制(每个阶段限制可用工具、转移守卫)。结果是 13B 模型在 SWE-bench 任务子集上从约 20% 提升到 100%,前沿模型则 API 调用次数下降。一个有趣的现象是 9B 模型在四次工具解析失败后,自行降级到更简单的工具完成任务——guardrails 并未让模型变聪明,只是不断收窄执行空间直到它找到可行路径。还有评论者通过数学专用 harness 在 gsm8k 上把 token 消耗降低 2 到 10 倍,认为未来属于懂得”按需匹配模型规模”的人。
17. kv4p HT:将 Android 手机变身为业余无线电收发器的开源硬件
- 原文: https://www.kv4p.com/
- HN: https://news.ycombinator.com/item?id=48161772
- 得分: 160
- 评论: 68
kv4p HT 是一个开源硬件 + 软件项目,通过 USB-C 接口为 Android 手机加上 1 瓦 VHF 或 UHF 发射收发模块,借助手机屏幕、GPS 和电池充当现代化的业余无线电(ham radio)终端。硬件基于自制 PCB、SA818-V 或 SA818-U 无线模块、ESP32、SMA 天线,可购买套件或自行打样焊接,3D 打印外壳后用胶垫贴在手机背面。软件包括 Android App 和 ESP32 固件,全部 GPL3 协议开源。
特色包括完整的 APRS 支持(内置 1200 波特调制解调器,能发短信式文字消息和位置信标,而多数同类电台只支持信标)、无内置电池(直接吃手机电)、便捷易用(实时字幕、带触觉反馈的粘性 PTT、动画控制等无障碍设计)。使用需至少持有 Technician 级别业余无线电执照。
HN 讨论涉及多个角度。有评论者提到中国市场十多年来一直有自带 walkie-talkie 功能(约 400MHz)的山寨 Android 手机,曾尝试说服厂商开放软件栈未果,而本地黑客空间还以”违法”为由排斥相关讨论。也有人指出标题措辞不准确——手机本身就是收发器,这个项目准确说是把手机变成一个”收发器控制器”。
技术层面有人质疑 1 瓦发射功率偏低(廉价 Baofeng 可达 8 瓦),并询问在城市环境下使用更长天线能达到多远的通联距离。另有人希望支持 DMR,因为当地模拟通信已大幅衰退,而 DMR 中继器互联后活跃度更高。也有用户提出小建议,比如希望把原理图和 PCB 导出为 PDF,避免必须打开 KiCAD 才能查看。该项目此前在 2024 年 10 月已有过一次 HN 讨论。
18. 牛津研究:人类右利手优势可能源于双足行走的演化
牛津大学发布的一项研究试图回答”为什么绝大多数人是右利手”,并将答案指向人类学会双足行走的演化历程。文章引用的论文区分了”利手性”的两个独立特征:偏侧化强度(一个人对某只手的偏好程度)和方向(具体偏好哪一只)。研究发现,双足行走解释了偏侧化的强度,脑容量增大则解释了方向。Australopithecus(南方古猿)在右倾共识形成之前数百万年就已表现出强烈的偏侧化——是”坚定的利手者”,只是不一定偏向右。两个特征在演化时间上分开数百万年。
HN 讨论中最高赞的评论批评原文标题的因果表述。一位评论者认为”双足行走是手部专门化的原因”用词非常糟糕:手是几条腿走路其实无关紧要,无论 2、4、8 条腿,只要手不再用于移动,就会专门化。因果应当反过来——手因被用于投掷石块木棍、操控物体等用途而退出移动职能,并非因为行走解放了双手。另有评论指出文章并未真正解释为何最终是”右手”获胜,只是模糊提及选择压力。
不少评论分享个人经验:左利手家族猜测可能与早期由左利手照顾者提供精细动作示范有关;滑板”goofy-footed”(左脚在前)的偏好与利手是否相关;现代鼠标右手化是否会进一步加强右利手优势;以及对脚利、姿势侧别(拳击 orthodox 与 southpaw、足球左右脚)等相关研究的兴趣。也有人提到 20 年前在中国教英文时班上数千学生无一用左手写字,但所有人书写都很整齐,怀疑左利手被纠正过来——类比于其他社会”不存在”某类人群的现象。还有评论者讨论”混合利手”(不同任务用不同手)和”交叉优势”(手脚优势侧不同)是否真应被早年视作病理,分享了自己被告知”是一种心理疾病”的经历。
19. Polypad:浏览器中的数学操作教具游乐场
- 原文: https://polypad.amplify.com/
- HN: https://news.ycombinator.com/item?id=48166744
- 得分: 203
- 评论: 23
Polypad 是 Amplify(前身为 Desmos 团队相关公司,收购自 Mathigon)提供的免费在线”数学游乐场”,集合了大量虚拟操作教具(virtual manipulatives):分数条、3D 多面体、天平、函数机、骰子硬币转盘、数据科学、数字立方体、逻辑门等。无需登录或安装,跨设备跨浏览器运行,并可与任意课程结合。教师还能创建可分配的活动,实时查看学生作业。网站支持近 30 种语言并强调无障碍设计,目前正举办 2026 年艺术与音乐创作比赛。
HN 评论中讨论度最高的话题之一是技术实现。一位评论者指出 Polypad 本身不是开源的,但其底层数学和 UI 库由创作者以 Mathigon 组织名义开源。最有趣的是它的 UI 完全没有用主流前端框架,而是构建在一个小型库 boost.js 上,融合了 jQuery 风格的 DOM 包装与 Vue 风格的响应式、模板和 Web Components。评论者认为这种直接控制 DOM 的方式更适合高度互动的图形和可视化工具,希望它能更普及。
其他评论者分享了类似项目经验,包括为儿童构建浏览器版七巧板教学游戏,曾在拼图”完成检测”上反复折腾——因为可能有多种正确解法,最后用启发式规则(所有拼块必须相邻、不能重叠、必须覆盖目标轮廓且不能部分越界)实现,JavaScript 数字精度也曾让人头疼。
许多评论是直接的赞美:2 年级孩子最喜欢的学校 EdTech 产品;落地页本身就清晰展示了能力;不强制登录令人惊喜;每个组件都有问号触发的内置教程。也有教育圈人士指出 Amplify 团队对教学法的思考可在 Mathworlds 通讯上看到。批评意见集中在交互细节:滚轮缩放、中键/右键拖动等更符合习惯的画布导航操作缺失,以及一些用户遇到 403 错误打不开网站。Amplify CTO 也在评论区出现,推荐了过往艺术比赛的优秀作品链接,包括 12-15 岁组别用 Polypad 制作的《月光奏鸣曲》。
20. OpenAI 采用 Google SynthID 水印,并推出 AI 图像验证工具
OpenAI 宣布升级其内容溯源(content provenance)策略,采取多层、生态驱动的方案。三项核心更新:第一,正式成为 C2PA 合规生成器(Conforming Generator Product),让平台能可信地读取、保留并传递 OpenAI 内容附带的溯源元数据;第二,与 Google DeepMind 合作,将 SynthID 水印应用到 ChatGPT、Codex 和 OpenAI API 生成的图像上,在 C2PA 元数据基础上叠加一层不可见水印;第三,推出公开预览的验证工具 openai.com/verify,用户上传图像即可检测其中是否含有 OpenAI 的 Content Credentials 或 SynthID 信号。
OpenAI 的论点是:C2PA 元数据虽然能携带丰富上下文(创建过程、签名者等),但可被剥离或在上传下载、格式转换、缩放、截屏中丢失;SynthID 水印对这类变换更具韧性,但承载信息较少。两者互补可让溯源更持久。Sora 已有可见水印,Voice Engine 也已有音频水印。验证工具在无法检出信号时不会做出确定性结论,避免被误判为”非 AI 生成”。
HN 讨论高度怀疑这套机制的实际效力。最受关注的评论描述了一种规避方法的大致思路:若让模型在黑色背景上生成图像,肉眼即可看到 SynthID 留下的重复模糊纹理;该用户声称通过逐像素遮蔽 + AI 填充 + 深度图引导能去除水印(社区普遍认为只要愿意投入,水印迟早可被绕过)。也有评论反驳称至今没看到可复现的去除工具仓库。
另一类批评聚焦动机和实践合理性:作为创作者,没人愿意自己用工具产出的素材被强制嵌入”DRM 式”元数据;Photoshop 这类老牌工具凭什么豁免?还有评论质疑当社交平台开始封禁带水印的图像时,水印会”一夜之间被剥光”。也有人担心后续会演变为绑定订阅者身份和地理定位的追踪机制,最终只为政府服务。
更根本的质疑在于:恶意行为者完全可以使用不带 SynthID 的开源或自建模型生成内容;只要打印再扫描或翻拍,水印基本失效。对 Google 不开源 SynthID、仅限合作伙伴使用的做法也有不满,有评论称愿意开放自己的开源不可见水印实现。普遍共识是:单一方案不足以解决 AI 内容溯源问题,但当前措施究竟是有意义的基础设施,还是表演性合规,社区分歧明显。