HN Daily Reading · 每日阅读

HN 每日深度阅读 · 2026-05-29

本期围绕"AI 能力与可信度的再校准"展开:Anthropic 以 Opus 4.8 主打诚实性与对齐,YouTube 则被迫用自动标签为日益泛滥的合成内容兜底,而一项千条事实核查实测揭穿了前沿模型在中间地带的严重分歧;与之并置的。

2026.05.29 20 篇摘录

共 20 篇 · 约 12,438 字 · 约 31 分钟读完

1. Anthropic 发布 Claude Opus 4.8:增量升级与代理能力提升

Anthropic 推出 Claude Opus 4.8,定位为 Opus 4.7 的增量升级,价格保持不变。新版本在编码、代理任务、推理和知识工作类基准上有所提升,同时在 claude.ai 上引入用户可控的”思考努力程度”设置,Claude Code 增加面向大型问题的”动态工作流”功能,Opus 4.8 的快速模式(2.5 倍速度)价格较前代降低三倍。

官方着重宣传两点改进:一是”诚实性”,称 Opus 4.8 在代码中放过自身缺陷的概率比前代低约四倍,更倾向主动标注不确定性;二是对齐表现,称误对齐行为率显著低于 4.7,接近其最佳对齐模型 Mythos Preview。多家早期合作伙伴(Cursor、Databricks、Devin、Hebbia、法律 AI 厂商等)给出引用证词,强调工具调用更高效、长上下文一致性更好、引用精度提升等。文末预告了能力更高的 Mythos 级模型(Project Glasswing),目前仅向少量组织开放用于网络安全工作。

HN 讨论呈现几种典型态度。其一是”版本疲劳”:这是 Opus 4 系列的第三个小版本(4.6/4.7/4.8),用户难以主观感知差异,怀疑自身评估口味已饱和,或改进确实变得不易察觉。其二是对营销基准的质疑,认为各家在数百个基准里挑选有利数据展示已成常态。其三是若干实测反馈:Simon Willison 的”鹈鹕骑自行车”测试显示高思考档明显优于低档;有人用 Claude Code 一次性生成可玩 RTS demo 给出好评;也有 ArtificialAnalysis 数据指出 GPT-5.5 在 token 经济性上仍占优。负面反馈集中在 Claude Code 出现”无法修改 thinking blocks”导致长会话中断的问题,以及部分用户认为 4.7 实际是退步、希望 4.8 修复。另有评论关注到能终于关闭”自适应思考”,认为对避免次优输出有帮助。Mythos 预告被部分评论者视为比 4.8 本身更值得关注的信号。


2. YouTube 将自动标注 AI 生成视频

YouTube 宣布升级其 AI 内容披露机制。自 2024 年起平台依赖创作者自愿声明使用 AI 工具,此次更新做了两项改动:一是将”逼真或经显著 AI 修改/生成”的披露标签移到更显眼位置——长视频显示在播放器下方、描述上方,Shorts 直接作为视频叠加层;非写实、动画或轻度修改内容仍只在展开描述中标注。二是自 2026 年 5 月起引入自动检测:若创作者未声明但系统识别出显著的写实 AI 内容,将自动加标签。创作者可在 YouTube Studio 申诉更正,但用 Veo、Dream Screen 等 YouTube 自家 AI 工具生成,或带有表明完全 AI 生成的 C2PA 元数据的内容,标签将永久保留。官方强调披露标签本身不会影响推荐或货币化资格。

HN 评论中讨论最热的是 AI 内容对脆弱群体的影响。有评论描述儿童长时间观看程序化生成的暴力混剪、老年人观看完全由 AI 合成的”医生”健康讲座等场景,认为”脑腐”一词不算夸张;也有用户称非技术背景的家人把 AI 生成的”新闻”或”老人人生建议”视频误认为真实。一条高赞评论由此延伸到对当代文化”参与变为消费”的反思。

技术层面,多位评论者怀疑自动检测的可靠性,担心重现”ZeroGPT 把《独立宣言》判为 AI 生成”式的假阳性,对依赖广告收入的创作者尤其危险。另有人追问边界界定问题:解说视频里偶尔的 AI 空镜、AI 配乐、AI 配音加 Manim 动画的数学/物理科普、用 AI 脚本配档案素材的军事纪录片——这些近期在 YouTube 大量涌现的内容是否会被覆盖,目前尚不明确。也有评论指出 YouTube 搜索”focus music”等关键词已充斥每隔几天上传一小时新曲的 AI 音乐频道,希望规则同样适用于音频。


3. 前沿大模型在真实事实核查任务上分歧严重

Lenz Research 让 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro 五个前沿模型对 1000 条来自事实核查平台的真实用户主张做出判断,使用 True / Mostly True / Misleading / False 四档评级。结果显示 67% 的主张上至少有一个模型与多数派不一致或根本未形成多数;34% 的主张上最分歧的两个模型相差 2 档以上,属于实质性分歧而非仅校准差异;21% 出现 True 与 False 的极端对立。Krippendorff α(序数)为 0.639,属一致性有限。模型在”明确真/假”两端容易收敛,分歧集中在中间两档;其中 328 条全员一致的样本里仅 4 条一致为 Misleading、0 条一致为 Mostly True。研究还给出模型两两一致率:同源的 Gemini 3 Pro 与其检索版最高(75%),Opus 4.7 与 Gemini 系列最低(53%)。作者将多数票仅作为结构性参考点而非真值,并指出即使全员一致也可能存在共同盲点,因此真实错误率只会更高。

HN 讨论高度集中在方法论质疑上。最被引用的批评是 prompt 设计——“只输出标签、不允许解释”的强制四选一,使得很多本应回答”无法确定”或需要细微限定的主张被强行归入某档;典型例子如”宇宙中某处存在外星生命”被三个模型判为 False,而合理答案应是”未知”;“加州出产所有美国杏仁”这一主张被判为 False 还是 Misleading,本身就反映 rubric 模糊。也有用户指出网页和报告本身似乎大量借助 LLM 撰写,但伦理部分未披露此事,存在自指尴尬。其他讨论包括:为何排除 Grok 这一训练理念差异明显的模型;用 LLM 做事实核查本身就是工具错配;该榜单一旦公开就会被针对性优化,Goodhart 定律将很快使其失效;以及有用户测试发现该工具在改写用户输入时会自动套用”西方/维基百科视角”,质疑其中立性。


4. Bricks & Minifigs 被指扣押客户 20 万美元乐高寄售收藏

博客叙述了乐高粉丝 Ed Mansell 与儿子 Bryan 将据称是史上最大私人乐高星战收藏(估值逾 20 万美元)以寄售方式交给俄勒冈州 Salem 的 Bricks & Minifigs 加盟店,约定店方抽成 10%。随后该门店被 Bricks & Minifigs 总部从原加盟商 Chrystal 手中收回,原加盟商试图归还寄售品未果。Bryan 持合同上门取回藏品时被驱逐并被列入禁入名单,员工被告知 Bryan”已获补偿但仍不满意”。文章称这家估值约 4 亿美元的公司明确以”打官司你耗不起”作为威胁。

YouTuber”Reckless Ben”介入调查,拜访总部 CEO、携合同到店均被报警驱逐。文中点名 Brandon Best 与 Joshua Johnson 两位收购方关键人物,称 Josh 在通话中先承认藏品被单独保管、后又否认存在,并威胁”若你起诉我,那就是你偷了乐高”。此后出现一系列异常事件:Ben 在合法送达起诉文书过程中四次被报警、最终被拘留一夜;有人向警方谎报其运输海洛因,致其在犹他州被长时间盘问;执法记录仪音频被部分遮蔽,但同步的其他摄像头泄露出警官讨论行动缺乏法律依据的内容。文章还援引被告所在地与多名警官同为 BYU 校友、与 LDS 社区有交集的背景,暗示存在地方性庇护。被告方在败诉后选择关闭门店而非支付赔偿。

HN 讨论分两类。一类是叙事困惑:很多读者表示文章缺失关键背景,例如原加盟商欠总部约 20 万美元、总部以此为由声称寄售品所有权可抵债,但消费者法上寄售品归寄售人所有,门店继续销售已构成违法行为。另一类质疑也很尖锐:4 亿美元规模公司为 20 万美元商誉自毁不合常理;仅靠关店无法逃避法院判决,缺乏完整解释。多位评论者指出受害方早期未聘请律师、自行尝试送达诉状是关键失误,“花 100 美元请专业 process server”本可避免后续被捕。也有评论吐槽文中”trespassed”一词用法混乱,实为”被以非法侵入罪名告诫/起诉”。普遍共识是若指控属实,惩罚性赔偿空间巨大。


5. Show HN:Hallucinate——浏览器里的多人在线 Rave

Hallucinate 是一个在浏览器中运行的多人在线”电子音乐派对”网站。用户进入后可控制一个 3D 角色,通过键盘自定义肤色、发色、发型、上下衣,触发舞蹈动作、跳跃式弹动,并使用方向键移动、空格说话,与其他在线用户在同一虚拟空间内”蹦迪”。项目源码以 MIT 协议托管在 GitHub(stagas/hallucinate)。

HN 上反响相当正面,被多位评论者形容为”近年在 HN 见过最让人愿意长时间玩下去的东西”。讨论中出现若干相似前作的回忆与对比:已停运的 theclub.zone(带高难度隐藏平台跳跃彩蛋)、Increpare 的短游戏 SLAVE OF GOD、以及 2020/2021 年 Porter Robinson 的 Secret Sky 线上音乐节,当时也允许用户用浏览器控制台改昵称和配色。一位评论者分享了自己六七年前用 Unity 做的 VR DJ 系统,可远程接入真实黑胶转盘,因健康原因停摆,希望有人接手延续。

功能层面的反馈集中在交互细节:相机操控易引起晕动症,有人建议加准星固定视线参考;“pan”功能被认为方向反直觉,应是绕角色旋转世界而非旋转角色视角;希望加入跳跃以便俯瞰人群;以及好奇哪些角色是真人、哪些是 NPC。还有用户做了 5 小时数据的玩家移动热力图分享。


6. 欧盟以放任销售违规商品为由对 Temu 处以 2 亿欧元罚款

欧盟委员会对中国电商 Temu 处以 2 亿欧元(约 2.32 亿美元)罚款,理由是其平台上销售包括危险婴儿玩具、不合格充电器在内的违规商品,未能依《数字服务法》中”超大型在线平台”的义务勤勉识别、分析和评估系统性风险。该调查始于 2024 年 10 月,采取独立机构”神秘购物”方式取证,发现 Temu 上购得的充电器有较高比例不通过基本电气安全测试,相当数量婴儿玩具化学物含量超标或存在可拆小部件造成的窒息风险。Temu 须在 8 月 28 日前提交整改方案,委员会随后两个月内评估合规情况。Temu 表示不认同决定、认为罚款不成比例,称该决定针对的是 2024 年情况、不反映系统现状,正在评估应对方案。这是 DSA 框架下针对内容问题的第二起处罚,前一起是去年对 X 的 1.2 亿欧元罚款。英国消费者组织 Which? 呼吁英国跟进,借《产品监管与计量法》新权力让在线市场对危险商品承担法律责任。

HN 评论分歧明显。一类替 Temu 辩护,称其填补了欧洲市场的真实空白:在欧洲不少地区,本地中间商加价惊人且选品有限,电子元器件等品类要么从美国调老库存高价长周期进口,要么直接通过 Temu/AliExpress,本地商业氛围带有”问价就别买”的傲慢。澳大利亚用户也表示淘宝、Temu 让人绕开本地高加价的转售商。一类质疑公平性:Amazon、eBay 上同样有大量同源 dropshipping 卖家为何未被相同对待。还有评论指出 2 亿欧元相对其体量是”轻拍手腕”,不足以改变激励结构,建议研究 Temu 进入前后欧洲婴儿事故、电池火灾等数据的实际变化。监管层面则有声音认为欧盟试图通过事后罚款来管控来自中国的商品犹如”打地鼠”,Deming 早已论证”靠检测保证质量”几乎不可行。也有用户回忆自己曾在 Temu 买到主板焊料含铅超标的便携游戏机并获全额退款,认为新闻并不令人意外。


7. Anthropic 完成 650 亿美元 H 轮融资,投后估值 9650 亿美元

Anthropic 宣布完成 650 亿美元 H 轮融资,由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital 领投,投后估值 9650 亿美元。共同领投方包括 Capital Group、Coatue、D1、GIC、ICONIQ、XN,参与方涵盖 Blackstone、Brookfield、Fidelity、T. Rowe Price、Jane Street、Lightspeed、General Catalyst、Insight、Baillie Gifford、DST、Temasek、MGX 等大型机构,并含 150 亿美元此前已承诺的超大规模云厂商投资(其中亚马逊 50 亿美元)。Micron、三星、SK 海力士作为存储和芯片战略合作方加入。公告称自 2 月 G 轮以来增长持续,月初 run-rate 收入跨过 470 亿美元。公司近期同时签下与 AWS 最高 5GW 算力、与 Google/Broadcom 5GW 下一代 TPU、以及 SpaceX 在 Colossus 1/2 中的 GPU 容量协议;Claude 成为首个同时上架 AWS、Google Cloud、Azure 三大云的前沿模型,AWS 仍为主云和训练伙伴。资金将用于安全与可解释性研究、扩张算力、产品与合作。

HN 一条高赞评论梳理了 Anthropic 自报 run-rate 的快速攀升曲线:2025 年底约 90 亿美元,2026 年 2 月 G 轮时 140 亿、4 月初突破 300 亿、5 月初跨过 470 亿;并提醒”run-rate”只是基于近期某段收入年化外推,与传统年度收入不同。多位评论者讨论估值现象本身:公司在私募阶段就被推到接近一万亿美元,等到 IPO 时上行空间已被 VC 和私募基本吃尽,散户接盘风险高,被形容为”股市变成倾倒场”。也有人指出 Anthropic 在收入和估值上已超过 OpenAI,后者显得相对脆弱。其余讨论包括:距首家”kilocorn”(千倍独角兽)一步之遥;员工此刻入职股权升值空间存疑、缺乏历史先例;今年是否还会再来一轮、何时拿出 S1 文件等。


8. 研究称对 LLM 越无礼,准确率反而越高

一篇提交至 arXiv 的短论文《Mind Your Tone》研究了 prompt 语气礼貌程度对 LLM 准确率的影响。作者构建了 50 道涵盖数学、科学和历史的多选题,每题改写为五种语气版本(非常礼貌、礼貌、中性、粗鲁、非常粗鲁),共 250 条 prompt,仅在 ChatGPT-4o 上进行评测,并使用配对样本 t 检验做显著性分析。

结果与作者预期相反:粗鲁 prompt 持续优于礼貌 prompt,准确率从“非常礼貌”的 80.8% 上升到“非常粗鲁”的 84.8%。作者认为这与早期研究中“粗鲁导致表现下降”的结论不一致,暗示新一代模型对语气变化的反应可能不同,并呼吁更多关注 prompt 的语用维度及人机交互的社会层面。

HN 评论对该研究方法和结论提出多方面质疑。首先,许多人指出样本量仅 250、准确率差距仅 4 个百分点,结果可能落在噪声范围内,且使用 t 检验处理二项分布数据并不合适。其次,研究仅测试了 GPT-4o 这一已较旧的模型,而既有文献显示不同模型甚至不同语言的反应差异巨大,应在更前沿的模型上复现。还有评论批评其 prompt 设计本身:所谓“礼貌”版本(如“Can you kindly consider the following problem”)并不像与受尊敬同事的自然交流,更像对高级店员的客套;而“粗鲁”版本则有明显非英语母语者写作痕迹,可能并未真正激活模型的“被信任专家”角色空间。

也有人从行为机制角度推测:礼貌 prompt 可能让模型过度信任自身初始思路,而粗鲁 prompt 则触发更仔细的重新审视。还有评论分享了实际使用中“训斥” agent 后效果反而改善的轶事体验。另一些评论则带有调侃色彩,比如坚持对 AI 说请和谢谢以备“机器人统治时未来”,或希望 Anthropic 公布最有效脏话的统计数据。整体上社区认为该研究方向有趣但证据不足,难以支撑“无礼提升准确率”这一普适性结论。


9. DBOS:用 Postgres 直接承担持久化工作流的编排职责

DBOS 团队撰文主张:以 Temporal、Airflow、AWS Step Functions 等为代表的“外部编排器”模式对持久化工作流(durable workflows)而言是根本性的过度设计。其核心论点是:既然持久化工作流的本质是把程序状态定期 checkpoint 到数据库,那么数据库本身就足以承担编排职责,无需独立的 orchestrator 服务。

在基于 Postgres 的方案中,客户端把工作流写入一张 Postgres 表,应用服务器直接轮询该表来出队和执行任务,每一步的输出由 worker 自行 checkpoint 回 Postgres。Worker 之间通过 SELECT … FOR UPDATE 等锁机制保证某个工作流只被一个 worker 处理;若多个 worker 同时执行同一工作流,Postgres 的完整性约束会在 checkpoint 阶段检测冲突。当 worker 崩溃时,其他 worker 可以从最后一个 checkpoint 恢复。

文章随后从可扩展性、可用性、可观测性和安全性四个角度论述优势:系统能力等同于底层 Postgres,可垂直扩展到每秒数万工作流,并可借助分布式 Postgres(如 CockroachDB)或分片继续扩展;流复制与多 AZ 部署直接复用;工作流状态以关系表存在,任意 SQL 查询即可作为观测手段;不再额外引入编排器作为单点和敏感数据通道。

HN 讨论既有共鸣也有反驳。支持者赞叹 Postgres 工具箱的能力边界,并分享了类似实现,如 Armin Ronacher 的 absurd、Conductor OSS、为 Rust 写的 durable 等。但更多评论提出冷静警告:这类“只用数据库”的方案起步干净,但随着需要重试、退避、超时、取消、版本化、可视化、任务路由、限流、租约、心跳、卡死检测、回放调试、工作流迁移、fan-in/fan-out、长定时器、审计日志、运维工具等功能逐步加入,会慢慢长成一个粗糙版本的工作流引擎,最终选择本质是“自建复杂度 vs 购买专业系统”。也有从业者分享 Temporal 使用体验,关注其 payload 大小限制等实际痛点,并希望听到 DBOS 在运维复杂度与功能对等性方面的真实对比。另有评论戏称这其实是“2006 年 Postgres 上的分布式队列”再次回归。


10. Continue? Y/N:一款讽刺 AI Agent 授权疲劳的 60 秒小游戏

Continue? Y/N 是一款由 scalex.dev 制作的浏览器小游戏,模拟开发者在 Claude Code 等 AI 编码 agent 不断弹出权限请求时的真实场景。设定是:距离下次会议还有 1 分钟,agent 正在完成重构,需要玩家在 60 秒内对一连串命令快速按 1 批准或 2 拒绝,以体验“授权疲劳”及其安全后果。游戏配套博客解释了这些请求在现实中为何可能成为攻击面,以及自动模式约 17% 假阴性率等问题。

HN 反响热烈,但也暴露了游戏设计与权限模型本身的诸多争议。有玩家发现可以“作弊”:全部秒拒就能拿到“安全工程师”徽章和满分,虽然会弹出“过度拦截”提示但藏在角落;而全部秒批反而被故意插入的“恶意命令弹窗”拖慢节奏。也有玩家吐槽部分判定的安全直觉值得商榷,例如把 cat ~/.zshrc 标为危险预设了用户会把密钥放进 shell rc,而很多人公开自己的 dotfiles;把 npm run build 判为不该拒绝也被认为不合理;杀掉 lsof 列出的进程更可能误伤浏览器或 agent 自己的子 shell。

更深层的讨论围绕 agent 权限模型展开。多名评论者认为当前的逐命令授权本质上像在玩《Papers, Please》,要么全批要么全拒,要么 YOLO 模式裸奔,几乎没有有效中间状态。被广泛认可的方向之一是“基于任务的授权”:让用户审批一个高层任务,再由 LLM judge 判断后续工具调用是否仍在任务范围内,把数十次确认压缩为一次,并基于风险给出信号。另一种实践是把 agent 放进一次性沙箱或容器(如 exe.dev、lxd、dclaude 等)中运行,按容器级别一次性放权,仅在涉及生产系统时切换到逐项审批。也有人提出更激进的方向:未来应聚焦于审批计划和回滚持久化工作流,而不是逐命令拦截。作者本人也在评论区参与互动,并指引读者阅读其关于 agent 权限风险与缓解方案的文章。


11. Altman 与 Amodei 双双收回“AI 工作末日”预言

Fortune 报道指出,OpenAI 的 Sam Altman 与 Anthropic 的 Dario Amodei 近期都在公开场合软化此前关于“AI 即将引发大规模失业”的强硬预测。两人此前都曾用相当夸张的措辞描述 AI 将摧毁大量白领工作,如今则转向更温和、更强调“增强而非替代”的叙事。文章把这一转向与 OpenAI 的 IPO 进程以及监管和公众情绪变化联系起来。

HN 评论普遍持怀疑和讽刺态度。许多人认为这是典型的公关“潜艇式”操作:先靠“神级 AI”叙事在质疑声中拉高估值与关注度,等到公众担忧、监管压力以及具体抵制(如对数据中心的市政否决、对核心高管的人身安全事件、宗教与文化领袖的批评)累积到一定程度,再开始降温话术。引用的皮尤数据显示超过半数美国人对 AI 的担忧多于期待,《经济学人》等媒体仍在用“为 AI 失业末日做准备”作为头条。

评论者指出叙事中存在明显的逻辑矛盾:先是开发并大力推销自认为会导致大规模失业的技术,如今又声称当初判断有误,但希望市场和政府支持其上市,相当于同时为“想要摧毁就业”和“预测错误”两件事索取奖励。也有人讽刺这种态度“做不了万亿富翁”,因为放弃了“AI 年底取代所有工作”的传统话术。

技术层面,多名评论者认为 AI 研究者倾向于低估其他职业的复杂度,所以容易把单一可自动化环节当成整个职业;放射科、客服、编程都经历过这种“被预言取代—回撤”的循环。也有从业者反映,虽然高管的口径开始变化,但中层管理者仍在日常工作中反复用“AI 可以替代”当作压价和裁员理由,传导回撤需要更长时间。另一些评论指出,从“替代开发者”转向“热爱开发者,多烧 token”的语气转变本身就充满讽刺意味,并怀疑这只是 PR 调整而非真实信念改变——目的是在工人阶级失去筹码之前避免引发更强的民粹反弹和监管。


12. 用 OpenWRT + usteer 改善家庭 Wi-Fi 室内漫游

作者在把家里四个 Cudy AX3000 接入点刷成 OpenWRT 几个月后,重新解决此前回避的漫游问题。其网络刻意保持双 SSID 分离:2.4GHz 走 WPA2 兼容老旧 IoT 设备,5GHz 走 WPA3/SAE 服务现代客户端,四个 AP 之间用 2.5GbE 回程,全程无云管理。问题表现为 iPhone、iPad、MacBook 在房间内移动时倾向于死守原 AP,尤其是厨房等被电梯井、瓷砖、冰箱干扰的位置。

排查发现两点根因:没有任何 steering daemon,客户端独自决定漫游,常常拖到信号极差才切;虽然 802.11k/r/v 已开启,但 rrm_nr_list 在每个 radio 上都是空的,hostapd 并未真正向客户端暴露邻居报告。作者随后在所有 AP 上安装 usteerluci-app-usteer,使用默认配置就让四台 AP 通过 LAN 互相 gossip 客户端状态;又安装 static-neighbor-reports 让每个 AP 按频段把其他 AP 的邻居信息显式注入(2.4 与 5GHz 分别列表,不跨频段混合)。

效果方面:2.4GHz SNR 没有显著改善,仍受邻居信号和 IoT 拥堵影响;5GHz 上不同 AP 间的使用量出现明显再平衡,最重要的是“黏滞客户端”指标改善——之前 -90dBm 级别的极弱关联消失了,弱信号客户端整体减少。作者也坦承样本量小、Wi-Fi 涉及大量客户端行为与无线噪声变量。

HN 讨论补充了大量实战经验。有评论指出仅用 802.11r、降低发射功率并让所有 AP 共用同一信道,iOS 切换速度可压到约 75ms,比 k/v 更快;Android 不同芯片与厂商行为差异巨大,部分设备在大流量下根本不切换。Apple 设备“死守 AP”的特性被多人吐槽是十年老问题。多位评论者质疑为何要按频段拆 SSID,认为更合理的做法是为 IoT 单独一个 SSID 但仍跨 AP 漫游。也有人推荐 TP-Link EAP610 等更耐用的吸顶 AP,以及反对“mesh”路线,主张以 x86 路由 + 多吸顶 AP 的有线骨干为家庭网络黄金标准。还有读者分享了自研的 OpenWRT 集中控制器 opensoho,已支持 usteer 并观察到弱连接客户端显著下降。也有反向案例:开启 usteer 后 Android 手机因频繁被 steer 导致电量骤降,最终选择关闭。


13. 各种 LLM 气味:从写作到网页都在收敛成同一种风格

作者去年开始写一个数学博客,使用 LLM 润色文章,当时觉得 AI 改写明显比自己原文“更好”——词汇更丰富,句式更有意思,并未察觉到所谓 AI 味。但三个月后,他发现完全相同的句式结构开始遍布整个互联网,意识到 LLM 在不同任务中会产生可被一眼识别的“气味”。

在 LLM 写作方面,作者收集了若干典型模式:滥用“punchline”式短句格言(如“Symmetry becomes a trap”);连续短句堆叠制造节奏感;“X is the Y of Z”句式;以及“not just X, its Y”这类对比否定结构。除了被广为吐槽的 em-dash 之外,这些更隐蔽的修辞惯性才是真正的指纹。在 AI 生成网站方面,他列举了高度重复的视觉元素:JetBrains Mono 字体、统一风格的“step + 项目符号”块、几乎一模一样的按钮、卡片样式以及带闪烁圆点的 badge 组件。

HN 评论的几条主线值得关注。其一,多人指出一个普遍规律:LLM 在你不擅长的领域看起来特别出色,恰恰因为你缺乏判断力;当你觉得它写得明显比你好时,更可能是你无法识别其平庸。其二,许多人补充了更长的“气味清单”:以“The honest answer:”“The smoking gun:”等冒号开头的揭示句、把形容词凑成三段且第三个是前两者组合、滥用“load bearing”“blast radius”“smoke test”作比喻、用“shape”形容抽象事物、社交媒体结尾的“Curious if anyone…”,以及“Oh. Oh.”这种斜体重复表惊讶等。Wikipedia 也已有“AI 写作信号”词条收录这类模式。

更深层的讨论是:LLM 写作风格似乎在某个高度就停滞了,新模型在文学风格上并未显著超越旧模型,这对“通往超级智能”的叙事是有趣的反例。许多人表示更愿意阅读带拼写错误和语法问题的人类原文,而非 AI 抛光稿;并形成一种新的写作纪律——可以用 LLM 帮忙批评结构、识别被动语态和过度用词,但绝不直接采纳它生成的措辞。也有人持相反观点:在网页设计领域,LLM 带来的“千篇一律”反而是好事,因为多数站点本就应优先可读性而非个性,LLM 的默认产物往往优于中位开发者的自创设计。


14. 用一行命令给 MacBook 取暖(2019)

这篇 2019 年的小贴士介绍了在威斯康星寒冬中如何快速给冰冷的 MacBook 加热:让 CPU 满载工作。最简单的方式是内置命令 yes > /dev/null,它会不断把 yes 写入空设备,将一个 CPU 核心打满。若希望更快升温,可以用 Homebrew 安装 stress,例如 stress -c 6 -m 2 -t 300 同时启动 6 个 CPU 线程和 2 个内存分配线程,并设置 5 分钟超时防止离开后过热。作者还建议在 ~/.bash-profile 中加 alias warm 一键启动。

HN 评论几乎一致跑偏到“2019 款 MacBook 根本不需要预热”的吐槽上。多位用户回忆那一代 Intel MacBook Pro 以发热闻名:普通构建或视频会议就足以让风扇狂转;天气稍热便会热降频,macOS 会用 100% 的 kernel_task 占住核心来阻止真实工作被调度,常常 6 核里 4–5 个都被 kernel_task 占据,机器几乎不可用。有人长期把笔记本放在冰袋上才能撑完 60–90 分钟的视频会议。也有人调侃说这台机器“唯一的优点”就是会自我加热。

另一组讨论聚焦在现代 Apple Silicon MacBook 上:用户表示几乎从未听过风扇声音,甚至怀疑风扇是否还在工作,跑网页 CPU+GPU 满载基准、温度到 90 度依然不转,只能手动设置风扇转速来验证其可用。还有评论关心冷热切换中的实际工程问题:把冰冷的笔记本带进室内是否会因结露损伤组件,规格表中“non-condensing humidity”究竟意味着什么;以及在零下骑行通勤后立即开机是否会影响硬件长期可靠性。也有人贡献了多线程加热的等价命令,以及戏谑地呼吁“怎么快速给 MacBook 降温”作为续篇。


15. Claude Code 推出动态工作流:并行智能体编排引争议

Anthropic 宣布在 Claude Code 中推出 “动态工作流”(dynamic workflows)功能,旨在让 Claude 自动承担更长时间、更复杂的多阶段任务。官方在公告中以 Bun 运行时从 Zig 到 Rust 的迁移作为旗舰案例:Jarred Sumner 据称借助动态工作流,在 11 天内完成了约 75 万行 Rust 代码的移植,原测试套件 99.8% 通过。该流程包括一个负责为 Zig 结构体字段映射 Rust 生命周期的工作流、数百个并行智能体分别将每个 .zig 文件改写为行为等价的 .rs 文件并配两名审查者、一个驱动构建和测试直到全部通过的修复循环,以及夜间运行的优化工作流为每处冗余拷贝单独提交 PR。

HN 讨论几乎一边倒地表达了怀疑。最高赞评论指出,开发者真正的瓶颈并非 Claude “啃” 代码的速度,而是判断它是否做对;用户更需要在长会话中介入、纠偏和注入想法的机制,而非更快烧 token 的方式。多名评论者将动态工作流形容为”故意把最长流程做成对开发者完全不透明”,认为这是 Anthropic 在大模型趋于商品化背景下构筑护城河的策略,建议自建多阶段编排以便理解关键介入点并控制成本。

针对 Bun 案例本身,社区也有质疑:Bun 的 Rust 重写如今被部分人视为反面教材,团队因难以理解和维护这一百万行 “vibe coded” Rust 代码而陷入困境。有评论指出,把”重写 Bun 为 Rust”作为最佳示例本身就说明问题——绝大多数工程任务并不像编译器/运行时那样有上万条可作为目标函数的测试用例,AI 在更松散需求下仍频繁偏离意图,甚至破坏测试框架而 CI 毫无察觉。

成本话题尤为突出。有用户反映首次因工作流触顶 Claude Max 额度——一次小包代码审查动用约 90 个智能体。多位评论者将此形容为”用多层互审智能体掩盖模型本身的不足”,并质疑这与此前 Claude 编写 C 编译器的”烧 token”路径并无本质区别。也有人提问该功能与 Agent Teams 的边界与适用场景。Claude Code 团队成员出现在评论区收集反馈。


16. bttf:BurntSushi 推出的命令行日期时间瑞士军刀

ripgrep 与 Jiff 的作者 BurntSushi 发布了新工具 bttf(取 “Back To The Future” 之意,非 “biff”),一个基于 Rust 编写、用于日期时间算术、解析、格式化和序列生成的命令行工具。底层日期时间逻辑由 Jiff 提供,本地化由 ICU4X 通过 jiff-icu 集成。作者明确声明不打算兼容 POSIX date,也不会成为 date 的替代品。

工具提供了丰富的子命令组合能力:可用 RFC 3339/9557 或自定义 strftime 格式打印当前时间;支持自然语言相对时间(如 “next sat”、“9pm last mon”、“1 week, 12 hours ago”);能在时区间转换并按任意精度取整;可计算自某时间点起的跨度并按指定单位舍入;支持按周/月生成时间序列(如未来 5 个工作日早 9 点、每月第二个周二、每月最后一个工作日等)。一大亮点是 tag/untag 管道机制,可从日志或命令输出中提取时间戳、统一处理后再写回原位置,例如将 Git 仓库每个文件的最近提交时间排序后按自定义格式列表输出。

HN 讨论中,作者亲自展示了一个组合命令以邀请社区提出更简洁的替代方案。多位评论者赞赏其设计:它正确区分了”民用时间”(civil time)与”绝对瞬时”(absolute instant)这两个概念,这是 GNU date 和大多数标准库 datetime API 处理不好的地方——例如 “纽约时间 2024-03-08 之后 30 天” 因 DST 究竟是 29h23h 还是 30d0h 的问题,许多 API 会默默选边。Jiff 这一区分继承自 TC39 的 Temporal 提案,被认为是 JS 标准首次在 datetime 领域引领其他生态。

也有用户对命名表示混淆,将其念作 “biff” 并联想到早年 BSD 上的邮件通知工具;作者澄清缩写念法。另有用户对比 dateutils 等已有工具,提出对 cargo-binstall 支持、locale 默认启用等改进诉求。一位长期手写 bash 脚本处理 newsletter 排期的用户表示,bttf 的 monthly 序列能替代其约 40 行 bash。


17. Raspberry Pi 6 最早 2028 年发布,AI 算力交给 CPU

Jeff Geerling 整理了三位 Raspberry Pi 核心工程师 Eben Upton、James Adams、Gordon Hollingworth 在 r/engineering 上 AMA 的要点。关于 Pi 6,Upton 将常规 3-4 年迭代周期拉长到 4-4.5 年,明确表示 Pi 6 不会早于 2028 年初问世。原因之一是全球 DRAM 短缺,此时发布新机会让售价远超 Pi 5 的 50 美元。Pi 6 的核心改进将是”更多”——更快的 CPU 和更快的 IO,而非 M.2 插槽等新接口,也不会集成独立 NPU;Upton 表示 Pi 把 “CPU 视为 AI 计算的载体”。

Pi Zero 2 W 的缺货源于即便老制程晶圆也要与 AI 芯片争夺产能,新代工方正在导入以缓解短缺。Pi Zero 3 短期内不会到来:一是为支持更快 CPU 可能需要放弃 RAM 叠 die 的单面 PCB 设计,会增加成本;二是新 LPDDR 价格远高于 15 美元定价能承受的范围。Pi Zero 2 W 之所以能维持低价是因为 Pi 储备了大量旧的 LPDDR2。十年前发布的 Pi 3B 仍年销近百万台。

微控制器方面,James Adams 提到 RP2350 的功耗和安全比预期更具挑战,新一次硅片修订修复了电流泄漏 bug。Pico 沿用 micro USB 而非 USB-C 是成本与板面的考量,但 USB-C 终将到来。2025 年 MCU 出货量首次超过 SBC。Hollingworth 承诺 95% 的软件工程时间投入库、驱动、内核和 OS 支持。

HN 评论中,多数声音并不期待”更快的 Pi”。有用户认为更快的 Pi 6 会与 Intel N150 等迷你 PC 正面竞争而处于劣势,呼吁推出低功耗、带正常睡眠状态的 Pi Zero 3W。一位长期购买每代 Pi 的用户坦言始终找不到实际用途——计算任务不如旧笔记本,专用任务不如 MCU,且因经销商加价已不再便宜。8GB Pi 5 标价 170 美元已逼近带 GPU 的 Jetson Orin Nano Super 的 240 美元。也有用户对 Pi 5 取消 H.264 硬件解码、缺乏完整 OP-TEE/TPM 等安全特性表达不满,并提到 Radxa Dragon Q6A 等替代品。多人呼吁推出 Pi 3++ 这类保留全尺寸 HDMI、耳机接口但用 USB-C 供电的稳健机型,以及希望 Pico 上的 USB-C 早日普及。


18. The Permanent Upper Crow:一个永不结束的资本循环小游戏

这是一个名为 “Permanent Upper Crow” 的网页交互作品,由 Jason Wu 创作。游戏开场玩家扮演 Benjamin Peck,一只想买 10 美元高顶礼帽却只有 1 美元资产的乌鸦,被迫接受 Crow Automation Systems 提交的”雇佣协议”。协议条款包括:将所有劳动、判断与清醒时间献给 Robo-Crow 的开发、在 San Franchickso 总部执行 12/12/7 强制坐班、强制享用免费午晚餐、承认”窗口正在关闭”、接受 1% 股权(公司声称这绝非慷慨)、放弃追问是否还有其他活法的权利。条款 §47B 仲裁条款规定签字即放弃法律救济权,进入由一只乌鸦担任仲裁人的七轮约束性仲裁循环——仲裁人不在场,该条款在任何被阅读过的辖区内不可执行。

玩家签字后,游戏便不断循环:每完成一轮,乌鸦化身为新的 CEO 与新的初创公司,继续追逐下一顶礼帽,永无止境。有评论者经清点发现共有 106 个 CEO/公司名称组合,第 107 次开始回环。

HN 评论中,最被点赞的一条指出作品创作者本人的 LinkedIn 显示其正是某个”用 AI 智能体自动化人工岗位”的 AI 初创公司联合创始人,形成耐人寻味的对照。有玩家表示自己”通过不买礼帽”逃出了循环,戏称这是”奇怪游戏,唯一获胜方法是不玩”,呼应了《战争游戏》的经典台词。也有评论者表示无法说服自己点击”签字”按钮继续游戏,认为很多真实电子合同就是这种点击即同意的形式。还有评论者认为这是”非交互的故事”,不如直接写成文章。多人指出标题灵感来自 Jasmine Sun 在《纽约时报》上的评论文章《Silicon Valley is bracing for the permanent underclass》(硅谷正为永久性下层阶级做准备),将 underclass 改为 upper crow 形成双关。也有人联想到《有限与无限游戏》一书。


19. “我曾痛恨写作,直到发现它背后的科学”(2024)

《Science》杂志一篇 2024 年的第一人称文章被重新挖出讨论。作者讲述自己曾经对学术写作充满抗拒,后来通过把写作当作一项可以反复练习与改进的技艺——大量产出、获取反馈、持续修改——而逐渐扭转了态度。文章本身因网站防护原文未能直接展示,但社区从标题与已知内容出发讨论了科学写作的本质。

HN 讨论以怀疑标题党为主线。多位评论者指出,文章实际并未给出真正”科学化”的写作方法,结论无外乎”多写、多练、坚持迭代”,颇为反高潮。有评论者引用 Calvin and Hobbes 中的经典段落讽刺学术写作的本质:“写作的目的是给单薄想法充气、遮蔽糟糕推理、阻碍清晰表达”。也有人直言写作根本不是科学,最多有”最佳实践”,而许多名作恰恰违背了这些实践,它与写程序毫无相似之处。

获最高赞的长评借用了广为流传(被认为出自 Ira Glass)的”品味与能力鸿沟”论:所有从事创造性工作的人之所以入行是因为品味好,但刚起步几年作品质量配不上品味,正是这种品味让人对自己作品失望;多数人因此放弃,唯一办法是设定截止日期持续大量产出,让能力追上野心。另一位评论者分享了多年前强制中学阶段子女每天在家庭群里写一两段话记录生活的实验,他自述这是与孩子共同进行过的最成功的人生实验,孩子现在面对大量写作时已游刃有余。

不少博士与博士后则表达了对学术写作的复杂感受:把数月乃至数年的研究蒸馏为核心思想几乎和研究本身一样艰难,过程痛苦但成果带来的清晰度令人满足;也有人完成博士学位后仍然厌恶论文写作,认为为发表反复妥协后文本几乎不再传达任何东西。一位写小说的爱好者则强调阅读他人作品(好作品和坏作品)以训练判断力、以及反复编辑直到段落彼此承重不可拆除,才是写作的核心。


20. 美众议院否决全国性限制警用车牌识别提案,Flock 游说关系曝光

IPVM 证实,2026 年 5 月 21 日美国众议院交通与基础设施委员会的会议上,一项可能从根本上终结全美警用自动车牌识别(ALPR/LPR)项目的两党联合修正案被悄然否决。该 221 号修正案由共和党众议员 Scott Perry 和民主党众议员 Jesús García 共同提出,作为 5800 亿美元 BUILD America 250 法案的修正条款。修正案仅一句话:任何接受联邦《美国法典》第 23 编公路资金(每年约 530-570 亿美元、覆盖全美约四分之一公路里程)的主体,只能将 ALPR 用于收费用途。由于几乎所有政府机构都接受该项资金,这一条款实际上将迫使全美警方拆除车牌识别系统。该机制与设定全国饮酒年龄和酒驾标准时使用的”联邦支出附条件”权力相同。

修正案在 14 小时的会议中未经实质讨论即被以 20 票赞成、44 票反对否决。委员会主席 Sam Graves 与首席少数党议员 Rick Larsen 双双投了反对票。值得注意的是,民主党共同提案人 García 在整场听证会中对该修正案只字未提。

对 Flock 而言,该修正案具有生死意义。Flock 运营着全美最大的 LPR 网络,覆盖逾 5000 家执法机构,每月生成约 200 亿条车牌读取记录,几乎所有部署 Flock 的辖区也都接受第 23 编资金。Flock 首席传讯官 Josh Thomas 公开反对该修正案,称其会让一线执法者失去关键工具。

IPVM 的调查披露了一条游说线索:Flock 当前注册游说人之一 Don Andres 曾任 García 议员办公室的副幕僚长兼立法主任。García 办公室在被问及 Andres 或 Flock 是否就该修正案接触过其办公室时仅简短回答”没有”。Flock 与 Andres 均未回应置评请求。Flock 在 2025-2026 年间将联邦游说支出扩大了 10 倍以上,签约了华盛顿排名第三的游说公司 BGR Government Affairs,以及前共同主席 Susie Wiles 现任特朗普白宫幕僚长的 Mercury Public Affairs。

HN 评论分化明显。部分用户对修正案被否决表示庆幸,认为速度摄像头、闯红灯抓拍等执法摄像头对道路安全至关重要,公共道路上本不应有隐私期待,并举例 Flock 协助警方抓获在逃枪击嫌犯。另一些用户则担忧大规模车牌扫描的隐私影响远超传统交通执法,与第四修正案存在张力。也有评论者指出该修正案确实会”一刀切”地连带禁掉红灯、超速、校车通过、公交专用道等所有自动化交通执法摄像头,措辞过于粗糙。文章标题的双重否定句式也让多位读者反复确认”到底是哪个东西被杀了”。