HN 每日深度阅读 · 2026-05-17
本期主线是技术狂飙下的失控与反制:从 Mitchell Hashimoto 警告整个行业陷入"AI 精神错乱"、迷信 Agent 万能修复,到前沿大模型已实质摧毁开放式 CTF 赛制,AI 正在重塑软件与安全的游戏规则;与此同时。
共 20 篇 · 约 12,847 字 · 约 32 分钟读完
1. Mitchell Hashimoto:整家公司陷入”AI 精神错乱”
- 原文: https://twitter.com/mitchellh/status/2055380239711457578
- HN: https://news.ycombinator.com/item?id=48153379
- 得分: 1847
- 评论: 1039
HashiCorp 联合创始人 Mitchell Hashimoto 在社交平台发文,称他强烈感觉到当下有整家公司正陷入严重的”AI 精神错乱”(AI psychosis)状态,以至于无法与之进行理性讨论。出于尊重,他不愿点名,但表示其中包括他深为敬重的私人朋友。
他将当前情形类比为云计算转型期 MTBF(平均无故障时间)与 MTTR(平均恢复时间)之争的重演,只不过这次波及的是整个软件开发行业乃至整个世界。所谓”精神错乱”的核心症状是一种绝对化的”MTTR 万能论”心态:既然 Agent 能以人类无法企及的速度和规模修 bug,那么带 bug 上线也无妨。Mitchell 指出,基础设施领域早已学过这一课——光靠快速恢复无法替代系统的内在韧性,自动化可以把系统打造成一台”高韧性的灾难机器”:局部指标看似健康,全局却日益不可理解;bug 报告下降的同时潜在风险却在爆炸;测试覆盖率上升的同时语义理解却在下降;架构在无人察觉中悄然腐烂。
他最大的困扰在于无法与身边人讨论这一话题,因为任何质疑都会被”测试覆盖率很高”、“bug 报告在下降”之类的回应迅速堵回去,而这些指标并不能反映全貌。
HN 评论区延展出几条主线。一种观点认为他真正批评的并非”用 AI 写代码”,而是把思考与决策外包给 AI——金融圈和 VC 圈尤为明显,有人直接把 ChatGPT 截图当作自己的论证。另一种观点把”AI 精神错乱”扩展到整个社会层面:股市、数据中心投资规模都建立在 AI 能力将无限上升的假设之上。多位 FAANG 员工现身说法描述了被强行推行 AI 的氛围——管理层下达每日 300 美元 token 配额,“额度提高了就要用满”、每场会议都要演示 AI 成果。也有 CFO 因在同行聚会上”AI 用量落后”而强令公司加速。还有评论者讲述目睹”prompt 工程师”完成 Postgres 迁移的惊险过程,认为这或许会倒逼软件工程真正走向工程学化。少数留言则认为这是开放的经验性问题,AI 既可能引入隐秘的腐烂地基,也可能推动行业转向规约与验证。
2. 古登堡计划:持续变好的免费电子书图书馆
- 原文: https://www.gutenberg.org/
- HN: https://news.ycombinator.com/item?id=48150431
- 得分: 1150
- 评论: 272
Project Gutenberg 是世界上最早的免费电子书项目,由 Michael S. Hart 于 1971 年在伊利诺伊大学的 Xerox Sigma V 大型机上启动,最早数字化的文本是美国《独立宣言》。当时这台机器是 ARPANET 上仅有的 15 个节点之一。如今该项目提供超过 75,000 本免费 epub 与 Kindle 电子书,主要聚焦于在美国已进入公有领域的较早期作品,由数千名志愿者数字化与校对完成,无需注册、无需 App,仅靠普通浏览器或电子书阅读器即可使用。网站近期持续改版,新版界面、分类、阅读清单与搜索体验都有所提升。
HN 讨论区充满情感色彩。一位 Gutenberg 的程序员现身回复,邀请久未访问的用户重新体验改版后的网站;新任执行董事也出现,提到维基百科上关于该项目的条目已过时(仍提到早已淘汰的 Plucker 格式)。许多人分享个人故事:有人为父亲买了 Kindle 并教他用 Gutenberg 下书,老人晚年因此读完大量经典,临终前还在读 1931 年版的《犹太人的传说》;有英文系出身的网友在 90 年代曾与 Hart 通信,称这是值得自豪的小贡献。
技术性讨论包括:为何主流电子阅读器厂商始终没有内建 Gutenberg “书店”,让用户能直接浏览下载,而是要么主动屏蔽(Kindle),要么需借助 Calibre 这类外部工具,体验有摩擦。还有人推荐了 Gutenberg 的 ZIM 离线包,英文全集约 60GB,可整体下载。意大利访问者反映 gutenberg.org 在当地显示”司法查封”页面,引用罗马法院 52127/20 R.N.R.I. 号刑事程序,引起对公有领域作品为何被屏蔽的疑问。也有人观察到每日下载榜上 Concrete Construction 这类冷门技术书排名异常靠前,怀疑是机器人流量。多位评论者推荐了相关姊妹项目,如加拿大的 fadedpage.com、瑞典的 runeberg.org,以及在排版精度上更进一步的 Standard Ebooks。社区普遍将 Gutenberg 视为”互联网上仅存的几个真正好网站之一”。
3. 加州立法推进:禁止发行商单方面”杀死”在线游戏
加州一项针对在线游戏长期可玩性的立法在关键程序中获得通过。该法案要求当发行商关闭在线游戏服务器时,必须为玩家提供”独立”可运行的离线补丁,或提供退款。法案对仅以订阅形式提供的游戏作出豁免——这类游戏被定义为”仅在订阅期内提供”,不受同等约束。法案的目标是回应近年频繁出现的”游戏被服务器关闭即彻底消失”的现象,与玩家社区发起的”Stop Killing Games”运动诉求一致。
HN 讨论呈现明显分歧。支持方认为最公平的做法是发行商在停服时开源服务端代码,让社区自己运行私服;同时应至少提前 60 天通告关服,避免玩家在临关前继续购买内容。许多人分享被”杀死”的游戏经历:Supercell 突然关停 Clash Mini,玩家损失上百美元内购,Apple 拒绝退超过 60 天的购买;PGA Tour 2K21 的服务器关闭后,单机生涯模式也几乎失效。
反对声音中,一位正在亲手关停在线游戏的开发者撰文表示,运营在线游戏(尤其包含内容审核)成本极高,法案可能让”做在线游戏”本身风险骤升——若被迫退款可能拖垮整家公司,结果反而把行业推向广告、F2P、订阅等模式,传统买断制可能加速消亡。另一些评论者担心立法在快速演变的在线游戏领域很难产生有意义的合规,可能扭曲市场、产生反向激励;更合理的做法或许是聚焦更窄的问题,例如强制为带 DRM 的游戏发布一个移除联网激活的 EOL 补丁,并上传到 Internet Archive。
也有人指出法案文本其实简短易读,比新闻稿更清楚。Epic 当年处理 Unreal 系列停服(GameSpy 关闭后发布 master server 替换补丁,并将旧作转交 OldUnreal 维护)被作为正面案例反复提及,被认为示范了如何在不开源的前提下让作品继续被社区运行。
4. 前沿 AI 已经压垮了开放式 CTF 赛制
- 原文: https://kabir.au/blog/the-ctf-scene-is-dead
- HN: https://news.ycombinator.com/item?id=48157559
- 得分: 326
- 评论: 303
作者 Kabir 是活跃于国际顶级战队 TheHackersCrew 的 CTF 选手,曾多次拿下 DownUnderCTF 等赛事冠军,并在 CTFTime 排名长期位居全球前十。他撰文宣称:开放式在线 CTF(Capture The Flag 网络安全夺旗赛)赛制已经被前沿大模型摧毁。
他描述了三个阶段。GPT-4 出现后,大量中等难度题目变得”一发提示词即解”,但当时困难题仍未被攻破,影响有限。Claude Opus 4.5 发布后,几乎所有中等难度题与部分困难题都可被 Agent 解出;借助 Claude Code CLI 和 MCP 工具,选手可以轻松搭建编排器,通过 CTFd API 为每道题各起一个 Claude 实例,比赛开始一小时后再人工接手剩余难题。GPT-5.5 与 GPT-5.5 Pro 进一步把局势推到极端,连 HackTheBox 上 Insane 难度的 active leakless heap pwn 题都能被一发解出,48 小时赛事中针对 Insane 题目编排 Pro 模型很可能在结束前拿到 flag。
由此产生的后果是:CTF 变成”pay-to-win”——谁能投入更多 token、更多上下文、更多 Agent,谁的分数就更高。CTFTime 排行榜开始变形,传统强队出场频率下降,玩家活跃度走低,出题人也失去了为艺术性出题的动力。专门的安全垂类模型(如 alias1)相对通用前沿模型反而显得不再重要。作者反驳了几种常见辩护:所谓”初学者照样能学”忽略了排行榜作为成长阶梯的功能被自动化破坏;所谓”AI 没解决一切,DEF CON 决赛仍是人类的天下”忽略了大量预选赛已被 Agent 攻陷,真正合格的人反而进不了决赛;“AI 是网络安全的国际象棋引擎”类比也不成立——象棋比赛中引擎并不被允许实时使用。
HN 评论里,许多人指出同样的命运正在降临到竞技编程、代码高尔夫等领域,AI 解题能力已逼近顶尖人类。一些评论者把视角推广到教育本身,担忧高中、大学的学习闭环正以慢动作方式崩塌,唯一的缓冲是必须线下到场。也有人挑出文章自相矛盾之处:开头说”AI 帮助不是问题”,后面又论证”拒绝用 AI 的队伍就在玩慢速版”。建设性建议包括:把 CTF 转向类似 ICPC 的线下离线赛制、设计专门”只有人类能找到的旗”对抗 Agent、把比赛重点彻底从排名转向学习平台如 picoGym 和 HackTheBox。
5. Project Zero 披露 Pixel 10 上的零点击漏洞利用链
Google Project Zero 公布了一条针对 Pixel 10 的零点击漏洞利用链,作为此前 Pixel 9 利用链研究的延续。该链由两环组成:第一环是 Dolby UDC 中的 CVE-2025-54957,影响范围覆盖所有 Android 设备,已在 2026 年 1 月补丁中修复;将其从 Pixel 9 移植到 Pixel 10 主要是更新偏移量等工程性工作,并应对 Pixel 10 用 RET PAC 取代 -fstack-protector 带来的差异。
第二环是本地权限提升。Pixel 9 上使用的 BigWave 驱动在 Pixel 10 上不存在,但研究者在 mediacodec SELinux 上下文中发现了新的 /dev/vpu 驱动,对应 Tensor G5 上的 Chips&Media Wave677DV 视频解码硬件,由与 BigWave 同一团队开发。与上游 V4L2 集成方式不同,该驱动直接把硬件 MMIO 寄存器接口暴露给用户态。研究者与 Jann Horn 合作,仅审计两小时就发现一处性质极为严重的漏洞:其 mmap 处理函数在调用 remap_pfn_range 时仅依据 VMA 大小,而完全没有限制在寄存器区域大小内。这意味着用户态只需在 mmap 中传入足够大的长度,就能从 VPU 寄存器物理地址起映射任意物理内存,包括整个内核映像。由于 Pixel 上内核物理地址固定,攻击者甚至无需扫描即可定位内核。整个 PoC 仅 5 行代码,完整利用不到一天即可完成。
漏洞于 2025 年 11 月 24 日上报,被 Android VRP 评为 High(相较 Pixel 9 上同等影响的 BigWave 被评 Moderate 是明显进步),并在 71 天内于 2026 年 2 月安全公告中修复,是作者首次见到 Android 驱动漏洞在 90 天内被修补。Project Zero 一方面肯定 Android 分诊流程的改进,另一方面强调驱动代码安全审计仍极为薄弱——同一团队在 5 个月前已被指出问题,仍出现如此浅显的漏洞。
HN 评论区关注几个延伸话题:为提供 AI 消息摘要功能而在用户尚未打开消息前就解码媒体内容,扩大了零点击攻击面,被质疑是否值得;有人对 iPhone 越狱长期沉寂表示好奇,猜测是否与 NSO 等商业漏洞利用厂商的业务变化或 AI 辅助审计有关;有人将代码贴入 GPT-5.5 测试,反馈模型在无搜索情况下也能识别该漏洞模式,引发关于”为何这类问题没在合并前被自动化工具拦截”的讨论;还有评论者疑惑为何没有类似 copy_to/from_user 的标准惯用法来约束此类自定义设备节点的用户态映射边界。
6. Julia Evans:从 Tailwind 迁回原生 CSS,并学着组织样式
Julia Evans 在 8 年前曾撰文表达对 Tailwind 的喜爱,原因是当时她不知如何组织 CSS,相比”完全混乱”,Tailwind 提供了可用的结构。最近她花了大约一周时间,把几个自有站点从 Tailwind 迁移到语义化 HTML + 原生 CSS,并分享了过程中学到的东西。
她意识到 Tailwind 实际上教给了她不少东西——一个 CSS 代码库里要处理布局、字体、颜色、通用组件等许多事情,每一类都需要一套约定,而 Tailwind 已经内建了一些她可以模仿的系统,例如 reset、调色板、字号比例。
她在新结构中划分出若干部分:reset 直接复制 Tailwind 的 Preflight 前 200 行;组件部分是 CSS 主体,每个组件一个唯一类名、一个独立 CSS 文件,通过约定(而非 @scope 或 Web Components)来避免互相干扰,并使用嵌套选择器组织变体;颜色用 :root 下的 CSS 变量集中管理;字号沿用 Tailwind 风格的 —size-xs / —size-sm 等变量,写法略冗长但可接受;utilities 收纳 .sr-only 这类跨组件复用片段;base 样式刻意保持极少,仅设置 section 居中列宽与链接颜色,准备日后从组件里逐步抽取;spacing、响应式、构建系统尚未定型。
HN 评论中最常见的主线是关于语义化与 CSS 技能。有长期从事可访问性教学的开发者指出 Tailwind 颠倒了 HTML 与 CSS 的思考顺序——应先写表达含义的标记,再用 CSS 风格化;Tailwind 让人变成 CSS 优先,并倾向于额外塞 div 来挂载 class。许多人认为 Tailwind 支持者的论点(“否则 CSS 会变成无人维护的 !important 大杂烩”)反映的是 CSS 技能不足,而非 CSS 本身的问题。
也有务实的反对意见:Tailwind 的生产环境最小化裁剪非常省心,在 Next.js 等框架中自动完成;CSS Modules 则被作为更简单的命名空间方案推荐,可同时避免可读性差和 DevTools 调试不便的两大痛点。一些 Svelte/Vue 用户分享在 scoped style 中配合 @apply 使用 Tailwind 的折中写法。还有人感叹 2011 年的 SMACSS 早已给出类似答案却长期被忽视。许多评论者向 Julia Evans 的写作风格致敬,赞赏她”以分享而非炫耀”的姿态记录学习过程。
7. Scott Alexander:S 曲线并不会自动救你
Astral Codex Ten 的 Scott Alexander 反驳了 AI 讨论中常见的论调——“所有指数最终都会变成 S 曲线”。该说法技术上正确:没有任何过程能无限增长,物理或实际限制终会让曲线趋平。流行病感染总数、飞行速度纪录(从螺旋桨到涡喷再到冲压发动机,多代技术叠加最终在约 3500 km/h 触顶)都是经典案例。
但 Scott 指出,问题在于:S 曲线的拐点不一定恰好出现在”分析者此刻”。他列出”S 曲线误判名人堂”:第三名是联合国对生育率下降国家的预测——红线是真实数据,每年蓝线都预测下降会趋缓,结果年年继续线性下滑;第二名是 IEA/WEO 对光伏装机的预测,每年都觉得”明年增速会平下来”,每年都被打脸;第一名是 Wharton 团队对 METR AI 能力曲线的拟合,论文发表后下一个模型直接超出他们的预测带。
文章给出一种”无知者默认值”——Lindy 定律:在缺乏对底层机制理解的前提下,一个趋势的预期剩余时长大约等于它已经持续的时长。他用直觉实验说明:路过一处标牌写着”上次喷发于 10 万年前”的间歇泉,下一小时再次喷发的概率极低;而标牌写”10 分钟前刚喷过”的,下一小时再喷可能性就高。应用到 AI:若以 2019 年作为”scaling 时代”起点,朴素 Lindy 估计大约还能再延续 7 年,按 Pareto 分布,少于 2 年就停止的概率约为 22%。
因此他主张,主张”AI 永远不会到达某个可怕水平”的一方必须承担举证责任:要么明确给出机制模型(数据中心增长、算法进步速率等),并与 AI Futures Timeline Model 等已有建模工作对照说明分歧;要么承认这是黑箱,但那样默认值就应该是 Lindy 定律。
HN 讨论中,一种主流观点是:没有人能真正预测拐点,能精准预测的人早已成为世界首富,因此结论是”承认不确定性”而非选边站;个人投资策略应做分散对冲。Lindy 定律本身受到喜爱,但也有人指出文章作者公开押注 AGI 在 1–2 年内出现、个人立场偏向”趋势会持续”,不能把 Lindy 当作中立工具。有评论者从硬件角度反驳”Moore’s law 已是衰减 S 曲线,AI 也会随之降速”的悲观说法,认为模拟矩阵乘、忆阻器等仍有大量未释放的硬件红利。也有人从 Nvidia 数据中心收入三年增长 15 倍但市值并未相应地继续狂飙的事实出发,认为市场已经在为”sigmoid 即将到来”定价——硅产能等限制因素正在显现。还有评论从根本上质疑当前基准衡量的是否真是”智能”,认为神经网络只是擅长被定义清楚的函数逼近任务,与真正的智能存在质的不同。
8. 粪便菌群移植治疗自闭症的临床试验取得长期效果
亚利桑那州立大学的研究团队针对自闭症儿童常见的胃肠道问题,开展了粪便菌群移植(FMT)的临床试验。这一研究基于肠道菌群与脑功能之间日益被关注的联系——研究者已发现肠道微生物与抑郁、PTSD、自身免疫疾病等多种状况相关。初始的小规模开放标签试验(n=18)显示出令人惊讶的结果:治疗前83%的参与者属于”重度”自闭症,两年后这一比例降至17%,39%属于轻中度,44%已低于轻度ASD的临界值。研究团队已将该方法推进至第三期人体试验,并由Rosa Krajmalnik-Brown等人成立了名为Gut-Brain Axis Therapeutics的商业公司,并申请了特定菌群配方的专利。
HN评论区对该研究持相对谨慎的态度。多位评论者指出,许多小规模试验在更大规模、设计更严格的复制试验中往往无法重现惊人效果,典型模式是开放标签试验展示极佳结果,第二阶段勉强超过安慰剂,第三阶段则陷入p值操纵。有人查到该试验在clinicaltrials.gov上注册为NCT03408886,n=60并设有安慰剂组,结果已提交但质量审查未完成。
另一类讨论聚焦因果机制:自闭症儿童常有极度挑食的饮食习惯(有评论提到一位只吃Wheat Thins饼干三四年导致坏血病的案例),单一饮食必然导致肠道菌群结构偏斜,FMT可能通过恢复菌群多样性帮助消化新食物。还有评论提出更具批判性的解读:标题具有误导性,原文核心其实是”改善胃肠道症状后行为改善”,因为胃肠不适本身是高度应激源,自闭症人士在压力下更难”伪装”(masking),缓解胃肠问题让其更容易掩饰症状,而非真正”治愈”自闭症。
还有评论者注意到大学研究者用公共经费做出发现后申请专利成立营利公司的做法,质疑公众利益的归属问题。也有人由此联想到IBD(结肠炎)的研究路径——从被视为自身免疫病逐渐转向菌群与遗传因素。多数评论者强调自闭症是高度异质的状态,遗传基础显著,FMT不应被理解为治愈方法,而可能对特定亚群有帮助。
9. 非Apple非Google智能手机选购指南
The Register 这篇文章针对 Google 即将于 2026 年 9 月推行的 Android 开发者强制验证机制(将屏蔽未在 Google 注册并提交身份证明的开发者所发布的应用),整理了一份现有的”去Google化”手机厂商清单。Keep Android Open 运动正以倒计时的方式呼吁关注此事,同时 Google 也在调整 AOSP 源码的发布频率,给独立 Android 发行版制造者增加难度。
文章列举了若干主要选择:Murena 销售搭载 /e/OS 的手机和平板,并与可修复性获 iFixit 满分的 Fairphone 合作;瑞士设计风格的 Punkt 提供从极简功能机 MP02 到隐私手机 MC03 的产品线;德国 Volla 提供自家去Google化 Android 或 Ubuntu Touch;芬兰 Jolla 仍在销售搭载 Sailfish 5 OS 的 C2 手机;Furilabs 推出基于 Debian 的 FLX1 与更轻薄的 FLX1s;Purism 的 Librem 5 走纯自由软件路线但配置较低、价格较高;Pine64 的 PinePhone 及 postmarketOS 面向爱好者群体。
HN评论区最集中的反馈是:买这类手机不是问题,但要在现代社会”活下去”才是难题。银行、政务、身份认证、邮政、公交等关键服务越来越依赖只在 Google Play 与 App Store 分发的应用,缺少其中任何一个可用替代就会被迫回到主流手机。即将引入的基于 QR 的 reCAPTCHA 被视为又一道高墙。
不少评论批评文章遗漏了 GrapheneOS——许多人认为搭载 GrapheneOS 的 Google Pixel 才是目前安全性、更新速度和组织成熟度上最好的”非Google”方案,颇具讽刺意味的是它运行在 Google 自家硬件上。有评论介绍华为 HarmonyOS 的设备/笔电融合体验,但也指出销售人员都不建议在其上装 Google 应用。Librem 5、Ubuntu Touch、Jolla Sailfish 各有拥趸。还有人感叹手机生态多样性严重不足,怀念 Windows Phone 和诺基亚时代,并提出能否把 Android 跑在服务器容器里、用 scrcpy 远程访问的设想。
10. P2P法甲基苯丙胺:产量激增与化学差异之辨
- 原文: https://dynomight.net/p2p-meth/
- HN: https://news.ycombinator.com/item?id=48155324
- 得分: 183
- 评论: 220
这篇 2021 年的文章回应记者 Sam Quinones 的观点:美国街头甲基苯丙胺(meth)从基于麻黄碱的合成转向基于苯丙酮(P2P)的合成路线,可能正是导致用户出现严重精神异常、流落街头的原因之一。Quinones 描述”老 meth”像派对毒品,使用者尚能维持工作生活;而”新 meth”令人封闭、孤僻、滋生妄想。作者从公开数据切入,考察这一说法的化学证据。
DEA 数据显示,美国在 2006 年限制伪麻黄碱非处方销售、墨西哥于 2008 年禁售后,meth 生产在 2009 至 2012 年间几乎完全转向 P2P 路线。P2P 合成会同时产生 d-meth(产生欣快感的活性异构体)和无显著精神活性的 l-meth,初期 d-meth 占比偏低,但到 2019 年几乎全部为 d-meth;同时 DEA 数据显示街头 meth 的纯度达到历史高点,平均约 95% 的 d-meth 含量。P2P 的合成方法本身也多次切换:2009 年起以 EtPA→PAA 路线为主,2014 年前后转向硝基苯乙烯(NTS)路线,2018 年后又回到 PAA。值得注意的是,铅醋酸盐仅在 PAA 路线中使用,而 2014–2018 年其用量反而较少,因此”铅污染导致精神分裂”的假说与时间线不符。
作者倾向于认为,并不需要诉诸特殊化学差异来解释问题,更简单的解释是 meth 数量与重度使用者数量大幅上升——量变即质变。
HN 评论区争论激烈。一类观点支持监管化合法供应:麻黄碱路线一步法简洁干净,多步 P2P 路线增加了奇怪溶剂与杂质渗入的可能性,禁令反而把市场让给了道德最差的地下生产者,与芬太尼对比鲜明。另一类观点强调三件事:meth 高度成瘾且无有效药物干预、具有神经退行性损伤、2010 年前后多个城市对弱势群体集中区域的公开使用与贩卖采取放任态度,三者叠加才是灾难根源。也有人指出文中描述的”封闭、妄想”恰恰就是任何兴奋剂重度成瘾后期的典型表现,未必需要化学差异来解释;还有人提出即便纯 d-meth 也可能诱发精神分裂。一些评论者注意到街头 meth 纯度曲线与《绝命毒师》播出时间惊人吻合。
11. NVIDIA 发布 SANA-WM:2.6B参数开源世界模型生成一分钟720p视频
- 原文: https://nvlabs.github.io/Sana/WM/
- HN: https://news.ycombinator.com/item?id=48159445
- 得分: 284
- 评论: 117
NVIDIA Labs 公布了 SANA-WM,一个 2.6B 参数的开源”世界模型”,可基于单张图像与相机轨迹生成 720p、长达一分钟、可控的视频,推理可在单张 GPU 上完成。其架构包含四项核心设计:混合线性注意力(将逐帧 Gated DeltaNet 与周期性 softmax 注意力配合,以低内存代价维持长上下文一致性);双分支相机控制(粗糙全局位姿分支加上像素对齐的几何分支,实现高保真 6-DoF 轨迹跟随);两阶段生成流水线(在长时序主干输出之上叠加一个 17B 参数的长视频精修器以提升纹理、运动与后段质量);以及鲁棒的标注流水线(从公开视频中提取精确的米制 6-DoF 相机位姿监督)。
训练仅使用约 213K 个带米制位姿监督的公开视频片段,64 张 H100 上耗时 15 天即完成;推理上,单张 H100 可生成一段 60 秒片段,其经过 NVFP4 量化的蒸馏版本能在单张 RTX 5090 上 34 秒内去噪生成 60 秒 720p 视频。官方称其在一分钟世界模型基准上的动作跟随精度优于先前开源基线,视觉质量可比商业大模型 LingBot-World 和 HY-WorldPlay,吞吐量则高出 36 倍。
HN 评论区氛围混合。多位评论者对 2.6B 规模能生成如此长度与一致性的视频表示惊讶,但也指出该模型严重依赖那个额外的 17B 精修器,并非真正纯 2.6B。另一类讨论质疑”开源”定位:权重页面显示”models soon”,被批评为期货状态。也有评论关注视觉效果——许多生成片段看起来”像 Unreal Engine 渲染”,推测训练数据大量使用游戏引擎合成数据。
一位评论者从游戏设计的角度提出更深层的疑问:FromSoftware 等开发商的世界依靠强烈的”刻意性”(intentionality)打动玩家,每件物品都有目的;当前最强 LLM 在写作和代码上都做不到这种刻意性,难以想象世界模型如何让人类创作者以模块化方式注入这种意图。还有人追问”世界模型”中”世界”的实质——它是否真有抽象的物理空间表示(如场景图),还是仅指生成的视频在物理上更连贯。也有人指出第一段雪山视频的洞口存在明显的一致性问题,并质疑长期实用价值究竟在哪里。
12. 重读 Charles Stross 的 Accelerando(2005)
Charles Stross 发表于 2005 年的科幻长篇《Accelerando》以 Creative Commons 协议在网络免费提供,由九个最初刊载在 Asimov’s 杂志的中短篇构成,分为”慢起飞”、“拐点”、“奇点”三部分。小说追踪 Manfred Macx 一家三代人,在技术加速直至奇点的进程中横跨数十年与多个星系,描绘了上传意识、虚拟经济、智能化法人机构与后人类社会的种种细节。开篇章节”Lobsters”中,Manfred 戴着增强现实眼镜在阿姆斯特丹街头穿梭,把灵感免费送给陌生人变现,这一意象近二十年后被读者反复重读。
HN 评论区以”预言成真”的惊叹为主基调。一位评论者列举了多个对应点:第一部主角通过眼镜中的智能代理调度信息与任务,与今天的 AI 助手吻合;他对代理深度依赖,一旦失去眼镜便无法运作——正是当下讨论的”技能萎缩”问题;书中企业由 AI 代理运营,彼此每秒互相起诉数千次以耗尽对方算力资源,被视为不远的未来。另一段被反复引用的细节是俄罗斯口音的 AI 通过下载《天线宝宝》和《芝麻街》自学语言。
也有评论者重读后给出截然不同的感受:年轻时被其未来主义高潮所打动,年长后才意识到这本书本质上是一出悲剧——人性中重要的部分在追赶技术演进的过程中被冲刷殆尽。多位评论者认为前三个中短篇(Lobsters/Troubadour/Tourist)最具冲击力,那种”快进键被按死”的密度与抛掷创意的奢侈感是 Stross 写作生涯的高峰,越往后越像传统太空歌剧。
读者们顺势开列了相近气质的科幻推荐:Hannu Rajaniemi 的《量子小偷》系列被认为同样以”可信的怪异”勾勒未来;Vernor Vinge 的《Rainbows End》《A Fire Upon the Deep》、David Marusek 的《Counting Heads》、Ramez Naam 的《Nexus》、Olaf Stapledon 的《Star Maker》等被列为奇点前近未来预测的优秀作品。也有人感慨当年读到”博客被 Slashdot 挂掉”这种梗时不觉得有任何不妥,如今 slashdotting 与无所不在的影像监控眼镜本身已成双重时代错位。
13. “我们把世界搞得太复杂了”——一篇关于现代生活的随笔
这是一篇短小的个人化随笔。作者坦言:自己正在用永远不可能完全理解的技术,在永远进不去的房间里,写文章于一个无法掌控其法律的国家。绝大多数清醒时刻都耗在了一个被压缩、抽象化的”世界”里:出门即踏入分区规划的人行道、被金属怪兽(汽车)夹道、在陌生人海中漂流。
作者认为这种环境带来的环境破坏、操纵与腐败给所有人施加了潜意识层面的压力,体现为紧咬的下颌、变浅的呼吸、缓慢上升的血压。他援引关于 Demis Hassabis 与 DeepMind 的纪录片《The Thinking Game》中”AGI 是人类问题的终极救赎”这种叙事,对此持怀疑态度,认为人类擅长说服自己正在做好事。他承认有过想把笔记本电脑沿铰链折断、把手机扔进海里、永远不再用钱与文字的冲动,但这样做就会被视为孤独的疯子。文章结尾以一种近乎归隐的笔调收束:也许人类给世界与自己最大的礼物,就是尽可能少做事——看鸟、感受风与水、饿时吃、乐时笑、空虚时哭。
HN 评论区的主流反应是反驳作者的历史无知。一位评论者指出,homo sapiens 走到哪里物种灭绝就跟到哪里,远在所谓”复杂技术”出现以前数千年;古希腊词 biblos 源自盛产莎草纸的黎凡特地区 Byblos,而那里早已被人砍伐殆尽变为荒漠;伊朗、阿富汗在赫梯与巴比伦时代是绿地。批评者认为文章”我们”用得过于轻率,带有一种自命不凡的高姿态,类似 Jamestown 时期布道录音中对”今日世界”的惊呼,本质上是千禧年主义与末日论的当代翻版。
也有评论者从不同侧面回应:人体本身就极端复杂、社会其实驯服了大量自然的混沌;远程白领工作之所以让人感到”一切都太复杂”,是因为工作回路开合周期太长、抽象,相比之下面包师、自行车修理工面对的是即时、本地、闭环的真实问题。还有人引用《上帝也疯狂》中关于文明人不去适应环境反而改造环境、子女不得不花十几年学习如何在自我创造的复杂栖息地中生存的台词。也有人推荐 Adam Curtis 纪录片《HyperNormalisation》——政客与科技乌托邦主义者面对真实复杂性时选择退缩,构建了一个简化版的虚假世界以维持权力。
14. HTML列表的全部用法:远不止 ul 与 ol
这篇”You don’t know HTML”系列的第二篇围绕 HTML 中所有”把内容集合在一起”的标签展开,远超 MDN 与 W3Schools 入门页的范畴。作者指出 HTML 实际上提供五种列表:有序(ol)、无序(ul)、描述(dl)、菜单(menu)、以及”控制类列表”——也就是表单中的 select/option 与 input/datalist 组合。
作者直接给出选择指南:若是单一控件供用户输入数据,从固定选项中选择就用 select+option,若是给开放输入提供建议就用 input+datalist;若调换条目顺序会改变列表含义则用 ol;若条目是键值对则用 dl;若条目是触发界面动作的控件则用 menu;其余用 ul。文章深入挖掘了若干被忽视的特性:select 配合 multiple 属性原生支持多选,无需 ARIA 角色;optgroup 可分组并可加 disabled 整组禁用;datalist 让 input 获得自动补全提示但不限定用户输入;menu 元素在语义上专用于命令型条目而非导航。
HN 评论区高度肯定文章信息量,许多前端工程师承认即便从业多年也学到了新东西。但讨论焦点之一是兼容性短板:datalist 在移动版 Safari 上表现糟糕,optgroup 的 disabled 属性在移动 Safari 上不生效,仍可选中所谓被禁用的项;考虑到 iOS Safari 的市场份额,这令几个特性在生产环境几乎不可用。另一被广泛吐槽的痛点是浏览器原生缺少”select + 搜索”的组合控件,datalist 又因为用户事先看不到全部选项而难以替代,加上 select 与 datalist 的默认外观难以定制,设计师往往不接受。
一些评论者从行业现状出发感叹:新一代开发者直接进入 React 生态,从未系统学过 HTML,配合 LLM 之后更不会回头补语义化标签,结果是简单 HTML 能解决的场景被堆成组件树。也有评论者第一次见到 menu 元素,好奇为何主流框架很少使用;有人提出 HTML 是否存在能强制执行”语义化标签选择”的 linter。还有评论者指出文中将 dl 称为”description list”是早期 HTML5 的旧说法,技术上为定义列表(definition list)。
15. OpenClaw 作者一个月在 OpenAI tokens 上花了 130 万美元
- 原文: https://twitter.com/steipete/status/2055346265869721905
- HN: https://news.ycombinator.com/item?id=48159227
- 得分: 134
- 评论: 149
Peter Steinberger 在 X 上展示了其 CodexBar 工具的最新更新,界面上显示其过去 30 天的 OpenAI API 调用原始成本高达约 130 万美元,引发 HN 大量讨论。根据他后续澄清,这一数字是在启用”fast mode”情况下的原始 API 报价;若关闭 fast mode 大约为 30 万美元。作为 OpenAI 员工,他实际享有内部无限用量,并非自掏腰包。CodexBar 是一款 macOS 菜单栏工具,会复用浏览器 cookie、Keychain 和已有 OAuth 会话来代表用户访问各类 AI 服务,本质上是一种本地的会话中间层,工具页面也明确披露其需要”完全磁盘访问”和 Keychain 权限。
HN 评论的焦点大致分几类。一是质疑这种”烧 token 数量”逐渐成为开发者圈内的炫耀指标,讽刺软件行业一边抱怨管理层用代理指标衡量生产力,一边自己也陷入以美元开销为荣的怪圈。二是从商业可持续性角度类比 dot-com 泡沫,指出当前 AI 用量大量由 VC 和大厂交叉投资补贴,OpenAI、Anthropic 等若走向 IPO 必须直面真实成本与收入结构,订阅制定价(如 200 美元/月的 Codex 套餐对应数千美元 API 用量)显然有大量补贴成分。三是技术与生产力质疑:单人月消耗约 600B tokens 的级别意味着大量自动化 agent 在后台跑,有人调侃”5 个人类工程师永远不会忘记上下文”,也有人指出没有顶级模型时 agent 能力会急剧下降,因此他不得不持续使用最贵的模型。还有评论认为这种用法类似开发者用顶配设备测试给低端用户的应用,脱离了普通用户成本现实。
16. Windows 9x Subsystem for Linux:在 Windows 95/98 上跑 Linux
- 原文: https://codeberg.org/hails/wsl9x
- HN: https://news.ycombinator.com/item?id=48120162
- 得分: 207
- 评论: 91
名为 wsl9x 的项目把”WSL”的概念反过来做:在 Windows 95/98 这类古董系统上提供一个运行 Linux 二进制的子系统层,让老式 9x 机器能够借助现代 Linux 内核与用户态程序工作。项目托管在 Codeberg/Forgejo 上(原文链接因法律原因对 Jina Reader 返回 451,未能抓取详细技术描述)。从评论判断,其思路与早期的 coLinux 颇为相似,依赖 Pentium 级硬件和约 128MB 内存的配置,并且作者明确标注”Proudly written without AI”。
HN 讨论中,许多人首先被 Codeberg 干净的界面吸引,调侃以为是 GitHub 改版。技术向评论关注 Linux 内核在 2026 年仍然支持 i386/i486/i586 等老架构这件事本身——这种长尾支持正在被各发行版逐步淘汰,而该项目让这些老设备依然能跑上较新的用户态软件。也有评论认为标题语序值得商榷,按惯例应叫”Linux Subsystem for Windows 9x”。围绕用途,一部分人不解为何还有人愿意为 Win9x 投入如此复杂的工程,另一些人则提出有趣场景:作为”父母电脑”上的稳定低维护系统,或纯粹的复古爱好与技术挑战。还有评论感慨,如果这种东西在 90 年代后期就存在,许多操作系统与生态的走向可能完全不同。整体氛围以欣赏怀旧 hack 精神为主,技术讨论相对克制。
17. 鸟类视网膜如何在没有血管供氧的情况下工作
Quanta Magazine 报道了 Aarhus 大学进化生理学家 Christian Damsgaard 团队发表于 Nature 的研究,解释了鸟类视网膜这一长期谜题。视网膜是动物体内最耗能的组织之一,单位质量耗能是普通脑组织的 2–3 倍,因此大多数脊椎动物(包括人类)视网膜布满血管来供氧。但鸟类视网膜几乎没有血管,却仍支撑着动物界中最敏锐的视觉之一,长期以来研究者推测它必有某种特殊的供氧机制,并把焦点放在 17 世纪起就被描述的神秘结构 pecten oculi(栉膜)上,关于该结构的功能假说有 30 余种。
研究团队使用微型氧探针直接测量斑胸草雀、鸽子和鸡视网膜的氧含量,发现没有血管的内层视网膜根本不消耗氧气,而是依赖效率远低于有氧呼吸的厌氧糖酵解——每个葡萄糖只产生 2 个 ATP,而有氧途径可达约 30 个。换言之,鸟类是以”低效但够用”的方式驱动这块高耗能组织。文章指出这一发现可能对中风等缺氧治疗研究有启示,也刷新了对生命代谢极限的认识。
HN 讨论中有几条值得注意。一是有人引用研究指出癌细胞同样常用厌氧糖酵解,提出癌症可被理解为细胞回归更古老的单细胞行为模式。二是有人对比章鱼眼与脊椎动物眼的”反向布线”问题——鸟眼虽无血管遮挡,但仍保留神经在感光细胞上方的脊椎动物结构和盲点。三是不少评论质疑”低效”一词:去掉血管换来更清晰的视野,从整体系统看反而是更优的权衡,体现了进化对整体功能而非单一生化效率的优化。也有人对”视网膜耗能极高”这一事实感到豁然开朗,解释了高心率或晕厥前会先失去视觉的现象。
18. DeepSeek-V4-Flash 让 LLM steering(激活向量引导)重新变得有趣
- 原文: https://www.seangoedecke.com/steering-vectors/
- HN: https://news.ycombinator.com/item?id=48160807
- 得分: 193
- 评论: 66
Sean Goedecke 撰文讨论 LLM “steering”——即在推理过程中直接修改模型内部激活向量来引导输出风格或概念表达。该技术最早因 Anthropic 的 Golden Gate Claude 演示走红:通过放大某个对应”金门大桥”概念的特征,使模型在任何对话中都强行扯回金门大桥。文章以 antirez 新发布的 DwarfStar 4 项目为切入点——这是一个精简版 llama.cpp 分支,专门跑 DeepSeek-V4-Flash,并把 steering 作为一等特性内建。因为 DeepSeek-V4-Flash 据称是首个在 agentic coding 上能与前沿模型低端竞争的本地可跑模型,steering 这种需要本地权重才能做的技术第一次对普通工程师变得可行。
文章介绍了两种 steering 实现思路:朴素方法是对成对 prompt(如普通版 vs. 加”请简洁回答”版)求激活差作为引导向量;更精细的方法则是用稀疏自编码器提取可解释特征。作者分析了 steering 一直没有大规模应用的原因:大厂可以直接训练模型,普通用户只能调 API 拿不到激活,而大多数基本用途又能被 prompt 直接替代。真正有价值的方向可能是”无法用 prompt 表达的概念”(如”智能”),或把概念从上下文压缩进隐式记忆(如”了解我的代码库”),但作者倾向认为这些复杂概念几乎与整套权重共延,最终会退化为”训练一个更好的模型”问题。
HN 讨论中,antirez 亲自出现澄清:DwarfStar 不是 llama.cpp 的精简分支而是独立项目,且 steering 功能已经能完全移除 DS4 的拒答行为,只是他出于谨慎暂未公开 steering 文件。多位评论指出文章漏掉了 steering 最主流的应用——abliteration(去除模型拒答,“大多数拒答都集中在单一向量上”),相关库已较成熟。也有人提到 Copilot 的 “steer with message” 是另一层 agent 级 steering,不要与激活级混淆;以及该方法与 representation engineering、control vectors 是同一脉络。还有人对 DeepSeek-V4-Flash 的实际表现持保留态度,称其幻觉率高于 Minimax M2.7。
19. Orthrus-Qwen3:双视图扩散解码,对 Qwen3 提速最高 7.8 倍且分布完全一致
- 原文: https://github.com/chiennv2000/orthrus
- HN: https://news.ycombinator.com/item?id=48154865
- 得分: 216
- 评论: 43
Orthrus 是一个针对 Qwen3 的并行解码框架,号称在保持输出分布与原模型严格一致(lossless)的前提下,将每次前向产出的 token 数提升最高 7.8 倍,实测 wall-clock 在 MATH-500 上加速约 6 倍。核心思路是在冻结的自回归 Transformer 每一层注入一个可训练的”扩散注意力”模块:扩散头一次并行预测 K=32 个 token,自回归头在第二次前向中验证并接受最长匹配前缀。两个头共享同一份 KV cache,因此没有像投机解码那样需要独立 draft 模型与额外缓存——KV 开销仅 O(1)(约 4.5 MiB)。训练只更新约 16% 的参数,使用不到 1B tokens、8×H200 上约 24 小时即可完成。官方放出 1.7B / 4B / 8B 三种 Qwen3 规模的 checkpoint,平均加速分别为 4.25×、5.20×、5.36×。
论文给出的对比包括:与扩散类 LM(Dream、Fast-dLLM-v2、SDAR、Mercury、Gemini Diffusion 等)相比,那些方法修改基座权重会带来明显精度损失(Fast-dLLM-v2 在 MATH-500 上下降 11 分),而 Orthrus 冻结基座因此精度与 Qwen3-8B 完全相同;与投机解码(EAGLE-3、DFlash)相比,由于没有 draft 模型,TTFT 没有额外开销,MATH-500 上 acceptance length 达 11.7,远高于 DFlash 的 7.9 和 EAGLE-3 的 3.5。
HN 讨论中,共同作者亲自发帖详述方案。多位评论好奇该方法能否带来真正的算力下降而不只是延迟下降、以及是否会被 OpenAI/Anthropic 等用于缓解高峰拥堵。也有人希望尽快支持 GGUF 和量化版 Qwen 3.6 / DeepSeek 4,以便本地运行。技术性质疑包括:既然能蒸馏出一个扩散 Transformer,为什么不直接全用扩散——回答指向”严格一致”这一约束本身的价值。也有人惊讶这种相对直观的想法此前没被实现,认为决策树式验证技巧在此同样适用。
20. Ploopy Bean:开源 3D 打印的独立 TrackPoint 指点杆
- 原文: https://ploopy.co/shop/bean-pointing-stick/
- HN: https://news.ycombinator.com/item?id=48114208
- 得分: 162
- 评论: 75
加拿大开源外设厂商 Ploopy 推出 Bean Pointing Stick,一款 3D 打印外壳、开源硬件的独立指点杆设备,售价 69.99 加元,目前处于预订阶段。它配备四颗 Omron D2LS-21 微动用作按键,运行 QMK 固件并支持 VIA 配置,出厂已组装好可直接使用。包装含 PCB、3D 打印的外壳与弹簧、磁铁、螺丝、摩擦垫等。值得注意的是,它并未采用经典 ThinkPad TrackPoint 那种基于 PCB 应变片的几乎零行程设计,而是用 3D 霍尔效应传感器 + 弹簧结构,因此实际具有可感知的物理位移,使用手感可能更接近游戏手柄摇杆而非传统指点杆。
HN 讨论以资深 TrackPoint 用户的批评为主。最高赞评论呼吁此类项目采用 6mm 直径的指点杆组件,以便兼容老款 IBM/Lenovo 的 Soft Rim 软边帽——作者称至今仍以 2012 年的 ThinkPad W520 作为主力机,正是因为其更舒适的 TrackPoint 帽子使其能长时间无不适地高强度打字;现代 ThinkPad 3mm 帽子需要更大手指压力。另一类批评集中在产品形态本身:TrackPoint 的精髓在于嵌入键盘 asdf/jkl; 区域之间,让手指无需离开主键位,而把它做成独立外设似乎违背了这一核心理念,且照片中也看不到适合滚动的按键布局。有评论推荐 UHK(Ultimate Hacking Keyboard)配套的指点杆/触控板/轨迹球模块,或 Tex Shinobi、Shura 这类带 TrackPoint 的键盘。也有人吐槽演示样品的 3D 打印质量明显有第一层挤出不均的瑕疵,希望厂方提供”只卖 PCB + STL 文件自己打印”的选项。还有人提出将其集成进 Raspberry Pi 400/500 边缘的有趣应用设想。