HN Daily Reading · 每日阅读

HN 每日深度阅读 · 2026-04-17

本期几乎是 AI 工具链的一次集中爆发:Claude、Qwen、Codex 和 Cloudflare 都在把智能体能力推向编程、安全、邮件和云平台。真正值得看的不是参数和榜单,而是这些工具开始接管更多真实操作后,开发者如何重新定义监督、信任与责任。

2026.04.17 20 篇摘录

共 20 篇 · 约 8,335 字 · 约 22 分钟读完

1. Anthropic 发布 Claude Opus 4.7:更强的编程能力与网络安全防护

Anthropic 正式发布了最新模型 Claude Opus 4.7,在高级软件工程领域相比 Opus 4.6 有显著提升,尤其在最困难的任务上表现突出。用户反馈称,以前需要密切监督的复杂编码工作,现在可以放心交给 Opus 4.7 处理。该模型擅长处理复杂的长时间运行任务,严格遵循指令,并能在报告结果前自行验证输出。

视觉能力方面,Opus 4.7 有了实质性提升,支持更高分辨率的图像识别。在专业任务中表现出更好的审美和创造力,能生成更高质量的界面、幻灯片和文档。虽然它不如 Anthropic 最强大的 Claude Mythos Preview 那样全面,但在多项基准测试中优于 Opus 4.6。

值得关注的是网络安全方面的处理。上周 Anthropic 公布了 Project Glasswing,讨论了 AI 模型在网络安全领域的风险与收益。Opus 4.7 是首个应用新型网络安全防护措施的模型——其网络攻击能力不如 Mythos Preview(训练中甚至刻意削弱了这方面能力),并配备了自动检测和阻止高风险网络安全用途的防护系统。合法安全研究人员可申请加入新的 Cyber Verification Program。

定价与 Opus 4.6 保持一致:输入 $5/百万 token,输出 $25/百万 token。多家早期测试机构的反馈非常正面,Hex 称其为”评测过的最强模型”,Devin 表示它”将长期自主性提升到新水平”,Cognition 称低投入的 Opus 4.7 大致等同于中等投入的 Opus 4.6。


2. 阿里通义千问开源 Qwen3.6-35B-A3B:3B 激活参数媲美大模型的编程智能体

继 Qwen3.6-Plus 发布之后,阿里巴巴开源了 Qwen3.6-35B-A3B——一个基于混合专家(MoE)架构的稀疏模型,总参数 350 亿但仅激活 30 亿参数。尽管如此高效,该模型在智能体编码(agentic coding)方面表现出色,大幅超越前代 Qwen3.5-35B-A3B,并与 Qwen3.5-27B、Gemma4-31B 等更大的密集模型不相上下。

在核心编程智能体基准测试中,Qwen3.6-35B-A3B 成绩亮眼:SWE-bench Verified 达 73.4(接近 27B 密集模型的 75.0),Terminal-Bench 2.0 达 51.5(甚至超过 27B 模型),QwenWebBench 前端代码生成得分 1397 远超同级别模型。在知识、推理和数学方面也保持了极高水准,AIME 2026 得分 92.7,GPQA 达 86.0。

视觉语言能力同样令人惊艳。仅用约 3B 激活参数,该模型在大多数视觉-语言基准上匹配甚至超越了 Claude Sonnet 4.5,特别是在空间智能方面表现突出(RefCOCO 达 92.0,ODInW13 达 50.8)。模型支持多模态思考和非思考两种模式,是目前最全面的开源模型之一。

该模型已在 Qwen Studio、Hugging Face 和 ModelScope 上线,支持本地部署和 API 调用(API 名称为 qwen3.6-flash)。这标志着开源社区在小激活参数下实现大模型能力的又一重大突破。


3. 一切的未来都是谎言:Kyle Kingsbury(aphyr)对 AI 时代的深度反思

分布式系统专家 Kyle Kingsbury(网名 aphyr,以 Jepsen 分布式数据库测试闻名)撰写了一篇长文系列的收尾章节,对 AI/ML 技术的社会影响进行了深刻而悲观的反思。作者将 AI 的影响类比汽车——我们都知道汽车很快,但真正值得讨论的是它如何重塑了城市形态、消灭了有轨电车、制造了郊区蔓延、给所有人铅中毒、成为年轻人的主要死因。

作者描述了自己已经身处的”AI 谎言未来”:搜索结果里充斥着 AI 垃圾内容,客服、承包商和工程师用 LLM 盲目地对他撒谎,电力公司因数据中心涨价,LLM 爬虫拖垮他运维的网站,合成的虐待动物视频、伪造的警察暴力网页、收件箱里的 AI 垃圾邮件、内容审核面板上的 AI 生成 CSAM(儿童性虐待材料)。他看到人们把工作、食物、旅行、艺术甚至人际关系都外包给 ChatGPT。

作为以阅读、思考和写作为核心技能的专业人士,他担心失去家园和生计。他引用研究指出 ML 辅助”降低了我们的表现和坚持力”,剥夺了亲手完成任务所带来的肌肉记忆和深层理论建构——James C. Scott 所说的”metis”(实践智慧)。

他的建议是:停止使用。拒绝用 LLM 写作,标记发给你的 AI 垃圾内容,停止为 ChatGPT 付费,加入工会抵制 Copilot 强制使用,呼吁国会立法严格监管 ML 公司的碳排放和数据使用。这篇文章引发了 510 条激烈讨论,反映了技术社区内部对 AI 影响的深度分裂。


4. OpenAI Codex 重大更新:桌面操作、图像生成、记忆与自动化全面升级

OpenAI 发布了 Codex 的重大更新,使其从代码助手进化为全面的软件开发伙伴。目前每周有超过 300 万开发者使用 Codex,新版本在四个关键方向上实现了飞跃。

桌面操作能力:Codex 现在可以通过”看、点、打字”的方式直接操作你的电脑,使用自己的独立光标,多个 Agent 可以在你的 Mac 上并行工作,互不干扰。这对前端迭代、应用测试等场景非常实用。

图像生成:集成 gpt-image-1.5 模型,Codex 可以在编码工作流中直接生成和迭代图像,用于产品概念、前端设计、原型和游戏开发。

插件生态:新增 90 多个插件,包括 Atlassian Rovo(JIRA管理)、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Neon by Databricks、Remotion 等,大幅扩展了 Codex 的上下文获取和跨工具操作能力。

记忆与自动化:Codex 现在可以记住用户偏好和历史上下文,自动为自己安排后续工作,甚至能跨越数天或数周持续推进长期任务。它还能主动建议工作起点,从 Google Docs 评论、Slack、Notion 和代码库中拉取相关上下文,生成优先级行动列表。

应用内还新增了浏览器、PR 评审支持、多终端标签、SSH 远程开发箱连接等功能。整体方向很明确:Codex 正在从”写代码的工具”演变为”管理整个软件开发生命周期的自主智能体”。


5. Cloudflare 推出 Email Service 公测:为 AI 智能体构建原生邮件基础设施

作为 Agents Week 的一部分,Cloudflare 发布了 Email Service 公测版,将邮件打造为 AI 智能体的原生通信通道。核心论点很简单:邮件是世界上最通用的接口,无需定制 SDK 或聊天应用,每个人都有邮箱地址,因此每个人都已经可以与你的智能体交互。

系统由两部分组成:Email Routing(接收邮件)和 Email Sending(发送邮件),结合 Cloudflare Workers 和 Agents SDK,开发者可以构建完整的邮件原生智能体。发送邮件只需在 Worker 中调用原生绑定,SPF、DKIM、DMARC 等认证记录全部自动配置,无需 API 密钥管理。

Agents SDK 的 onEmail 钩子让智能体可以接收邮件、持久化状态、执行异步工作流,然后在任意时间点回复。文章区分了”聊天机器人”和”智能体”的关键差异:聊天机器人即时回复或不回复,而智能体可以花一小时处理数据、检查三个外部系统,然后带着完整答案回复——它还能安排后续跟进、在检测到边缘情况时升级处理。

安全设计上,回复路由使用 HMAC-SHA256 签名防止攻击者伪造头部。配套发布了 Email MCP 服务器、Wrangler CLI 邮件命令、编码智能体技能以及开源的 agentic inbox 参考应用。对于正在构建客户支持、发票处理、账户验证等智能体工作流的开发者,这是一个值得关注的基础设施选项。


6. Codex 攻破三星电视:AI 首次完成从浏览器沙箱到 Root 的完整提权攻击链

安全研究团队 Calif.io 与 OpenAI 合作,记录了一项引人注目的实验:让 Codex 从三星智能电视浏览器应用的 shell 权限,一路提权到 root。研究者没有提供现成的漏洞或利用配方,而是搭建了一个 Codex 可以实际操作的环境,然后观察它能走多远。

实验环境包括五个关键组件:(1) 浏览器内的代码执行权限作为立足点;(2) 一台可以构建 ARM 二进制文件并与电视通信的控制主机;(3) 通过 tmux send-keys 驱动的 shell 监听器;(4) 三星 KantS2 固件的匹配源代码树;(5) 应对三星 Tizen UEP(未授权执行防护)的 memfd 内存加载器。

Codex 的工作流程是:审计源代码和会话日志 → 通过控制器向电视发送命令 → 从日志读取结果 → 在控制器上构建辅助工具 → 让电视获取并通过 memfd 执行。初始提示故意设置得很宽泛:“目标是找到漏洞,提权到 root。”

Codex 迅速锁定了一组暴露给浏览器 shell 的 world-writable ntk* 设备节点,这些来自联咏科技(Novatek)的驱动栈。当 /proc/iomem 被拒绝访问时,Codex 灵活地转向 /proc/cmdline 中的启动参数来重建 RAM 内存窗口。最终,它在 /dev/ntksys 中发现了 physmap 原语——一个接收物理地址和大小、将物理内存映射回用户空间的内核驱动接口,完成了从浏览器进程到 root 的完整攻击链。

这项研究展示了 AI 在安全研究中的潜力:不是替代安全研究员,而是在给定环境和工具后,能够独立完成枯燥的枚举、代码审计和利用开发循环。


7. Simon Willison 的鹈鹕测试:笔记本上的 Qwen3.6 画出了比 Opus 4.7 更好的 SVG

知名开发者 Simon Willison 继续了他标志性的”鹈鹕骑自行车” SVG 基准测试,这次对比了同日发布的两个模型:阿里巴巴的 Qwen3.6-35B-A3B 和 Anthropic 的 Claude Opus 4.7。

测试条件颇为悬殊:Qwen 使用 Unsloth 量化的 20.9GB Q4_K_S GGUF 模型,在 MacBook Pro M5 上通过 LM Studio 本地运行;Opus 4.7 则是 Anthropic 的最新旗舰闭源模型。结果出人意料——Qwen 画出了正确形状的自行车车架、有标志性喉囊的鹈鹕和天空中的云朵;而 Opus 4.7 搞错了自行车车架形状,即使开启 thinking_level: max 也没改善多少。

为了排除 Qwen 针对”鹈鹕骑自行车”这个已知测试作弊的可能,Simon 动用了一个秘密备用测试——“火烈鸟骑独轮车”。Qwen 依然胜出,SVG 里甚至贴心地加了一个 <!-- Sunglasses on flamingo! --> 的注释。

但 Simon 明确指出,这个测试一直是个玩笑——它主要说明的是比较这些模型有多荒谬。有趣的是,历史上 SVG 生成质量与模型整体实用性之间确实存在松散相关,但今天这个关联被打破了:他非常怀疑一个 21GB 的量化开源模型在整体能力上超过了 Anthropic 的最新旗舰。不过,如果你恰好需要一张鹈鹕骑自行车的 SVG 插图,在笔记本上跑 Qwen3.6 确实是个更好的选择。

8. AI 网络安全不是工作量证明

Redis 之父 antirez 发表了一篇关于 AI 在网络安全领域应用的深度思考文章。他指出,很多人将 AI 安全攻防类比为”工作量证明”(Proof of Work),认为谁拥有更多 GPU 算力谁就能赢。但这个类比是根本错误的。

在工作量证明中,找到满足条件的哈希碰撞是一个确定性问题——只要投入足够多的计算资源,最终一定能找到答案。但漏洞发现完全不同。antirez 用 OpenBSD 的 SACK 漏洞作为案例进行说明:这个漏洞需要理解窗口起始值缺乏验证、整数溢出、以及一个不应为 NULL 的节点被错误访问这三个因素如何组合在一起才能构成攻击。

他提出了两个关键洞察:第一,LLM 的不同执行路径最终会饱和——代码状态空间和模型采样路径都是有限的,增加推理次数不会无限产生新发现;第二,真正的瓶颈不是算力而是模型智能水平。一个能力不足的模型,即使运行无限次,也永远无法发现需要深层理解才能找到的漏洞。

更有趣的是,antirez 观察到一个反直觉的现象:中等能力的模型反而更容易”发现”漏洞——但那其实是幻觉,是模式匹配到了”看起来可能有问题”的代码片段。能力更强但仍不够强的模型反而会正确判断这些代码没有问题。只有真正顶级的模型才能理解这些看似无害的因素如何组合产生真实漏洞。

结论很明确:未来的 AI 网络安全竞争不是”谁的 GPU 多”,而是”谁的模型更聪明,谁能更快获取更强的模型”。


9. Cloudflare AI 平台:为 Agent 设计的推理层

Cloudflare 宣布将其 AI Gateway 和 Workers AI 整合为一个统一的推理平台,核心目标是解决 AI Agent 开发中的多模型管理难题。当前企业平均使用 3.5 个不同提供商的模型,成本监控和可靠性管理极为分散。

平台的核心功能包括:统一模型目录——通过一个 API 访问 12+ 提供商的 70+ 模型(包括阿里云、字节跳动、Google、OpenAI 等),切换模型只需改一行代码;统一计费——所有 AI 支出集中在一处管理,支持通过自定义元数据按用户、团队或工作流维度分析成本;以及”自带模型”功能——利用 Replicate 的 Cog 技术,用户可以将自己微调的模型容器化部署到 Workers AI 上。

对 Agent 场景特别重要的是延迟优化。简单聊天机器人每次用户输入只需一次推理调用,但 Agent 可能为完成一个任务链式调用十次模型。一个提供商慢 50ms,在 Agent 场景下就变成慢 500ms。Cloudflare 在全球 330 个城市的数据中心网络能最小化首 token 延迟,让 Agent 感觉更加灵敏。

此外,平台还为 Workers AI 上的开源模型增加了自动故障转移、更细粒度的日志控制等功能。模型目录也从纯文本模型扩展到图像、视频和语音模型,支持构建多模态应用。


10. 日本对特定签证申请者实施语言能力要求

日本政府宣布对特定类别的签证申请者实施日语水平认证要求(JLPT,日本语能力试验)。这一政策变化标志着日本在移民管理方面的一个重要转向。

长期以来,日本面临着严重的劳动力短缺问题,尤其是在护理、建筑、农业等行业。为此日本近年来逐步放宽了外国劳工的引入政策,包括 2019 年推出的”特定技能”签证制度。然而,语言障碍一直是外国劳工在日本生活和工作面临的主要挑战之一,也引发了社区融合方面的担忧。

新的语言能力要求旨在确保来日工作的外国人具备基本的日语沟通能力,从而更好地融入日本社会和工作环境。具体要求可能因签证类别而异,涉及不同等级的 JLPT 认证。

这一政策在 HN 社区引发了广泛讨论。支持者认为语言要求合理——在任何国家工作都应该具备基本语言能力,这有助于劳工自身的权益保护和社会融合。反对者则担心这会进一步加剧日本的劳动力短缺问题,因为 JLPT 考试本身准备周期长、考试机会有限,可能将急需的劳动力挡在门外。也有人指出,许多在日本工作多年的外国人实际日语水平远超考试能够衡量的范围,而考试成绩并不总能反映真实的沟通能力。

这一政策变化反映了日本在”开放引入劳动力”与”维护社会凝聚力”之间的持续平衡。


11. “被动收入”陷阱吞噬了一代创业者

Joan Westenberg 写了一篇辛辣的文章,剖析”被动收入”意识形态如何毒害了一整代本可能成为真正创业者的人。文章以一个真实案例开头:一个人花五个月在 Shopify 上做翡翠滚轮代发货(dropshipping),从阿里巴巴 1.2 美元进货、29.99 美元卖出,从未使用过产品,从未与客户真正交流,最终亏损 800 美元——还觉得自己发明了轮子。

作者将这种现象称为”被动收入大脑”(Passive Income Brain)。大约在 2015-2022 年间,“被动收入”从一个无聊的理财术语变成了一种救赎叙事——人们像期待宗教中的末日审判一样期待被动收入超过月度开支的那一天,这样就可以永远辞职。而真正赚到钱的人是那些卖”如何赚被动收入”课程的人。这是一条自我吞噬的蛇。

文章的核心论点是:当你把”被动”作为优化目标时,你就会停止关心客户真正需要什么——因为关心是主动的,关心需要时间,关心是工作。“在乎”(giving a shit)从定义上就不是被动的。

数据佐证了这种失败:2019-2021 年间约 70 万个新 Shopify 店铺开业,90% 在第一年内倒闭。互联网充斥着从未触碰过产品的 SEO 优化评测文章、六周发货时间的代发货店铺、以及名字总是全大写且莫名其妙地具有攻击性的白牌蒜泥器。

作者认为,运动的根本错误在于将”打造一个能规模化的好产品”与”构建任何能在你不参与的情况下提取金钱的机制”混为一谈。这种混淆不是意外的——它就是目的。因为教人做真正的生意需要面对”到底有没有人需要你卖的东西”这个无聊而困难的问题,而教”被动收入流”可以跳过这一切,直奔有趣的战术环节。


12. Artifacts:会说 Git 的版本化存储

Cloudflare 推出了 Artifacts——一个为 AI Agent 优先设计的分布式版本化文件系统,核心特色是”说 Git 协议”。在 Agent 时代,代码生成量呈指数增长(未来 5 年写的代码将超过编程历史上全部代码量),现有源码管理平台是为人类设计的,面对永不休息、同时处理多个任务的 Agent 已经不堪重负。

Artifacts 的核心理念是:Agent 天生理解 Git——Git 深深嵌入了大多数模型的训练数据中。与其发明新协议(面临模型不认识、需要分发 CLI 或技能文件的冷启动问题),不如直接给 Agent 一个带认证的 HTTPS Git 远程 URL。创建仓库只需几行代码,支持从 GitHub 导入、创建只读 fork、编程式提交等操作。

技术实现上,Artifacts 构建在 Durable Objects 之上,利用其天然支持数百万有状态隔离计算实例的能力。最引人注目的技术选择是用 Zig 编写了一个完整的 Git 协议引擎,编译为约 100KB 的 WASM 二进制文件,实现了 SHA-1、zlib 压缩/解压、delta 编码/解码、pack 解析和完整的 Git Smart HTTP 协议——零外部依赖。

除了源码管理,Artifacts 的 Git 数据模型还适用于任何需要追踪状态、时间旅行和持久化大量小数据的场景。Cloudflare 内部已经用它来持久化 Agent 沙箱的文件系统状态和会话历史,实现了会话分享、时间回溯、以及最强大的功能——从任何时间点 fork 会话,让协作者接手继续工作。Artifacts 目前处于私有测试阶段,计划 5 月初公开测试。


13. MacMind:在 1989 年的 Macintosh 上用 HyperCard 实现 Transformer

这是一个令人叹为观止的 Show HN 项目:MacMind 是一个完全用 HyperTalk(1987 年的脚本语言,为制作交互式卡片堆栈设计,完全不是为了做矩阵运算)编写的 1,216 参数单层单头 Transformer 神经网络,可以在 Macintosh SE/30 上训练和推理。

模型学习的任务是比特反转排列(bit-reversal permutation)——快速傅里叶变换(FFT)的第一步。它从随机样本中学习这个规则,完全不被告知规则本身。模型包含 token 嵌入、位置编码、带缩放点积的自注意力机制、交叉熵损失、完整的反向传播和随机梯度下降。没有编译代码,没有外部库,没有黑箱。

项目最精彩的部分是:训练完成后,注意力权重矩阵呈现出 FFT 的蝴蝶结构(butterfly pattern)——模型独立发现了 Cooley 和 Tukey 在 1965 年发表的相同数学结构。位置 0、2、5、7 自我关注(置换的不动点),而位置 1 和 4 互相关注、位置 3 和 6 互相关注(交换对)。

作者强调了这个项目的教育意义:训练 MacMind 的基本过程——前向传播、损失计算、反向传播、权重更新、重复——与训练当今所有大语言模型的过程完全相同。差异在于规模,而非本质。MacMind 有 1,216 个参数,GPT-4 大约有一万亿个。数学是一样的。在 AI 影响几乎所有人但几乎没有人理解它实际做什么的时代,这个项目证明了这个过程是可知的——反向传播和注意力机制不是魔法,它们是数学。Option+点击任何按钮就能看到实际的数学公式。


14. 欧盟公务员被迫离开 WhatsApp

Politico 报道了欧盟机构正在推动公务员从 WhatsApp 转向其他通讯工具的趋势。这一转变背后有多重驱动因素。

首先是数据主权和隐私担忧。WhatsApp 由 Meta 拥有,虽然提供端到端加密,但其元数据收集实践和与 Meta 生态系统的数据共享政策一直引发欧洲监管机构的警惕。欧盟作为全球数据保护法规(GDPR)的制定者,让自己的公务员大量使用美国科技巨头的通讯工具,在光学上和实质上都存在问题。

其次是安全性考量。多个欧盟成员国此前已经对政府官员使用 WhatsApp 进行敏感通讯发出警告。虽然端到端加密理论上保护了通信内容,但设备层面的漏洞(如 Pegasus 间谍软件事件)证明了仅靠应用加密远远不够。

替代方案包括 Signal(因其更强的隐私保护和开源透明度受到青睐)、以及各国或欧盟自行开发的安全通讯平台。但转型面临实际困难:WhatsApp 在欧洲的渗透率极高,很多非正式的跨部门沟通长期依赖它,改变使用习惯需要时间。

这个话题在 HN 社区引发了关于通讯工具选择、政府 IT 基础设施、数字主权以及便利性与安全性权衡的讨论。不少评论者指出,问题的本质不仅是”用什么 App”,而是政府是否应该依赖任何商业通讯平台处理公务,还是应该建设和维护自己的通讯基础设施。


15. PHP 8.6 闭包优化:静态推断与无状态缓存

PHP 8.6 将引入两项针对闭包(包括箭头函数)的重要性能优化,该 RFC 已被投票通过并进入落地阶段。

第一项优化:静态闭包推断。 在类方法中定义的闭包,如果实际上没有使用 $this,PHP 引擎会自动将其推断为 static 闭包。这解决了一个长期存在的隐性性能问题——非静态闭包会隐式捕获 $this,导致对象与闭包之间形成引用循环,这些循环往往在整个请求生命周期内都不会被回收。推断规则设计得相当保守:如果闭包中使用了变量变量($$var)、动态方法调用、call_user_func()evalrequire 等可能间接访问 $this 的操作,就不会进行推断。在 Symfony Demo 项目的测试中,该优化成功推断了约 78% 的闭包为静态闭包。

第二项优化:无状态闭包缓存。 对于那些是静态的、不捕获任何变量、也不声明静态变量的闭包,PHP 会在首次创建后缓存起来复用,而不是每次都新建实例。在一个创建一千万次闭包的合成基准测试中,性能提升约 80%。更实际的场景中,Laravel 模板测试显示这两项优化可以避免 3637 次闭包实例化中的 2384 次,整体性能提升约 3%。

向后兼容性方面有三个需要注意的变化:ReflectionFunction::getClosureThis() 对推断为静态的闭包会返回 NULL;同一代码位置产生的无状态闭包现在会是同一个对象(=== 比较为 true);以及之前产生循环引用的对象可能会更早被回收。值得一提的是,Closure::bind() 对推断为静态(而非显式标记为静态)的闭包会静默忽略绑定对象而不是抛出异常,以避免因看似无关的代码变更导致的兼容性问题。

这是一个典型的”编译器帮你擦屁股”的优化——大多数开发者不会手动给闭包加 static,但引擎可以自动识别并优化。


16. Kampala(YC W26):逆向工程任意应用为 API

Zatanna 公司推出的 Kampala 是一款中间人代理(MITM Proxy)工具,定位是将任意软件的工作流逆向工程为可编程的 API,专为 AI Agent 时代设计。

Kampala 的核心能力包括:全量流量拦截——实时查看任何应用或浏览器发出的每一个 HTTP/S 请求;认证链追踪——自动映射 token、cookie、session 以及多步骤认证序列;流程回放与导出——捕获操作序列并将其回放为稳定的自动化流程;指纹保持——维持原始的 HTTP/TLS 指纹,使拦截后的流量行为与原始流量完全一致。

这个产品解决的是一个真实的痛点:很多遗留系统没有开放 API,或者 API 不完整,而 AI Agent 需要与这些系统交互。传统的方式是写爬虫或者用浏览器自动化,但这些方法脆弱且难以维护。Kampala 的思路是从网络层切入,通过分析实际的 HTTP 流量来理解应用的通信协议,然后将其转化为可重复调用的 API。

目前 Kampala 仅支持 macOS,Windows 版本在等候名单中。作为 YC W26 的项目,它属于”Agent 基础设施”赛道——不是直接做 Agent,而是为 Agent 提供与现有软件世界交互的桥梁。HN 评论区有 59 条讨论,可能涉及与 mitmproxy 等开源工具的对比、安全隐忧以及实际使用场景。


17. Android CLI:用任意 Agent 3 倍速构建 Android 应用

Google Android 团队正式推出了一套面向 Agent 工作流的新工具集:Android CLIAndroid SkillsAndroid Knowledge Base,目标是让 Claude Code、Codex、Gemini CLI 等任意编码 Agent 都能高效地进行 Android 开发。

Android CLI 是核心组件,提供了环境配置(android sdk install)、项目创建(android create)、模拟器管理(android emulator)和应用部署(android run)等命令。在内部测试中,使用 Android CLI 相比 Agent 自己摸索标准工具,token 消耗减少超过 70%,任务完成速度提高 3 倍。这个数据很有说服力——Agent 在没有专用工具时,大量 token 浪费在理解构建系统、查找正确命令等”导航”工作上。

Android Skills 是一个 GitHub 仓库,包含模块化的 SKILL.md 指令集,覆盖 Navigation 3 迁移、Edge-to-Edge 支持、AGP 9 迁移、XML 到 Compose 迁移、R8 配置分析等常见工作流。这些 Skill 可以被 Agent 自动触发,确保遵循最新的最佳实践。

Android Knowledge Base 则是一个可搜索的官方开发者指南数据源,通过 android docs 命令访问,让 Agent 始终基于最新官方文档生成代码。

这标志着平台方开始认真对待”Agent 开发者体验”——不是把 Agent 当作 IDE 的替代品,而是为 Agent 提供原生的、高效的接口。Google 強调这些工具是 Android Studio 的补充而非替代,开发者可以在命令行 Agent 环境中开始,随时切换到 Android Studio 获取更完整的工具支持。


18. 六个字符:解码航空订票系统的底层数据结构

这是”Iron Core”系列的第二篇,深入解析了航空业每年承载 45 亿旅客的六十年历史基础设施——PNR(Passenger Name Record,旅客姓名记录)系统。

文章从作者自己的 Air India 机票出发,逐层拆解了那个六位字符的订票编号(PNR Locator)背后的世界。一个关键事实是:PNR Locator 并非全局唯一。它只在创建它的 GDS(全球分销系统,如 Amadeus)内部唯一,不同 GDS 之间完全可能出现相同的六位编号指向不同旅客。这就是为什么航空公司还维护自己独立的 Record Locator。

IATA 推荐实践 1830 规定了 PNR 的五个必填元素:旅客姓名(NM)、行程(IT)、联系方式(AP)、出票状态(TK)、操作人(RF)。令人惊讶的是,护照号、支付信息、座位偏好、常旅客号码——这些都是可选字段。这五个必填项的设计源于 1964 年 American Airlines 的需求:数据结构必须能在电传网络上传输、毫秒级处理、存储在固定大小的内存单元中。

文章最精彩的部分是对机票上那行看似乱码的票价计算行的解读:NAG AI X/DEL AI LON Q DELLON14.00Q DELLON21.00 228.08 NUC263.08END ROE88.687919。NUC(Neutral Unit of Construction)是 IATA 发明的一种不存在的货币,用于标准化跨货币的票价计算。ROE(Rate of Exchange)则是将 NUC 转换为实际货币的汇率。整个系统设计于 1970 年代,至今仍在运行。

这篇文章是技术考古的典范——揭示了日常事物背后那些设计精巧、经受了时间考验的基础设施。


19. Clojure 官方纪录片:从两年 Sabbatical 到全球最大数字银行的技术底座

Clojure 编程语言发布了官方纪录片页面,包含完整视频、Show Notes 和相关资源链接。这部纪录片由 Nubank 赞助制作,讲述了 Rich Hickey 创造 Clojure 的故事——从一段两年的 sabbatical 和一个执拗的想法,到如今驱动着世界上最大的独立数字银行 Nubank 的核心基础设施。

纪录片的 Show Notes 本身就是一份高质量的学习资源清单。基础论文部分列出了影响 Clojure 设计的关键学术论文:Ben Moseley 的《Out of the Tarpit》(将可变状态识别为软件偶然复杂性的首要来源)、Phil Bagwell 的《Ideal Hash Trees》(Hash Array Mapped Tries,Clojure 持久化数据结构的直接灵感来源)、以及关于软件事务内存的论文。

Rich Hickey 的经典演讲也被完整收录:《Simple Made Easy》(2011,区分”简单”与”容易”)、《Hammock Driven Development》(2010,关于在写代码前深度思考问题)、《The Value of Values》(2012,不可变值优于可变对象的论证)。Michael Fogus 整理了 Rich 在开发 Clojure 时参考的完整论文清单。

Clojure 的生态系统也在持续扩展:除了 JVM 上的核心 Clojure,还有编译到 JavaScript 的 ClojureScript、.NET CLR 上的 ClojureCLR、无需 JVM 启动时间的脚本工具 Babashka、以及面向 LLVM 原生编译的 Jank。Nubank 在 2020 年收购了 Cognitect(Clojure 的管理公司),目前负责 Clojure 的持续开发。

对于任何对编程语言设计、函数式编程或”价值观驱动的技术社区”感兴趣的人,这个页面都是一个值得收藏的入口。


20. CodeBurn:AI 编码 Agent 的 Token 消耗分析仪表盘

CodeBurn 是一个开源的交互式 TUI(终端用户界面)仪表盘,用于分析和可视化 AI 编码工具的 token 消耗情况,支持 Claude Code、Codex 和 Cursor。

在 AI 编码 Agent 已经成为日常开发工具的 2026 年,一个越来越现实的问题是:这些 Agent 到底烧了多少钱? 每个任务消耗了多少 token?哪些任务是 token 黑洞?不同工具之间的成本效率如何比较?CodeBurn 试图回答这些问题。

项目在 GitHub 上已获得 2.3k Star 和 155 Fork,说明开发者社区对 AI 编码成本可观测性有真实需求。这与 Android CLI 那篇文章提到的”token 节省 70%“形成了有趣的呼应——当 Agent 成为生产力工具,token 就是新的计算资源,需要像 CPU 和内存一样被监控和优化。

作为 Show HN 项目,CodeBurn 代表了 AI 工具生态中一个正在成长的品类:不是 Agent 本身,而是围绕 Agent 的可观测性、成本管理和效率优化工具。随着 AI 编码从尝鲜转向企业级使用,这类工具的重要性只会越来越高。