Journal
手记
记录思考与探索 —— 共 38 篇。
2026
Google 的 design.md,其实是 GEMINI.md
很多人把给 AI Agent 的项目说明文件笼统叫成 design.md,但在 Gemini CLI 里,官方方案其实是 GEMINI.md。本文讲清它是什么、为什么有用,以及怎么写才不会把上下文变成噪音。
Multi-Agent 架构:什么时候该拆,什么时候别拆
Multi-Agent 很热,但不是任务一复杂就该把 Agent 越拆越多。本文结合 Anthropic、OpenAI、LangChain 与 AutoGen 的一手资料,讲清常见多 Agent 架构、适用边界与真实代价。
浏览器插件 + AI:为什么它会成为轻量 Agent 的最佳入口
浏览器插件不是旧时代产物。结合 Side Panel、Content Scripts、Native Messaging 与内置 AI API,它正在变成离用户最近的轻量 Agent 容器;但权限、安全和跨浏览器碎片化,决定了它还不是终局。
MCP 协议详解:AI 为什么需要一个“USB-C”式连接层
MCP 正在把 AI 应用接外部工具这件事,从一次次定制集成,变成可复用的标准接口。但它真正解决的是连接成本,不是智能本身。
2026 年的 AI,为什么越来越像 2013 年《疑犯追踪》里的 The Machine?
2026 年 AI 和 2013 年 The Machine 的相似,不在「像人」,而在「像系统」。
Harness Engineering: AI 时代工程师的新核心能力
当 AI Agent 开始自主编程、测试和部署,工程师的核心能力不再是写代码,而是构建让 Agent 高效工作的环境——这就是 Harness Engineering。从 Anthropic 的最新研究到实战架构,一文讲透这门新技能。
Agent 的视觉能力 - UI 理解与自主操作
让 Agent 看懂网页、识别 UI 元素、自主执行操作,实现真正的智能自动化。
Agent 的长期记忆 - RAG 与向量数据库实战
解决 AI Agent 的健忘症问题,用 RAG 和向量数据库构建持久化知识库。从原理到实战,教你让 Agent 拥有长期记忆。
Tool Calling 实战 - 让 Agent 自主调用外部工具
如何让 AI Agent 自己决定何时调用 API、查询数据库、生成图表?深入理解 Tool Calling 机制,构建能自主行动的智能助手。
Vercel AI SDK 实战 - 从零构建图像文档助手
用 30 分钟构建一个能理解图片、处理文档、生成可视化的 AI 助手。从 Vision API 到 Image Generation,完整实战流程。
多模态能力 - 突破纯文本限制
探讨 AI Agent 如何通过多模态能力实现图像、音频等多种输入输出方式,提升应用体验和实用价值。
为什么 Agent 需要独立的基础设施?
从 Durable 的迁移故事看 AI Agent 工作负载与传统 Web 应用的本质差异,以及为什么 Agent 需要专门设计的基础设施平台。
前端技能的新定位 - AI 时代的核心竞争力
系列终章:从桌面开发到 AI Agent,前端工程师的技能如何重新定位?AI 没有让前端过时,而是让那些只会调 API 的前端过时了。
实战项目:Tauri + AI SDK 打造桌面 AI Agent
从零开始构建一个本地文件助手,学会 Tauri + Vercel AI SDK 的实战组合。
转型期生存策略:边学边做,保持产出
转型不是等学会了再开始,而是在做的过程中学习。90天实战路径 + 保持产出的技巧。
桌面应用的前端挑战 - 不只是"套个壳"
从 Web 到桌面,前端开发者面临的真实挑战:状态同步、文件系统、性能优化、安全边界。这些问题无法靠"套个 Electron 壳"解决。
桌面应用技术选型:Electron vs Tauri vs Electrobun
三大框架全面对比,前端工程师该如何选择桌面应用开发技术栈?
理解变化:为什么产品要做桌面和 Agent?
产品方向从 Web/插件转向桌面/Agent,前端工程师如何应对这场技术转型?
Fine-tuning:训练专属 AI
想让 AI 更懂你?Fine-tuning 就是让通用模型变成你的专属助手的秘密武器。
AI 的下一个十年:从工具到伙伴
Agent 时代来临,个人 AI 的终极形态,人机协作新范式——未来十年的 AI 会是什么样子?
AI 安全与隐私:不能忽视的问题
AI 好用,但安全吗?从数据泄露到越狱攻击,这些风险你必须了解
Multimodal AI:不只是文字
从 GPT-4V 到 Gemini Vision,AI 的"五感"正在觉醒。语音、图像、视频融合,让 AI 像人一样感知世界。
上下文窗口:AI 的短期记忆
从 4k 到 200k 的演进,理解 AI 如何记住对话,以及如何利用更长的上下文创造更强大的应用。
Transformer:AI 革命的起点
一句话解释 Transformer 如何改变了整个 AI 世界,从原理到应用,非技术人员也能看懂的图解指南。
本地部署 AI:数据在自己手里
Ollama 和 LM Studio 让你在本地运行 AI 模型,完全隐私、无限免费。3 分钟学会本地 AI 部署。
AI 协作工具:团队效率翻倍
从会议记录、邮件处理到日程管理,这些 AI 工具让团队协作从繁琐变流畅,省出的时间才是真正的生产力。
无代码 AI 平台:人人都能造 AI 应用
探索 Dify、FlowiseAI、Zapier AI 等无代码平台,让非技术人员也能轻松构建智能应用,打破 AI 开发的技术壁垒。
AI Agent 框架:让 AI 自己干活
不再是简单的一问一答,Agent 框架让 AI 自主规划、使用工具、完成复杂任务。LangChain 和 AutoGPT 正在改变 AI 应用的形态。
向量数据库:让 AI 拥有记忆
传统数据库存数字和文字,向量数据库存「语义」。这是让 AI 能够「记住」海量知识、实现智能检索的关键技术。3 分钟带你理解 AI 的「大脑存储」。
API 网关:一个接口调用所有 AI
OpenRouter、LiteLLM 让你用统一接口访问 100+ AI 模型,自动容错、省钱还能追踪花费
Token 计费:AI 使用成本揭秘
Token 是什么?各家 AI 服务如何计费?本文用大白话讲清楚 AI 使用的经济账,教你省钱的小技巧。
Prompt 工程:和 AI 说话也是门艺术
你输入的每一句话,都在影响 AI 的输出质量。掌握 5 个 Prompt 技巧,让 AI 真正帮到你。
AI 模型大厂:谁在给 AI 提供大脑?
OpenAI、Anthropic、Google、Meta——这四家公司的模型几乎撑起了整个 AI 生态。一张表搞清楚各家特点,让你知道用哪个最合适。
AI 知识管理:打造你的第二大脑
让 AI 帮你整理笔记、管理知识,从信息焦虑到知识沉淀
AI 创作工具:文字、图片、视频一把抓
从想法到成品只需 5 分钟,ChatGPT、Midjourney、Runway 让创作者告别从零开始的焦虑。
AI 编程助手:程序员的超级武器
Cursor、GitHub Copilot、Windsurf,让 AI 帮你写代码,效率提升 10 倍不是梦。
AI 搜索引擎:告别 Google?
AI 搜索引擎用大模型直接回答问题,不再让你在蓝色链接海洋里翻找。Perplexity、You.com 等新玩家正在挑战 Google 的搜索霸主地位。
OpenClaw:你的私人 AI 助手
OpenClaw 是一个运行在你自己设备上的个人 AI 助手,支持多平台、多渠道,让 AI 助手真正属于你。