Learning as Approximation:把学习看成受控近似
一篇把 gradient descent、temporal difference learning、stochastic approximation 和 Bellman fixed-point methods 放到同一个 correction pattern 下理解的学习笔记。
AIReinforcement LearningOptimizationStochastic Approximation
杨星宇 · 莫纳什大学 · 计算机
我希望长期把 AI 当作研究方向来做。现在最吸引我的是表征学习、可解释性、 语言,以及学习系统背后的数学结构。我也会围绕阅读、笔记和实验搭一些工具, 因为当想法变得可检查、可连接时,我通常理解得更清楚。
Connect
Research Interests
Recent Writing
一篇把 gradient descent、temporal difference learning、stochastic approximation 和 Bellman fixed-point methods 放到同一个 correction pattern 下理解的学习笔记。
一篇偏系统设计的个人记录:我的 AI 工作台里,Codex、Hermes、Obsidian、CC Switch 分别拥有哪些状态,cron 怎么维护它们,以及 Karpathy-style Obsidian second brain 在这里怎么落地。
一篇面向学习路线的综述:Diffusion Model 如何从概率去噪思路,发展成实用的视觉生成系统。
人工智能笔记入口,整理学习地图与领域发展史:关键模型家族是怎么来的,以及它们的设计为什么是现在这个样子。
一篇从词表示走到 attention、self-attention 与 Transformer 的学习复盘。