20260423思路整理

从强化学习视角解读“市场”环境与奖励信号迭代，提出从投入到产出再到成果的三层进阶。同时指出，专业领域判断力（如室内设计）难以被AI复制，是agent工作流调试之外的核心壁垒。

后续需要完成的事情：

今天需要系统性的了解一下agent 记忆能力的

系统复习强化学习的知识，并且制作成互动网页。

系统回顾生图模型的原理和关键算法。

《真本事-聪慧工作到会赚钱》读书有感（上篇）：

从强化学习的角度来思考，也没有书中讲的那么复杂，“市场”这个环境越真实，你才能越选对正确的策略。反而是，不断依靠奖励信号，多稳定迭代才是关键。

关注投入的人，反复优化怎么做；
关注产出的人，会想清楚做什么；
关注成果的人，会从需求和目标出发追问“为什么做”，并且在市场上寻找答案。

从投入到产出不容易，但标准相对清晰；从产出到成果更难，因为它要求你理解市场、敬畏市场并且具备走向市场的能力。

微信图片_2026-04-23_230038_534

微信图片_2026-04-23_230044_436

关于瞿老师直播的思考
623d97c9c918aae77cbfb13cb3c25f77

我发现claude opus的能力确实强，我花了4天就把个人网站搭建+数据管线做好了。现在有难度的就是如何把专业的事情变成agent工作流，然后如何调试优化。但这个也是相对的壁垒，越来越多的开发者会贡献各种各样的数据给到大模型公司。

只有专业领域的判断力是难以被复制的，甚至是必须是牛逼的师傅带徒弟，做了一万次训练才能得到。就比如说一个室内设计方案，我能感到能力的提升，很大程度是在每一次画线和微调角度得来的。这里面有多层感知的影响，空间的、色彩的、气味的。还有对客户生活习惯的探讨，品味才能慢慢提高。这个ai如何获取到这些复杂的感官信息呢，那又如何做选择。

‍