ZENTHOS Workspace
RAW · · 2026-04-25 · 3 min · #J2TGOMI

20260423思路整理

从强化学习视角解读“市场”环境与奖励信号迭代,提出从投入到产出再到成果的三层进阶。同时指出,专业领域判断力(如室内设计)难以被AI复制,是agent工作流调试之外的核心壁垒。

后续需要完成的事情:

今天需要系统性的了解一下agent 记忆能力的

系统复习强化学习的知识,并且制作成互动网页。

系统回顾生图模型的原理和关键算法。


《真本事-聪慧工作到会赚钱》读书有感(上篇):

从强化学习的角度来思考,也没有书中讲的那么复杂,“市场”这个环境越真实,你才能越选对正确的策略。反而是,不断依靠奖励信号,多稳定迭代才是关键。

关注投入的人,反复优化怎么做;
​关注产出的人,会想清楚做什么;
​关注成果的人,会从需求和目标出发追问“为什么做”,并且在市场上寻找答案。

从投入到产出不容易,但标准相对清晰;从产出到成果更难,因为它要求你理解市场、敬畏市场并且具备走向市场的能力。

微信图片_2026-04-23_230038_534

微信图片_2026-04-23_230044_436


关于瞿老师直播的思考
623d97c9c918aae77cbfb13cb3c25f77

我发现claude opus的能力确实强,我花了4天就把个人网站搭建+数据管线做好了。现在有难度的就是如何把专业的事情变成agent工作流,然后如何调试优化。但这个也是相对的壁垒,越来越多的开发者会贡献各种各样的数据给到大模型公司。

只有专业领域的判断力是难以被复制的,甚至是必须是牛逼的师傅带徒弟,做了一万次训练才能得到。就比如说一个室内设计方案,我能感到能力的提升,很大程度是在每一次画线和微调角度得来的。这里面有多层感知的影响,空间的、色彩的、气味的。还有对客户生活习惯的探讨,品味才能慢慢提高。这个ai如何获取到这些复杂的感官信息呢,那又如何做选择。

#方法论#Agent系统#产品思维#强化学习