RAW STREAM 10
未经打磨的原始信号 · 按时间倒序
-
05-05
NOTE
↳ 子 · 源自 用Deepseek驱动agentic全自动开发两个项目经验总结 项目1:执行总结
- 05-05 NOTE
-
04-25
NOTE
策略梯度直接学习参数化策略,通过梯度上升最大化期望总奖励,适用于连续动作空间。核心改进包括引入基线降低方差和功劳分配优化梯度计算,使训练更稳定高效。
-
04-25
NOTE
↳ 子 · 源自 策略梯度(Policy Gradient)核心思想与原理总结 梯度上升和梯度下降
梯度上升与梯度下降本质是同一逻辑的反向应用:前者沿梯度正方向迭代以最大化目标函数,后者沿反方向迭代以最小化。表格从核心目标、数学逻辑、适用场景等六个维度对比,并揭示两者可通过取负相互转化。
-
04-25
NOTE
↳ 子 · 源自 八-深度策略梯度方法:行胜于言,止于至善 近端策略优化算法(PPO)
PPO通过重要性采样实现异策略数据复用,大幅提升采样效率;并利用裁剪机制限制策略更新幅度,确保训练稳定。该算法解决了传统策略梯度采样效率低、方差高的问题,成为ChatGPT等大规模强化学习应用的核心技术。
-
04-25
NOTE
蒙特卡洛策略梯度通过采样完整轨迹直接优化策略参数,REINFORCE算法是其经典实现。它利用轨迹中每一步的未来折扣回报作为权重,通过梯度上升更新策略,使高回报动作被选择的概率增大。
-
04-25
NOTE
主篇 20260423思路整理
从强化学习视角解读“市场”环境与奖励信号迭代,提出从投入到产出再到成果的三层进阶。同时指出,专业领域判断力(如室内设计)难以被AI复制,是agent工作流调试之外的核心壁垒。
-
04-25
NOTE
↳ 子 · 源自 20260423思路整理 Agent记忆系统深度拆解(下)|MemOS _ OpenViking _ Hindsight _ Second Me _ MetaMem 五大开源架构全景对比
MemOS系统级治理记忆,OpenViking映射为文件系统降低92%-96%Token成本,Hindsight巩固引擎实现反思,Second Me训练本地数字孪生,MetaMem提供可插拔元记忆策略增强。
-
04-25
NOTE
横向对比Text to mem、Mem0、LETTA、REMI、MEMU五大Agent记忆项目。从定义通用操作语言、动态加载中间件到操作系统级虚拟内存、文件即记忆与主动式Agent架构,揭示记忆系统从被动外挂向主动自治的范式跃迁。
-
04-25
NOTE
探讨近端策略优化(PPO)与REINFORCE等深度策略梯度方法,解析策略梯度核心思想及梯度上升/下降的数学原理,强调实践驱动与收敛至最优策略的追求。