ZENTHOS Workspace
STREAM · RAW

RAW STREAM 10

未经打磨的原始信号 · 按时间倒序

  1. 05-05 NOTE
  2. 05-05 NOTE
  3. 04-25 NOTE

    策略梯度直接学习参数化策略,通过梯度上升最大化期望总奖励,适用于连续动作空间。核心改进包括引入基线降低方差和功劳分配优化梯度计算,使训练更稳定高效。

  4. 04-25 NOTE

    梯度上升与梯度下降本质是同一逻辑的反向应用:前者沿梯度正方向迭代以最大化目标函数,后者沿反方向迭代以最小化。表格从核心目标、数学逻辑、适用场景等六个维度对比,并揭示两者可通过取负相互转化。

  5. 04-25 NOTE

    PPO通过重要性采样实现异策略数据复用,大幅提升采样效率;并利用裁剪机制限制策略更新幅度,确保训练稳定。该算法解决了传统策略梯度采样效率低、方差高的问题,成为ChatGPT等大规模强化学习应用的核心技术。

  6. 04-25 NOTE

    蒙特卡洛策略梯度通过采样完整轨迹直接优化策略参数,REINFORCE算法是其经典实现。它利用轨迹中每一步的未来折扣回报作为权重,通过梯度上升更新策略,使高回报动作被选择的概率增大。

  7. 04-25 NOTE

    从强化学习视角解读“市场”环境与奖励信号迭代,提出从投入到产出再到成果的三层进阶。同时指出,专业领域判断力(如室内设计)难以被AI复制,是agent工作流调试之外的核心壁垒。

  8. 04-25 NOTE

    MemOS系统级治理记忆,OpenViking映射为文件系统降低92%-96%Token成本,Hindsight巩固引擎实现反思,Second Me训练本地数字孪生,MetaMem提供可插拔元记忆策略增强。

  9. 04-25 NOTE

    横向对比Text to mem、Mem0、LETTA、REMI、MEMU五大Agent记忆项目。从定义通用操作语言、动态加载中间件到操作系统级虚拟内存、文件即记忆与主动式Agent架构,揭示记忆系统从被动外挂向主动自治的范式跃迁。

  10. 04-25 NOTE

    探讨近端策略优化(PPO)与REINFORCE等深度策略梯度方法,解析策略梯度核心思想及梯度上升/下降的数学原理,强调实践驱动与收敛至最优策略的追求。