RAW — ZENTHOS

18:00 NOTE

主篇第二周:从跑通技术面策略→调研基本面策略实践

→

用 vnpy 和 Claude Code 跑通策略闭环后，转向高股息低估值基本面策略。核心逻辑基于狗股理论，通过 PE、PB 历史分位筛选低估值标的，以股息率超 4% 为收益来源，并用夏普比率衡量风险性价比，完成从信息到决策的量化管道。

14:32 NOTE

↳ 子 · 源自第三周：因子研读 + 亲手实现运行 plan

→

用Qlib表达式引擎自行定义因子公式，而非调用预置因子集，完成Alpha101典型因子拆解、纸上分析、单因子与多因子组合回测，并规避前视偏差等经典陷阱，确保每个环节都经过理解与验证。

14:32 NOTE

主篇第三周：因子研读 + 亲手实现运行

→

本周聚焦因子研读与实操，厘清因子作为信号数值化工具的本质，对比经验驱动与数据驱动两条因子发现路径，并计划在qlib上跑通单因子回测，为后续多因子权重分配打下基础。

05-05 NOTE

↳ 子 · 源自用Deepseek驱动agentic全自动开发两个项目经验总结项目1：执行总结

→

05-05 NOTE

↳ 子 · 源自用Deepseek驱动agentic全自动开发两个项目经验总结 architecture-blueprint

→

04-25 NOTE

↳ 子 · 源自八-深度策略梯度方法：行胜于言，止于至善策略梯度（Policy Gradient）核心思想与原理总结

→

策略梯度直接学习参数化策略，通过梯度上升最大化期望总奖励，适用于连续动作空间。核心改进包括引入基线降低方差和功劳分配优化梯度计算，使训练更稳定高效。

04-25 NOTE

↳ 子 · 源自策略梯度（Policy Gradient）核心思想与原理总结梯度上升和梯度下降

→

梯度上升与梯度下降本质是同一逻辑的反向应用：前者沿梯度正方向迭代以最大化目标函数，后者沿反方向迭代以最小化。表格从核心目标、数学逻辑、适用场景等六个维度对比，并揭示两者可通过取负相互转化。

04-25 NOTE

↳ 子 · 源自八-深度策略梯度方法：行胜于言，止于至善近端策略优化算法（PPO）

→

PPO通过重要性采样实现异策略数据复用，大幅提升采样效率；并利用裁剪机制限制策略更新幅度，确保训练稳定。该算法解决了传统策略梯度采样效率低、方差高的问题，成为ChatGPT等大规模强化学习应用的核心技术。

04-25 NOTE

↳ 子 · 源自八-深度策略梯度方法：行胜于言，止于至善蒙特卡洛策略梯度（REINFORCE 算法）

→

蒙特卡洛策略梯度通过采样完整轨迹直接优化策略参数，REINFORCE算法是其经典实现。它利用轨迹中每一步的未来折扣回报作为权重，通过梯度上升更新策略，使高回报动作被选择的概率增大。

04-25 NOTE

主篇 20260423思路整理

→

从强化学习视角解读“市场”环境与奖励信号迭代，提出从投入到产出再到成果的三层进阶。同时指出，专业领域判断力（如室内设计）难以被AI复制，是agent工作流调试之外的核心壁垒。

04-25 NOTE

↳ 子 · 源自 20260423思路整理 Agent记忆系统深度拆解（下）｜MemOS _ OpenViking _ Hindsight _ Second Me _ MetaMem 五大开源架构全景对比

→

MemOS系统级治理记忆，OpenViking映射为文件系统降低92%-96%Token成本，Hindsight巩固引擎实现反思，Second Me训练本地数字孪生，MetaMem提供可插拔元记忆策略增强。

04-25 NOTE

↳ 子 · 源自 20260423思路整理 Agent记忆框架怎么选？5大Agent Memory项目工程级横向对比，哪一种才是未来Agent记忆的标准答案

→

横向对比Text to mem、Mem0、LETTA、REMI、MEMU五大Agent记忆项目。从定义通用操作语言、动态加载中间件到操作系统级虚拟内存、文件即记忆与主动式Agent架构，揭示记忆系统从被动外挂向主动自治的范式跃迁。

04-25 NOTE

主篇八-深度策略梯度方法：行胜于言，止于至善

→

探讨近端策略优化（PPO）与REINFORCE等深度策略梯度方法，解析策略梯度核心思想及梯度上升/下降的数学原理，强调实践驱动与收敛至最优策略的追求。

RAW STREAM 13