Administrator
发布于 2025-11-09 / 11 阅读

具体知识点-重点标记(持续更新...)

第四章:

拆解概念

老师为了让学生更好地理解这个复合概念,将其拆分为三个独立的部分来讲解:过程(Process)、随机(Stochastic / 随机性)和马尔可夫(Markov)

  1. 过程 (Process)

    • 核心含义: 老师首先倒着讲解,强调“过程”一定和时间相关。

    • 具体表现: 它代表一个“时序建模”或“序列建模”问题,即事物的发展有先有后,和时间或顺序 (order) 挂钩。

    • 与RNN的类比: 老师将其与深度学习中的 RNN (循环神经网络) 类比,因为两者都处理序列问题。但他强调,这个“过程”不一定要用神经网络来模拟,它是一个更广义的数学概念。

  2. 随机 (Stochastic / 随机性)

    • 核心含义: 指的是系统中存在着很大的​不确定性 (uncertainty)

    • 为何要统计: 正是因为这种不确定性,我们才需要引入“统计建模和分析”。

    • 老师的“人话”解读: 老师指出,统计学要干的事,就是去“描述不确定性”,比如用一个分数、一个分布或一条曲线来刻画它。这与“强化 (reinforcement)”本身就是提升行为发生的“概率”这一概念相呼应。

  3. 马尔可夫 (Markov)

    • 核心含义: 这是三个词中最简单的,它代表一个​简化的假设

    • 具体内容(马尔可夫性质): 系统的“未来”状态​只与“当前”状态有关,而与“过去”的所有状态都无关。

    • 模型意义: 这是一个对“动力学模型”的“强假设”,大大简化了问题的建模难度。

融会贯通LLM和强化学习中的PGM图

69104a791eb2c-RgBm.png

image

第五章:动态规划部分

image

第六章:

image

REINFORCEjs: Gridworld with Dynamic Programming

image

image

image


评论