第四章:
拆解概念
老师为了让学生更好地理解这个复合概念,将其拆分为三个独立的部分来讲解:过程(Process)、随机(Stochastic / 随机性)和马尔可夫(Markov) 。
过程 (Process)
核心含义: 老师首先倒着讲解,强调“过程”一定和时间相关。
具体表现: 它代表一个“时序建模”或“序列建模”问题,即事物的发展有先有后,和时间或顺序 (order) 挂钩。
与RNN的类比: 老师将其与深度学习中的 RNN (循环神经网络) 类比,因为两者都处理序列问题。但他强调,这个“过程”不一定要用神经网络来模拟,它是一个更广义的数学概念。
随机 (Stochastic / 随机性)
核心含义: 指的是系统中存在着很大的不确定性 (uncertainty) 。
为何要统计: 正是因为这种不确定性,我们才需要引入“统计建模和分析”。
老师的“人话”解读: 老师指出,统计学要干的事,就是去“描述不确定性”,比如用一个分数、一个分布或一条曲线来刻画它。这与“强化 (reinforcement)”本身就是提升行为发生的“概率”这一概念相呼应。
马尔可夫 (Markov)
核心含义: 这是三个词中最简单的,它代表一个简化的假设。
具体内容(马尔可夫性质): 系统的“未来”状态只与“当前”状态有关,而与“过去”的所有状态都无关。
模型意义: 这是一个对“动力学模型”的“强假设”,大大简化了问题的建模难度。
融会贯通LLM和强化学习中的PGM图


第五章:动态规划部分

第六章:

REINFORCEjs: Gridworld with Dynamic Programming


