From 929f0cafad1e11269c27d6af8dbb99448c8e167f Mon Sep 17 00:00:00 2001
From: fuyuwang <33348389+GorgeousWang@users.noreply.github.com>
Date: Mon, 17 Jun 2024 17:21:28 +0800
Subject: [PATCH] Update chapter1.md
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

步数>200并不代表游戏的输赢，容易产生误解。>200属于游戏截断操作。参考：https://www.gymlibrary.dev/environments/classic_control/cart_pole/
---
 docs/chapter1/chapter1.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index 5b5146a6..9b5cf1e6 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -470,7 +470,7 @@ for step in range(100):
 大家可以点[这个链接](https://www.gymlibrary.dev/environments/classic_control/)看一看这些环境。在刚开始测试强化学习的时候，可以选择这些简单环境，因为这些环境可以在一两分钟之内见到一个效果。
 
 如图 1.26 所示，CartPole-v0 环境有两个动作：将小车向左移动和将小车向右移动。我们还可以得到观测：小车当前的位置，小车当前往左、往右移的速度，杆的角度以及杆的最高点（顶端）的速度。
-观测越详细，我们就可以更好地描述当前所有的状态。这里有奖励的定义，如果能多走一步，我们就会得到一个奖励（奖励值为1），所以我们需要存活尽可能多的时间来得到更多的奖励。当杆的角度大于某一个角度（没能保持平衡），或者小车的中心到达图形界面窗口的边缘，或者累积步数大于200，游戏就结束了，我们就输了。所以智能体的目的是控制杆，让它尽可能地保持平衡以及尽可能保持在环境的中央。
+观测越详细，我们就可以更好地描述当前所有的状态。这里有奖励的定义，如果能多走一步，我们就会得到一个奖励（奖励值为1），所以我们需要存活尽可能多的时间来得到更多的奖励。当杆的角度大于某一个角度（没能保持平衡），或者小车的中心到达图形界面窗口的边缘，或者累积步数大于200，游戏就结束了。所以智能体的目的是控制杆，让它尽可能地保持平衡以及尽可能保持在环境的中央。
 
 
 <div align=center>