در این مطلب، ویدئو آموزش تقویتی در 3 ساعت | دوره کامل با استفاده از پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 3:01:58
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,160 –> 00:00:02,000
هی نیک روی چه کار می کردی اوه
2
00:00:02,000 –> 00:00:03,840
مردی که روی چیزهای فوق العاده ای کار کرده ام
3
00:00:03,840 –> 00:00:04,480
چیزهایی که من هستم
4
00:00:04,480 –> 00:00:06,720
در واقع با استفاده از یادگیری تقویتی به
5
00:00:06,720 –> 00:00:08,800
آموزش یک ماشین مسابقه برای مسابقه در اطراف
6
00:00:08,800 –> 00:00:09,200
مسیر
7
00:00:09,200 –> 00:00:11,200
اوه واقعا چطور پیش میره آره همینطوره
8
00:00:11,200 –> 00:00:12,240
عالی پیش میره
9
00:00:12,240 –> 00:00:17,450
بله در انجام فرسودگی شغلی عالی است
10
00:00:17,450 –> 00:00:19,920
[موسیقی]
11
00:00:19,920 –> 00:00:21,840
من به بچه ها قول می دهم که بهتر از این شود
12
00:00:21,840 –> 00:00:24,480
این بیایید به آن برسیم
13
00:00:24,480 –> 00:00:25,760
بچه ها اسم من چیه
14
00:00:25,760 –> 00:00:27,519
نیکلاس چرنوت و خوش آمدید
15
00:00:27,519 –> 00:00:29,439
دوره آموزشی تقویتی
16
00:00:29,439 –> 00:00:31,279
در این ویدیو که قرار است پوشش دهیم
17
00:00:31,279 –> 00:00:33,760
یک سری چیزها اما اساساً هسته اصلی
18
00:00:33,760 –> 00:00:35,760
هدف این است که بتوانیم به شما اجازه رفتن بدهم
19
00:00:35,760 –> 00:00:36,160
از جانب
20
00:00:36,160 –> 00:00:38,399
مبتدی مطلق برای قادر به رفتن
21
00:00:38,399 –> 00:00:40,239
و از یادگیری تقویتی استفاده کنید
22
00:00:40,239 –> 00:00:41,840
ما میخواهیم تعداد زیادی چیز را پوشش دهیم
23
00:00:41,840 –> 00:00:43,360
به طور خاص چگونه خود را راه اندازی کنید
24
00:00:43,360 –> 00:00:44,079
محیط
25
00:00:44,079 –> 00:00:45,920
نحوه کار با الگوریتم های مختلف
26
00:00:45,920 –> 00:00:47,920
ما همچنین روی برخی از پیش ساختهها آزمایش خواهیم کرد
27
00:00:47,920 –> 00:00:49,520
محیط هایی با استفاده از open ai
28
00:00:49,520 –> 00:00:52,239
ورزشگاه تا بتوانید تعادل یک گاری را حفظ کنید
29
00:00:52,239 –> 00:00:53,600
شما می توانید قطب خود را بسازید
30
00:00:53,600 –> 00:00:54,800
ماشین خودران
31
00:00:54,800 –> 00:00:56,160
و سپس آخرین اما نه کم اهمیت ما نیز هستیم
32
00:00:56,160 –> 00:00:57,600
قصد دارم نگاهی به نحوه ساخت بیاندازیم
33
00:00:57,600 –> 00:00:58,000
سفارشی
34
00:00:58,000 –> 00:01:00,160
محیطها چیزی که اینطور است
35
00:01:00,160 –> 00:01:02,000
در مورد توانایی مهم است
36
00:01:02,000 –> 00:01:03,680
اهرم یادگیری تقویتی
37
00:01:03,680 –> 00:01:06,479
برای یک مورد استفاده که برای شما مرتبط است
38
00:01:06,479 –> 00:01:08,240
اما در کل تا پایان این ویدیو
39
00:01:08,240 –> 00:01:09,439
شما باید بتوانید آنها را از بین ببرید
40
00:01:09,439 –> 00:01:10,400
مجموعه مهارت و باشد
41
00:01:10,400 –> 00:01:12,240
قادر به استفاده از یادگیری تقویتی است
42
00:01:12,240 –> 00:01:13,680
به صورت عملی
43
00:01:13,680 –> 00:01:16,320
آماده انجام آن هستیم، بیایید به آن برسیم
44
00:01:16,320 –> 00:01:16,799
بچه ها
45
00:01:16,799 –> 00:01:19,920
به تقویت کامل خوش آمدید
46
00:01:19,920 –> 00:01:20,960
دوره یادگیری
47
00:01:20,960 –> 00:01:23,119
در حال حاضر این دوره در نظر گرفته شده است
48
00:01:23,119 –> 00:01:24,240
راهنمای عملی
49
00:01:24,240 –> 00:01:25,840
از نظر بلند شدن و دویدن با
50
00:01:25,840 –> 00:01:27,520
تقویت یادگیری بسیار ایده آل آن است
51
00:01:27,520 –> 00:01:28,960
هدف آن پر کردن شکاف است
52
00:01:28,960 –> 00:01:30,640
بین بسیاری از نظریه هایی که می بینید
53
00:01:30,640 –> 00:01:33,600
وجود دارد و اجرای عملی
54
00:01:33,600 –> 00:01:36,000
در حال حاضر ما قصد داریم به پوشش یک تن از
55
00:01:36,000 –> 00:01:37,280
مطالب در این دوره
56
00:01:37,280 –> 00:01:40,320
بنابراین اجازه دهید نگاهی به برنامه بازی خود بیاندازیم
57
00:01:40,320 –> 00:01:42,079
اول کاری که قرار است انجام دهیم این است
58
00:01:42,079 –> 00:01:44,000
ما قصد داریم نگاهی به rl در بیاندازیم
59
00:01:44,000 –> 00:01:44,640
خلاصه
60
00:01:44,640 –> 00:01:46,159
و این واقعاً در مورد و
61
00:01:46,159 –> 00:01:47,840
به طور خاص در این بخش
62
00:01:47,840 –> 00:01:49,280
ما در مورد چگونگی صحبت خواهیم کرد
63
00:01:49,280 –> 00:01:51,759
یادگیری تقویتی کار می کند و یاد می گیرد
64
00:01:51,759 –> 00:01:53,680
برخی از برنامه های کاربردی در اطراف rl as
65
00:01:53,680 –> 00:01:55,920
و همچنین برخی از محدودیت ها
66
00:01:55,920 –> 00:01:57,200
سپس ما می خواهیم به چگونگی آن نگاهی بیندازیم
67
00:01:57,200 –> 00:01:58,960
شما می توانید محیط خود را برای کار تنظیم کنید
68
00:01:58,960 –> 00:02:00,479
با یادگیری تقویتی
69
00:02:00,479 –> 00:02:01,680
و سپس ما از a استفاده خواهیم کرد
70
00:02:01,680 –> 00:02:04,399
کتابخانه ای به نام خطوط پایه پایدار
71
00:02:04,399 –> 00:02:06,560
سپس در مرحله 2 ما خواهیم بود
72
00:02:06,560 –> 00:02:08,080
نگاهی به محیط ها بنابراین
73
00:02:08,080 –> 00:02:09,679
محیط ها نیمی از
74
00:02:09,679 –> 00:02:11,360
معادله در مورد کار با
75
00:02:11,360 –> 00:02:12,959
یادگیری تقویتی بنابراین ما باید باشیم
76
00:02:12,959 –> 00:02:13,680
قادر است
77
00:02:13,680 –> 00:02:14,959
برای راه اندازی یک محیط و
78
00:02:14,959 –> 00:02:17,200
به طور خاص محیط های ورزشی او را به
79
00:02:17,200 –> 00:02:18,959
بتواند با تقویت کار کند
80
00:02:18,959 –> 00:02:20,560
یادگیری
81
00:02:20,560 –> 00:02:21,920
سپس ما می رویم شروع به کار خود را
82
00:02:21,920 –> 00:02:23,680
آموزش بنابراین یک دسته کامل وجود دارد
83
00:02:23,680 –> 00:02:25,520
انواع مختلف الگوریتم های موجود
84
00:02:25,520 –> 00:02:26,959
داخل خطوط پایه پایدار
85
00:02:26,959 –> 00:02:28,160
بنابراین ما قصد داریم نگاهی به چگونگی انجام آن بیاندازیم
86
00:02:28,160 –> 00:02:29,760
می تواند برخی از الگوریتم ها را تنظیم کند تا بتواند
87
00:02:29,760 –> 00:02:32,400
آموزش یک عامل یادگیری تقویتی
88
00:02:32,400 –> 00:02:35,040
سپس در مرحله 4 ما پس از آن یک بار
89
00:02:35,040 –> 00:02:36,400
ما مدل خود را آموزش داده ایم و سپس می رویم
90
00:02:36,400 –> 00:02:38,239
برای آزمایش و ارزیابی آن
91
00:02:38,239 –> 00:02:40,000
بنابراین این آسان تر از آن است که شما به نظر می رسد
92
00:02:40,000 –> 00:02:41,760
می تواند یک محیط را راه اندازی کند و آن را آزمایش کند
93
00:02:41,760 –> 00:02:43,360
بیرون بروید و ببینید که نماینده شما در واقع چیست
94
00:02:43,360 –> 00:02:44,720
به نظر می رسد
95
00:02:44,720 –> 00:02:46,160
سپس ما نیز می خواهیم نگاهی به
96
00:02:46,160 –> 00:02:48,480
ارزیابی و همچنین چگونه می توانید یک
97
00:02:48,480 –> 00:02:50,000
به معیارهای مختلف نگاه کنید که چگونه
98
00:02:50,000 –> 00:02:52,080
آن معیارها را درک می کنیم و ما نیز خواهیم فهمید
99
00:02:52,080 –> 00:02:53,760
نگاهی بیندازیم که چگونه می توانیم آنها را باز کنیم
100
00:02:53,760 –> 00:02:55,440
داخل یک تانسوربرد چیزی که i
101
00:02:55,440 –> 00:02:57,519
واقعا دوست دارم
102
00:02:57,519 –> 00:02:59,440
سپس ما آن را یک قدم جلوتر خواهیم برد
103
00:02:59,440 –> 00:03:01,040
گام پنجم ما به چگونگی انجام آن نگاهی خواهیم انداخت
104
00:03:01,040 –> 00:03:02,400
می تواند از تماس های اهرمی استفاده کند
105
00:03:02,400 –> 00:03:04,560
به محض ضربه زدن به a، معامله مدل خود را متوقف کنیم
106
00:03:04,560 –> 00:03:06,159
آستانه معین
107
00:03:06,159 –> 00:03:07,519
خواهیم دید که چگونه می توانیم از موارد مختلف استفاده کنیم
108
00:03:07,519 –> 00:03:08,959
الگوریتم ها به طوری که یک دسته کامل از وجود دارد
109
00:03:08,959 –> 00:03:10,640
الگوریتم های موجود در تقویت
110
00:03:10,640 –> 00:03:11,920
یاد بگیرید که نیازی به نوشتن آنها ندارید
111
00:03:11,920 –> 00:03:13,360
خودتان یک دسته کامل وجود دارد
112
00:03:13,360 –> 00:03:15,680
قبلا برای شما نوشته شده است که می توانید استفاده کنید
113
00:03:15,680 –> 00:03:17,200
و ما نگاهی خواهیم انداخت که چگونه می توانیم استفاده کنیم
114
00:03:17,200 –> 00:03:18,239
آن ها
115
00:03:18,239 –> 00:03:19,599
و سپس ما نیز نگاهی به
116
00:03:19,599 –> 00:03:20,959
معماری های مختلف پس می گویند برای
117
00:03:20,959 –> 00:03:22,640
به عنوان مثال شما می خواهید عصبی را تغییر دهید
118
00:03:22,640 –> 00:03:24,480
شبکه ای که پشت یک خاص قرار دارد
119
00:03:24,480 –> 00:03:25,120
عامل
120
00:03:25,120 –> 00:03:27,519
شما می توانید آن را نیز انجام دهید اما این
121
00:03:27,519 –> 00:03:29,280
یک دوره کامل نخواهد بود مگر اینکه
122
00:03:29,280 –> 00:03:30,959
ما چند پروژه نیز داشتیم، بنابراین هستیم
123
00:03:30,959 –> 00:03:32,159
قرار است نگاهی به
124
00:03:32,159 –> 00:03:33,840
سه پروژه مختلف، بنابراین ما می رویم
125
00:03:33,840 –> 00:03:35,280
تا نگاهی به چگونگی حل آن بیندازیم
126
00:03:35,280 –> 00:03:37,040
محیط شکست که یک
127
00:03:37,040 –> 00:03:39,040
بازی آتاری پس از آن به نوعی شبیه است
128
00:03:39,040 –> 00:03:40,319
کمی پنگ اما
129
00:03:40,319 –> 00:03:42,640
نه واقعا ما همچنین نگاهی به چگونگی
130
00:03:42,640 –> 00:03:44,640
ما می توانیم یک محیط خودران را حل کنیم
131
00:03:44,640 –> 00:03:46,480
بنابراین این یک محیط مسابقه اتومبیل رانی است
132
00:03:46,480 –> 00:03:48,879
و چگونه می توانیم مدل خود را فقط به آن آموزش دهیم
133
00:03:48,879 –> 00:03:50,640
یک عکس به عنوان ورودی داشته باشید
134
00:03:50,640 –> 00:03:52,480
و ماشین ما را برای رانندگی در امتداد یک آموزش دهید
135
00:03:52,480 –> 00:03:53,680
مسیر مسابقه که به نظر من زیباست
136
00:03:53,680 –> 00:03:54,640
عالی
137
00:03:54,640 –> 00:03:55,840
و سپس ما نیز نگاهی به
138
00:03:55,840 –> 00:03:57,120
محیط های سفارشی چیزی که i
139
00:03:57,120 –> 00:03:57,680
فکر کن است
140
00:03:57,680 –> 00:04:00,319
بنابراین اغلب نادیده گرفته می شود بنابراین این خواهد شد
141
00:04:00,319 –> 00:04:01,920
به شما امکان می دهد درک بهتری داشته باشید
142
00:04:01,920 –> 00:04:03,519
نحوه ایجاد محیطی برای کار
143
00:04:03,519 –> 00:04:05,120
با یادگیری تقویتی
144
00:04:05,120 –> 00:04:07,360
اکنون چارچوبی که قرار است باشیم
145
00:04:07,360 –> 00:04:08,640
زمانی که مشتری خود را می سازیم استفاده می کنیم
146
00:04:08,640 –> 00:04:10,480
محیط ورزشی او باز خواهد بود
147
00:04:10,480 –> 00:04:11,599
بنابراین من همه چیز را به شما نشان خواهم داد
148
00:04:11,599 –> 00:04:12,560
انواع متفاوت
149
00:04:12,560 –> 00:04:14,400
از فضاها نگران نباشید
150
00:04:14,400 –> 00:04:15,840
این را هنوز درک کنید یا اگر نیستید
151
00:04:15,840 –> 00:04:17,600
خیلی مطمئنم در مورد چی حرف میزنم میریم
152
00:04:17,600 –> 00:04:19,759
از طریق آن با جزئیات زیاد
153
00:04:19,759 –> 00:04:22,639
خوب این یک برنامه بازی است به طور خلاصه
154
00:04:22,639 –> 00:04:24,000
اکنون وقت آن است که نگاهی بیندازیم
155
00:04:24,000 –> 00:04:27,199
در irl به طور خلاصه بنابراین من می خواستم
156
00:04:27,199 –> 00:04:28,560
این بخش را وارد کنید تا به شما پاسخ دهد
157
00:04:28,560 –> 00:04:30,000
کمی زمینه در مورد چیست
158
00:04:30,000 –> 00:04:31,840
یادگیری تقویتی است
159
00:04:31,840 –> 00:04:33,280
نحوه استفاده از آن و برخی از آنها
160
00:04:33,280 –> 00:04:34,960
برنامه های کاربردی آن و همچنین برخی از آن
161
00:04:34,960 –> 00:04:36,160
محدودیت ها این است
162
00:04:36,160 –> 00:04:38,160
قرار نیست یک شیرجه عمیق کامل در آن انجام شود
163
00:04:38,160 –> 00:04:40,000
نظریه و ریاضیات پشت آن
164
00:04:40,000 –> 00:04:41,759
این فقط یک نمای کلی در سطح بالا است بنابراین شما
165
00:04:41,759 –> 00:04:44,240
در مورد اینکه rl در کجا قرار می گیرد ایده بگیرید
166
00:04:44,240 –> 00:04:45,840
دنیای بزرگ یادگیری ماشین و
167
00:04:45,840 –> 00:04:47,199
علم داده
168
00:04:47,199 –> 00:04:49,520
بنابراین ابتدا آنچه که تقویت است
169
00:04:49,520 –> 00:04:50,320
خوب یاد گرفتن
170
00:04:50,320 –> 00:04:52,240
یادگیری تقویتی بر
171
00:04:52,240 –> 00:04:54,800
عوامل آموزش از طریق آزمون و خطا
172
00:04:54,800 –> 00:04:56,880
واقعا سطح بالایی است
173
00:04:56,880 –> 00:04:58,320
بیانیه اکنون می دانم که احتمالاً وجود دارد
174
00:04:58,320 –> 00:05:00,160
بسیاری از مهندسان هاردکور یادگیری عمیق
175
00:05:00,160 –> 00:05:01,680
که احتمالاً خواهد رفت که اینطور نیست
176
00:05:01,680 –> 00:05:02,479
کاملا درسته
177
00:05:02,479 –> 00:05:04,160
اما به نوعی به شما ایده می دهد
178
00:05:04,160 –> 00:05:06,160
چگونه یادگیری تقویتی یاد می گیرد
179
00:05:06,160 –> 00:05:08,800
در حالت ایده آل شما یک نماینده دارید و آن را
180
00:05:08,800 –> 00:05:10,800
بر اساس پاداشی که می گیرد یاد می گیرد
181
00:05:10,800 –> 00:05:12,560
بنابراین اگر چیزی به دست نیامد امتحان کنید
182
00:05:12,560 –> 00:05:14,240
پاداش پس از آن تلاش می کند چیز دیگری اگر
183
00:05:14,240 –> 00:05:15,840
جایزه نمی گیرد یا جایزه می گیرد
184
00:05:15,840 –> 00:05:17,199
پاداش بزرگتر ممکن است سعی کند این کار را انجام دهد
185
00:05:17,199 –> 00:05:18,560
چندین بار
186
00:05:18,560 –> 00:05:20,080
ما همچنین این چیز را به نام داریم
187
00:05:20,080 –> 00:05:22,240
اکتشاف بهره برداری تجارت آف
188
00:05:22,240 –> 00:05:23,520
دوباره در مورد آن کمی صحبت خواهم کرد
189
00:05:23,520 –> 00:05:24,320
بعد
190
00:05:24,320 –> 00:05:25,440
اما شما به نوعی ایده را دریافت می کنید
191
00:05:25,440 –> 00:05:27,120
یادگیری تقویتی یادگیری است و
192
00:05:27,120 –> 00:05:29,199
بر اساس درگیر شدن فعال با یک
193
00:05:29,199 –> 00:05:30,160
محیط
194
00:05:30,160 –> 00:05:32,240
اکنون که ما را به چگونگی چارچوب می رساند
195
00:05:32,240 –> 00:05:33,840
در واقع با هم هماهنگ است
196
00:05:33,840 –> 00:05:36,560
خوب چهار چیز کلیدی یا خوب وجود دارد
197
00:05:36,560 –> 00:05:37,680
پنج چیز کلیدی که باید انجام دهید
198
00:05:37,680 –> 00:05:39,680
هر زمان که در داخل کار می کنید در نظر بگیرید
199
00:05:39,680 –> 00:05:41,360
یادگیری تقویتی یا چهار مورد وجود دارد
200
00:05:41,360 –> 00:05:42,960
مفاهیم اساسی
201
00:05:42,960 –> 00:05:46,639
بنابراین آنها عامل محیط هستند
202
00:05:46,639 –> 00:05:49,199
عمل و سپس پاداش به علاوه
203
00:05:49,199 –> 00:05:50,560
مشاهدات
204
00:05:50,560 –> 00:05:52,560
بنابراین نماینده خود را چیزی در نظر بگیرید
205
00:05:52,560 –> 00:05:54,400
که در یک محیط عمل می کند
206
00:05:54,400 –> 00:05:56,160
بنابراین این ممکن است یک یادگیری ماشینی باشد
207
00:05:56,160 –> 00:05:56,639
مدل
208
00:05:56,639 –> 00:06:00,160
همچنین ممکن است یک شخص یا یک بازیکن باشد اگر
209
00:06:00,160 –> 00:06:02,160
شما در یک محیط بازی کار می کنید
210
00:06:02,160 –> 00:06:03,680
محیط شما جایی است که
211
00:06:03,680 –> 00:06:06,000
عامل خاصی در واقع در حال فعالیت است
212
00:06:06,000 –> 00:06:08,000
بنابراین در این مورد به عنوان مثال بگویید اگر ما
213
00:06:08,000 –> 00:06:09,199
یک بازی بگیر
214
00:06:09,199 –> 00:06:11,360
بنابراین پخش کننده شما در داخل کار می کند
215
00:06:11,360 –> 00:06:12,639
محیط بازی بنابراین
216
00:06:12,639 –> 00:06:14,319
بر اساس چیزی که دارد پاداش می گیرد
217
00:06:14,319 –> 00:06:15,759
در واقع وجود دارد
218
00:06:15,759 –> 00:06:18,400
حالا نماینده شما خواهد دید که چه اتفاقی می افتد
219
00:06:18,400 –> 00:06:20,080
در آن محیط پس برای
220
00:06:20,080 –> 00:06:20,639
مثال
221
00:06:20,639 –> 00:06:23,120
ما در حال بررسی یک بازی شما هستیم
222
00:06:23,120 –> 00:06:24,560
بازیکن قادر به دیدن خواهد بود
223
00:06:24,560 –> 00:06:26,400
چه چیزی در اطراف آنها از نظر
224
00:06:26,400 –> 00:06:28,160
مشاهده پس آن را ببینید چه بازی
225
00:06:28,160 –> 00:06:29,919
محیط در واقع به نظر می رسد
226
00:06:29,919 –> 00:06:32,160
و سپس آن را نیز ببینید چه پاداش آن
227
00:06:32,160 –> 00:06:34,880
بر اساس اقداماتی که انجام می دهد جمع می شود
228
00:06:34,880 –> 00:06:36,960
بنابراین در حالت ایدهآل نماینده شما میتواند راه برود
229
00:06:36,960 –> 00:06:38,560
محیطی که ممکن است کاری انجام دهد
230
00:06:38,560 –> 00:06:40,319
و ممکن است یک امتیاز جمع کند
231
00:06:40,319 –> 00:06:41,680
ممکن است کار دیگری انجام دهد، ممکن است نباشد
232
00:06:41,680 –> 00:06:43,360
یک امتیاز جمع کنید حتی ممکن است a را از دست بدهید
233
00:06:43,360 –> 00:06:45,360
زندگی که ممکن است یک پاداش منفی باشد
234
00:06:45,360 –> 00:06:47,280
یک راه واقعاً خوب برای به دست آوردن
235
00:06:47,280 –> 00:06:49,440
سر شما این است که به این فکر کنید که چگونه
236
00:06:49,440 –> 00:06:51,120
شما ممکن است به آموزش یک سگ بروید
237
00:06:51,120 –> 00:06:52,479
مثلاً بگویید می خواهید به خودتان آموزش دهید
238
00:06:52,479 –> 00:06:55,199
سگ چگونه بنشیند یا چگونه دراز بکشد
239
00:06:55,199 –> 00:06:57,199
خوب نماینده شما در این مورد قرار است
240
00:06:57,199 –> 00:06:58,639
سگ خود باشید زیرا در تلاش هستید
241
00:06:58,639 –> 00:07:00,240
به نماینده خود آموزش دهید که بتواند آن را بگیرد
242
00:07:00,240 –> 00:07:02,080
اقدام درست
243
00:07:02,080 –> 00:07:04,400
اکنون پاداش در این مورد شما هستید
244
00:07:04,400 –> 00:07:06,080
هر بار که سگ خود را به او هدیه دهید
245
00:07:06,080 –> 00:07:07,520
کار درست را انجام بده
246
00:07:07,520 –> 00:07:09,680
بنابراین آنچه سگ شما ممکن است سعی کند انجام دهد این است که آن را انجام دهد
247
00:07:09,680 –> 00:07:10,639
یک عمل بنابراین
248
00:07:10,639 –> 00:07:12,880
در ابتدا ممکن است بگویید بنشین و سگ
249
00:07:12,880 –> 00:07:14,400
ممکن است در واقع هیچ کاری انجام ندهد
250
00:07:14,400 –> 00:07:16,400
این مورد در واقع آن را نگرفته است یا
251
00:07:16,400 –> 00:07:18,720
اقدامی برای انجام هیچ کاری انجام نشده است
252
00:07:18,720 –> 00:07:20,160
و در این مورد خاص
253
00:07:20,160 –> 00:07:21,599
محیطی که با آن کار می کند است
254
00:07:21,599 –> 00:07:22,720
محیط زیست با
255
00:07:22,720 –> 00:07:24,880
خود را در آن به طوری که در آن در تلاش برای به دست آوردن
256
00:07:24,880 –> 00:07:25,759
یک پاداش
257
00:07:25,759 –> 00:07:28,000
یا تلاش برای گرفتن یک درمان از انجام یک
258
00:07:28,000 –> 00:07:29,360
چیز خاص
259
00:07:29,360 –> 00:07:31,039
حالا سگ شما در نهایت آن را خواهد دید
260
00:07:31,039 –> 00:07:32,800
هیچ جایزه ای دریافت نمی کند زیرا ننشسته است
261
00:07:32,800 –> 00:07:33,120
پایین
262
00:07:33,120 –> 00:07:34,400
بنابراین ممکن است چیز دیگری را امتحان کند
263
00:07:34,400 –> 00:07:36,479
در این مورد ممکن است بگویید دوباره بنشین
264
00:07:36,479 –> 00:07:38,560
ممکن است بنشیند و بعد بگوید
265
00:07:38,560 –> 00:07:40,560
که آن را به طور ایده آل یک جایزه دریافت کنید
266
00:07:40,560 –> 00:07:42,639
سپس شروع به یادگیری چه عملی می کند
267
00:07:42,639 –> 00:07:44,479
در پاسخ به محیط زیست
268
00:07:44,479 –> 00:07:46,560
به منظور به حداکثر رساندن پاداش
269
00:07:46,560 –> 00:07:48,720
بنابراین آن را رعایت دستور که
270
00:07:48,720 –> 00:07:50,400
شما می دهید تا بتوانید آن را بگیرید
271
00:07:50,400 –> 00:07:51,360
اقدام درست
272
00:07:51,360 –> 00:07:52,879
بنابراین این به طور خلاصه چگونه است
273
00:07:52,879 –> 00:07:54,879
یادگیری تقویتی عامل شماست
274
00:07:54,879 –> 00:07:55,759
سعی می کند یک
275
00:07:55,759 –> 00:07:57,919
اقدام به منظور به حداکثر رساندن پاداش آن
276
00:07:57,919 –> 00:07:59,919
در پاسخ به مشاهدات
277
00:07:59,919 –> 00:08:02,080
در محیط در حال حاضر دوباره من فقط
278
00:08:02,080 –> 00:08:03,280
می خواستم کمی به شما بدهم
279
00:08:03,280 –> 00:08:04,560
نظریه ای که ما قصد نداریم به آن بپردازیم
280
00:08:04,560 –> 00:08:06,000
این خیلی زیاد است اما شما به نوعی آن را دریافت می کنید
281
00:08:06,000 –> 00:08:07,919
ایده در مورد چگونگی یادگیری تقویتی
282
00:08:07,919 –> 00:08:08,400
آثار
283
00:08:08,400 –> 00:08:10,000
از نظر کمی متفاوت است
284
00:08:10,000 –> 00:08:11,840
چگونه می توانید با عمق جدول کار کنید
285
00:08:11,840 –> 00:08:13,039
یادگیری و یادگیری ماشینی
286
00:08:13,039 –> 00:08:15,520
زیرا نماینده شما فعالانه درگیر است
287
00:08:15,520 –> 00:08:17,360
با یک شبیه سازی شده یا واقعی
288
00:08:17,360 –> 00:08:19,120
محیط در حال حاضر در این مورد ما می رویم
289
00:08:19,120 –> 00:08:20,720
برای مقابله با شبیه سازی شده
290
00:08:20,720 –> 00:08:22,000
محیط ها اما من کمی صحبت می کنم
291
00:08:22,000 –> 00:08:23,520
در مورد آن بعدا
292
00:08:23,520 –> 00:08:25,440
بنابراین برخی از برنامه های کاربردی یا
293
00:08:25,440 –> 00:08:27,039
کاربردهای عملی
294
00:08:27,039 –> 00:08:30,319
یادگیری تقویتی به خوبی وجود دارد
295
00:08:30,319 –> 00:08:31,919
پشته کامل وجود دارد و فقط وجود دارد
296
00:08:31,919 –> 00:08:33,679
تقویت بیشتر یادگیری است
297
00:08:33,679 –> 00:08:35,919
واقعاً در حال حاضر بسیار محبوب است زیرا
298
00:08:35,919 –> 00:08:36,880
یک وجود دارد
299
00:08:36,880 –> 00:08:38,640
انبوهی از محیط های جهان باز
300
00:08:38,640 –> 00:08:40,159
که مردم با استفاده از آن سعی در حل آن دارند
301
00:08:40,159 –> 00:08:42,080
یادگیری ماشینی و یادگیری عمیق
302
00:08:42,080 –> 00:08:44,480
یکی از آنها رانندگی خودکار است
303
00:08:44,480 –> 00:08:45,120
میتوانی ببینی
304
00:08:45,120 –> 00:08:46,640
این عکس اینجا در واقع این است
305
00:08:46,640 –> 00:08:48,720
از محیطی به نام کالا
306
00:08:48,720 –> 00:08:51,519
بنابراین کالا واقعاً محبوب است
307
00:08:51,519 –> 00:08:52,959
شبیه سازی رانندگی که
308
00:08:52,959 –> 00:08:55,360
به شما این امکان را می دهد که در واقع به صورت مستقل آموزش دهید
309
00:08:55,360 –> 00:08:57,200
عوامل یا انجام یادگیری تقویتی
310
00:08:57,200 –> 00:08:58,240
بر روی آن
311
00:08:58,240 –> 00:09:00,800
اکنون می توانید واقعاً ماشینی را برای بودن آموزش دهید
312
00:09:00,800 –> 00:09:03,120
قادر به حرکت در یک جهان باز است
313
00:09:03,120 –> 00:09:04,640
استفاده از یادگیری تقویتی بسیار زیباست
314
00:09:04,640 –> 00:09:06,640
در حال حاضر بسیار عالی است
315
00:09:06,640 –> 00:09:08,399
کاربرد یادگیری تقویتی است
316
00:09:08,399 –> 00:09:10,160
باز هم معاملات اوراق بهادار
317
00:09:10,160 –> 00:09:12,080
به این فکر کنید تا نماینده شما در این مورد
318
00:09:12,080 –> 00:09:14,080
مانند یک معامله گر مستقل شما خواهد بود
319
00:09:14,080 –> 00:09:15,200
محیط زیست خواهد بود
320
00:09:15,200 –> 00:09:16,480
محیط معاملات اوراق بهادار بنابراین
321
00:09:16,480 –> 00:09:17,760
در حالت ایده آل کاری که می خواهید انجام دهید این است
322
00:09:17,760 –> 00:09:19,680
شما سعی خواهید کرد که نماینده خود را آموزش دهید
323
00:09:19,680 –> 00:09:21,360
برای انجام معاملاتی که قرار است انجام شود
324
00:09:21,360 –> 00:09:23,760
شما به طور ایده آل سود می کنید که می خواهد
325
00:09:23,760 –> 00:09:26,399
کم بخر و بالا بفروش و بالا بفروش و
326
00:09:26,399 –> 00:09:28,399
اگر کم فروش است، کم بخرید
327
00:09:28,399 –> 00:09:29,920
دوباره این واقعاً محبوب است
328
00:09:29,920 –> 00:09:31,120
لحظه ای که انبوهی از چیزها وجود دارد
329
00:09:31,120 –> 00:09:31,680
اتفاق می افتد
330
00:09:31,680 –> 00:09:34,080
در آن فضا یکی دیگر که من هستم
331
00:09:34,080 –> 00:09:36,160
شخصا مجذوب یک عصبی است
332
00:09:36,160 –> 00:09:38,160
جستجوی معماری شبکه
333
00:09:38,160 –> 00:09:39,760
بنابراین آنچه شما در واقع می توانید انجام دهید استفاده است
334
00:09:39,760 –> 00:09:41,440
تقویت یادگیری برای ساختن الف
335
00:09:41,440 –> 00:09:42,880
شبکه عصبی برای شما و
336
00:09:42,880 –> 00:09:45,040
پیدا کردن یک شبکه عصبی بهینه که i
337
00:09:45,040 –> 00:09:46,800
فکر کن کاملا دیوانه است
338
00:09:46,800 –> 00:09:48,000
به عنوان مثال بگویید شما در حال تلاش هستید
339
00:09:48,000 –> 00:09:49,839
ساخت یک شبکه عصبی عمیق برای حل یک
340
00:09:49,839 –> 00:09:51,920
مورد استفاده خاصی که ممکن است ندانید
341
00:09:51,920 –> 00:09:53,920
بهترین نوع معماری
342
00:09:53,920 –> 00:09:55,839
از نظر لایه ها از نظر تعداد
343
00:09:55,839 –> 00:09:58,000
واحد یا در زمان فعال سازی است
344
00:09:58,000 –> 00:09:59,600
در واقع می توانید از تقویت کننده استفاده کنید
345
00:09:59,600 –> 00:10:01,040
یاد بگیرید که برای حل این مشکل تلاش کنید
346
00:10:01,040 –> 00:10:02,480
برای شما در حال حاضر این واضح است که فوق العاده است
347
00:10:02,480 –> 00:10:03,120
پیشرفته
348
00:10:03,120 –> 00:10:04,560
اما به نوعی به شما ایده می دهد
349
00:10:04,560 –> 00:10:07,440
چه چیزی با فناوری امکان پذیر است
350
00:10:07,440 –> 00:10:08,720
جای دیگری است که تقویت
351
00:10:08,720 –> 00:10:10,880
یادگیری در حال حاضر بسیار محبوب است
352
00:10:10,880 –> 00:10:14,240
در رباتیک بنابراین آموزش عوامل یا
353
00:10:14,240 –> 00:10:15,600
آموزش ربات ها در
354
00:10:15,600 –> 00:10:17,760
زندگی واقعی اغلب می تواند بسیار گران باشد
355
00:10:17,760 –> 00:10:19,040
چون مثلاً بگویید فقط دارید
356
00:10:19,040 –> 00:10:20,560
آموزش یک ربات ممکن است سخت باشد
357
00:10:20,560 –> 00:10:22,560
در بسیاری از وظایف، بنابراین آنچه که شما می توانید
358
00:10:22,560 –> 00:10:23,760
در واقع انجام دادن ساختن است
359
00:10:23,760 –> 00:10:25,279
محیط های شبیه سازی شده از آن
360
00:10:25,279 –> 00:10:27,440
ربات خاص و آموزش آن ربات به
361
00:10:27,440 –> 00:10:27,760
انجام دادن
362
00:10:27,760 –> 00:10:30,000
یک چیز خاص در حال حاضر در این مورد
363
00:10:30,000 –> 00:10:31,120
عامل خواهد بود
364
00:10:31,120 –> 00:10:33,440
مدل خودمختار که آموزش است
365
00:10:33,440 –> 00:10:34,480
روبات
366
00:10:34,480 –> 00:10:36,000
محیطی که در آن فعالیت می کند
367
00:10:36,000 –> 00:10:37,600
در این مورد من معتقدم این عامل است
368
00:10:37,600 –> 00:10:39,120
تلاش برای حرکت دادن یک توپ به سمت درست
369
00:10:39,120 –> 00:10:39,920
موقعیت
370
00:10:39,920 –> 00:10:42,720
این در واقع بر اساس یک شبیه سازی است
371
00:10:42,720 –> 00:10:44,240
محیطی به نام موجوچو
372
00:10:44,240 –> 00:10:45,760
بنابراین دوباره من آن را کمی به شما نشان خواهم داد
373
00:10:45,760 –> 00:10:46,959
بعداً اما ما حل نمی کنیم
374
00:10:46,959 –> 00:10:47,680
آن یکی امروز
375
00:10:47,680 –> 00:10:48,880
اما شما به نوعی ایده را دریافت می کنید تا ما بتوانیم
376
00:10:48,880 –> 00:10:50,800
در واقع محیط زیست را به ربات آموزش دهید
377
00:10:50,800 –> 00:10:52,240
قرار است توپ را به سمت
378
00:10:52,240 –> 00:10:52,880
جای مناسب
379
00:10:52,880 –> 00:10:54,640
و پاداش چقدر نزدیک خواهد بود
380
00:10:54,640 –> 00:10:56,959
یا اینکه آن توپ چقدر از حد مطلوب خود فاصله دارد
381
00:10:56,959 –> 00:10:57,760
موقعیت
382
00:10:57,760 –> 00:10:59,680
بنابراین دوباره یک پشته کامل از وجود دارد
383
00:10:59,680 –> 00:11:01,360
برنامه هایی که من فقط به نوعی نشان داده ام
384
00:11:01,360 –> 00:11:03,920
چهار نفر وجود دارد اما تعداد زیادی وجود دارد
385
00:11:03,920 –> 00:11:05,600
جای دیگری که واقعاً در آن است
386
00:11:05,600 –> 00:11:07,279
محبوب در بازی است بنابراین دوباره
387
00:11:07,279 –> 00:11:09,120
بازی یک محیط جهان باز است بنابراین
388
00:11:09,120 –> 00:11:11,040
تابع پاداش می تواند واقعاً باشد
389
00:11:11,040 –> 00:11:12,880
هر بار متفاوت است
390
00:11:12,880 –> 00:11:14,399
شما می توانید به نوعی ببینید که چگونه می تواند شروع شود
391
00:11:14,399 –> 00:11:17,040
در محیط های مختلف اعمال شود
392
00:11:17,040 –> 00:11:20,079
خوب پس در مورد برخی از محدودیت ها و
393
00:11:20,079 –> 00:11:21,760
ملاحظات برای تقویت
394
00:11:21,760 –> 00:11:22,320
یادگیری
395
00:11:22,320 –> 00:11:24,160
بنابراین دوباره یادگیری تقویتی است
396
00:11:24,160 –> 00:11:26,480
کاملا شگفت انگیز است و من مجذوب آن هستم
397
00:11:26,480 –> 00:11:27,120
اما وجود دارد
398
00:11:27,120 –> 00:11:29,680
برخی از محدودیت ها به طور خاص برای ساده
399
00:11:29,680 –> 00:11:31,360
مشکلات یادگیری تقویتی می تواند
400
00:11:31,360 –> 00:11:32,959
گاهی اوقات بیش از حد
401
00:11:32,959 –> 00:11:34,399
به عنوان مثال بگویید ما در حال بررسی هستیم
402
00:11:34,399 –> 00:11:36,240
در بهینه سازی هایپر پارامتر وجود دارد
403
00:11:36,240 –> 00:11:38,000
در حال حاضر مدل های واقعاً قدرتمندی هستند
404
00:11:38,000 –> 00:11:38,800
برای آن
405
00:11:38,800 –> 00:11:39,920
به خصوص زمانی که با
406
00:11:39,920 –> 00:11:41,440
مدل های ساده اما اگر می خواهید
407
00:11:41,440 –> 00:11:43,200
تقویت مشکلات فوق پیشرفته
408
00:11:43,200 –> 00:11:44,720
یادگیری می تواند در آن به شما کمک کند
409
00:11:44,720 –> 00:11:45,760
فضا
410
00:11:45,760 –> 00:11:47,839
چیز دیگری که فرض می کند این است که
411
00:11:47,839 –> 00:11:50,000
محیط مارکویی است که به این معنی است
412
00:11:50,000 –> 00:11:51,680
وضعیت های آینده شما برای محیط شما
413
00:11:51,680 –> 00:11:53,760
بر اساس مشاهدات فعلی شما هستند
414
00:11:53,760 –> 00:11:55,760
و هیچ عمل تصادفی وجود ندارد اما ما می دانیم
415
00:11:55,760 –> 00:11:57,279
در زندگی واقعی که وجود خواهد داشت
416
00:11:57,279 –> 00:11:58,720
حوادث تصادفی که اتفاق می افتد
417
00:11:58,720 –> 00:12:00,639
بنابراین می گویند مدل خاص ما را تحت تأثیر قرار می دهد
418
00:12:00,639 –> 00:12:02,160
به عنوان مثال شما در حال آموزش خود بودید
419
00:12:02,160 –> 00:12:03,920
ربات mujoko درسته
420
00:12:03,920 –> 00:12:05,839
در این مورد خاص محیط شما
421
00:12:05,839 –> 00:12:07,760
ممکن است به افرادی که از کنارشان می گذرند پاسخگو نباشد
422
00:12:07,760 –> 00:12:09,760
ربات یا ضربه زدن به ربات
423
00:12:09,760 –> 00:12:11,279
شما هرگز واقعا نمی دانید چه اتفاقی می افتد
424
00:12:11,279 –> 00:12:13,040
در زندگی واقعی اتفاق می افتد شما فقط می توانید آموزش دهید
425
00:12:13,040 –> 00:12:14,639
در بهترین حالت شما باز هم همینطور است
426
00:12:14,639 –> 00:12:16,399
ما می توانیم به نوعی با این مقابله کنیم زیرا در
427
00:12:16,399 –> 00:12:18,000
ما مدل یادگیری تقویتی ما هستیم
428
00:12:18,000 –> 00:12:19,839
محیط ما را به نوعی منزوی می کند
429
00:12:19,839 –> 00:12:21,360
اما دوباره این فقط چیزی است که باید پذیرفت
430
00:12:21,360 –> 00:12:22,839
وقتی کسی این را از شما می پرسد
431
00:12:22,839 –> 00:12:24,000
سوال
432
00:12:24,000 –> 00:12:25,519
نکته دیگری که باید به آن توجه کرد آموزش است
433
00:12:25,519 –> 00:12:27,600
ممکن است زمان زیادی طول بکشد و همیشه اینطور نیست
434
00:12:27,600 –> 00:12:29,040
پایدار بنابراین
435
00:12:29,040 –> 00:12:30,880
ما این مفهوم را به نام داریم
436
00:12:30,880 –> 00:12:33,279
معاوضه اکتشاف و بهره برداری
437
00:12:33,279 –> 00:12:34,959
بنابراین ایده آل آنچه مدل شما سعی می کند انجام دهد
438
00:12:34,959 –> 00:12:36,720
وقتی هست محیط را کاوش کنید
439
00:12:36,720 –> 00:12:37,279
راه افتادن
440
00:12:37,279 –> 00:12:39,680
خارج می شود و سپس سعی می کند از آن سوء استفاده کند
441
00:12:39,680 –> 00:12:42,079
بتوانند بهترین جوایز ممکن را دریافت کنند
442
00:12:42,079 –> 00:12:43,680
اما گاهی اوقات چیزی که ممکن است اتفاق بیفتد مربوط به شماست
443
00:12:43,680 –> 00:12:45,360
مدل ممکن است زمان کافی نداشته باشد
444
00:12:45,360 –> 00:12:46,000
کاوش
445
00:12:46,000 –> 00:12:48,160
و ممکن است خیلی زود شروع به بهره برداری کند
446
00:12:48,160 –> 00:12:49,600
گاهی اوقات ما نیاز به تنظیم هایپر داریم
447
00:12:49,600 –> 00:12:50,320
مولفه های
448
00:12:50,320 –> 00:12:52,079
تا بتوانیم مدل خود را به حقیقت برسانیم
449
00:12:52,079 –> 00:12:53,519
محیط زیست را کشف کنید و واقعاً
450
00:12:53,519 –> 00:12:54,639
متوجه شدم
451
00:12:54,639 –> 00:12:56,560
گاهی اوقات چون ما این را درک نمی کنیم
452
00:12:56,560 –> 00:12:58,480
ممکن است همه مدل ما درست نباشند
453
00:12:58,480 –> 00:12:59,920
که پایدار است بنابراین ما ممکن است
454
00:12:59,920 –> 00:13:02,079
به نقطه خاصی برسیم که ممکن است به a
455
00:13:02,079 –> 00:13:04,240
سقف از نظر حداکثر پاداش ما اما
456
00:13:04,240 –> 00:13:05,519
در حال حاضر یک نکته دیگر نیز قابل توجه است
457
00:13:05,519 –> 00:13:07,040
که آموزش می تواند زمان زیادی طول بکشد بنابراین اگر
458
00:13:07,040 –> 00:13:08,639
شما واقعا واقعاً باز دارید
459
00:13:08,639 –> 00:13:10,000
محیط پس مثلا بگویید you’re
460
00:13:10,000 –> 00:13:11,040
تلاش برای آموزش
461
00:13:11,040 –> 00:13:12,800
یک مدل یادگیری تقویتی برای گراند
462
00:13:12,800 –> 00:13:14,480
دزدی خودکار چون بسیار بزرگ است
463
00:13:14,480 –> 00:13:15,360
محیط
464
00:13:15,360 –> 00:13:17,200
آموزش یک مدل برای مرتب کردن کار کردن
465
00:13:17,200 –> 00:13:18,800
در آن مورد خاص چه باید کرد
466
00:13:18,800 –> 00:13:20,160
خیلی طول میکشه
467
00:13:20,160 –> 00:13:23,440
خیلی وقته که الان
468
00:13:23,440 –> 00:13:24,959
برای پایین نبودن من فقط می خواستم
469
00:13:24,959 –> 00:13:26,399
برخی از آن محدودیت ها را مطرح کنید و
470
00:13:26,399 –> 00:13:27,680
ملاحظات در حال حاضر
471
00:13:27,680 –> 00:13:31,120
در آن یادداشت، بیایید شروع کنیم
472
00:13:31,120 –> 00:13:32,720
راه اندازی ما
473
00:13:32,720 –> 00:13:36,560
بنابراین مرحله شماره یک قرار است راه اندازی شود
474
00:13:36,560 –> 00:13:38,320
اولین کاری که میخواهیم انجام دهیم این است
475
00:13:38,320 –> 00:13:40,720
اکنون وابستگی های مورد نیاز ما را نصب کنید
476
00:13:40,720 –> 00:13:42,399
این مورد واقعاً ساده است
477
00:13:42,399 –> 00:13:43,839
بلند شو و با این کار کن
478
00:13:43,839 –> 00:13:45,680
فقط یک پیپ تنها چیزی که نیاز دارید نصب کنید
479
00:13:45,680 –> 00:13:47,519
برای انجام این کار پیپ علامت تعجب را اجرا کنید
480
00:13:47,519 –> 00:13:50,560
نصب خطوط پایه خط تیره پایدار سه و
481
00:13:50,560 –> 00:13:50,880
سپس
482
00:13:50,880 –> 00:13:52,720
براکت های مربع داخلی عبور می کنند
483
00:13:52,720 –> 00:13:54,560
اضافی بنابراین خطوط پایه پایدار است
484
00:13:54,560 –> 00:13:55,839
یادگیری تقویتی
485
00:13:55,839 –> 00:13:57,839
کتابخانه ای که به شما امکان می دهد با آن کار کنید
486
00:13:57,839 –> 00:13:59,839
الگوریتمهای رایگان را مدلسازی میکنیم، اما دوباره این کار را خواهیم کرد
487
00:13:59,839 –> 00:14:01,519
بعدا در مورد آن صحبت کنید
488
00:14:01,519 –> 00:14:03,199
بنابراین ما می توانیم با خطوط پایه پایدار کار کنیم
489
00:14:03,199 –> 00:14:05,360
یک عامل یادگیری تقویتی بسازید
490
00:14:05,360 –> 00:14:07,199
تا بتواند در برابر یک خاص تمرین کند
491
00:14:07,199 –> 00:14:09,279
محیط
492
00:14:09,279 –> 00:14:10,639
در حال حاضر چیز جالب در مورد پایدار است
493
00:14:10,639 –> 00:14:12,399
پایه این است که در واقع مبتنی است
494
00:14:12,399 –> 00:14:14,240
یک کتابخانه اصلی به نام
495
00:14:14,240 –> 00:14:17,279
خطوط پایه که توسط open ai ساخته شده است
496
00:14:17,279 –> 00:14:18,959
نکته مهم در مورد خطوط بیس پایدار این است
497
00:14:18,959 –> 00:14:19,680
که وجود دارد
498
00:14:19,680 –> 00:14:21,519
انبوهی از واقعاً بسیار مفید است
499
00:14:21,519 –> 00:14:23,600
کمک کنندگان اکنون من اسناد را دارم
500
00:14:23,600 –> 00:14:25,519
روی صفحه نمایش، بنابراین این کامل است
501
00:14:25,519 –> 00:14:27,839
این لینک مهاجرت است اما اگر شما
502
00:14:27,839 –> 00:14:29,519
من می خواهم به خطوط پایه پایدار بروم
503
00:14:29,519 –> 00:14:30,800
قرار است این پیوندها را در
504
00:14:30,800 –> 00:14:32,399
شرح زیر و همچنین
505
00:14:32,399 –> 00:14:34,959
تمام کدهایی که در اینجا می بینید
506
00:14:34,959 –> 00:14:36,399
اما شما می توانید در اینجا آن پایدار را ببینید
507
00:14:36,399 –> 00:14:37,040
خطوط پایه
508
00:14:37,040 –> 00:14:39,440
در واقع این است یا این مستندات است
509
00:14:39,440 –> 00:14:40,639
یک پشته کامل وجود دارد
510
00:14:40,639 –> 00:14:43,519
از راهنماها و واقعاً خوب است
511
00:14:43,519 –> 00:14:44,880
محیط پشتیبانی شده یا
512
00:14:44,880 –> 00:14:47,120
کتابخانه واقعاً به خوبی پشتیبانی می شود
513
00:14:47,120 –> 00:14:49,199
دوباره واقعاً واقعاً بسیار مفید است
514
00:14:49,199 –> 00:14:50,720
اوم یک دسته کامل از گرفتن وجود دارد
515
00:14:50,720 –> 00:14:52,320
اگر می خواهید اطلاعات را شروع کنید
516
00:14:52,320 –> 00:14:53,600
قادر به استفاده از آن است
517
00:14:53,600 –> 00:14:54,959
به نوعی به شما نشان می دهد که چگونه شروع کنید
518
00:14:54,959 –> 00:14:56,720
واقعا خیلی سریع پس این اینجاست
519
00:14:56,720 –> 00:14:57,279
یکی
520
00:14:57,279 –> 00:14:59,519
یادگیری تقویتی تک
521
00:14:59,519 –> 00:15:01,600
محیط و آموزش به صورت تک
522
00:15:01,600 –> 00:15:03,600
چه چیزی مانند 40 20 خط کد است
523
00:15:03,600 –> 00:15:05,120
دوباره می توانید واقعاً شروع کنید
524
00:15:05,120 –> 00:15:06,240
سریع با این
525
00:15:06,240 –> 00:15:07,680
اما ما همه چیز را پشت سر خواهیم گذاشت
526
00:15:07,680 –> 00:15:09,920
از این با جزئیات بسیار در حالی که ما در حال راه رفتن هستیم
527
00:15:09,920 –> 00:15:11,440
از طریق آن
528
00:15:11,440 –> 00:15:14,079
پس بیایید کارها را شروع کنیم و شروع کنیم
529
00:15:14,079 –> 00:15:15,839
نصب خطوط پایه پایدار
530
00:15:15,839 –> 00:15:17,839
بنابراین من قصد دارم در داخل یک کار کنم
531
00:15:17,839 –> 00:15:20,560
محیط نوت بوک jupiter برای این
532
00:15:20,560 –> 00:15:22,639
و من می خواهم به شما خط مبنا بدهم
533
00:15:22,639 –> 00:15:24,399
کد یا کد شروع و همچنین
534
00:15:24,399 –> 00:15:25,600
کد تکمیل شده نیز
535
00:15:25,600 –> 00:15:27,680
داخل مخزن github در
536
00:15:27,680 –> 00:15:29,040
شرح زیر تا بتوانید
537
00:15:29,040 –> 00:15:30,959
همه اینها را بردارید و با آن کار کنید
538
00:15:30,959 –> 00:15:34,160
با سرعت خودتان، بنابراین اول از همه
539
00:15:34,160 –> 00:15:35,040
ما می خواهیم داشته باشیم
540
00:15:35,040 –> 00:15:36,639
10 مرحله مختلف که ما به آن می رویم
541
00:15:36,639 –> 00:15:38,800
در حال گذراندن برای اصلی ما
542
00:15:38,800 –> 00:15:40,240
آموزش و سپس ما می خواهیم داشته باشیم
543
00:15:40,240 –> 00:15:42,240
پروژه های ما و همچنین اولین چیز
544
00:15:42,240 –> 00:15:43,680
که ما باید انجام دهیم
545
00:15:43,680 –> 00:15:45,199
خوب اجازه دهید در واقع به اینها نگاهی بیندازیم
546
00:15:45,199 –> 00:15:46,639
10 قدم، بنابراین ابتدا آنچه را که میخواهیم انجام دهیم
547
00:15:46,639 –> 00:15:48,399
انجام این کار این است که وابستگی های ما را وارد کنیم
548
00:15:48,399 –> 00:15:49,600
سپس ما قصد داریم تا خود را بارگذاری کنیم
549
00:15:49,600 –> 00:15:50,800
محیط پس در این مورد ما می رویم
550
00:15:50,800 –> 00:15:52,720
به حل معقول ساده است
551
00:15:52,720 –> 00:15:54,320
محیطی به نام cartpole و من
552
00:15:54,320 –> 00:15:55,920
این را در یک ثانیه به شما نشان می دهد
553
00:15:55,920 –> 00:15:57,279
ما قصد داریم نگاهی به نحوه انجام آن بیاندازیم
554
00:15:57,279 –> 00:15:58,639
یک محیط را درک کنید زیرا آن
555
00:15:58,639 –> 00:15:59,120
چنین است
556
00:15:59,120 –> 00:16:01,199
خیلی مهم است پس ما آموزش خواهیم داد
557
00:16:01,199 –> 00:16:02,639
مدل یادگیری تقویتی را نشان خواهم داد
558
00:16:02,639 –> 00:16:04,240
شما چگونه آن را روی دیسک ذخیره کنید و
559
00:16:04,240 –> 00:16:05,839
آن را دوباره بارگذاری کنید تا اگر می خواهید بروید
560
00:16:05,839 –> 00:16:07,839
و آن را به جای دیگری منتقل کنید یا بروید و مستقر کنید
561
00:16:07,839 –> 00:16:09,120
آن را می توانید انجام دهید
562
00:16:09,120 –> 00:16:10,959
ما نگاهی به نحوه ارزیابی آن خواهیم داشت
563
00:16:10,959 –> 00:16:13,040
چگونه آن را آزمایش کنیم چگونه گزارش های خود را مشاهده کنیم
564
00:16:13,040 –> 00:16:14,959
داخل یک تانسوربرد
565
00:16:14,959 –> 00:16:16,720
نحوه اضافه کردن تماس مجدد به آموزش
566
00:16:16,720 –> 00:16:18,639
مرحله بنابراین این به شما اجازه می دهد تا خود را متوقف کنید
567
00:16:18,639 –> 00:16:20,160
هنگامی که شما در یک نقطه خاص تمرین کنید
568
00:16:20,160 –> 00:16:21,279
خوشحال با آن
569
00:16:21,279 –> 00:16:23,519
نحوه تغییر سیاست ها و همچنین نحوه تغییر
570
00:16:23,519 –> 00:16:25,360
از یک الگوریتم جایگزین استفاده کنید
571
00:16:25,360 –> 00:16:26,800
بنابراین ما می خواهیم کاملا یک را پوشش دهیم
572
00:16:26,800 –> 00:16:28,399
کمی منصفانه است اما دوباره آن را بگیرید
573
00:16:28,399 –> 00:16:30,720
با سرعت خودتان و اگر گیر کردید یا
574
00:16:30,720 –> 00:16:32,800
اگر اصلا سوالی دارید
575
00:16:32,800 –> 00:16:34,880
در نظرات زیر به من ضربه بزنید یا بپیوندید
576
00:16:34,880 –> 00:16:36,639
لینک سرور discord دوباره وارد خواهد شد
577
00:16:36,639 –> 00:16:37,839
توضیحات زیر
578
00:16:37,839 –> 00:16:40,240
همیشه خوشحالم که آنجا هم همه چت می کنم
579
00:16:40,240 –> 00:16:42,240
در مورد آن به اندازه کافی درست است
580
00:16:42,240 –> 00:16:44,000
بیایید در واقع این کار را شروع کنیم و
581
00:16:44,000 –> 00:16:45,759
کدی بنویسید تا اولین چیزی که باشد
582
00:16:45,759 –> 00:16:46,480
ما قصد داریم انجام دهیم
583
00:16:46,480 –> 00:16:48,720
این است که وابستگی های ما را نصب کرده و وارد کنیم
584
00:16:48,720 –> 00:16:50,399
آنها بنابراین در این مورد ما خواهیم بود
585
00:16:50,399 –> 00:16:52,240
نصب خطوط پایه پایدار سه تا
586
00:16:52,240 –> 00:16:53,360
یادت باشه داشتیم
587
00:16:53,360 –> 00:16:55,600
علامت تعجب pip install stable dash
588
00:16:55,600 –> 00:16:57,040
خیابان پایه و سپس در میدان
589
00:16:57,040 –> 00:16:58,399
براکت اضافی پس بیایید جلو برویم و
590
00:16:58,399 –> 00:17:05,599
خوب بنویسید که به نظر می رسد
591
00:17:05,599 –> 00:17:07,520
همه با موفقیت نصب شدند تا بتوانید
592
00:17:07,520 –> 00:17:09,199
متوجه نشدیم که در آنجا اخطار داریم
593
00:17:09,199 –> 00:17:10,640
که می گوید پیپ را ارتقا دهید
594
00:17:10,640 –> 00:17:12,640
خوبه نگرانش نباش ولی خب
595
00:17:12,640 –> 00:17:14,720
به نظر می رسد همه ما برای رفتن آماده ایم
596
00:17:14,720 –> 00:17:17,199
در حال حاضر در این مورد که در حال حاضر انجام شده است
597
00:17:17,199 –> 00:17:18,000
که دوباره واقعا
598
00:17:18,000 –> 00:17:19,679
ساده برای شروع با بیس پایدار
599
00:17:19,679 –> 00:17:21,760
خطوط آن یک پیپ نصب است
600
00:17:21,760 –> 00:17:23,359
اما باز هم کارهای زیادی وجود دارد که می توانید انجام دهید
601
00:17:23,359 –> 00:17:25,679
با آن که آن را بسیار باحال می کند
602
00:17:25,679 –> 00:17:27,599
بنابراین کار بعدی که می خواهیم انجام دهیم آه
603
00:17:27,599 –> 00:17:28,960
بیایید در واقع به آن خط نگاهی بیندازیم
604
00:17:28,960 –> 00:17:30,720
بنابراین ما علامت تعجب نوشتیم
605
00:17:30,720 –> 00:17:33,919
pip install و سپس stable dash
606
00:17:33,919 –> 00:17:35,679
که من فقط می خواهم آن را خراب کنم
607
00:17:35,679 –> 00:17:37,200
خط تیره پایدار
608
00:17:37,200 –> 00:17:40,720
خطوط پایه و سپس سه و سپس اضافی
609
00:17:40,720 –> 00:17:42,000
حالا دلیل اینکه ما در حال عبور هستیم
610
00:17:42,000 –> 00:17:44,080
از طریق سه این است که خطوط پایه پایدار است
611
00:17:44,080 –> 00:17:45,679
چندین بار تکرار را پشت سر گذاشته است
612
00:17:45,679 –> 00:17:46,240
بنابراین
613
00:17:46,240 –> 00:17:48,000
یک خط بیس پایدار یک و وجود دارد
614
00:17:48,000 –> 00:17:49,760
سپس یک خط باس پایدار دو ما در حال حاضر
615
00:17:49,760 –> 00:17:51,039
تا خطوط بیس پایدار
616
00:17:51,039 –> 00:17:53,840
سه پس این آخرین بسته است
617
00:17:53,840 –> 00:17:55,440
دوباره که روی tensorflow اجرا می شود و
618
00:17:55,440 –> 00:17:57,200
pytorch ما از pytorch استفاده خواهیم کرد
619
00:17:57,200 –> 00:17:58,000
برای این
620
00:17:58,000 –> 00:18:00,160
اما فقط چیزی که باید در ذهن داشته باشید
621
00:18:00,160 –> 00:18:01,440
این دلیلی است که ما در حال عبور هستیم
622
00:18:01,440 –> 00:18:03,200
از طریق سه
623
00:18:03,200 –> 00:18:05,520
همه در حال حاضر این نصب ما است
624
00:18:05,520 –> 00:18:06,799
انجام شد همه ما خوب هستیم که برویم
625
00:18:06,799 –> 00:18:08,320
حالا کار بعدی که می خواهیم انجام دهیم این است
626
00:18:08,320 –> 00:18:10,160
در واقع برخی چیزها را وارد کنید، پس بیایید برویم
627
00:18:10,160 –> 00:18:10,720
پیش رو و
628
00:18:10,720 –> 00:18:12,640
برخی از وابستگی ها را وارد کنید و سپس آن را انجام خواهم داد
629
00:18:12,640 –> 00:18:15,840
از طریق هر یک از آنها با شما صحبت می کنم
630
00:18:29,679 –> 00:18:33,280
خوب پس اینها وابستگی های اصلی ما هستند
631
00:18:33,280 –> 00:18:35,120
اکنون وارد شده است، بنابراین ما نوشته ایم
632
00:18:35,120 –> 00:18:37,120
پنج خط کد وجود دارد
633
00:18:37,120 –> 00:18:39,039
بنابراین ابتدا آنچه ما نوشتیم واردات است
634
00:18:39,039 –> 00:18:41,760
os so os فقط یک سیستم عامل است
635
00:18:41,760 –> 00:18:43,200
کتابخانه ای که کمی آن را درست می کند
636
00:18:43,200 –> 00:18:45,280
بعداً وقتی به تعریف می رویم کمی راحت تر است
637
00:18:45,280 –> 00:18:46,400
مسیرهای ما
638
00:18:46,400 –> 00:18:48,400
برای ذخیره مدل ما و همچنین جایی که باید
639
00:18:48,400 –> 00:18:49,520
خروج
640
00:18:49,520 –> 00:18:52,559
سپس ما جیم را وارد کرده ایم بنابراین جیم برای
641
00:18:52,559 –> 00:18:54,720
ورزشگاه ai را باز کنید اما در مورد آن صحبت خواهم کرد
642
00:18:54,720 –> 00:18:56,559
این کمی بیشتر زمانی که ما وارد خود می شویم
643
00:18:56,559 –> 00:18:58,720
بخش محیطی اسلایدهای ما
644
00:18:58,720 –> 00:19:00,640
بنابراین جیم به ما اجازه می دهد که محیط بسازیم
645
00:19:00,640 –> 00:19:02,960
و با محیط های از قبل موجود کار کنید
646
00:19:02,960 –> 00:19:04,559
واقعا خیلی راحت
647
00:19:04,559 –> 00:19:07,039
سپس ما اولین الگوریتم خود را وارد کردیم
648
00:19:07,039 –> 00:19:09,360
بنابراین ما در واقع ppo را وارد کرده ایم
649
00:19:09,360 –> 00:19:11,600
بنابراین برای انجام این کار از stable نوشته ایم
650
00:19:11,600 –> 00:19:13,520
خط پایه سه را زیر خط بکشید
651
00:19:13,520 –> 00:19:16,559
وارد کردن ppo و دوباره یک کل وجود دارد
652
00:19:16,559 –> 00:19:18,160
پشته ای از انواع مختلف الگوریتم ها بنابراین
653
00:19:18,160 –> 00:19:19,520
اگر واقعاً نگاهی بیندازیم
654
00:19:19,520 –> 00:19:20,960
ما در واقع نگاهی به
655
00:19:20,960 –> 00:19:22,720
بسته خطوط پایه پایدار که باید باشد
656
00:19:22,720 –> 00:19:24,320
خطوط پایه پایدار سه
657
00:19:24,320 –> 00:19:26,720
بنابراین اگر واقعاً نگاهی بیندازید یک وجود دارد
658
00:19:26,720 –> 00:19:28,320
انبوهی از الگوریتم های مختلف وجود دارد
659
00:19:28,320 –> 00:19:29,919
بنابراین a2c وجود دارد
660
00:19:29,919 –> 00:19:33,120
ddpg dqn ppo او
661
00:19:33,120 –> 00:19:36,080
sac و td3 در حال حاضر دوباره یک کل وجود دارد
662
00:19:36,080 –> 00:19:37,280
دسته ای از چیزهای اینجا، بنابراین من در واقع هستم
663
00:19:37,280 –> 00:19:38,160
در مورد صحبت کردن
664
00:19:38,160 –> 00:19:41,280
چه زمانی از کدام الگوریتم um و under استفاده کنیم
665
00:19:41,280 –> 00:19:43,200
چه شرایطی دوباره
666
00:19:43,200 –> 00:19:44,400
اگر این را دیده اید ناراحت نشوید
667
00:19:44,400 –> 00:19:46,400
تو مثل خدای من خیلی چیزها هست
668
00:19:46,400 –> 00:19:47,520
ما در واقع از این طریق عبور خواهیم کرد
669
00:19:47,520 –> 00:19:48,880
و من در واقع کمی به شما می دهم
670
00:19:48,880 –> 00:19:49,919
از یک راهنما یا
671
00:19:49,919 –> 00:19:52,000
حداقل برخی از ریل های راهنما برای اینکه چه زمانی باید انجام شود
672
00:19:52,000 –> 00:19:54,240
از کدام نوع الگوریتم خاص استفاده کنید
673
00:19:54,240 –> 00:19:55,600
اما در این مورد ما از آن استفاده خواهیم کرد
674
00:19:55,600 –> 00:19:57,840
این یکی اینجا پس PPO پس دوباره اگر شما
675
00:19:57,840 –> 00:19:58,480
می خواهم ببینم
676
00:19:58,480 –> 00:20:00,720
اسناد آن همه وجود دارد و شما
677
00:20:00,720 –> 00:20:02,159
می توانید نگاهی به عملکرد
678
00:20:02,159 –> 00:20:03,120
آن خاص
679
00:20:03,120 –> 00:20:06,880
الگوریتم خوب است
680
00:20:06,880 –> 00:20:09,039
خوب پس این خط از اینجاست
681
00:20:09,039 –> 00:20:11,600
PPO واردات خطوط پایه زیرخط پایدار
682
00:20:11,600 –> 00:20:12,880
و سپس مورد بعدی که نوشته ایم
683
00:20:12,880 –> 00:20:15,120
از خطوط پایه زیرخط پایدار است
684
00:20:15,120 –> 00:20:15,760
سه
685
00:20:15,760 –> 00:20:19,039
نقطه مشترک نقطه vec underscore env import
686
00:20:19,039 –> 00:20:21,039
ساختگی vec env
687
00:20:21,039 –> 00:20:23,440
حالا در این مورد کمی بیشتر صحبت می کنم
688
00:20:23,440 –> 00:20:25,280
هنگامی که ما به آموزش شکست اما
689
00:20:25,280 –> 00:20:25,919
اساسا
690
00:20:25,919 –> 00:20:28,159
خطوط پایه پایدار به شما امکان می دهد تا بردارید
691
00:20:28,159 –> 00:20:29,600
محیط های این بدان معنی است که اجازه می دهد
692
00:20:29,600 –> 00:20:30,559
شما برای آموزش
693
00:20:30,559 –> 00:20:31,840
مدل یا قطار یادگیری ماشین شما
694
00:20:31,840 –> 00:20:33,760
عامل یادگیری تقویتی شما در
695
00:20:33,760 –> 00:20:35,919
چندین عامل همزمان یا چندگانه
696
00:20:35,919 –> 00:20:37,760
محیط ها به طور همزمان
697
00:20:37,760 –> 00:20:40,640
این بدان معنی است که شما می توانید یک تقویت بزرگ دریافت کنید
698
00:20:40,640 –> 00:20:40,960
که در
699
00:20:40,960 –> 00:20:42,720
سرعت تمرین خود را با انجام آن در حال حاضر در
700
00:20:42,720 –> 00:20:44,400
این مورد ما قرار نیست
701
00:20:44,400 –> 00:20:46,080
بردار کردن محیط ما بنابراین ما هستیم
702
00:20:46,080 –> 00:20:47,280
قادر به استفاده خواهد بود
703
00:20:47,280 –> 00:20:50,559
به جای این بسته بندی vec env ساختگی
704
00:20:50,559 –> 00:20:51,840
خواهید دید که در واقع چگونه به نظر می رسد
705
00:20:51,840 –> 00:20:53,919
هنگامی که ما بردار را در شکست
706
00:20:53,919 –> 00:20:55,600
پروژه اما دوباره فعلا فقط به آن فکر کنید
707
00:20:55,600 –> 00:20:57,039
این به عنوان یک لفاف در اطراف شما
708
00:20:57,039 –> 00:20:57,760
محیط
709
00:20:57,760 –> 00:20:59,360
کار با بیس پایدار را آسان تر می کند
710
00:20:59,360 –> 00:21:00,880
خطوط و سپس چیز بعدی که ما داریم
711
00:21:00,880 –> 00:21:01,280
نوشته شده است
712
00:21:01,280 –> 00:21:03,520
از خطوط پایه زیرخط پایدار است
713
00:21:03,520 –> 00:21:05,120
نقطه مشترک سه نقطه
714
00:21:05,120 –> 00:21:08,080
ارزیابی واردات ارزیابی underscore
715
00:21:08,080 –> 00:21:10,799
خط مشی بنابراین خط مشی را مورد ارزیابی قرار دهید
716
00:21:10,799 –> 00:21:13,200
آزمایش اینکه مدل چگونه است را آسان تر می کند
717
00:21:13,200 –> 00:21:14,480
در واقع انجام آن چیزی است که شما
718
00:21:14,480 –> 00:21:16,320
در واقع وقتی این را اجرا می کنیم، دریافت می کنیم
719
00:21:16,320 –> 00:21:19,039
میانگین پاداش بیش از یک معین است
720
00:21:19,039 –> 00:21:20,960
تعداد قسمت ها دوباره در مورد آن صحبت خواهم کرد
721
00:21:20,960 –> 00:21:22,320
آن را بعداً بیشتر کنید و شما نیز آن را دریافت خواهید کرد
722
00:21:22,320 –> 00:21:23,440
انحراف معیار
723
00:21:23,440 –> 00:21:25,600
برای آن نماینده خاص که شما هستید
724
00:21:25,600 –> 00:21:26,720
آموزش
725
00:21:26,720 –> 00:21:29,840
بنابراین دوباره پنج خط کد بنابراین سیستم عامل را وارد کنید
726
00:21:29,840 –> 00:21:31,840
import gym الگوریتم ما را وارد کنید که این است
727
00:21:31,840 –> 00:21:34,799
ppo واردات لفاف vec ساختگی ما و
728
00:21:34,799 –> 00:21:37,280
کمک کننده سیاست ارزیابی ما را وارد کنید
729
00:21:37,280 –> 00:21:39,760
که در جایی در اینجا استفاده خواهد شد
730
00:21:39,760 –> 00:21:40,799
باحال
731
00:21:40,799 –> 00:21:42,640
تقریباً از نظر ما است
732
00:21:42,640 –> 00:21:44,159
وابستگی بنابراین ما پنج خط نوشتیم
733
00:21:44,159 –> 00:21:45,840
از کد
734
00:21:45,840 –> 00:21:50,799
اکنون به مرحله دو محیط می رویم
735
00:21:50,799 –> 00:21:52,720
بنابراین من فکر می کنم یک چیز کلیدی برای تماس با آن است
736
00:21:52,720 –> 00:21:54,880
تفاوت بین شبیه سازی شده و
737
00:21:54,880 –> 00:21:56,880
محیط های واقعی در حال حاضر به همین دلیل است که ما هستیم
738
00:21:56,880 –> 00:21:59,440
با استفاده از ورزشگاه open ai، ورزشگاه open ai اجازه می دهد
739
00:21:59,440 –> 00:22:00,159
شما برای ساختن
740
00:22:00,159 –> 00:22:02,159
واقعا محیط های شبیه سازی شده
741
00:22:02,159 –> 00:22:03,760
به راحتی بنابراین یک پشته کامل وجود دارد
742
00:22:03,760 –> 00:22:04,480
کمک کنندگان
743
00:22:04,480 –> 00:22:06,320
این یک کتابخانه واقعاً خوب است و
744
00:22:06,320 –> 00:22:08,080
به خصوص به همین دلیل است
745
00:22:08,080 –> 00:22:09,600
وقتی صحبت از آن می شود واقعاً محبوب است
746
00:22:09,600 –> 00:22:11,360
کار با یادگیری تقویتی
747
00:22:11,360 –> 00:22:14,320
اکنون یک چیز کلیدی برای فراخوانی این است که چه زمانی
748
00:22:14,320 –> 00:22:15,520
ما در حال کار با
749
00:22:15,520 –> 00:22:17,760
یادگیری تقویتی اغلب یکی از
750
00:22:17,760 –> 00:22:19,039
منافع این است که
751
00:22:19,039 –> 00:22:20,799
با استفاده از محیط های شبیه سازی شده ما
752
00:22:20,799 –> 00:22:22,720
قادر به کاهش هزینه ها هستیم و ما می توانیم
753
00:22:22,720 –> 00:22:24,400
تولید مدل های بهتر یک پشته کامل
754
00:22:24,400 –> 00:22:25,200
سریعتر
755
00:22:25,200 –> 00:22:26,880
حالا مثلاً بگویید که برای آن کار می کنید
756
00:22:26,880 –> 00:22:28,480
یک شرکت مهندسی و شما
757
00:22:28,480 –> 00:22:30,320
شرکت مهندسی می خواهد یک
758
00:22:30,320 –> 00:22:31,039
خود مختار
759
00:22:31,039 –> 00:22:33,679
مامور برود و این ربات را آموزش دهد
760
00:22:33,679 –> 00:22:35,280
اینجا برای اینکه بتوانید حرکت کنید
761
00:22:35,280 –> 00:22:37,280
یک توپ خاص به یک موقعیت خاص
762
00:22:37,280 –> 00:22:38,720
اکنون این ربات در واقع a نامیده می شود
763
00:22:38,720 –> 00:22:40,480
واکشی ردیف اما در واقع یک ربات واقعی است
764
00:22:40,480 –> 00:22:41,679
بنابراین شما می توانید در واقع نگاهی به چه چیزی بیندازید
765
00:22:41,679 –> 00:22:42,720
به نظر می رسد
766
00:22:42,720 –> 00:22:45,840
در حال حاضر آنها ممکن است فقط قادر به پرداخت یک
767
00:22:45,840 –> 00:22:46,799
ربات تک
768
00:22:46,799 –> 00:22:48,880
بنابراین این نوع سرعت آنها را محدود می کند
769
00:22:48,880 –> 00:22:50,960
بتواند آن ربات خاص را آموزش دهد
770
00:22:50,960 –> 00:22:52,640
و بدیهی است که هزینه هایی در بر دارد
771
00:22:52,640 –> 00:22:54,320
با آموزش واقعی آن ربات
772
00:22:54,320 –> 00:22:55,600
شما در حال فرسودگی
773
00:22:55,600 –> 00:22:56,240
مفاصل
774
00:22:56,240 –> 00:22:58,000
شما از برق استفاده خواهید کرد
775
00:22:58,000 –> 00:22:59,840
زمان زیادی طول می کشد و
776
00:22:59,840 –> 00:23:01,360
هزینه برای آموزش دادن
777
00:23:01,360 –> 00:23:03,039
آن ربات اگر شما آن را در یک واقعی انجام می دهید
778
00:23:03,039 –> 00:23:05,280
محیط در حال حاضر یکی از شگفت انگیز است
779
00:23:05,280 –> 00:23:07,039
چیزهایی در مورد یادگیری تقویتی است
780
00:23:07,039 –> 00:23:08,640
که می توانید سعی کنید آن را شبیه سازی کنید
781
00:23:08,640 –> 00:23:10,240
محیطی که بتوانیم آموزش دهیم
782
00:23:10,240 –> 00:23:11,760
نماینده به همین ترتیب
783
00:23:11,760 –> 00:23:13,360
در اینجا می توانید ببینید که این است
784
00:23:13,360 –> 00:23:15,039
در واقع یک ماکت
785
00:23:15,039 –> 00:23:17,039
این ربات و در واقع ساخته شده است
786
00:23:17,039 –> 00:23:18,720
داخل یک ابزار شبیه سازی به نام
787
00:23:18,720 –> 00:23:20,480
mojoko بنابراین من دوباره در مورد این صحبت کردم
788
00:23:20,480 –> 00:23:22,799
کمی زودتر اما این باعث می شود
789
00:23:22,799 –> 00:23:25,120
یک پشته کامل برای آموزش آسان تر و یک کل
790
00:23:25,120 –> 00:23:26,720
انباشته مقرون به صرفه تر برای قادر به
791
00:23:26,720 –> 00:23:28,240
برو جلو و تمرین کن
792
00:23:28,240 –> 00:23:30,480
نماینده شما که در واقع بسیار باحال است
793
00:23:30,480 –> 00:23:32,159
چون منظورم این است که این فناوری اینطور نیست
794
00:23:32,159 –> 00:23:33,440
در اطراف برای یک
795
00:23:33,440 –> 00:23:35,280
انبوهی از زمان اما بدیهی است
796
00:23:35,280 –> 00:23:36,720
توانایی را برای
797
00:23:36,720 –> 00:23:38,320
مردم برای تقویت اهرمی
798
00:23:38,320 –> 00:23:40,000
یادگیری بنابراین به جای نیاز به رفتن و
799
00:23:40,000 –> 00:23:41,440
آن را به صورت واقعی انجام دهید یا
800
00:23:41,440 –> 00:23:43,120
در زمان واقعی در آن عامل خاص
801
00:23:43,120 –> 00:23:44,559
آنها می توانند آن را به صورت شبیه سازی شده انجام دهند
802
00:23:44,559 –> 00:23:45,520
محیط
803
00:23:45,520 –> 00:23:48,000
و آن را در آنجا اجرا کنید اما در نهایت دوباره
804
00:23:48,000 –> 00:23:49,600
چیزی که ممکن است پیدا کنید این است که
805
00:23:49,600 –> 00:23:51,440
در حالی که ما ممکن است در یک شبیه سازی تمرین کنیم
806
00:23:51,440 –> 00:23:53,679
محیط زیست هدف نهایی گرفتن آن است
807
00:23:53,679 –> 00:23:55,360
عامل و برو و آن را در a مستقر کن
808
00:23:55,360 –> 00:23:56,799
محیطی شبیه تولید
809
00:23:56,799 –> 00:23:59,200
که به همین ترتیب یک ربات واقعی خواهد بود اگر
810
00:23:59,200 –> 00:24:00,559
شما آن را در یک بازی انجام می دهید که ممکن است
811
00:24:00,559 –> 00:24:01,279
قطار در
812
00:24:01,279 –> 00:24:03,120
نسخه آزمایشی بازی و شما
813
00:24:03,120 –> 00:24:04,799
ممکن است بر روی یک نسخه واقعی از
814
00:24:04,799 –> 00:24:06,400
بازی بنابراین شما به نوعی ایده بین آن را دریافت کنید
815
00:24:06,400 –> 00:24:08,720
یک محیط شبیه سازی شده و واقعی
816
00:24:08,720 –> 00:24:10,799
این شبیه سازی شده است
817
00:24:10,799 –> 00:24:13,120
واقعی
818
00:24:13,279 –> 00:24:15,760
اکنون اینجا جایی است که سالن ورزشی open ai وارد می شود
819
00:24:15,760 –> 00:24:18,080
بنابراین ورزشگاه او باز به شما می دهد واقعا
820
00:24:18,080 –> 00:24:19,840
محیط سبک اما واقعا
821
00:24:19,840 –> 00:24:21,760
ویژگی بسته بندی شده برای قادر به رفتن
822
00:24:21,760 –> 00:24:24,000
و یک یادگیری تقویتی ایجاد کنید
823
00:24:24,000 –> 00:24:25,440
محیط در حال حاضر در این مورد
824
00:24:25,440 –> 00:24:26,960
در واقع می توانید نگاهی به اسناد بیندازید
825
00:24:26,960 –> 00:24:29,520
بنابراین آن را در https دو نقطه به جلو اسلش است
826
00:24:29,520 –> 00:24:30,840
اسلش رو به جلو
827
00:24:30,840 –> 00:24:34,000
jim.openai به جلو اسلش اسناد پس اگر ما
828
00:24:34,000 –> 00:24:35,840
در واقع به آن لینک بروید
829
00:24:35,840 –> 00:24:38,799
که اینجاست ما می توانیم به شما کمک کنیم
830
00:24:38,799 –> 00:24:40,640
می توانید ببینید که یک پشته کامل وجود دارد
831
00:24:40,640 –> 00:24:42,880
مستندات در مورد چگونگی واقعی
832
00:24:42,880 –> 00:24:44,400
از ورزشگاه open ai استفاده کنید
833
00:24:44,400 –> 00:24:45,679
و چیز خوب در مورد این و
834
00:24:45,679 –> 00:24:47,360
به خصوص چرا من از این استفاده کرده ام
835
00:24:47,360 –> 00:24:49,760
محیط یا چارچوب خاص
836
00:24:49,760 –> 00:24:51,200
این است که پشتوانه کاملی از پشتیبانی وجود دارد
837
00:24:51,200 –> 00:24:52,960
بنابراین واقعاً به خوبی پشتیبانی می شود
838
00:24:52,960 –> 00:24:54,480
بسیاری از مردم از این زمانی استفاده می کنند
839
00:24:54,480 –> 00:24:55,840
به ورزشگاه روباز می آید
840
00:24:55,840 –> 00:24:58,480
بنابراین بدانید که چه زمانی به برش نگاه می کنید
841
00:24:58,480 –> 00:25:00,000
چیزهای لبه یا شما به آنها نگاه می کنید
842
00:25:00,000 –> 00:25:01,679
اگر می خواهید بروید چه مهارت هایی را باید یاد بگیرید
843
00:25:01,679 –> 00:25:03,039
و این کار را برای حرفه خود انجام دهید
844
00:25:03,039 –> 00:25:05,520
ورزشگاه open ai معمولا استاندارد است
845
00:25:05,520 –> 00:25:07,360
این فضای خاص
846
00:25:07,360 –> 00:25:10,080
اکنون یک انبوه از پیش ساخته شده وجود دارد
847
00:25:10,080 –> 00:25:11,760
محیط هایی که واقعاً می توانید از آنها استفاده کنید
848
00:25:11,760 –> 00:25:14,240
داخل ورزشگاه openai پس به یاد داشته باشید که من بودم
849
00:25:14,240 –> 00:25:15,919
صحبت کردن در مورد mujoko برای آن خاص
850
00:25:15,919 –> 00:25:17,919
ربات بنابراین شما واقعا می توانید آه آن را قوی
851
00:25:17,919 –> 00:25:18,720
موجو نباش
852
00:25:18,720 –> 00:25:21,279
ممکن است تحت رباتیک باشد، بنابراین شما می توانید
853
00:25:21,279 –> 00:25:22,559
ببینید که ما واقعا داریم
854
00:25:22,559 –> 00:25:25,039
ربات واکشی ما در اینجا نیز وجود دارد
855
00:25:25,039 –> 00:25:26,720
این دست سایه
856
00:25:26,720 –> 00:25:28,320
ربات در حال حاضر این در واقع بر اساس
857
00:25:28,320 –> 00:25:30,159
ربات های واقعی پس اگر واقعاً در گوگل جستجو کنید
858
00:25:30,159 –> 00:25:33,679
واکشی ربات که منظور من این نیست
859
00:25:33,679 –> 00:25:34,240
نوع a
860
00:25:34,240 –> 00:25:37,600
واکشی ربات
861
00:25:38,240 –> 00:25:40,159
شما در واقع می توانید ببینید پس در واقع یک است
862
00:25:40,159 –> 00:25:41,600
ربات واقعی که من در واقع به شما نشان می دهم
863
00:25:41,600 –> 00:25:42,000
در اینجا بنابراین
864
00:25:42,000 –> 00:25:44,720
این ربات دقیقاً این را تقلید می کند
865
00:25:44,720 –> 00:25:46,480
این ربات این دست در واقع است
866
00:25:46,480 –> 00:25:48,000
به نام دست سایه
867
00:25:48,000 –> 00:25:51,279
سایه و ربات ربات
868
00:25:51,279 –> 00:25:53,120
من معتقدم که آنجا برو تا بتوانی
869
00:25:53,120 –> 00:25:55,600
در واقع ببینید اینها در واقع بر اساس هستند
870
00:25:55,600 –> 00:25:57,200
ربات های واقعی که در آنجا هستند
871
00:25:57,200 –> 00:25:58,720
دنیای واقعی بنابراین مردم در تلاش برای آموزش هستند
872
00:25:58,720 –> 00:25:59,200
آنها
873
00:25:59,200 –> 00:26:01,840
با استفاده از ورزشگاه open ai در حال حاضر نیز وجود دارد
874
00:26:01,840 –> 00:26:03,840
مجموعه ای از محیط های اطراف الگوریتم ها
875
00:26:03,840 –> 00:26:04,240
دور و بر
876
00:26:04,240 –> 00:26:06,960
atari که کمی بعد انجام می دهیم
877
00:26:06,960 –> 00:26:08,320
اطراف جعبه 2d
878
00:26:08,320 –> 00:26:09,520
بنابراین ما در واقع در حال آزمایش هستیم
879
00:26:09,520 –> 00:26:11,760
از این کنترل کلاسیک
880
00:26:11,760 –> 00:26:14,480
بنابراین ما قصد داریم کارپول را آزمایش کنیم
881
00:26:14,480 –> 00:26:15,279
موجوکو
882
00:26:15,279 –> 00:26:17,600
متن اسباب بازی رباتیک و غیره
883
00:26:17,600 –> 00:26:18,400
یک پشته کامل وجود دارد
884
00:26:18,400 –> 00:26:20,480
همچنین انبوهی از شخص ثالث وجود دارد
885
00:26:20,480 –> 00:26:21,520
محیط های پس اگر می خواستید انجام دهید
886
00:26:21,520 –> 00:26:22,480
چیزی واقعا واقعا
887
00:26:22,480 –> 00:26:24,320
هاردکور شما قطعا می توانید یک
888
00:26:24,320 –> 00:26:25,760
به آنها نیز نگاه کنید بنابراین من
889
00:26:25,760 –> 00:26:27,919
به یاد داشته باشید که من در مورد کارلا من صحبت می کردم
890
00:26:27,919 –> 00:26:29,440
باور کن اینجا یکی هست پس اونجا هست
891
00:26:29,440 –> 00:26:30,880
در واقع یک لفاف برای قادر به
892
00:26:30,880 –> 00:26:32,559
رنگ اهرمی به عنوان بخشی از
893
00:26:32,559 –> 00:26:35,520
ورزشگاه او باز کن در این مورد ما هستیم
894
00:26:35,520 –> 00:26:37,840
با کنترل کلاسیک سروکار داریم
895
00:26:37,840 –> 00:26:39,039
برای شروع، بنابراین ما ادامه می دهیم
896
00:26:39,039 –> 00:26:41,200
این نسبتا ساده است و سعی کنید آن را حل کنید
897
00:26:41,200 –> 00:26:42,799
محیط کارپول
898
00:26:42,799 –> 00:26:45,360
بنابراین اگر ما واقعاً به این نگاه کنیم
899
00:26:45,360 –> 00:26:47,600
هدف در این مورد خاص
900
00:26:47,600 –> 00:26:50,320
این است که این ربات کوچک را به اینجا بیاوریم
901
00:26:50,320 –> 00:26:51,520
بتواند تعادل ایجاد کند
902
00:26:51,520 –> 00:26:53,520
این پرتو در حال حاضر شما می توانید در حال حاضر آن را ببینید
903
00:26:53,520 –> 00:26:55,760
نوعی ضربه زدن به این طرف و آن طرف و
904
00:26:55,760 –> 00:26:57,600
پرتو در حال سقوط است
905
00:26:57,600 –> 00:26:59,039
اکنون دو اقدام وجود دارد که می توانیم
906
00:26:59,039 –> 00:27:00,960
واقعاً می توانیم آن را به سمت چپ حرکت دهیم
907
00:27:00,960 –> 00:27:02,799
یا می توانیم برش را به سمت راست حرکت دهیم
908
00:27:02,799 –> 00:27:04,400
اما دوباره کمی به این موضوع می پردازم
909
00:27:04,400 –> 00:27:06,480
کمی بیشتر از آنچه که ما قادر خواهیم بود
910
00:27:06,480 –> 00:27:08,799
برای انجام این کار آموزش یک یادگیری تقویتی است
911
00:27:08,799 –> 00:27:11,039
عاملی که بتواند آن را حل کند
912
00:27:11,039 –> 00:27:12,080
مشکل خاص
913
00:27:12,080 –> 00:27:14,799
حالا کاری که بعداً می خواهیم انجام دهیم این است
914
00:27:14,799 –> 00:27:16,320
ما در واقع قصد داریم نگاهی بیندازیم
915
00:27:16,320 –> 00:27:17,919
در آنچه که آن محیط در واقع به نظر می رسد
916
00:27:17,919 –> 00:27:18,399
پسندیدن
917
00:27:18,399 –> 00:27:19,679
اکنون نکته کلیدی که باید توجه داشته باشید این است که چه زمانی
918
00:27:19,679 –> 00:27:21,679
شما در واقع به open ai نگاهی می اندازید
919
00:27:21,679 –> 00:27:22,000
سالن ورزش
920
00:27:22,000 –> 00:27:24,720
محیط ها این است که این محیط ها
921
00:27:24,720 –> 00:27:26,480
با چیزی به نام نشان داده می شوند
922
00:27:26,480 –> 00:27:27,840
فضاها
923
00:27:27,840 –> 00:27:30,320
تعدادی از انواع مختلف وجود دارد
924
00:27:30,320 –> 00:27:31,120
فضاها
925
00:27:31,120 –> 00:27:34,799
که open ai gym اکنون نام ها را پشتیبانی می کند
926
00:27:34,799 –> 00:27:36,320
ممکن است کمی مشکل باشد
927
00:27:36,320 –> 00:27:38,480
در واقع از آنها استفاده می کند اما
928
00:27:38,480 –> 00:27:40,559
اجازه دهید من شما را از طریق آنها راهنمایی کنم
929
00:27:40,559 –> 00:27:41,760
اولی است
930
00:27:41,760 –> 00:27:44,960
جعبه اکنون این محدوده ای از مقادیر است
931
00:27:44,960 –> 00:27:45,679
در فکر
932
00:27:45,679 –> 00:27:47,520
به عنوان مثال می گویید شما یک پیوسته می خواهید
933
00:27:47,520 –> 00:27:50,080
ارزشی که می خواهید از یک جعبه استفاده کنید
934
00:27:50,080 –> 00:27:52,720
فضا بنابراین راهی برای نمونه سازی یک جعبه
935
00:27:52,720 –> 00:27:54,159
فضا با استفاده از جعبه است
936
00:27:54,159 –> 00:27:56,320
و سپس از مقدار کم عبور می کند
937
00:27:56,320 –> 00:27:58,240
ارزش بالا و شکل
938
00:27:58,240 –> 00:27:58,799
فضا
939
00:27:58,799 –> 00:28:00,159
دوباره می خواهم به این موضوع بپردازم
940
00:28:00,159 –> 00:28:01,679
کل پشته بیشتر زمانی که ما در واقع یک
941
00:28:01,679 –> 00:28:02,080
نگاه کن
942
00:28:02,080 –> 00:28:03,520
محیط ما و ما در واقع می رویم
943
00:28:03,520 –> 00:28:05,120
برای استفاده از برخی از این فضاها در واقع
944
00:28:05,120 –> 00:28:06,960
محیط سفارشی خود را در آن بسازیم
945
00:28:06,960 –> 00:28:07,520
پروژه
946
00:28:07,520 –> 00:28:11,200
3. نوع بعدی فضا گسسته است بنابراین
947
00:28:11,200 –> 00:28:12,960
این فقط مجموعه ای از موارد است
948
00:28:12,960 –> 00:28:14,880
بنابراین اگر من در گسسته تایپ و سپس پاس
949
00:28:14,880 –> 00:28:16,240
از طریق مقدار سه
950
00:28:16,240 –> 00:28:17,440
چیزی که در واقع می خواهید پس بگیرید
951
00:28:17,440 –> 00:28:19,679
از نظر فضای شما مقادیر 0 است
952
00:28:19,679 –> 00:28:21,360
1 و 2. بنابراین در واقع می دهد
953
00:28:21,360 –> 00:28:22,799
شما اعداد گسسته
954
00:28:22,799 –> 00:28:24,880
که نشان دهنده نگاشت های خاص به
955
00:28:24,880 –> 00:28:26,559
چیزی که معمولاً خواهید دید
956
00:28:26,559 –> 00:28:28,240
اقدامات گسسته استفاده شده
957
00:28:28,240 –> 00:28:30,080
برای یا معمولاً گسسته را خواهید دید
958
00:28:30,080 –> 00:28:31,840
فضاهای مورد استفاده برای اقدامات
959
00:28:31,840 –> 00:28:34,080
بنابراین عمل صفر چیزی عمل خواهد بود
960
00:28:34,080 –> 00:28:35,520
یکی چیزی خواهد بود و عمل دوم
961
00:28:35,520 –> 00:28:37,279
چیز دیگری خواهد بود
962
00:28:37,279 –> 00:28:39,200
اوه شما هم چند تاپلی دارید
963
00:28:39,200 –> 00:28:40,320
به شما امکان می دهد ترکیب کنید
964
00:28:40,320 –> 00:28:41,840
فضاها با هم تا شما بتوانید ببینید که ما می توانیم
965
00:28:41,840 –> 00:28:43,679
از تاپل استفاده کنید و سپس از گسسته عبور کنید
966
00:28:43,679 –> 00:28:44,480
و جعبه
967
00:28:44,480 –> 00:28:46,399
بنابراین این فقط به شما امکان می دهد کلید آنها را بپیوندید
968
00:28:46,399 –> 00:28:48,720
نکته قابل توجه این است که خطوط پایه پایدار است
969
00:28:48,720 –> 00:28:51,039
از tupor پشتیبانی نمی کند بنابراین دوباره خوب است
970
00:28:51,039 –> 00:28:52,559
می دانید اما قرار نیست از همه آن استفاده کنید
971
00:28:52,559 –> 00:28:53,760
آنقدر
972
00:28:53,760 –> 00:28:55,760
شما همچنین باید فضاهای دیکته، بنابراین این است
973
00:28:55,760 –> 00:28:57,440
فقط یک فرهنگ لغت از فضاها واقعاً
974
00:28:57,440 –> 00:28:59,120
شبیه به دو توپ اما در این مورد
975
00:28:59,120 –> 00:29:00,640
ما فقط دیکته را اعلام می کنیم
976
00:29:00,640 –> 00:29:01,840
و سپس ما در حال عبور از یک
977
00:29:01,840 –> 00:29:04,080
فرهنگ لغت فضاها دو نوع دیگر
978
00:29:04,080 –> 00:29:06,080
از فضاها اینها فضاهایی هستند که من ندارم
979
00:29:06,080 –> 00:29:07,520
خیلی باهاش برخورد کردم اما مهمه
980
00:29:07,520 –> 00:29:09,360
توجه داشته باشید که آنها آنجا هستند، بنابراین شما باید
981
00:29:09,360 –> 00:29:11,600
یک فضای چند باینری پس این یک فضای است
982
00:29:11,600 –> 00:29:12,720
کدگذاری داغ
983
00:29:12,720 –> 00:29:14,799
مجموعه ای از مقادیر باینری بنابراین اگر عبور کنید
984
00:29:14,799 –> 00:29:16,559
از طریق چند باینری و عبور از
985
00:29:16,559 –> 00:29:17,679
مقدار چهار
986
00:29:17,679 –> 00:29:19,520
آنچه می خواهید دریافت کنید لیستی از آن است
987
00:29:19,520 –> 00:29:20,960
ارزش ها و شما در حال رفتن به
988
00:29:20,960 –> 00:29:22,880
چهار موقعیت بنابراین شما صفر یک خواهید داشت
989
00:29:22,880 –> 00:29:25,120
دو سه پس در حالت ایده آل چهار مقدار
990
00:29:25,120 –> 00:29:26,480
و شما فقط به طور موثری می خواهید
991
00:29:26,480 –> 00:29:28,640
پرچم های باینری داشته باشید تا یک یا صفر
992
00:29:28,640 –> 00:29:30,399
نمایندگی در آن موقعیت ها پس از آن است
993
00:29:30,399 –> 00:29:32,399
یک بردار کدگذاری شده داغ
994
00:29:32,399 –> 00:29:34,960
اعمال مختلف یا فضاهای مختلف
995
00:29:34,960 –> 00:29:35,840
شما نیز دارید
996
00:29:35,840 –> 00:29:38,000
چند گسسته بنابراین این بسیار شبیه است
997
00:29:38,000 –> 00:29:39,600
به فضای گسسته ما اما در این مورد
998
00:29:39,600 –> 00:29:40,000
تو می توانی
999
00:29:40,000 –> 00:29:42,159
اوه مجموعه های متعددی از مقادیر بنابراین
1000
00:29:42,159 –> 00:29:44,480
شما 0 1 خواهید داشت، بنابراین اگر از 5 2 عبور کنم
1001
00:29:44,480 –> 00:29:48,159
2 چیزی که من پس خواهم گرفت طیف وسیعی از
1002
00:29:48,159 –> 00:29:49,039
مقادیر بین
1003
00:29:49,039 –> 00:29:51,760
0 و 4 برای موقعیت اول 0 و 1
1004
00:29:51,760 –> 00:29:52,799
برای مقام دوم
1005
00:29:52,799 –> 00:29:54,960
و 0 و یک برای مقام سوم بنابراین
1006
00:29:54,960 –> 00:29:56,559
دوباره شما می توانید شروع به دیدن چگونه این
1007
00:29:56,559 –> 00:29:58,000
فضاها نوعی بازی
1008
00:29:58,000 –> 00:29:59,600
اما به اندازه کافی در مورد آن اجازه دهید در واقع یک
1009
00:29:59,600 –> 00:30:02,399
نگاه کنیم و شروع به ساختن محیط خود کنیم
1010
00:30:02,399 –> 00:30:04,640
پس به نوت بوک خود برگردیم که چه می خواهیم
1011
00:30:04,640 –> 00:30:06,240
اکنون باید بارگذاری ما را شروع کنیم
1012
00:30:06,240 –> 00:30:07,679
محیط زیست، بنابراین ابتدا آنچه را که می خواهیم انجام دهیم
1013
00:30:07,679 –> 00:30:08,080
انجام دادن
1014
00:30:08,080 –> 00:30:10,640
آیا ما قصد داریم از ورزشگاه open ai استفاده کنیم
1015
00:30:10,640 –> 00:30:12,000
محیط خود را نمونه سازی کنیم و سپس
1016
00:30:12,000 –> 00:30:13,520
ما در واقع آن را آزمایش خواهیم کرد و یک
1017
00:30:13,520 –> 00:30:14,480
به آن نگاه کنید
1018
00:30:14,480 –> 00:30:22,720
بیایید ابتدا محیط خود را آپلود کنیم
1019
00:30:22,720 –> 00:30:25,279
خوب این دو خط کد است
1020
00:30:25,279 –> 00:30:27,279
بتوانیم برویم و محیط خود را ایجاد کنیم
1021
00:30:27,279 –> 00:30:29,120
حالا من رفتم و آن را جدا کردم
1022
00:30:29,120 –> 00:30:30,720
دو خط کد اما شما می توانید آن را بسازید
1023
00:30:30,720 –> 00:30:31,679
یکی و من
1024
00:30:31,679 –> 00:30:33,760
این را توضیح دهید تا خط اول کد
1025
00:30:33,760 –> 00:30:35,039
که ما نوشته ایم محیط است
1026
00:30:35,039 –> 00:30:36,159
نام زیر خط
1027
00:30:36,159 –> 00:30:39,440
برابر با سبد خرید dash v0 است
1028
00:30:39,440 –> 00:30:40,880
به حروف کوچک و بزرگ حساس است، بنابراین مطمئن شوید که آن را دریافت کرده اید
1029
00:30:40,880 –> 00:30:42,240
مورد درست است
1030
00:30:42,240 –> 00:30:46,080
ما یک C-a-r-t p-o-l-e بزرگ داریم
1031
00:30:46,080 –> 00:30:49,039
dash v-0 بنابراین این نام محیط است
1032
00:30:49,039 –> 00:30:49,440
فقط
1033
00:30:49,440 –> 00:30:52,240
نقشه برداری به باز یا از پیش نصب شده
1034
00:30:52,240 –> 00:30:54,320
محیط های ورزشی باز
1035
00:30:54,320 –> 00:30:55,760
پس کاری که ما انجام می دهیم این است که در واقع هستیم
1036
00:30:55,760 –> 00:30:57,200
ساختن محیط هایمان که نوشته ایم
1037
00:30:57,200 –> 00:30:58,080
emv
1038
00:30:58,080 –> 00:31:00,480
برابر است با نقطه ورزشگاه و سپس به آن
1039
00:31:00,480 –> 00:31:02,320
از نام محیط ما عبور خواهد کرد
1040
00:31:02,320 –> 00:31:03,919
متغیر پس اگر ما واقعا فقط
1041
00:31:03,919 –> 00:31:06,159
نام محیط را چاپ کرد
1042
00:31:06,159 –> 00:31:07,760
متغیر آن فقط یک رشته خواهد بود
1043
00:31:07,760 –> 00:31:08,480
درست
1044
00:31:08,480 –> 00:31:11,600
نام محیط
1045
00:31:11,600 –> 00:31:14,159
فقط یک رشته حق هیچ چیز دیوانه وجود دارد
1046
00:31:14,159 –> 00:31:15,840
اکنون آنچه ما در واقع می توانیم انجام دهیم این است که می توانیم
1047
00:31:15,840 –> 00:31:17,440
در واقع این محیط را آزمایش کنید
1048
00:31:17,440 –> 00:31:18,240
یاد آوردن
1049
00:31:18,240 –> 00:31:20,320
کاری که در ابتدا می خواهیم انجام دهیم این است
1050
00:31:20,320 –> 00:31:22,480
اقدامات تصادفی در آن محیط انجام دهید
1051
00:31:22,480 –> 00:31:24,000
اما در نهایت کاری که ما می خواهیم انجام دهیم این است
1052
00:31:24,000 –> 00:31:25,679
ما نماینده خود را می گیریم و
1053
00:31:25,679 –> 00:31:27,440
به ویژه یادگیری تقویتی ما
1054
00:31:27,440 –> 00:31:28,159
عامل
1055
00:31:28,159 –> 00:31:29,760
و سعی کنید آن را به سمت راست هدایت کنید
1056
00:31:29,760 –> 00:31:31,679
اقدامات در آن محیط خاص
1057
00:31:31,679 –> 00:31:33,279
برای به حداکثر رساندن پاداش ما همین است
1058
00:31:33,279 –> 00:31:35,279
یادگیری تقویتی همه چیز در مورد است
1059
00:31:35,279 –> 00:31:36,960
بنابراین آنچه که ما می خواهیم انجام دهیم اول مرتب سازی است
1060
00:31:36,960 –> 00:31:38,159
درک درستی از
1061
00:31:38,159 –> 00:31:39,440
محیط واقعاً مهم است
1062
00:31:39,440 –> 00:31:41,039
برای درک آنچه در واقع اتفاق می افتد
1063
00:31:41,039 –> 00:31:42,159
در آن محیط
1064
00:31:42,159 –> 00:31:43,679
قبل از اینکه بخواهید کاری انجام دهید زیرا
1065
00:31:43,679 –> 00:31:45,440
ممکن است الگوریتم های اشتباهی را امتحان کنید
1066
00:31:45,440 –> 00:31:46,000
شما ممکن است انجام دهید
1067
00:31:46,000 –> 00:31:48,080
یک دسته کامل از چیزهای تصادفی اما
1068
00:31:48,080 –> 00:31:49,279
درک محیط در حال انجام است
1069
00:31:49,279 –> 00:31:49,919
برای ساختن زندگی شما
1070
00:31:49,919 –> 00:31:52,880
در این مورد خیلی راحت تر به من اعتماد کنید پس بیایید
1071
00:31:52,880 –> 00:31:55,039
ادامه دهید و کمی حلقه بنویسید
1072
00:31:55,039 –> 00:31:56,640
برای آزمایش محیط خود، پس بیایید برویم
1073
00:31:56,640 –> 00:32:01,840
این کار را انجام دهید
1074
00:32:27,600 –> 00:32:30,799
بسیار خوب پس من کدهای زیادی نوشتم
1075
00:32:30,799 –> 00:32:32,720
وجود دارد اما من قدم به قدم آن را انجام خواهم داد
1076
00:32:32,720 –> 00:32:33,840
با شما قدم بگذاریم پس ما دوباره می رویم
1077
00:32:33,840 –> 00:32:35,120
هر زمان که هستیم قدم به قدم این کار را انجام دهیم
1078
00:32:35,120 –> 00:32:36,159
عبور از این چیزها
1079
00:32:36,159 –> 00:32:39,039
پس یک دو سه چهار
1080
00:32:39,039 –> 00:32:39,840
پنج
1081
00:32:39,840 –> 00:32:43,200
شش هفت هشت 9 10 11 12
1082
00:32:43,200 –> 00:32:45,200
12 خط کد اکنون دوباره همه اینها
1083
00:32:45,200 –> 00:32:47,200
کد شامل مبتدی و همچنین
1084
00:32:47,200 –> 00:32:48,559
آموزش های تکمیل شده قرار است باشد
1085
00:32:48,559 –> 00:32:50,159
در توضیحات github موجود است
1086
00:32:50,159 –> 00:32:50,720
زیر
1087
00:32:50,720 –> 00:32:52,240
بنابراین اگر می خواهید این را بردارید و راه بروید
1088
00:32:52,240 –> 00:32:53,760
از طریق آن و مقایسه کد خود می توانید
1089
00:32:53,760 –> 00:32:54,960
انجام این کار
1090
00:32:54,960 –> 00:32:56,399
اولین کاری که می خواهیم انجام دهیم این است که پیاده روی کنیم
1091
00:32:56,399 –> 00:32:58,240
از طریق هر مرحله یا هر خط از این
1092
00:32:58,240 –> 00:32:59,279
کد
1093
00:32:59,279 –> 00:33:01,840
بنابراین ما واقعاً چه کاری انجام خواهیم داد
1094
00:33:01,840 –> 00:33:02,720
آیا ما قرار است باشیم
1095
00:33:02,720 –> 00:33:05,200
تلاش برای آزمایش کارپول
1096
00:33:05,200 –> 00:33:06,159
محیط پنج
1097
00:33:06,159 –> 00:33:08,240
بارها در حال حاضر آنچه را که در واقع رفته ایم و
1098
00:33:08,240 –> 00:33:09,760
done یک متغیر به نام ایجاد می شود
1099
00:33:09,760 –> 00:33:11,840
اپیزودها و ما آن را روی پنج قسمت تنظیم کرده ایم
1100
00:33:11,840 –> 00:33:12,799
این بدان معنی است که ما سعی خواهیم کرد
1101
00:33:12,799 –> 00:33:13,840
از طریق محیط ما حلقه بزنید
1102
00:33:13,840 –> 00:33:15,679
پنج بار تا ببینیم چگونه می توانیم کار کنیم
1103
00:33:15,679 –> 00:33:17,600
در داخل آن، بنابراین ما قسمت ها را نوشته ایم
1104
00:33:17,600 –> 00:33:19,200
برابر با پنج و سپس ما در حال حلقه زدن هستیم
1105
00:33:19,200 –> 00:33:20,720
از طریق هر یک از آن قسمت ها
1106
00:33:20,720 –> 00:33:24,080
بنابراین برای قسمت در محدوده
1107
00:33:24,080 –> 00:33:25,519
و سپس ما در حال شروع کردن در یک و
1108
00:33:25,519 –> 00:33:27,200
سپس ما اپیزود به اضافه یک را می رویم
1109
00:33:27,200 –> 00:33:28,799
این به طور موثر فقط در حال چرخش است
1110
00:33:28,799 –> 00:33:29,760
هر یک از قسمت ها
1111
00:33:29,760 –> 00:33:30,960
اگر واقعاً این را برای ما بنویسیم
1112
00:33:30,960 –> 00:33:33,440
قسمت ها
1113
00:33:33,440 –> 00:33:36,840
برابر با پنج برای قسمت در
1114
00:33:36,840 –> 00:33:40,320
اپیزودهای محدوده یک کاما
1115
00:33:40,320 –> 00:33:46,000
به علاوه یک بیایید قسمت خود را چاپ کنیم
1116
00:33:47,120 –> 00:33:48,399
بنابراین شما می توانید ببینید که آن را فقط رفتن به
1117
00:33:48,399 –> 00:33:50,399
از طریق یک تا پنج به سمت راست حلقه بزنید
1118
00:33:50,399 –> 00:33:51,120
این همه است
1119
00:33:51,120 –> 00:33:53,519
این دو خط در اینجا انجام می دهند پس چه
1120
00:33:53,519 –> 00:33:55,039
ما انجام می دهیم این است که ما در حال تنظیم مجدد خود هستیم
1121
00:33:55,039 –> 00:33:57,600
محیط پس با اجرای env.reset
1122
00:33:57,600 –> 00:33:59,440
ما یک مجموعه اولیه را دریافت می کنیم
1123
00:33:59,440 –> 00:34:00,720
مشاهدات به یاد می آورند
1124
00:34:00,720 –> 00:34:02,480
آن پنج جزء کلیدی وجود داشت
1125
00:34:02,480 –> 00:34:04,320
هر محیط یا چهار جزء کلیدی
1126
00:34:04,320 –> 00:34:06,880
عامل عمل وجود دارد
1127
00:34:06,880 –> 00:34:08,560
محیط و سپس مشاهدات
1128
00:34:08,560 –> 00:34:09,839
به علاوه پاداش
1129
00:34:09,839 –> 00:34:12,159
بنابراین با اجرای env.reset ما به
1130
00:34:12,159 –> 00:34:13,839
مجموعه اولیه مشاهدات خود را دریافت کنید
1131
00:34:13,839 –> 00:34:16,960
اگر emb.reset را تایپ کنم
1132
00:34:16,960 –> 00:34:18,960
می توانید ببینید که اینها هستند
1133
00:34:18,960 –> 00:34:20,719
مشاهدات برای یک خاص
1134
00:34:20,719 –> 00:34:22,560
محیط زیست حالا در مورد چه چیزی صحبت خواهم کرد
1135
00:34:22,560 –> 00:34:24,159
این مقادیر در یک ثانیه معنی می دهند
1136
00:34:24,159 –> 00:34:25,599
وقتی واقعاً به درک برسیم
1137
00:34:25,599 –> 00:34:27,199
محیط زیست اما در حال حاضر فقط
1138
00:34:27,199 –> 00:34:28,399
درک کنید که اینها
1139
00:34:28,399 –> 00:34:30,719
مشاهداتی هستند که ما برای خود دریافت می کنیم
1140
00:34:30,719 –> 00:34:31,918
قطب خاص سمت راست
1141
00:34:31,918 –> 00:34:34,560
بنابراین ما اکنون این چهار مقدار را دریافت می کنیم
1142
00:34:34,560 –> 00:34:36,079
کاری که ما به طور موثر انجام خواهیم داد
1143
00:34:36,079 –> 00:34:36,800
در حال عبور است
1144
00:34:36,800 –> 00:34:38,960
این مشاهدات یا بعداً خواهیم کرد
1145
00:34:38,960 –> 00:34:40,480
این مشاهدات را به ما منتقل کنید
1146
00:34:40,480 –> 00:34:42,079
عامل یادگیری تقویتی
1147
00:34:42,079 –> 00:34:43,918
برای تعیین بهترین نوع
1148
00:34:43,918 –> 00:34:45,760
اقدام این است که بتوانیم خود را به حداکثر برسانیم
1149
00:34:45,760 –> 00:34:46,239
جایزه
1150
00:34:46,239 –> 00:34:47,839
بنابراین عوامل ما این ارزش ها را می بینند
1151
00:34:47,839 –> 00:34:49,359
و آن را به رفتن هی من اینها را دارم
1152
00:34:49,359 –> 00:34:50,399
ارزش های
1153
00:34:50,399 –> 00:34:52,239
چه کاری باید انجام دهم یا چه اقدامی باید انجام دهم
1154
00:34:52,239 –> 00:34:54,239
برای اینکه بتوانم پاداش خود را به حداکثر برسانم
1155
00:34:54,239 –> 00:34:55,199
و آن نوار را دریافت کنید
1156
00:34:55,199 –> 00:34:58,079
در صاف ترین حالت ممکن
1157
00:34:58,079 –> 00:34:59,440
سپس اینجا ما در حال راه اندازی هستیم
1158
00:34:59,440 –> 00:35:00,800
برخی از متغیرهای موقت بنابراین ما هستیم
1159
00:35:00,800 –> 00:35:02,480
تنظیم اینکه آیا قسمت باشد یا نه
1160
00:35:02,480 –> 00:35:02,800
انجام شده
1161
00:35:02,800 –> 00:35:04,800
بنابراین شما حداکثر تعداد مراحل را دارید
1162
00:35:04,800 –> 00:35:06,720
در این محیط خاص
1163
00:35:06,720 –> 00:35:08,400
و همچنین در حال راه اندازی یک اجرا هستیم
1164
00:35:08,400 –> 00:35:10,480
شمارنده امتیاز در تمام قسمت ها
1165
00:35:10,480 –> 00:35:13,040
سپس ما یک حلقه while داریم، در حالی که نه
1166
00:35:13,040 –> 00:35:14,720
انجام شد، پس از آن می خواهیم خود را رندر کنیم
1167
00:35:14,720 –> 00:35:15,440
محیط زیست بنابراین
1168
00:35:15,440 –> 00:35:18,320
تابع رندر به ما امکان مشاهده را می دهد
1169
00:35:18,320 –> 00:35:20,400
محیط یا مشاهده گرافیکی
1170
00:35:20,400 –> 00:35:22,400
بازنمایی آن محیط
1171
00:35:22,400 –> 00:35:24,079
نکته کلیدی این است که اگر هستید
1172
00:35:24,079 –> 00:35:25,680
اجرای این در داخل یک همکاری
1173
00:35:25,680 –> 00:35:27,760
تابع رندر کار نمی کند
1174
00:35:27,760 –> 00:35:28,880
مثل این شما باید کمی انجام دهید
1175
00:35:28,880 –> 00:35:30,320
از کار اضافی، بنابراین من را در کار
1176
00:35:30,320 –> 00:35:31,280
نظرات زیر
1177
00:35:31,280 –> 00:35:32,640
اگر کمی کمک می خواهید
1178
00:35:32,640 –> 00:35:35,119
که پس کاری که ما انجام می دهیم این است که ما هستیم
1179
00:35:35,119 –> 00:35:37,040
ایجاد یک عمل تصادفی بنابراین نه
1180
00:35:37,040 –> 00:35:37,839
از گرفتن
1181
00:35:37,839 –> 00:35:39,520
در مشاهدات ما و در واقع
1182
00:35:39,520 –> 00:35:41,040
ایجاد یک عمل که در واقع است
1183
00:35:41,040 –> 00:35:41,680
مفید
1184
00:35:41,680 –> 00:35:43,040
ما فقط یک تصادفی می گیریم
1185
00:35:43,040 –> 00:35:44,880
این شبیه به انجام این کار است تا بتوانم فقط
1186
00:35:44,880 –> 00:35:48,320
تایپ کنید اجازه دهید در واقع این را به پایین منتقل کنیم
1187
00:35:48,320 –> 00:35:50,800
بنابراین کاری که میتوان انجام داد اقدام emv dot است
1188
00:35:50,800 –> 00:35:52,400
فضا
1189
00:35:52,400 –> 00:35:55,520
نمونه نقطه، بنابراین ما فقط یک را تولید می کنیم
1190
00:35:55,520 –> 00:35:56,320
عمل تصادفی
1191
00:35:56,320 –> 00:35:57,760
این در واقع واقعا خوب است که توجه داشته باشید
1192
00:35:57,760 –> 00:36:00,320
خوب پس اگر من واقعا نمونه برداریم
1193
00:36:00,320 –> 00:36:01,680
به یاد بیاور که چگونه در مورد آن صحبت می کردم
1194
00:36:01,680 –> 00:36:03,440
انواع مختلف فضاهای اکشن
1195
00:36:03,440 –> 00:36:05,520
در این مورد در اینجا ما گسسته است
1196
00:36:05,520 –> 00:36:07,599
دو پس این بدان معنی است که ما دو می گیریم
1197
00:36:07,599 –> 00:36:08,960
انواع مختلف عمل بنابراین ما باید
1198
00:36:08,960 –> 00:36:10,960
صفر یا یک پس اگر واقعاً تایپ کنیم
1199
00:36:10,960 –> 00:36:13,599
نمونه نقطه
1200
00:36:13,599 –> 00:36:15,839
می توانید ببینید که این بار یکی داریم
1201
00:36:15,839 –> 00:36:16,880
یکی یکی گرفت
1202
00:36:16,880 –> 00:36:19,280
صفر شد تا بتوانید فضای اکشن ما را ببینید
1203
00:36:19,280 –> 00:36:20,320
فقط قرار است آن دو را داشته باشد
1204
00:36:20,320 –> 00:36:22,079
اقدامات مختلف صفر یا یک این است
1205
00:36:22,079 –> 00:36:23,760
چه دو گسسته
1206
00:36:23,760 –> 00:36:25,200
که فضای اکشن ما به نظر می رسد
1207
00:36:25,200 –> 00:36:26,880
مانند نشان می دهد
1208
00:36:26,880 –> 00:36:28,400
حالا ما واقعاً می توانیم نگاهی به خودمان بیندازیم
1209
00:36:28,400 –> 00:36:30,320
فضای مشاهده نیز این یک کلید است
1210
00:36:30,320 –> 00:36:31,040
چیزی که به آن می گویند
1211
00:36:31,040 –> 00:36:32,320
بنابراین دو تا متفاوت خواهند بود
1212
00:36:32,320 –> 00:36:34,240
فضاهای درون هر محیطی
1213
00:36:34,240 –> 00:36:36,079
فضای عمل شما پس اینها هستند
1214
00:36:36,079 –> 00:36:38,320
اقداماتی که می توانید در آن محیط انجام دهید
1215
00:36:38,320 –> 00:36:40,560
و فضای مشاهده شما پس این است
1216
00:36:40,560 –> 00:36:42,400
مشاهدات شما در واقع به چه شکل هستند
1217
00:36:42,400 –> 00:36:43,680
مانند آن محیط خاص
1218
00:36:43,680 –> 00:36:44,800
این یک نمای جزئی است
1219
00:36:44,800 –> 00:36:47,760
بنابراین اگر ما در فضای مشاهده تایپ کنید شما
1220
00:36:47,760 –> 00:36:48,320
می تواند ببیند
1221
00:36:48,320 –> 00:36:50,000
که ما در واقع یک جعبه داریم
1222
00:36:50,000 –> 00:36:51,599
محیط، بنابراین من این مقادیر را دارم
1223
00:36:51,599 –> 00:36:53,280
در اینجا، بنابراین این یک کران پایین تر خواهد بود
1224
00:36:53,280 –> 00:36:55,280
و این حد بالایی ما خواهد بود
1225
00:36:55,280 –> 00:36:56,880
و سپس ما چهار کاما داریم پس این
1226
00:36:56,880 –> 00:36:57,920
به این معنی است که ما چهار نفر خواهیم داشت
1227
00:36:57,920 –> 00:36:58,880
مقادیر آنقدر صفر است
1228
00:36:58,880 –> 00:37:02,079
اوه صفر یک دو و یک دو سه
1229
00:37:02,079 –> 00:37:04,400
چهار و سپس آنها در d خواهند بود
1230
00:37:04,400 –> 00:37:06,720
float32 را تایپ کنید تا دوباره بتوانید شروع کنید
1231
00:37:06,720 –> 00:37:07,359
ببینید چگونه
1232
00:37:07,359 –> 00:37:10,160
محیط ما در واقع اکنون ساخته شده است
1233
00:37:10,160 –> 00:37:12,640
اگر بخواهیم دوباره می توانیم از این نمونه برداری کنیم
1234
00:37:12,640 –> 00:37:13,760
و این تقریباً به نظر می رسد
1235
00:37:13,760 –> 00:37:15,680
همان چیزی است که ما از enb دریافت می کنیم
1236
00:37:15,680 –> 00:37:18,720
سپس اینجا را تنظیم مجدد کنید
1237
00:37:18,720 –> 00:37:20,079
آنچه ما در واقع می توانیم انجام دهیم این است که می توانیم
1238
00:37:20,079 –> 00:37:22,720
در واقع از طریق عمل تصادفی ما عبور کنید
1239
00:37:22,720 –> 00:37:24,079
بنابراین این خط بعدی است که ما داریم
1240
00:37:24,079 –> 00:37:25,920
برای محیط ما نوشته شده است تا بتوانیم انجام دهیم
1241
00:37:25,920 –> 00:37:27,119
این با استفاده از a و v
1242
00:37:27,119 –> 00:37:28,800
اگر واقعاً این کار را انجام دادیم، dot step
1243
00:37:28,800 –> 00:37:31,280
amv قدم بردارید و از مقادیر عبور کنید
1244
00:37:31,280 –> 00:37:33,760
1 می توانید ببینید که ما می خواهیم ما را دریافت کنیم
1245
00:37:33,760 –> 00:37:35,280
مشاهده برگشت تا دوباره بتوانیم ادامه دهیم
1246
00:37:35,280 –> 00:37:37,440
انجام این کار
1247
00:37:37,440 –> 00:37:39,520
و این واقعاً فقط ما در حال عبور است
1248
00:37:39,520 –> 00:37:41,040
از طریق عمل ما
1249
00:37:41,040 –> 00:37:43,440
در حال حاضر آنچه ما در واقع از این است
1250
00:37:43,440 –> 00:37:45,359
واقعاً واقعاً جالب است
1251
00:37:45,359 –> 00:37:47,359
بنابراین ما می خواهیم مجموعه بعدی خود را برگردانیم
1252
00:37:47,359 –> 00:37:48,960
از مشاهداتی که می توانید
1253
00:37:48,960 –> 00:37:49,280
دیدن
1254
00:37:49,280 –> 00:37:52,320
وجود دارد و ما همچنین می خواهیم یک
1255
00:37:52,320 –> 00:37:53,200
جایزه
1256
00:37:53,200 –> 00:37:54,960
بنابراین این است که آیا ما دریافت می کنیم یا نه
1257
00:37:54,960 –> 00:37:56,560
یک مقدار مثبت یا یک مقدار منفی بنابراین
1258
00:37:56,560 –> 00:37:57,599
یکی بدیهی است
1259
00:37:57,599 –> 00:37:59,119
افزایش صفر خواهد بود a
1260
00:37:59,119 –> 00:38:00,560
کاهش یا منفی خواهد بود
1261
00:38:00,560 –> 00:38:01,680
یک کاهش
1262
00:38:01,680 –> 00:38:03,680
و سپس true اساساً مشخص کننده است
1263
00:38:03,680 –> 00:38:05,520
آیا قسمت ما اینطور انجام می شود یا نه
1264
00:38:05,520 –> 00:38:06,000
یاد آوردن
1265
00:38:06,000 –> 00:38:07,760
ما این بیانیه انجام شده را اینجا و
1266
00:38:07,760 –> 00:38:09,520
این بیانیه انجام شده در اینجا بنابراین یک بار ما
1267
00:38:09,520 –> 00:38:10,480
قسمت انجام شده است
1268
00:38:10,480 –> 00:38:13,680
ما قصد داریم آن را به طوری که خط کامل متوقف شود
1269
00:38:13,680 –> 00:38:14,400
از کد است
1270
00:38:14,400 –> 00:38:17,280
n علامت ویرگول پاداش حالت کاما
1271
00:38:17,280 –> 00:38:17,680
انجام شده
1272
00:38:17,680 –> 00:38:20,320
اطلاعات کاما پس این فقط باز کردن بسته بندی است
1273
00:38:20,320 –> 00:38:23,040
ارزش هایی که از env.step دریافت می کنیم
1274
00:38:23,040 –> 00:38:24,800
و سپس خط بعدی کد فقط است
1275
00:38:24,800 –> 00:38:27,040
انباشته شدن یک جایزه بنابراین امتیاز مثبت بگیرید
1276
00:38:27,040 –> 00:38:28,079
برابر با پاداش است
1277
00:38:28,079 –> 00:38:29,440
و سپس ما فقط در حال چاپ کردن هستیم
1278
00:38:29,440 –> 00:38:31,040
نتایجی که در واقع از گرفتن آنها به دست می آوریم
1279
00:38:31,040 –> 00:38:31,680
آن مرحله
1280
00:38:31,680 –> 00:38:33,680
بنابراین ما چاپ کرده ایم و سپس باز می کنیم
1281
00:38:33,680 –> 00:38:34,960
قسمت نقل قول ها
1282
00:38:34,960 –> 00:38:38,160
کولون squiggly براکت امتیاز کولون
1283
00:38:38,160 –> 00:38:39,599
براکت های squiggly من آنها را squiggly می نامم
1284
00:38:39,599 –> 00:38:40,320
براکت ها
1285
00:38:40,320 –> 00:38:41,760
فرمت نقطه و سپس ما در حال عبور هستیم
1286
00:38:41,760 –> 00:38:43,280
از طریق قسمت ما و امتیاز ما و
1287
00:38:43,280 –> 00:38:44,640
سپس آخرین اما مهم نیست که ما در حال بسته شدن هستیم
1288
00:38:44,640 –> 00:38:45,839
محیط ما بنابراین زمانی که استفاده می کنیم
1289
00:38:45,839 –> 00:38:48,560
env.render این پاپ آپ پایتون را دریافت خواهید کرد
1290
00:38:48,560 –> 00:38:50,280
برای بستن آن فقط باید اجرا کنید
1291
00:38:50,280 –> 00:38:52,320
env.close
1292
00:38:52,320 –> 00:38:55,040
خوب است، بنابراین همه چیز خوب و خوب است
1293
00:38:55,040 –> 00:38:56,640
در واقع این را آزمایش کنید، بنابراین اگر این را اجرا کنیم
1294
00:38:56,640 –> 00:38:57,359
اکنون
1295
00:38:57,359 –> 00:38:59,440
شما باید پایین آن را ببینید
1296
00:38:59,440 –> 00:39:00,960
محیط ما اکنون خود را آزمایش می کند
1297
00:39:00,960 –> 00:39:02,240
اگر نخواستیم آن را ببندیم، می توانیم
1298
00:39:02,240 –> 00:39:03,839
فقط این خط را در اینجا نظر دهید تا ما
1299
00:39:03,839 –> 00:39:05,599
در واقع می تواند آن را ببیند
1300
00:39:05,599 –> 00:39:07,119
و شما به نوعی می روید پس دوباره آن را
1301
00:39:07,119 –> 00:39:08,320
در حال اجرا واقعا خیلی سریع و این است
1302
00:39:08,320 –> 00:39:10,079
فقط به نوعی میله را به اطراف حرکت می دهیم
1303
00:39:10,079 –> 00:39:11,520
زمانی که ما واقعاً برای آزمایش آن برویم، آن را امتحان خواهیم کرد
1304
00:39:11,520 –> 00:39:14,079
ببینید کمی کندتر اجرا می شود
1305
00:39:14,079 –> 00:39:15,440
اما اگر ما نگه داریم می توانید ببینید
1306
00:39:15,440 –> 00:39:17,920
اجرای آن
1307
00:39:18,480 –> 00:39:19,839
به نظر می رسد ما آن را خراب کرده ایم
1308
00:39:19,839 –> 00:39:23,839
در واقع آن را ببندید بگویید amv dot close
1309
00:39:25,359 –> 00:39:26,880
و سپس بسته است، پس بیایید اجرا کنیم
1310
00:39:26,880 –> 00:39:29,839
آن را دوباره
1311
00:39:30,960 –> 00:39:34,240
سپس ما می توانیم آن را ببندیم شما می توانید شروع کنید
1312
00:39:34,240 –> 00:39:37,040
ببینید آنجا چه اتفاقی می افتد
1313
00:39:37,040 –> 00:39:39,680
اقدامات ما در حال انتقال این جعبه سیاه است
1314
00:39:39,680 –> 00:39:41,119
سمت چپ و راست
1315
00:39:41,119 –> 00:39:43,920
و نوار ما به طور موثر بر اساس نوسان است
1316
00:39:43,920 –> 00:39:44,240
بر
1317
00:39:44,240 –> 00:39:46,160
پاسخ به آن بنابراین ایده آل هدف است
1318
00:39:46,160 –> 00:39:48,560
آن میله را تا حد امکان صاف نگه دارید
1319
00:39:48,560 –> 00:39:51,359
تا زمانی که ممکن است
1320
00:39:51,359 –> 00:39:53,599
خوب خنک شود تا یک دسته کامل باشد
1321
00:39:53,599 –> 00:39:54,560
از چیزها در حال حاضر
1322
00:39:54,560 –> 00:39:56,800
انجام شد اکنون نگاهی به نحوه انجام آن انداخته ایم
1323
00:39:56,800 –> 00:39:58,240
می توانیم محیط خود را نمونه برداری کنیم پس بیایید
1324
00:39:58,240 –> 00:39:59,599
در واقع کمی به آن نگاه کنید
1325
00:39:59,599 –> 00:40:00,640
کمی جزئیات بیشتر
1326
00:40:00,640 –> 00:40:02,240
بنابراین به یاد داشته باشید که دو بخش برای ما وجود دارد
1327
00:40:02,240 –> 00:40:04,000
محیط وجود دارد فضای عمل ما و
1328
00:40:04,000 –> 00:40:05,680
فضای مشاهده ما، بنابراین اگر تایپ کنیم
1329
00:40:05,680 –> 00:40:09,359
فضای عمل env dot
1330
00:40:09,520 –> 00:40:11,040
این اقدامات ما خواهد بود و سپس
1331
00:40:11,040 –> 00:40:15,280
می توانیم در فضای مشاهده نقطه emv تایپ کنیم
1332
00:40:15,599 –> 00:40:16,480
و اینها ما خواهند بود
1333
00:40:16,480 –> 00:40:18,560
مشاهدات در حال حاضر شما احتمالا
1334
00:40:18,560 –> 00:40:19,760
خوب فکر کردن نیک
1335
00:40:19,760 –> 00:40:21,680
این ارزش هایی که ما از آنها دریافت می کنیم چیست؟
1336
00:40:21,680 –> 00:40:23,359
این فضاهای رصدی بنابراین
1337
00:40:23,359 –> 00:40:25,040
و فضاهای اکشن پس بیایید در واقع تایپ کنیم
1338
00:40:25,040 –> 00:40:26,960
اگر نمونه نقطه ای را بنویسیم
1339
00:40:26,960 –> 00:40:30,720
و نمونه را تا انتهای اینها نقطه گذاری کنید
1340
00:40:30,960 –> 00:40:33,520
می توانید ببینید که ما این مقادیر را داریم
1341
00:40:33,520 –> 00:40:35,040
بنابراین بیایید در واقع این را تکرار کنیم
1342
00:40:35,040 –> 00:40:36,079
ما هر دو را داریم بنابراین amv
1343
00:40:36,079 –> 00:40:39,839
فضای عمل نقطه ای
1344
00:40:40,800 –> 00:40:45,359
و فضای مشاهده نقطه را جاسازی کنید
1345
00:40:48,000 –> 00:40:50,400
درست است، بنابراین این نوع آن را توصیف می کند
1346
00:40:50,400 –> 00:40:52,640
فضای اکشن این در واقع یک نمونه است
1347
00:40:52,640 –> 00:40:54,800
نوع فضای مشاهده و سپس این
1348
00:40:54,800 –> 00:40:56,079
یک مثال واقعی است
1349
00:40:56,079 –> 00:40:58,400
اکنون می توانیم در واقع به چه چیزی نگاهی بیندازیم
1350
00:40:58,400 –> 00:41:00,000
اینها نشان دهنده این است که من در واقع دارم
1351
00:41:00,000 –> 00:41:01,440
این لینک اینجا
1352
00:41:01,440 –> 00:41:02,720
که در واقع کمی به شما می دهد
1353
00:41:02,720 –> 00:41:05,200
جزئیات بیشتر بنابراین
1354
00:41:05,200 –> 00:41:06,880
از نظر آن مشاهده پس این است
1355
00:41:06,880 –> 00:41:08,880
در واقع از باشگاه ورزشی باز
1356
00:41:08,880 –> 00:41:10,560
مستندات تا بتوانید در واقع بزرگنمایی کنید
1357
00:41:10,560 –> 00:41:12,240
به این
1358
00:41:12,240 –> 00:41:14,160
بنابراین از نظر فضای مشاهده ما
1359
00:41:14,160 –> 00:41:16,240
به یاد داشته باشید که ما یک جعبه 4 داریم
1360
00:41:16,240 –> 00:41:19,680
که این اینجا پایین است بنابراین جعبه
1361
00:41:19,680 –> 00:41:23,040
و سپس چهار مقام اول
1362
00:41:23,040 –> 00:41:24,800
نشان دهنده موقعیت برش ها است
1363
00:41:24,800 –> 00:41:26,640
و دارای حداقل مقدار منهای است
1364
00:41:26,640 –> 00:41:29,359
4.8 و حداکثر مقدار 4.8
1365
00:41:29,359 –> 00:41:31,599
ما همچنین سرعت برش را داریم
1366
00:41:31,599 –> 00:41:34,400
این مقدار در اینجا خواهد بود
1367
00:41:34,400 –> 00:41:36,720
سپس زاویه قطب را داریم
1368
00:41:36,720 –> 00:41:39,119
این مقدار در اینجا خواهد بود
1369
00:41:39,119 –> 00:41:40,960
و سپس ما قطب زاویه دار را داریم
1370
00:41:40,960 –> 00:41:42,720
سرعت ها من حدس می زنم این نوعی است
1371
00:41:42,720 –> 00:41:44,720
سرعتی که
1372
00:41:44,720 –> 00:41:47,680
قطب دوباره به سمت بالا یا پایین حرکت می کند
1373
00:41:47,680 –> 00:41:49,119
این فضاهای مشاهده
1374
00:41:49,119 –> 00:41:50,960
فقط به این نقشه در حال حاضر نه هر
1375
00:41:50,960 –> 00:41:52,079
محیط خوب خواهد شد
1376
00:41:52,079 –> 00:41:53,520
مستند به این صورت است اما من به نوعی
1377
00:41:53,520 –> 00:41:54,960
می خواستم به شما ایده بدهم
1378
00:41:54,960 –> 00:41:57,280
بنابراین برش موقعیت برش زاویه قطب سرعت
1379
00:41:57,280 –> 00:41:58,480
سرعت قطب
1380
00:41:58,480 –> 00:42:00,720
موقعیت برش زاویه قطب سرعت برش
1381
00:42:00,720 –> 00:42:02,800
سرعت قطب پس از آن بر حسب ما
1382
00:42:02,800 –> 00:42:04,240
فضاهای اکشن به یاد داشته باشید که ما دو تا داریم
1383
00:42:04,240 –> 00:42:06,960
اقدامات ممکن صفر یا یک
1384
00:42:06,960 –> 00:42:08,720
اینها توضیحات برای ما هستند
1385
00:42:08,720 –> 00:42:10,480
اقدامات پس عمل صفر
1386
00:42:10,480 –> 00:42:12,400
سبد ما را به سمت چپ هل می دهد
1387
00:42:12,400 –> 00:42:14,240
اقدام اول سبد خرید ما را به سمت سوق می دهد
1388
00:42:14,240 –> 00:42:16,079
درست است، بنابراین شما می توانید به نوعی ببینید که چگونه
1389
00:42:16,079 –> 00:42:16,880
این اقدامات
1390
00:42:16,880 –> 00:42:19,760
و مشاهدات به نوعی با هم بازی می کنند
1391
00:42:19,760 –> 00:42:20,160
اکنون
1392
00:42:20,160 –> 00:42:22,640
که محیط ما به طور خلاصه بنابراین
1393
00:42:22,640 –> 00:42:24,000
می توانید ببینید که ما رفتیم و یک را انجام دادیم
1394
00:42:24,000 –> 00:42:25,599
چیزهای کمی وجود دارد، بنابراین ما رفتیم و تعریف کردیم
1395
00:42:25,599 –> 00:42:27,280
محیط ما سپس رفتیم و آزمایش کردیم
1396
00:42:27,280 –> 00:42:27,920
آن را بیرون
1397
00:42:27,920 –> 00:42:29,359
و سپس ما رفتیم و در واقع یک
1398
00:42:29,359 –> 00:42:31,520
به جزئیات گرانول نگاه کنید تا بتوانید
1399
00:42:31,520 –> 00:42:33,280
در واقع درک این محیط چگونه است
1400
00:42:33,280 –> 00:42:34,319
در واقع با هم هماهنگ است
1401
00:42:34,319 –> 00:42:36,000
و من فکر می کنم این واقعا واقعا است
1402
00:42:36,000 –> 00:42:37,359
مهم است زیرا به شما ایده می دهد
1403
00:42:37,359 –> 00:42:38,640
در مورد چه لعنتی سعی می کنی
1404
00:42:38,640 –> 00:42:39,760
حل
1405
00:42:39,760 –> 00:42:41,359
اما به خاطر داشته باشید که هر زمان که هستید
1406
00:42:41,359 –> 00:42:42,720
حل یکی از این محیط ها شما هستید
1407
00:42:42,720 –> 00:42:43,760
به طور معمول یک
1408
00:42:43,760 –> 00:42:45,760
فضای عمل و فضای مشاهده
1409
00:42:45,760 –> 00:42:47,119
و این ایده خوبی است که سعی کنید
1410
00:42:47,119 –> 00:42:50,480
معنی هر کدام را بفهمید
1411
00:42:50,480 –> 00:42:53,200
اما با توجه به آن، محیط ماست
1412
00:42:53,200 –> 00:42:54,880
اکنون تنظیم کنید تا بتوانیم این را ببندیم
1413
00:42:54,880 –> 00:42:56,839
پس بیایید برویم و به آنچه هست نگاهی بیندازیم
1414
00:42:56,839 –> 00:42:58,319
بعد
1415
00:42:58,319 –> 00:43:01,920
بنابراین این ما را به مرحله سوم آموزش می رساند
1416
00:43:01,920 –> 00:43:04,560
بنابراین یک چیز کلیدی برای فراخوانی این است که وجود دارد
1417
00:43:04,560 –> 00:43:05,520
حوزه
1418
00:43:05,520 –> 00:43:07,200
پشته ای از انواع مختلف الگوریتم ها
1419
00:43:07,200 –> 00:43:08,960
وقتی صحبت از یادگیری تقویتی می شود
1420
00:43:08,960 –> 00:43:09,920
در حال حاضر به طور معمول
1421
00:43:09,920 –> 00:43:12,800
اینها به rl مبتنی بر مدل گروه بندی می شوند
1422
00:43:12,800 –> 00:43:14,720
و مدل تقویت مبتنی بر آزاد
1423
00:43:14,720 –> 00:43:16,000
الگوریتم های یادگیری
1424
00:43:16,000 –> 00:43:18,160
در حال حاضر ما عمدتا بر روی تمرکز می کنیم
1425
00:43:18,160 –> 00:43:20,240
مدل یادگیری تقویتی بیس آزاد
1426
00:43:20,240 –> 00:43:22,000
الگوریتمها زیرا آنجاست که بسیاری از
1427
00:43:22,000 –> 00:43:23,359
توسعه در حال وقوع است
1428
00:43:23,359 –> 00:43:24,960
اما این بدان معنا نیست که مدل مبتنی بر آن است
1429
00:43:24,960 –> 00:43:26,560
یادگیری تقویتی نیست
1430
00:43:26,560 –> 00:43:29,280
مفید و همچنین یک چیز اصلی که باید توجه داشته باشید
1431
00:43:29,280 –> 00:43:31,280
از نظر rl بدون مدل بنابراین
1432
00:43:31,280 –> 00:43:33,520
کل ایده بین rl بدون مدل این است که
1433
00:43:33,520 –> 00:43:34,880
فقط استفاده می کند
1434
00:43:34,880 –> 00:43:37,200
ارزش های وضعیت فعلی را باید ایجاد کنید
1435
00:43:37,200 –> 00:43:38,319
یک پیش بینی
1436
00:43:38,319 –> 00:43:40,400
با یادگیری تقویتی مبتنی بر مدل
1437
00:43:40,400 –> 00:43:42,000
آنچه در واقع اتفاق می افتد این است که تلاش می کند
1438
00:43:42,000 –> 00:43:44,000
برای پیش بینی آینده
1439
00:43:44,000 –> 00:43:45,040
وضعیت مدل
1440
00:43:45,040 –> 00:43:46,880
تلاش برای تولید بهترین حالت ممکن
1441
00:43:46,880 –> 00:43:48,079
عمل
1442
00:43:48,079 –> 00:43:50,480
بنابراین انبوهی از مزایا وجود دارد
1443
00:43:50,480 –> 00:43:51,760
بارها و بارها پس من نمی روم
1444
00:43:51,760 –> 00:43:52,880
از طریق آن با جزئیات زیاد
1445
00:43:52,880 –> 00:43:55,520
یک سند عالی در این مورد وجود دارد
1446
00:43:55,520 –> 00:43:57,520
در وب سایت open ai
1447
00:43:57,520 –> 00:44:00,160
زیر کولون https به جلو اسلش کنید
1448
00:44:00,160 –> 00:44:03,040
اسلش spinningup.openai.com
1449
00:44:03,040 –> 00:44:04,480
واقعاً توضیح خوبی وجود دارد
1450
00:44:04,480 –> 00:44:06,960
مدل 3 در مقابل rl مبتنی بر مدل
1451
00:44:06,960 –> 00:44:09,200
حالا اگر شما اینطور هستید فکر می کنم یک چیز کلیدی است
1452
00:44:09,200 –> 00:44:10,240
تماس بگیرید که آن است
1453
00:44:10,240 –> 00:44:12,480
خطوط پایه پایدار واقعا فقط با آن سروکار دارد
1454
00:44:12,480 –> 00:44:14,079
مدل 3 مبتنی بر rl
1455
00:44:14,079 –> 00:44:15,839
تعدادی کتابخانه دیگر نیز وجود دارد
1456
00:44:15,839 –> 00:44:17,520
که به مدل پایه rl نیز نگاه کنید
1457
00:44:17,520 –> 00:44:18,720
باور rl lib
1458
00:44:18,720 –> 00:44:19,839
یکی از آنها است بنابراین ما خواهیم بود
1459
00:44:19,839 –> 00:44:22,400
با تمرکز بر یک مدل رایگان rl و
1460
00:44:22,400 –> 00:44:23,920
به طور خاص ما در حال رفتن به گرفتن یک
1461
00:44:23,920 –> 00:44:25,760
نگاه کن
1462
00:44:25,760 –> 00:44:28,960
الگوریتم a2c ppo و ما نیز
1463
00:44:28,960 –> 00:44:31,200
احتمالا استفاده کنید من فکر می کنم ما احتمالا فقط
1464
00:44:31,200 –> 00:44:32,880
از این دو برای شروع استفاده کنید اما دوباره
1465
00:44:32,880 –> 00:44:34,960
ما همچنین از dqn در اینجا نیز استفاده خواهیم کرد
1466
00:44:34,960 –> 00:44:37,200
دوباره از چند نوع مختلف استفاده خواهیم کرد
1467
00:44:37,200 –> 00:44:38,640
الگوریتم ها، بنابراین شما می توانید به نوعی ببینید چه چیزی
1468
00:44:38,640 –> 00:44:39,680
به نظر می رسند
1469
00:44:39,680 –> 00:44:41,280
اما این یک ایده به شما می دهد
1470
00:44:41,280 –> 00:44:42,960
چه چیزی در خارج وجود دارد یک دسته وجود دارد
1471
00:44:42,960 –> 00:44:44,000
از الگوریتم ها
1472
00:44:44,000 –> 00:44:46,240
به طور گسترده در مدل 3 در مقابل گروه بندی می شوند
1473
00:44:46,240 –> 00:44:49,359
یادگیری تقویتی مبتنی بر مدل
1474
00:44:49,359 –> 00:44:52,480
در حال حاضر یک چیز اصلی که باید به آن توجه داشت انتخاب آن است
1475
00:44:52,480 –> 00:44:54,880
بهترین الگوریتم ممکن برای استفاده شما
1476
00:44:54,880 –> 00:44:57,200
بنابراین ما کمی در مورد آن صحبت کرده ایم
1477
00:44:57,200 –> 00:44:58,640
انواع مختلف عمل
1478
00:44:58,640 –> 00:45:01,760
و فضاهای رصدی تاکنون
1479
00:45:01,760 –> 00:45:03,359
اکنون الگوریتمی که می خواهید انجام دهید
1480
00:45:03,359 –> 00:45:05,119
سعی کنید از الگوریتمی که من استفاده کردم استفاده کنید
1481
00:45:05,119 –> 00:45:06,400
پیشنهاد می کنم استفاده کنید
1482
00:45:06,400 –> 00:45:08,400
در حالت ایده آل باید نقشه ای باشد
1483
00:45:08,400 –> 00:45:10,400
متناسب با نوع خاص شما
1484
00:45:10,400 –> 00:45:11,599
فضای عمل
1485
00:45:11,599 –> 00:45:13,040
بنابراین شما می توانید در اینجا ببینید که از نظر
1486
00:45:13,040 –> 00:45:15,200
خطوط بیس پایدار یک دسته کامل وجود دارد
1487
00:45:15,200 –> 00:45:16,480
از انواع مختلف الگوریتم ها بنابراین
1488
00:45:16,480 –> 00:45:17,599
ما a2c داریم
1489
00:45:17,599 –> 00:45:21,040
ddpg dqn ppo او
1490
00:45:21,040 –> 00:45:24,400
sac و td3 و من به شما نشان خواهم داد که چگونه
1491
00:45:24,400 –> 00:45:26,079
در واقع از این الگوریتم های مختلف استفاده کنید
1492
00:45:26,079 –> 00:45:28,240
کمی بعد در آموزش اصلی
1493
00:45:28,240 –> 00:45:29,680
اما نکته کلیدی که باید به آن توجه کرد این است که
1494
00:45:29,680 –> 00:45:31,839
الگوریتم های خاص فقط می توانند روی آن کار کنند
1495
00:45:31,839 –> 00:45:33,839
انواع خاصی از فضاهای اکشن
1496
00:45:33,839 –> 00:45:36,079
بنابراین می توانید اینجا ببینید که a2c روی آن کار می کند
1497
00:45:36,079 –> 00:45:38,000
جعبه های گسسته چند گسسته و
1498
00:45:38,000 –> 00:45:39,760
چند باینری
1499
00:45:39,760 –> 00:45:43,119
ddpg فقط در فضاهای جعبه کار می کند
1500
00:45:43,119 –> 00:45:45,599
dqn فقط روی فضاهای گسسته کار می کند و
1501
00:45:45,599 –> 00:45:46,960
این در مرجع است
1502
00:45:46,960 –> 00:45:49,440
به فضای عمل بنابراین یک چیز کلیدی برای
1503
00:45:49,440 –> 00:45:51,119
تماس که این است که آن را بر اساس
1504
00:45:51,119 –> 00:45:53,119
فضای عمل نه چندان مشاهده
1505
00:45:53,119 –> 00:45:53,760
فضا
1506
00:45:53,760 –> 00:45:55,680
پس به یاد داشته باشید اگر به اصل خود بازگردیم
1507
00:45:55,680 –> 00:45:56,960
آموزش پس این است
1508
00:45:56,960 –> 00:45:58,640
در اینجا، بنابراین اگر emb dot را تایپ کنید
1509
00:45:58,640 –> 00:46:00,240
فضای اکشن و شما می گویید که این است
1510
00:46:00,240 –> 00:46:01,040
گسسته
1511
00:46:01,040 –> 00:46:04,000
سپس می دانید که بیایید به عقب برگردیم سپس شما
1512
00:46:04,000 –> 00:46:04,960
بدانید که می توانید استفاده کنید
1513
00:46:04,960 –> 00:46:06,720
هر یک از مدل های اینجا که دارد
1514
00:46:06,720 –> 00:46:08,640
یک تیک سبز زیر گسسته تا بتوانیم
1515
00:46:08,640 –> 00:46:10,400
برای حل این مشکل از a2c استفاده کنید
1516
00:46:10,400 –> 00:46:14,079
او و ppo را dqn کنید
1517
00:46:14,079 –> 00:46:16,000
حالا اگر محیط باکسی داشتید
1518
00:46:16,000 –> 00:46:17,200
به یاد داشته باشید اگر نگاهی به خود بیندازیم
1519
00:46:17,200 –> 00:46:18,160
فضای مشاهده
1520
00:46:18,160 –> 00:46:20,960
فرض کنید فضای اکشن ما به شکلی بود
1521
00:46:20,960 –> 00:46:21,359
جعبه
1522
00:46:21,359 –> 00:46:23,599
خوب پس شما به دنبال استفاده از یکی هستید
1523
00:46:23,599 –> 00:46:24,960
از این یکی a2c
1524
00:46:24,960 –> 00:46:28,640
کیسه ppo او را ddpg کنید
1525
00:46:28,640 –> 00:46:30,720
یا td3 من کمی راهنمایی دارم
1526
00:46:30,720 –> 00:46:32,640
در اینجا استفاده از فرآیند تک گسسته
1527
00:46:32,640 –> 00:46:33,680
یک dqn
1528
00:46:33,680 –> 00:46:37,359
چند فرآیند گسسته از ppo یا a2c استفاده کنید
1529
00:46:37,359 –> 00:46:40,240
با استفاده از کیسه تک فرآیندی پیوسته یا
1530
00:46:40,240 –> 00:46:41,359
td3
1531
00:46:41,359 –> 00:46:44,560
ppo چند فرآیندی پیوسته یا a2c
1532
00:46:44,560 –> 00:46:46,480
یک چیز کلیدی برای فراخوانی بچه ها این است که
1533
00:46:46,480 –> 00:46:48,400
با این الگوریتم ها به عنوان کالا رفتار کنید
1534
00:46:48,400 –> 00:46:50,160
شما می توانید انتخاب کنید که از هر کدام استفاده کنید
1535
00:46:50,160 –> 00:46:52,000
برای مورد استفاده خاص شما می خواهید
1536
00:46:52,000 –> 00:46:53,680
برخی از آنها بهتر عمل خواهند کرد
1537
00:46:53,680 –> 00:46:55,920
دیگران خوب است بدانند چگونه کار می کنند
1538
00:46:55,920 –> 00:46:56,319
آی تی
1539
00:46:56,319 –> 00:46:58,480
بهتر است با جزئیات بدانیم که چگونه هستند
1540
00:46:58,480 –> 00:47:00,160
جمع کنید اما باز هم واقعا این کار را نمی کنید
1541
00:47:00,160 –> 00:47:01,680
نیاز به دانستن آن یا آن سطح از
1542
00:47:01,680 –> 00:47:03,680
جزئیات تا بتوانید این را امتحان کنید یا امتحان کنید
1543
00:47:03,680 –> 00:47:04,640
دستت بهش
1544
00:47:04,640 –> 00:47:06,160
فقط مهم است که بدانیم کدام
1545
00:47:06,160 –> 00:47:08,000
الگوریتمی که باید برای کدام نوع استفاده کنید
1546
00:47:08,000 –> 00:47:09,200
فضای عمل
1547
00:47:09,200 –> 00:47:11,359
و دوباره همه آنها در دسترس هستند
1548
00:47:11,359 –> 00:47:13,040
داخل خطوط پایه پایدار
1549
00:47:13,040 –> 00:47:14,560
اسناد، بنابراین شما می توانید ببینید که ما داریم
1550
00:47:14,560 –> 00:47:16,560
همه آنها را اینجا گرفتم
1551
00:47:16,560 –> 00:47:18,560
بنابراین به یاد داشته باشید برای رسیدن به این شما می توانید به
1552
00:47:18,560 –> 00:47:19,599
خط تیره پایدار
1553
00:47:19,599 –> 00:47:22,800
baselines3 dot docs dot io را بخوانید
1554
00:47:22,800 –> 00:47:24,880
جلو و به جلو اسلش مستر به جلو
1555
00:47:24,880 –> 00:47:26,160
مدل های اسلش و سپس
1556
00:47:26,160 –> 00:47:28,000
این اگر می خواهید به ppo نگاه کنید
1557
00:47:28,000 –> 00:47:29,839
ماژول های الگوریتم به جلو
1558
00:47:29,839 –> 00:47:32,160
ppo dot html اما دوباره همه لینک ها هستند
1559
00:47:32,160 –> 00:47:33,599
در توضیحات زیر خواهد بود بنابراین
1560
00:47:33,599 –> 00:47:36,800
می توانید آن را بگیرید و بردارید
1561
00:47:36,800 –> 00:47:38,559
جالب است، بنابراین ما کمی در مورد آن صحبت کردیم
1562
00:47:38,559 –> 00:47:40,240
انواع مختلف الگوریتم ها و زمان
1563
00:47:40,240 –> 00:47:41,920
برای استفاده از کدام
1564
00:47:41,920 –> 00:47:43,920
حالا نکته دیگری که باید به آن توجه کنید این است که شما
1565
00:47:43,920 –> 00:47:45,280
نیاز به درک
1566
00:47:45,280 –> 00:47:47,040
متریک آموزشی شما در حال حاضر کدام نوع است
1567
00:47:47,040 –> 00:47:49,280
الگوریتمی که استفاده می کنید تعیین می کند
1568
00:47:49,280 –> 00:47:51,359
در طول چه نوع معیارهایی دریافت می کنید
1569
00:47:51,359 –> 00:47:53,119
آموزش اما به طور کلی باید دریافت کنید
1570
00:47:53,119 –> 00:47:54,400
چیزی که کمی شبیه است
1571
00:47:54,400 –> 00:47:56,000
این و زمانی که ما این کار را انجام دهیم، این را خواهید دید
1572
00:47:56,000 –> 00:47:57,119
خارج از آموزش ما
1573
00:47:57,119 –> 00:47:59,200
بنابراین ما می توانیم این را به ارزیابی تقسیم کنیم
1574
00:47:59,200 –> 00:48:01,040
متریک زمان سنج
1575
00:48:01,040 –> 00:48:02,640
معیارهای ضرر و سپس ما موارد دیگر را داریم
1576
00:48:02,640 –> 00:48:05,359
معیارها بنابراین معیارهای ارزیابی ما هستند
1577
00:48:05,359 –> 00:48:07,280
همه چیز به طول قسمت ما و
1578
00:48:07,280 –> 00:48:08,640
پاداش قسمت ما
1579
00:48:08,640 –> 00:48:11,440
خوب پس اینها میانگین های ما هستند پس
1580
00:48:11,440 –> 00:48:13,359
طول ما چقدر طول قسمت ماست
1581
00:48:13,359 –> 00:48:14,880
در واقع برای پس اگر شما بازی یک
1582
00:48:14,880 –> 00:48:17,119
بازی آن را به عنوان یک بازی واحد در نظر بگیرید
1583
00:48:17,119 –> 00:48:18,640
وقتی سعی می کنیم سبد خرید خود را متعادل کنیم
1584
00:48:18,640 –> 00:48:20,400
نظرسنجی در یک قسمت است
1585
00:48:20,400 –> 00:48:22,160
تعداد مراحل حداکثر تعداد
1586
00:48:22,160 –> 00:48:24,480
از مراحلی که اجازه داریم برداریم
1587
00:48:24,480 –> 00:48:26,960
یک سنجه زمانی بنابراین در این مورد ما باید
1588
00:48:26,960 –> 00:48:28,720
فریم در ثانیه بنابراین این سرعت است
1589
00:48:28,720 –> 00:48:30,480
شما در حال پردازش هستید
1590
00:48:30,480 –> 00:48:32,480
تکرار به این معنی که چند بار
1591
00:48:32,480 –> 00:48:34,000
شما در واقع از آن عبور کرده اید
1592
00:48:34,000 –> 00:48:35,599
مدت زمانی که در حال اجرا است
1593
00:48:35,599 –> 00:48:37,280
و کل گام های زمان، به طوری که چند
1594
00:48:37,280 –> 00:48:38,800
مراحلی که در واقع در یک
1595
00:48:38,800 –> 00:48:39,920
قسمت
1596
00:48:39,920 –> 00:48:41,520
شما همچنین برخی از معیارهای ضرر را دارید
1597
00:48:41,520 –> 00:48:43,280
شما از دست دادن سیاست از دست دادن آنتروپی دارید
1598
00:48:43,280 –> 00:48:44,000
از دست دادن ارزش
1599
00:48:44,000 –> 00:48:45,680
دوباره اگر جزئیات بیشتری می خواهید یا اگر می خواهید
1600
00:48:45,680 –> 00:48:47,440
شما توضیح بیشتری در مورد آن می خواهید
1601
00:48:47,440 –> 00:48:49,359
در نظرات زیر به من ضربه بزنید
1602
00:48:49,359 –> 00:48:51,119
ما همچنین برخی از معیارهای دیگر را به عنوان
1603
00:48:51,119 –> 00:48:52,720
خوب پس ما واریانس توضیح داده شده را داریم
1604
00:48:52,720 –> 00:48:54,720
بنابراین این مقدار از واریانس در است
1605
00:48:54,720 –> 00:48:55,760
محیط زیست
1606
00:48:55,760 –> 00:48:58,240
نماینده شما می تواند به شما توضیح دهد
1607
00:48:58,240 –> 00:49:00,319
همچنین سرعت یادگیری شما را به دست آورد
1608
00:49:00,319 –> 00:49:02,319
خط مشی ما در واقع در حال به روز رسانی است
1609
00:49:02,319 –> 00:49:04,319
و شما همچنین n به روز رسانی دارید که این است
1610
00:49:04,319 –> 00:49:06,000
در واقع چند به روز رسانی انجام داده ایم
1611
00:49:06,000 –> 00:49:09,680
به نماینده ما در حال حاضر یک چیز اصلی برای تماس
1612
00:49:09,680 –> 00:49:09,920
بیرون
1613
00:49:09,920 –> 00:49:12,319
این است که به طور پیش فرض زمانی که ما واقعا می رویم
1614
00:49:12,319 –> 00:49:14,160
و با استفاده از خطوط پایه پایدار نصب کنید
1615
00:49:14,160 –> 00:49:15,440
دستور نصب پیپ
1616
00:49:15,440 –> 00:49:17,359
ما فقط آن را نصب می کنیم
1617
00:49:17,359 –> 00:49:20,079
بدون شتاب gpu در حال حاضر اگر شما
1618
00:49:20,079 –> 00:49:20,960
خواست استفاده کند
1619
00:49:20,960 –> 00:49:23,200
شتاب gpu شما می توانید تمام آنچه شما نیاز دارید
1620
00:49:23,200 –> 00:49:24,800
برای انجام این کار فقط بروید و نصب کنید
1621
00:49:24,800 –> 00:49:26,559
نسخه مشعل پی مناسب
1622
00:49:26,559 –> 00:49:28,319
به عنوان مثال بگویید من می خواستم اهرم کنم
1623
00:49:28,319 –> 00:49:30,240
شتاب gpu روی خاص من
1624
00:49:30,240 –> 00:49:32,640
دستگاهی که در عرض یک ثانیه به شما نشان خواهم داد
1625
00:49:32,640 –> 00:49:34,359
تنها کاری که باید انجام دهم این است که بروم
1626
00:49:34,359 –> 00:49:36,960
pytorch.org بنابراین اگر به خط پایه خود برویم
1627
00:49:36,960 –> 00:49:40,160
صفحه install را بزنید install و سپس اگر ما
1628
00:49:40,160 –> 00:49:41,119
به پایین بروید
1629
00:49:41,119 –> 00:49:42,559
شما می توانید آن را در اینجا ببینید
1630
00:49:42,559 –> 00:49:44,000
مراحل رفتن و نصب را به شما می دهد
1631
00:49:44,000 –> 00:49:44,640
این
1632
00:49:44,640 –> 00:49:47,119
بنابراین می توانم نصب پایداری که هستم را انتخاب کنم
1633
00:49:47,119 –> 00:49:48,559
کار بر روی یک دستگاه ویندوز اما اگر من
1634
00:49:48,559 –> 00:49:48,880
میتوانست
1635
00:49:48,880 –> 00:49:51,040
اگر من در مک بودم می توانستم لینوکس ریاضی را بزنم
1636
00:49:51,040 –> 00:49:52,480
میتونم لینوکس بزنم
1637
00:49:52,480 –> 00:49:54,400
بنابراین من می خواهم ویندوز را انتخاب کنم و سپس
1638
00:49:54,400 –> 00:49:55,920
در این مورد به عنوان مثال می گویم i
1639
00:49:55,920 –> 00:49:57,680
می خواستم با استفاده از pip نصب کنم
1640
00:49:57,680 –> 00:49:58,640
ضربه پیپ
1641
00:49:58,640 –> 00:49:59,839
و سپس می توانم زبان را انتخاب کنم
1642
00:49:59,839 –> 00:50:01,200
که من می خواستم برای آن نصب کنم اگر من
1643
00:50:01,200 –> 00:50:02,880
می خواستم جاوا را انتخاب کنم اگر من
1644
00:50:02,880 –> 00:50:04,480
python می خواستم در این مورد ما داریم کار می کنیم
1645
00:50:04,480 –> 00:50:06,480
در پایتون پس پایتون را انتخاب کنید
1646
00:50:06,480 –> 00:50:07,920
و سپس باید محاسبات را انتخاب کنم
1647
00:50:07,920 –> 00:50:09,359
این پلتفرم واقعاً مهم است
1648
00:50:09,359 –> 00:50:10,839
اینجا
1649
00:50:10,839 –> 00:50:13,599
چیز جالبی که می توان آن را نامید این است
1650
00:50:13,599 –> 00:50:16,319
cuda و cu dnn فقط روی پشتیبانی می شوند
1651
00:50:16,319 –> 00:50:17,760
nvidia gpu so
1652
00:50:17,760 –> 00:50:19,760
اگر می خواهید از شتاب gpu استفاده کنید
1653
00:50:19,760 –> 00:50:21,119
باید داشته باشی
1654
00:50:21,119 –> 00:50:24,400
یک nvidia gpu برای استفاده از cuda در حال حاضر در اینجا
1655
00:50:24,400 –> 00:50:25,680
تو سنگ هم داری
1656
00:50:25,680 –> 00:50:28,800
m now rock m بسته بتا است که
1657
00:50:28,800 –> 00:50:30,880
برای amd gpus موجود است
1658
00:50:30,880 –> 00:50:33,839
اکنون معتقدم این فقط در دسترس است
1659
00:50:33,839 –> 00:50:35,599
لینوکس در حال حاضر پس اگر می خواهید
1660
00:50:35,599 –> 00:50:36,079
از یک استفاده کنید
1661
00:50:36,079 –> 00:50:38,880
amd gpu برای اینکه بتوانید این کار را انجام دهید نیاز دارید
1662
00:50:38,880 –> 00:50:40,640
برای اینکه بتوانید یا باید در آن باشید
1663
00:50:40,640 –> 00:50:42,480
سیستم عامل لینوکس
1664
00:50:42,480 –> 00:50:44,079
در این مورد من در ویندوز هستم بنابراین شما می توانید
1665
00:50:44,079 –> 00:50:45,760
ببینید در ویندوز در دسترس نیست بنابراین من می خواهم
1666
00:50:45,760 –> 00:50:47,040
از cuda یا استفاده کنید
1667
00:50:47,040 –> 00:50:52,000
در این مورد cuda 10.2 یا cuda 11.1
1668
00:50:52,000 –> 00:50:54,480
اکنون این واقعاً فقط در صورتی مورد نیاز است که شما
1669
00:50:54,480 –> 00:50:56,400
می خواهید از شتاب gpu استفاده کنید
1670
00:50:56,400 –> 00:50:56,880
صادقانه
1671
00:50:56,880 –> 00:50:59,280
با تقویت یادگیری شما نیستید
1672
00:50:59,280 –> 00:51:01,200
به همان اندازه یک اجرا را می بینم
1673
00:51:01,200 –> 00:51:02,880
همانطور که می خواهید در تمرینات تقویت کنید
1674
00:51:02,880 –> 00:51:04,880
یادگیری عمیق سنتی با استفاده از یک gpu
1675
00:51:04,880 –> 00:51:06,160
پس اگر gpu ندارید
1676
00:51:06,160 –> 00:51:08,079
استرس نداشته باش نگرانش نباش
1677
00:51:08,079 –> 00:51:09,680
نیازی به انجام این مرحله نیست من فقط می خواستم
1678
00:51:09,680 –> 00:51:11,359
آن را برای افرادی که دارای یک
1679
00:51:11,359 –> 00:51:13,359
gpu که می خواست این کار را انجام دهد
1680
00:51:13,359 –> 00:51:15,760
اما در این مورد ما احتمالا این کار را انجام خواهیم داد
1681
00:51:15,760 –> 00:51:17,119
در یکی از پروژه های دیگر ما و یک
1682
00:51:17,119 –> 00:51:17,839
نگاه کنید چگونه
1683
00:51:17,839 –> 00:51:20,640
آن را نصب کنید تا فعلاً بتوانید مرتب کنید
1684
00:51:20,640 –> 00:51:22,960
از این موضوع صرف نظر کنید، فقط نکته خوبی است که باید به آن توجه کنید
1685
00:51:22,960 –> 00:51:25,119
بسیار خوب پس در این یادداشت هر چند اجازه دهید برویم
1686
00:51:25,119 –> 00:51:26,480
در پیش است و بیایید برویم و
1687
00:51:26,480 –> 00:51:29,200
نماینده ما را آموزش دهید، بنابراین من نمیروم
1688
00:51:29,200 –> 00:51:30,800
به دفترچه یادداشت خود و آنچه هستیم
1689
00:51:30,800 –> 00:51:32,160
اکنون شروع می شود
1690
00:51:32,160 –> 00:51:33,680
آموزش یادگیری تقویتی ما
1691
00:51:33,680 –> 00:51:35,359
مدل، بنابراین ابتدا آنچه را که می خواهم انجام دهم
1692
00:51:35,359 –> 00:51:37,040
آیا من قصد دارم یک مسیر ورود به سیستم را تعریف کنم و
1693
00:51:37,040 –> 00:51:38,480
این جایی خواهد بود که ما
1694
00:51:38,480 –> 00:51:41,200
لاگ تانسوربرد خود را ذخیره کنید تا اگر خواستیم
1695
00:51:41,200 –> 00:51:42,880
برای اینکه برویم و تمریناتمان را زیر نظر بگیریم
1696
00:51:42,880 –> 00:51:44,880
قادر به نگاهی به داخل این لاگ
1697
00:51:44,880 –> 00:51:45,839
فهرست راهنما
1698
00:51:45,839 –> 00:51:47,599
و ببینید که مدل ما در واقع چگونه است
1699
00:51:47,599 –> 00:51:48,960
اجرا کردن، بنابراین من به شما نشان خواهم داد که چگونه انجام دهید
1700
00:51:48,960 –> 00:51:50,079
که اینجا پایین
1701
00:51:50,079 –> 00:51:51,839
پس بیایید به جلو برویم و ابتدا تا
1702
00:51:51,839 –> 00:51:53,359
مسیر ورود ما را پیدا کنید تا من تایپ کنم
1703
00:51:53,359 –> 00:51:54,640
در مسیر ورود یا ورود به سیستم
1704
00:51:54,640 –> 00:51:56,319
مسیر underscore و سپس مشخص می کنیم
1705
00:51:56,319 –> 00:51:58,559
که
1706
00:51:59,520 –> 00:52:01,520
در حال حاضر یک چیز کلیدی به نام آن است که
1707
00:52:01,520 –> 00:52:02,880
این مسیر نیاز دارد
1708
00:52:02,880 –> 00:52:04,559
وجود دارد، بنابراین ما نیز می توانیم آن را به عنوان بخشی ایجاد کنیم
1709
00:52:04,559 –> 00:52:06,400
از کد ما، اما من به تازگی رفتم و انجام دادم
1710
00:52:06,400 –> 00:52:07,680
آن را به صورت دستی به دلیل منطقی است
1711
00:52:07,680 –> 00:52:10,720
سرراست پس من قراره چکار کنم
1712
00:52:10,720 –> 00:52:12,640
داخل پوشه ای است که ما هستیم
1713
00:52:12,640 –> 00:52:14,079
کار با من قصد ایجاد یک
1714
00:52:14,079 –> 00:52:15,680
پوشه ای به نام آموزش
1715
00:52:15,680 –> 00:52:16,880
و سپس داخل آن من می روم
1716
00:52:16,880 –> 00:52:18,800
دو پوشه اضافی ایجاد کنید که یکی نامیده می شود
1717
00:52:18,800 –> 00:52:20,400
سیاهههای مربوط و یک وتر مدل های ذخیره شده اجازه دهید
1718
00:52:20,400 –> 00:52:22,880
روی این بزرگنمایی کنید
1719
00:52:22,880 –> 00:52:25,280
بنابراین می توانید ببینید که ما یک آموزش داریم
1720
00:52:25,280 –> 00:52:26,880
پوشه و پس از آن ما باید یکی به نام
1721
00:52:26,880 –> 00:52:28,960
سیاهههای مربوط به نام مدل های ذخیره شده
1722
00:52:28,960 –> 00:52:30,640
بنابراین به داخل پوشه سیاهههای مربوط به ما می رویم
1723
00:52:30,640 –> 00:52:32,400
برای ذخیره گزارش های ما، بنابراین در این مورد می توانید
1724
00:52:32,400 –> 00:52:34,000
ببینید من یک دسته دارم بیایید آنها را حذف کنیم
1725
00:52:34,000 –> 00:52:36,880
زیرا ما به آنها نیاز نداریم
1726
00:52:36,880 –> 00:52:38,400
و در داخل مدل های ذخیره شده ما یک
1727
00:52:38,400 –> 00:52:39,680
دسته ای از مدل ها نیز بنابراین من فقط هستم
1728
00:52:39,680 –> 00:52:40,400
رفتن به حذف
1729
00:52:40,400 –> 00:52:42,000
اینها چون ما به آنها نیاز نداریم
1730
00:52:42,000 –> 00:52:44,000
در حال حاضر
1731
00:52:44,000 –> 00:52:46,000
بنابراین گزارشهای ما جایی است که ذخیره میکنیم
1732
00:52:46,000 –> 00:52:47,119
سیاهههای مربوط به مدل ما
1733
00:52:47,119 –> 00:52:48,960
و مدل های ذخیره شده ما خواهند بود
1734
00:52:48,960 –> 00:52:50,559
جایی که ما خودمان را نجات می دهیم
1735
00:52:50,559 –> 00:52:52,480
مدل ذخیره شده بنابراین مدل آموزش دیده ما بنابراین
1736
00:52:52,480 –> 00:52:53,760
دوباره نگاهی به آن a
1737
00:52:53,760 –> 00:52:54,720
کمی بعد
1738
00:52:54,720 –> 00:52:58,000
یک بار واقعاً برویم و آن را درست انجام دهیم
1739
00:52:58,000 –> 00:53:01,280
پس این است که در حال حاضر انجام دوباره
1740
00:53:01,280 –> 00:53:03,040
هنگامی که شما این کار را انجام می دهید، من می خواهم اضافه کنم
1741
00:53:03,040 –> 00:53:04,400
یک نظر بنابراین
1742
00:53:04,400 –> 00:53:09,119
دایرکتوری های خود را بسازید
1743
00:53:09,119 –> 00:53:11,680
اول خیلی خوب، بنابراین ما می خواهیم تعریف کنیم
1744
00:53:11,680 –> 00:53:12,640
مسیر ثبت نام ما
1745
00:53:12,640 –> 00:53:14,400
بنابراین دوباره این مسیری را به ما می دهد
1746
00:53:14,400 –> 00:53:15,760
به گزارش های ما
1747
00:53:15,760 –> 00:53:18,160
آموزش به عقب به عقب سیاهههای مربوط و
1748
00:53:18,160 –> 00:53:19,599
چون من روی یک دستگاه ویندوز هستم
1749
00:53:19,599 –> 00:53:21,359
مسیر با یک دوتایی به عقب نشان داده می شود
1750
00:53:21,359 –> 00:53:21,920
بریده بریده
1751
00:53:21,920 –> 00:53:23,520
اگر از مک یا لینوکس استفاده می کنید
1752
00:53:23,520 –> 00:53:26,000
باور کنید که این یک ضربه به جلو است
1753
00:53:26,000 –> 00:53:28,640
جالب است بنابراین مسیر ورود ما اکنون تعریف شده است
1754
00:53:28,640 –> 00:53:30,319
اکنون کار بعدی که باید انجام دهیم این است
1755
00:53:30,319 –> 00:53:32,240
الگوریتم ما را نمونه سازی کنیم
1756
00:53:32,240 –> 00:53:34,800
و به طور خاص نماینده ما در حال حاضر به یاد داشته باشید
1757
00:53:34,800 –> 00:53:36,240
وقتی رفتیم و خودمان را وارد کردیم
1758
00:53:36,240 –> 00:53:38,559
وابستگی ها رفتیم و ppo را وارد کردیم
1759
00:53:38,559 –> 00:53:39,200
در این مورد
1760
00:53:39,200 –> 00:53:41,280
ppo الگوریتمی خواهد بود که
1761
00:53:41,280 –> 00:53:42,400
ما قرار است استفاده کنیم
1762
00:53:42,400 –> 00:53:45,440
برای این محیط خاص بنابراین
1763
00:53:45,440 –> 00:53:47,680
بیایید جلو برویم و آن را تعریف کنیم و سپس
1764
00:53:47,680 –> 00:53:57,839
نگاهی خواهیم انداخت
1765
00:54:03,839 –> 00:54:07,119
خوب این الگوریتم ماست
1766
00:54:07,119 –> 00:54:08,720
در حال حاضر راه اندازی در حال حاضر شما می توانید اینجا را ببینید که
1767
00:54:08,720 –> 00:54:10,880
با استفاده از دستگاه cuda این چاپ شده است
1768
00:54:10,880 –> 00:54:11,599
است زیرا
1769
00:54:11,599 –> 00:54:14,720
من در حال حاضر شتاب gpu را دارم
1770
00:54:14,720 –> 00:54:16,720
برای این محیط خاص
1771
00:54:16,720 –> 00:54:19,599
اگر از pytorch cuda استفاده نمی کردید
1772
00:54:19,599 –> 00:54:21,920
نسخه یا pytorch gpu شتاب گرفت
1773
00:54:21,920 –> 00:54:22,559
نسخه
1774
00:54:22,559 –> 00:54:24,800
آنچه در اینجا می بینید استفاده از cpu است
1775
00:54:24,800 –> 00:54:26,400
دستگاه بنابراین دوباره نیازی به استرس نیست اگر
1776
00:54:26,400 –> 00:54:28,079
شما از شتاب gpu استفاده نمی کنید
1777
00:54:28,079 –> 00:54:29,760
به شما نشان می دهد که چگونه آن را بعداً تنظیم کنید
1778
00:54:29,760 –> 00:54:31,920
اگر می گوید استفاده از دستگاه cpu است
1779
00:54:31,920 –> 00:54:33,520
کاملاً خوب است همچنین شما هنوز هم خوب هستید
1780
00:54:33,520 –> 00:54:35,040
رفتن
1781
00:54:35,040 –> 00:54:36,640
بسیار خوب، بنابراین به منظور انجام این کار ما باید
1782
00:54:36,640 –> 00:54:38,079
سه خط کد نوشته
1783
00:54:38,079 –> 00:54:40,319
اینجا خیلی نوشته شده پس ما رفتیم و
1784
00:54:40,319 –> 00:54:42,079
محیط ما را در اینجا بازسازی کرد
1785
00:54:42,079 –> 00:54:42,960
فقط برای نگه داشتن آن
1786
00:54:42,960 –> 00:54:46,160
کپسوله شده بنابراین من emv برابر نوشته ام
1787
00:54:46,160 –> 00:54:49,119
jim dot make و سپس به آن می گذریم
1788
00:54:49,119 –> 00:54:50,480
شما نام محیط زیست ما
1789
00:54:50,480 –> 00:54:53,280
بنابراین این خط در اینجا تفاوتی ندارد
1790
00:54:53,280 –> 00:54:53,920
به
1791
00:54:53,920 –> 00:54:56,079
این خط در اینجا پس دوباره دقیقا همان
1792
00:54:56,079 –> 00:54:57,119
چیز
1793
00:54:57,119 –> 00:54:59,119
سپس کاری که انجام داده ایم این است که بسته بندی کرده ایم
1794
00:54:59,119 –> 00:55:01,280
محیط ما در داخل آن ساختگی
1795
00:55:01,280 –> 00:55:04,079
vec env wrapper پس اینجا ما را به خاطر بسپارید
1796
00:55:04,079 –> 00:55:05,680
این را وارد کرد
1797
00:55:05,680 –> 00:55:07,680
این جایی است که ما در واقع آن را بسته بندی می کنیم
1798
00:55:07,680 –> 00:55:09,520
بنابراین برای انجام این کار env را نوشته ایم
1799
00:55:09,520 –> 00:55:12,880
برابر است با dummy vec env و سپس ما
1800
00:55:12,880 –> 00:55:13,680
ایجاد یک
1801
00:55:13,680 –> 00:55:15,280
تابع لامبدا بنابراین این خواهد شد
1802
00:55:15,280 –> 00:55:17,119
یک تابع ایجاد محیط
1803
00:55:17,119 –> 00:55:18,720
بنابراین در داخل پرانتز من
1804
00:55:18,720 –> 00:55:21,200
نوشته شده lambda colon و سپس env so
1805
00:55:21,200 –> 00:55:22,640
این به ما اجازه می دهد تا با آن کار کنیم
1806
00:55:22,640 –> 00:55:24,559
محیط ما که در داخل آن پیچیده شده است
1807
00:55:24,559 –> 00:55:26,400
آن محیط بردار ساختگی
1808
00:55:26,400 –> 00:55:28,160
بنابراین دوباره به آن به عنوان یک لفاف فکر کنید
1809
00:55:28,160 –> 00:55:30,079
برای یک محیط غیر برداری
1810
00:55:30,079 –> 00:55:31,760
بردار واقعی را به شما نشان خواهم داد
1811
00:55:31,760 –> 00:55:33,280
محیط زمانی که به پروژه خود می رسیم
1812
00:55:33,280 –> 00:55:34,960
یکی
1813
00:55:34,960 –> 00:55:36,400
و سپس ما در واقع رفتیم و تعریف کردیم
1814
00:55:36,400 –> 00:55:38,079
مدل ما پس به این به عنوان تعریف فکر کنید
1815
00:55:38,079 –> 00:55:40,000
نماینده ما، بنابراین ما مدل نوشته ایم
1816
00:55:40,000 –> 00:55:42,960
برابر ppo است، بنابراین دوباره این است
1817
00:55:42,960 –> 00:55:44,640
الگوریتمی که ما رفته ایم و وارد کرده ایم
1818
00:55:44,640 –> 00:55:46,559
اینجا
1819
00:55:46,559 –> 00:55:48,160
و سپس به آن که از آن گذشتیم
1820
00:55:48,160 –> 00:55:49,760
اون دوتا چیه
1821
00:55:49,760 –> 00:55:51,839
آرگومان ها و دو آرگومان کلیدواژه بنابراین
1822
00:55:51,839 –> 00:55:53,680
اولین مورد تعریف خط مشی است
1823
00:55:53,680 –> 00:55:55,119
که در این مورد از آن استفاده خواهیم کرد
1824
00:55:55,119 –> 00:55:55,599
این یک
1825
00:55:55,599 –> 00:55:58,240
سیاست mlp این مخفف چند لایه است
1826
00:55:58,240 –> 00:55:59,839
سیاست پرسپترون
1827
00:55:59,839 –> 00:56:01,200
اکنون در این مورد این بدان معناست که ما هستیم
1828
00:56:01,200 –> 00:56:03,440
قرار است از یک شبکه عصبی استفاده کند که
1829
00:56:03,440 –> 00:56:04,480
فقط استفاده می کند
1830
00:56:04,480 –> 00:56:06,319
نوع استاندارد واحدهای شبکه عصبی
1831
00:56:06,319 –> 00:56:08,079
ما از لایه های lstm استفاده نمی کنیم و داریم
1832
00:56:08,079 –> 00:56:09,839
عدم استفاده از لایه های cnn
1833
00:56:09,839 –> 00:56:11,760
آنچه در داخل پروژه 1 انجام خواهیم داد و
1834
00:56:11,760 –> 00:56:13,520
پروژه 2 این است که ما در واقع از a استفاده خواهیم کرد
1835
00:56:13,520 –> 00:56:16,559
Cnn سیاست اصلی چیزی است که به عنوان فراخوانی
1836
00:56:16,559 –> 00:56:16,880
خوب
1837
00:56:16,880 –> 00:56:19,359
خط پایه پایدار است دو در واقع یکی داشتند
1838
00:56:19,359 –> 00:56:21,520
مزیت نسبت به خطوط پایه پایدار سه اینچ
1839
00:56:21,520 –> 00:56:22,880
که در واقع دارای یک
1840
00:56:22,880 –> 00:56:25,760
سیاست های mlp lstm بنابراین اگر می خواهید
1841
00:56:25,760 –> 00:56:26,480
استفاده کنید
1842
00:56:26,480 –> 00:56:28,000
مجموعه داده های پنجره ای که هستند
1843
00:56:28,000 –> 00:56:29,920
به ویژه برای تجارت یا
1844
00:56:29,920 –> 00:56:30,720
دارایی، مالیه، سرمایه گذاری
1845
00:56:30,720 –> 00:56:33,280
و همچنین برنامه های خاص بازی
1846
00:56:33,280 –> 00:56:34,480
آن سیاست خاص
1847
00:56:34,480 –> 00:56:36,640
متاسفانه در پایدار موجود نیست
1848
00:56:36,640 –> 00:56:39,359
خط مبنا 3 تا جایی که من می دانم دوباره همینطور است
1849
00:56:39,359 –> 00:56:41,359
اگر تغییر کرد، آن را در قسمت ذکر می کنم
1850
00:56:41,359 –> 00:56:42,640
نظر در زیر پین شده است
1851
00:56:42,640 –> 00:56:45,040
در حال حاضر از سیاست mlp و i پشتیبانی می کند
1852
00:56:45,040 –> 00:56:46,640
سیاست cnn را باور کنید
1853
00:56:46,640 –> 00:56:48,480
سیاست cnn را در داخل پروژه خواهید دید
1854
00:56:48,480 –> 00:56:49,760
یکی
1855
00:56:49,760 –> 00:56:51,040
استدلال بعدی که ما از آن عبور کرده ایم
1856
00:56:51,040 –> 00:56:52,559
از طریق محیط ما است بنابراین این است
1857
00:56:52,559 –> 00:56:53,440
این خواهد شد
1858
00:56:53,440 –> 00:56:56,160
محیط برداری vec ساختگی در اینجا ما
1859
00:56:56,160 –> 00:56:58,240
کلمه مشخص شده برابر است با یک
1860
00:56:58,240 –> 00:57:00,240
چون ما آن را خوب می خواهیم، می خواهیم وارد سیستم شویم
1861
00:57:00,240 –> 00:57:01,839
از نتایج برای آن خاص
1862
00:57:01,839 –> 00:57:03,680
مدل و سپس ما را مشخص می کنیم
1863
00:57:03,680 –> 00:57:05,599
مسیر ورود به سیستم tensorboard بنابراین tensorboard
1864
00:57:05,599 –> 00:57:07,760
ثبت زیر خط و ما آن را به عنوان مشخص کرده ایم
1865
00:57:07,760 –> 00:57:09,200
این مسیر ورود به سیستم در اینجا است، بنابراین اگر ما واقعاً برویم
1866
00:57:09,200 –> 00:57:10,839
و نگاهی به این الگوریتم بیندازید
1867
00:57:10,839 –> 00:57:14,480
ppo یک کل وجود دارد
1868
00:57:14,480 –> 00:57:16,480
انبوهی از استدلال ها که ما واقعاً می توانیم
1869
00:57:16,480 –> 00:57:17,839
از اینجا عبور کنید تا بتوانید ببینید که ما
1870
00:57:17,839 –> 00:57:18,480
می تواند عبور کند
1871
00:57:18,480 –> 00:57:21,200
سیاست محیط یادگیری
1872
00:57:21,200 –> 00:57:24,079
تعداد مراحل را به اندازه دسته ارزیابی کنید
1873
00:57:24,079 –> 00:57:27,040
تعداد دوره های گاما گای لامبدا
1874
00:57:27,040 –> 00:57:28,640
بنابراین یک دسته کامل از متفاوت وجود دارد
1875
00:57:28,640 –> 00:57:30,319
انواع پارامترهای پایپر که می توانید
1876
00:57:30,319 –> 00:57:32,079
در واقع در اینجا نیز تمرین کنید
1877
00:57:32,079 –> 00:57:33,680
و کلی چیزهای مختلف
1878
00:57:33,680 –> 00:57:35,200
که در واقع می توانید دوباره آموزش دهید اگر
1879
00:57:35,200 –> 00:57:36,960
یک دسته کامل از اسناد وجود دارد
1880
00:57:36,960 –> 00:57:39,599
روی این محیط خاص
1881
00:57:39,599 –> 00:57:41,119
و شما می توانید همه آن را در آنجا ببینید
1882
00:57:41,119 –> 00:57:42,799
دوباره ما این را بسیار ساده نگه می داریم
1883
00:57:42,799 –> 00:57:44,480
و ما از هایپر استاندارد استفاده می کنیم
1884
00:57:44,480 –> 00:57:48,000
پارامترها در این مورد خاص
1885
00:57:48,000 –> 00:57:51,040
بنابراین اکنون که عامل ما اکنون راه اندازی شده است
1886
00:57:51,040 –> 00:57:52,480
کار بعدی که باید انجام دهیم این است که برویم
1887
00:57:52,480 –> 00:57:53,920
در پیش است و آن را آموزش دهید پس دوباره این است
1888
00:57:53,920 –> 00:57:54,319
بسیار
1889
00:57:54,319 –> 00:57:56,559
ساده از اینجا به بعد، بنابراین ما فقط نیاز داریم
1890
00:57:56,559 –> 00:57:58,400
برای استفاده از model.learn قادر به رفتن و
1891
00:57:58,400 –> 00:58:00,000
آن را آموزش دهید، پس بیایید آن را انجام دهیم
1892
00:58:00,000 –> 00:58:03,200
بنابراین اگر مدل.learn را تایپ کنیم و سپس ما
1893
00:58:03,200 –> 00:58:04,640
فقط باید از تعداد عبور کنید
1894
00:58:04,640 –> 00:58:06,079
مراحل زمانی که می خواهیم آن را آموزش دهیم
1895
00:58:06,079 –> 00:58:06,799
پس دوباره من هستم
1896
00:58:06,799 –> 00:58:10,000
فقط قرار است آن را از طریق و
1897
00:58:10,000 –> 00:58:11,680
در ابتدا من فقط می خواهم آن را تنظیم کنم
1898
00:58:11,680 –> 00:58:15,359
20 000. بنابراین خط کامل مدل است
1899
00:58:15,359 –> 00:58:17,440
نقطه یاد می گیریم و سپس در حال عبور هستیم
1900
00:58:17,440 –> 00:58:19,440
یک آرگومان کلمه کلیدی تا کاملاً زیر خط بکشید
1901
00:58:19,440 –> 00:58:20,160
مراحل زمانی
1902
00:58:20,160 –> 00:58:23,040
برابر 20 000 است. اکنون می توانید در اطراف بازی کنید
1903
00:58:23,040 –> 00:58:24,000
با این شماره و
1904
00:58:24,000 –> 00:58:25,520
از نظر مدت زمانی که می خواهید تمرین کنید
1905
00:58:25,520 –> 00:58:27,040
بنابراین برای یک محیط ساده شما هستید
1906
00:58:27,040 –> 00:58:28,400
احتمالاً می تواند فرار کند
1907
00:58:28,400 –> 00:58:30,799
با تعداد کل مراحل زمانی کمتر
1908
00:58:30,799 –> 00:58:32,960
برای یک محیط پیچیده بگویید برای
1909
00:58:32,960 –> 00:58:34,640
به عنوان مثال شکست یا خودران
1910
00:58:34,640 –> 00:58:36,000
محیطی که احتمالاً به آن نیاز دارید
1911
00:58:36,000 –> 00:58:36,799
توده بیشتر
1912
00:58:36,799 –> 00:58:39,359
بنابراین به عنوان مثال برای cardpole من مدیریت کرده ام
1913
00:58:39,359 –> 00:58:41,119
برای حل آن بیشتر از نه در under
1914
00:58:41,119 –> 00:58:42,640
20000 قدم
1915
00:58:42,640 –> 00:58:44,480
برای فرار و خودرانی
1916
00:58:44,480 –> 00:58:46,160
خوب آموزش شکست در واقع نمی کند
1917
00:58:46,160 –> 00:58:46,480
دارند
1918
00:58:46,480 –> 00:58:50,000
یک هدف نهایی فی نفسه اما در واقع این است
1919
00:58:50,000 –> 00:58:53,520
حدود 300 400 000 گام زمانی برداشته شد
1920
00:58:53,520 –> 00:58:55,359
همانطور که آموزش رانندگی خودران نیز همینطور بود
1921
00:58:55,359 –> 00:58:57,440
باز هم پیچیدگی در محیط
1922
00:58:57,440 –> 00:58:59,119
قرار است چند مرحله زمانی را تعریف کند
1923
00:58:59,119 –> 00:59:00,799
در این مورد باید برای آن تمرین کنید
1924
00:59:00,799 –> 00:59:02,720
ما با 20 000 راضی هستیم تا بتوانیم
1925
00:59:02,720 –> 00:59:05,839
ادامه دهید و آن را شروع کنید
1926
00:59:05,839 –> 00:59:07,920
و چیزی که در نهایت خواهید دید یک بار است
1927
00:59:07,920 –> 00:59:09,599
این مدل شروع به آموزش می کند به نظر می رسد
1928
00:59:09,599 –> 00:59:13,280
ما در آنجا کمی خطا داریم
1929
00:59:13,680 –> 00:59:14,799
خوب به نظر می رسد که ممکن است همینطور باشد
1930
00:59:14,799 –> 00:59:17,280
هشدار بود
1931
00:59:17,280 –> 00:59:18,960
خوب پس می توانید ببینید مدل ما اکنون است
1932
00:59:18,960 –> 00:59:20,480
شروع به تمرین کردیم، بنابراین ما در حال دریافت خود هستیم
1933
00:59:20,480 –> 00:59:21,040
زمان
1934
00:59:21,040 –> 00:59:22,880
معیارها و ما نیز در حال دریافت یک کل هستیم
1935
00:59:22,880 –> 00:59:24,960
مجموعه ای از معیارهای آموزشی اضافی
1936
00:59:24,960 –> 00:59:27,119
پس اجازه دهید این کار ادامه پیدا کند و اجرا شود
1937
00:59:27,119 –> 00:59:28,559
و پس از آن به محض انجام آن ما خواهد بود
1938
00:59:28,559 –> 00:59:31,440
قادر به آزمایش آن
1939
00:59:31,440 –> 00:59:33,280
خوب است، بنابراین ما می توانیم ببینیم که مدل ما دارد
1940
00:59:33,280 –> 00:59:35,119
آموزش به پایان رسید و اگر نگاهی بیندازیم
1941
00:59:35,119 –> 00:59:36,480
بنابراین به نظر می رسد که ما توضیح داده ایم
1942
00:59:36,480 –> 00:59:39,040
واریانس 0.231
1943
00:59:39,040 –> 00:59:42,960
ما کاهش آنتروپی منفی 0.599 داریم
1944
00:59:42,960 –> 00:59:47,119
نرخ یادگیری 0.000
1945
00:59:47,119 –> 00:59:50,079
از دست دادن 57.6 به نظر می رسد همه چیز نبود
1946
00:59:50,079 –> 00:59:51,839
تا انتها پایدار است اما خوب است
1947
00:59:51,839 –> 00:59:53,440
بیایید آن را آزمایش کنیم و ببینیم این چیست
1948
00:59:53,440 –> 00:59:55,119
در واقع به نظر می رسد
1949
00:59:55,119 –> 00:59:57,839
بنابراین مدل ما در حال حاضر آموزش دیده یا در
1950
00:59:57,839 –> 00:59:59,599
اگر ما اکنون حداقل برای 20000 قدم آموزش دیده ایم
1951
00:59:59,599 –> 01:00:00,960
میخواستیم میتوانیم برویم و این را آموزش دهیم
1952
01:00:00,960 –> 01:00:02,480
دیگر بنابراین تنها کاری که باید انجام دهیم این است که برویم و
1953
01:00:02,480 –> 01:00:03,680
دوباره اجراش کن
1954
01:00:03,680 –> 01:00:06,960
قرار است دوباره تمرین را آغاز کند
1955
01:00:07,920 –> 01:00:11,440
بنابراین می توانید ببینید که آموزش شروع شده است
1956
01:00:11,440 –> 01:00:13,200
و اگر بخواهید دوباره ادامه دارد
1957
01:00:13,200 –> 01:00:14,319
برای مدت طولانی تری به آن نیاز دارید
1958
01:00:14,319 –> 01:00:17,920
انجام دهید این است که بروید و دوباره آن را اجرا کنید
1959
01:00:18,960 –> 01:00:20,400
حالا که ما آن را شروع کردیم، بیایید
1960
01:00:20,400 –> 01:00:21,839
اجازه دهید که تمام شود و سپس ما در واقع
1961
01:00:21,839 –> 01:00:24,400
تستش کن
1962
01:00:24,640 –> 01:00:27,119
خوب پس دور بعدی ما همین است
1963
01:00:27,119 –> 01:00:28,000
آموزش در حال حاضر
1964
01:00:28,000 –> 01:00:29,760
انجام شده شبیه واریانس توضیح داده شده ما است
1965
01:00:29,760 –> 01:00:31,680
نرخ یادگیری کمی بالاتر است
1966
01:00:31,680 –> 01:00:33,200
هنوز هم همینطور
1967
01:00:33,200 –> 01:00:36,160
ما در مجموع 20 480 را پشت سر گذاشتیم
1968
01:00:36,160 –> 01:00:37,760
مراحل زمان پس دوباره این فقط برای
1969
01:00:37,760 –> 01:00:39,280
این آخرین اجرا
1970
01:00:39,280 –> 01:00:41,359
در حال حاضر اغلب آنچه شما هستید
1971
01:00:41,359 –> 01:00:42,799
می خواهید انجام دهید این است که می خواهید انجام دهید
1972
01:00:42,799 –> 01:00:43,359
خواستن
1973
01:00:43,359 –> 01:00:45,200
این مدل را ذخیره کنید و آن را جابجا کنید
1974
01:00:45,200 –> 01:00:46,640
اگر می خواستید بروید و آن را مستقر کنید
1975
01:00:46,640 –> 01:00:48,240
می خواهم بتوان آن را ذخیره کرد، پس بیایید بگیریم
1976
01:00:48,240 –> 01:00:49,200
نگاهی به اینکه چگونه ممکن است
1977
01:00:49,200 –> 01:00:51,680
ابتدا مدل ما را ذخیره و بارگذاری مجدد کنید و
1978
01:00:51,680 –> 01:00:53,599
سپس ما می رویم و آن را ارزیابی می کنیم
1979
01:00:53,599 –> 01:00:56,079
بنابراین ما یک مسیر را تعریف می کنیم و
1980
01:00:56,079 –> 01:00:58,400
ما فقط قصد داریم آن را یک مسیر ppo بنامیم
1981
01:00:58,400 –> 01:01:01,920
مشابه کاری که برای مسیر ورود به سیستم خود انجام دادیم
1982
01:01:07,920 –> 01:01:10,480
جالب است، بنابراین مسیر ما این است که من تعریف کرده ام
1983
01:01:10,480 –> 01:01:11,280
فقط نوشته شده
1984
01:01:11,280 –> 01:01:13,200
ppo مسیر زیر خط به طوری که رفتن به
1985
01:01:13,200 –> 01:01:14,720
متغیر مسیر ما باشید
1986
01:01:14,720 –> 01:01:18,079
مساوی os dot path dot join
1987
01:01:18,079 –> 01:01:19,760
و سپس ما آن را ذخیره می کنیم
1988
01:01:19,760 –> 01:01:21,680
در داخل ما به طور موثر ما را نجات داد
1989
01:01:21,680 –> 01:01:23,280
پوشه models so آموزش
1990
01:01:23,280 –> 01:01:25,359
و سپس مدل های ذخیره شده و سپس فایل ما
1991
01:01:25,359 –> 01:01:26,960
نام در واقع ppo خواهد بود
1992
01:01:26,960 –> 01:01:29,280
نظرسنجی سبد خرید مدل underscore تا
1993
01:01:29,280 –> 01:01:31,040
این مدل ما را نجات می دهد
1994
01:01:31,040 –> 01:01:32,799
در داخل این پوشه بنابراین تقویت
1995
01:01:32,799 –> 01:01:34,720
دوره خوب یادگیری این جریان من است
1996
01:01:34,720 –> 01:01:35,680
پوشه
1997
01:01:35,680 –> 01:01:37,680
آموزش و سپس مدل های ذخیره شده پس از آن است
1998
01:01:37,680 –> 01:01:39,359
در اینجا ذخیره می شود
1999
01:01:39,359 –> 01:01:42,720
بنابراین اگر ما برویم و آن را ذخیره کنیم
2000
01:01:43,280 –> 01:01:45,520
بنابراین می توانید ببینید که مدل ما اکنون است
2001
01:01:45,520 –> 01:01:47,280
در آنجا ذخیره شده است بنابراین مدل خط خطی ppo
2002
01:01:47,280 –> 01:01:48,480
کارپل را زیر خط بکشید
2003
01:01:48,480 –> 01:01:50,960
بنابراین دوباره برای ذخیره آن تمام آنچه من نوشته ام است
2004
01:01:50,960 –> 01:01:52,880
مدل نقطه ذخیره کنید و سپس من گذشت
2005
01:01:52,880 –> 01:01:54,640
از طریق این مسیر ppo
2006
01:01:54,640 –> 01:01:56,400
حالا اگر می خواستیم می توانستیم بریم
2007
01:01:56,400 –> 01:01:58,319
و این مدل را حذف کنید و دوباره بارگذاری کنید
2008
01:01:58,319 –> 01:01:59,599
بیایید جلو برویم و این کار را انجام دهیم زیرا این
2009
01:01:59,599 –> 01:02:01,200
نوعی شبیه سازی استقرار درست است
2010
01:02:01,200 –> 01:02:02,559
شما در حال بارگیری مجدد هستید
2011
01:02:02,559 –> 01:02:04,319
هر بار از مدل ذخیره شده شما پس بیایید
2012
01:02:04,319 –> 01:02:06,400
انجام دهید
2013
01:02:06,400 –> 01:02:08,640
بنابراین من فقط مدل del را برای حذف می نویسم
2014
01:02:08,640 –> 01:02:10,000
مدل ما و سپس کاری که می توانیم انجام دهیم ما هستیم
2015
01:02:10,000 –> 01:02:12,079
می تواند این مدل را دوباره در حافظه بارگذاری کند
2016
01:02:12,079 –> 01:02:13,440
بنابراین اگر مدل را تایپ کنم
2017
01:02:13,440 –> 01:02:14,880
بنابراین ما فقط یک متغیر را تعریف می کنیم
2018
01:02:14,880 –> 01:02:17,119
مدل نامیده می شود و سپس ما در واقع می توانیم
2019
01:02:17,119 –> 01:02:18,559
آن را دوباره بارگذاری کنید تا این کار را انجام دهیم
2020
01:02:18,559 –> 01:02:19,839
نوشتن ppo
2021
01:02:19,839 –> 01:02:22,960
بارگذاری نقطه و سپس ما فقط از آن عبور می کنیم
2022
01:02:22,960 –> 01:02:24,640
مسیر ما
2023
01:02:24,640 –> 01:02:26,160
یا مسیر مدل واقعی شما پس اگر
2024
01:02:26,160 –> 01:02:27,760
شما آن را در جای دیگری که می خواهید ذخیره کنید
2025
01:02:27,760 –> 01:02:29,520
تا مطمئن شوید یا مطمئن شوید که قبول می کنید
2026
01:02:29,520 –> 01:02:32,160
از طریق مسیر کامل به مدل ها
2027
01:02:32,160 –> 01:02:33,280
و سپس ما از طریق خود عبور می کنیم
2028
01:02:33,280 –> 01:02:36,000
محیط و همچنین خط کامل است
2029
01:02:36,000 –> 01:02:36,799
مدل
2030
01:02:36,799 –> 01:02:39,920
برابر است با بار نقطه ppo و سپس ما
2031
01:02:39,920 –> 01:02:41,599
از مسیری که مدل ما در آن قرار دارد عبور کنید
2032
01:02:41,599 –> 01:02:42,720
در واقع ذخیره شده است پس به یاد داشته باشید
2033
01:02:42,720 –> 01:02:44,559
مسیر خط خطی ppo قرار است باشد
2034
01:02:44,559 –> 01:02:47,440
مدل ما کجاست
2035
01:02:47,599 –> 01:02:49,760
بنابراین در این مورد آن را در آموزش ذخیره شده است
2036
01:02:49,760 –> 01:02:52,079
مدل های ppo مدل carpol
2037
01:02:52,079 –> 01:02:55,599
دقیقاً همین آموزش است
2038
01:02:55,599 –> 01:02:58,079
مدل های ذخیره شده ppo مدل underscore
2039
01:02:58,079 –> 01:02:59,920
زیر خط کارپال بنابراین همان است
2040
01:02:59,920 –> 01:03:02,799
فایلی که ما با آن کار می کنیم
2041
01:03:02,799 –> 01:03:05,280
بنابراین بیایید آن را همین الان بارگذاری کنیم تا قبل از آن
2042
01:03:05,280 –> 01:03:06,720
من این سلول را اجرا می کنم تا بتوانید ببینید آیا تایپ می کنم یا خیر
2043
01:03:06,720 –> 01:03:07,520
در مدل
2044
01:03:07,520 –> 01:03:12,160
به عنوان مثال مراحل کل زمان را یاد بگیرید
2045
01:03:12,319 –> 01:03:14,000
برابر است با هزار پس این ما خواهد بود
2046
01:03:14,000 –> 01:03:17,839
مرحله آموزش
2047
01:03:17,839 –> 01:03:19,760
بنابراین می توانید ببینید که ما مدل نامی داریم
2048
01:03:19,760 –> 01:03:21,119
تعریف نشده است زیرا ما را به یاد داشته باشید
2049
01:03:21,119 –> 01:03:22,880
مدل ما را از اینجا حذف کرد
2050
01:03:22,880 –> 01:03:25,200
حالا اگر ما واقعا رفتیم و آن را بارگذاری کردیم
2051
01:03:25,200 –> 01:03:27,039
می توانید ببینید که ما اکنون خود را بارگذاری کرده ایم
2052
01:03:27,039 –> 01:03:29,359
مدل و اگر ما برویم و این را اجرا کنیم
2053
01:03:29,359 –> 01:03:30,720
می بینید که ما اکنون در حال آموزش هستیم
2054
01:03:30,720 –> 01:03:32,960
از نو
2055
01:03:32,960 –> 01:03:34,480
درست است بنابراین شما به نوعی ایده را دریافت می کنید تا شما
2056
01:03:34,480 –> 01:03:36,480
می توانید بروید و مدل خود را آموزش دهید و می توانید ذخیره کنید
2057
01:03:36,480 –> 01:03:38,240
آن را با استفاده از model.save
2058
01:03:38,240 –> 01:03:39,960
و سپس می توانید با استفاده از آن دوباره بارگیری کنید
2059
01:03:39,960 –> 01:03:41,760
ppo.load پس به یاد داشته باشید
2060
01:03:41,760 –> 01:03:43,880
model.save و سپس شما در واقع از
2061
01:03:43,880 –> 01:03:45,760
algorithm.load تا بتوان آن را بارگذاری کرد
2062
01:03:45,760 –> 01:03:47,280
پشتیبان گیری
2063
01:03:47,280 –> 01:03:49,920
جالب است که آموزش ما اکنون در آن انجام شده است
2064
01:03:49,920 –> 01:03:51,440
به طور خلاصه ما کاملاً منصفانه عمل کرده ایم
2065
01:03:51,440 –> 01:03:53,200
وجود دارد بنابراین ما سوار شده ایم
2066
01:03:53,200 –> 01:03:55,119
بنابراین ما در واقع خود را ایجاد کرده ایم
2067
01:03:55,119 –> 01:03:57,200
الگوریتم یا عامل ما تا ppo و سپس
2068
01:03:57,200 –> 01:03:58,640
ما از پارامترهای خود عبور خواهیم کرد
2069
01:03:58,640 –> 01:04:00,799
ما از model.learn استفاده کرده ایم
2070
01:04:00,799 –> 01:04:03,520
مدل سپس از model.save برای ذخیره ما استفاده کنید
2071
01:04:03,520 –> 01:04:04,240
مدل و سپس
2072
01:04:04,240 –> 01:04:06,480
ppo یا هر الگوریتم دیگری که استفاده می کنید
2073
01:04:06,480 –> 01:04:07,280
بار نقطه ای
2074
01:04:07,280 –> 01:04:08,960
تا بتوانید بروید و آن را دوباره بارگیری کنید
2075
01:04:08,960 –> 01:04:10,319
حافظه پس دوباره آن چهار کلید
2076
01:04:10,319 –> 01:04:11,920
اجزا واقعاً مهم هستند
2077
01:04:11,920 –> 01:04:13,760
بنابراین از الگوریتم برای یافتن هایپر استفاده کنید
2078
01:04:13,760 –> 01:04:14,400
مولفه های
2079
01:04:14,400 –> 01:04:17,039
مدل.آموزش دادن به آن مدل.ذخیره به
2080
01:04:17,039 –> 01:04:18,880
آن را ذخیره کنید و سپس هر الگوریتم
2081
01:04:18,880 –> 01:04:19,119
است
2082
01:04:19,119 –> 01:04:22,960
برای بارگذاری مجدد آن را بارگذاری کنید
2083
01:04:24,000 –> 01:04:27,280
مرحله چهارم تست و ارزیابی
2084
01:04:27,280 –> 01:04:29,039
تا کنون آنچه را که ما رفته ایم و انجام داده ایم
2085
01:04:29,039 –> 01:04:30,559
این است که ما محیط خود را تنظیم کرده ایم
2086
01:04:30,559 –> 01:04:32,000
رفتیم و آن را آموزش دادیم اما این کار را نکردیم
2087
01:04:32,000 –> 01:04:33,520
در واقع هر کاری را با آموزش دیده ما انجام دادیم
2088
01:04:33,520 –> 01:04:34,960
مدل هنوز
2089
01:04:34,960 –> 01:04:36,480
خوب کاری که ما می خواهیم انجام دهیم این است
2090
01:04:36,480 –> 01:04:38,160
ما در واقع می خواهیم تمرین کنیم
2091
01:04:38,160 –> 01:04:39,599
مدل ما را ببینیم که در واقع چگونه است
2092
01:04:39,599 –> 01:04:40,480
اجرا کردن
2093
01:04:40,480 –> 01:04:42,559
حالا شما متوجه شده اید که وقتی ما
2094
01:04:42,559 –> 01:04:44,079
در واقع رفت و آن مدل را آموزش داد
2095
01:04:44,079 –> 01:04:45,839
با استفاده از الگوریتم ppo پس بیایید
2096
01:04:45,839 –> 01:04:48,319
در واقع برگرد و نگاهی بینداز
2097
01:04:48,319 –> 01:04:50,160
ما در واقع آن آموزش ها را ندیدیم
2098
01:04:50,160 –> 01:04:52,400
معیارها اکنون معیارهای آموزشی است
2099
01:04:52,400 –> 01:04:54,160
که به نوعی در اینجا حضور داشتم یا
2100
01:04:54,160 –> 01:04:55,520
معیارهای عرضه که می توانید ببینید
2101
01:04:55,520 –> 01:04:56,559
آنجا
2102
01:04:56,559 –> 01:04:58,559
بسیار به الگوریتم وابسته هستند
2103
01:04:58,559 –> 01:05:00,559
که با a2c از آن استفاده می کنید
2104
01:05:00,559 –> 01:05:02,160
الگوریتم من معتقدم که شما اینها را دریافت می کنید
2105
01:05:02,160 –> 01:05:04,640
معیارهای عرضه اما با ppo شما این کار را نمی کنید
2106
01:05:04,640 –> 01:05:06,160
بنابراین آنچه شما می خواهید انجام دهید این است
2107
01:05:06,160 –> 01:05:07,839
شما می خواهید ارزیابی کنید
2108
01:05:07,839 –> 01:05:09,839
خود مدل کنید تا ببینید چه عملکردی دارد
2109
01:05:09,839 –> 01:05:11,200
در واقع شبیه است
2110
01:05:11,200 –> 01:05:13,200
اکنون می توانیم از ارزیابی استفاده کنیم
2111
01:05:13,200 –> 01:05:14,880
روش سیاستی که ما وارد کردیم
2112
01:05:14,880 –> 01:05:16,559
درست در ابتدا برای اینکه بتوانید ببینید
2113
01:05:16,559 –> 01:05:19,119
در واقع به نظر می رسد
2114
01:05:19,119 –> 01:05:20,640
اما یک چیز کلیدی برای تماس این است که اگر شما
2115
01:05:20,640 –> 01:05:22,640
این معیارها را دریافت کنید، این یک چیز عالی است
2116
01:05:22,640 –> 01:05:24,640
بنابراین دو مورد کلیدی که باید پرداخت کنید
2117
01:05:24,640 –> 01:05:25,839
توجه به هستند
2118
01:05:25,839 –> 01:05:29,280
قسمت به معنای طول یا قسمت یا ep است
2119
01:05:29,280 –> 01:05:31,359
underscore len underscore به این معنی است
2120
01:05:31,359 –> 01:05:33,760
این است که در واقع هر قسمت چقدر طول کشید
2121
01:05:33,760 –> 01:05:35,200
به طور متوسط به عنوان مثال بگویید شما هستید
2122
01:05:35,200 –> 01:05:36,480
بازی شکستن
2123
01:05:36,480 –> 01:05:39,039
این چند بار است که مدل شما توانسته است
2124
01:05:39,039 –> 01:05:40,400
بازی کردن یا ضربه زدن به توپ یا چند
2125
01:05:40,400 –> 01:05:41,920
فریم هایی که توانست از آن عبور کند
2126
01:05:41,920 –> 01:05:44,160
قبل از اینکه این مدل در نهایت به همین دلیل مرد
2127
01:05:44,160 –> 01:05:46,799
بازی این امر به ویژه مهم است
2128
01:05:46,799 –> 01:05:49,359
میانگین پاداش عملاً شماست
2129
01:05:49,359 –> 01:05:50,000
پاداش متوسط
2130
01:05:50,000 –> 01:05:52,000
پس به یاد داشته باشید که به سگ ما فکر کنید
2131
01:05:52,000 –> 01:05:54,319
محیط پس چند بار یا
2132
01:05:54,319 –> 01:05:54,720
این است
2133
01:05:54,720 –> 01:05:56,559
به طور متوسط چند بار سگ شما یک
2134
01:05:56,559 –> 01:05:58,079
تجارت یا میانگین پاداش شما در این مورد
2135
01:05:58,079 –> 01:06:00,079
مورد خاص در حال حاضر ما در واقع می توانید دریافت کنید
2136
01:06:00,079 –> 01:06:02,000
معیارهای مشابه با استفاده از آن
2137
01:06:02,000 –> 01:06:04,319
ارزیابی روش سیاست گذاری
2138
01:06:04,319 –> 01:06:06,400
و ما همچنین می توانیم آن آموزش ها را نظارت کنیم
2139
01:06:06,400 –> 01:06:08,160
معیارهای داخل تانسوربرد بنابراین
2140
01:06:08,160 –> 01:06:09,760
به یاد داشته باشید زمانی که ما واقعا راه اندازی خود را
2141
01:06:09,760 –> 01:06:11,039
مدلی که در واقع از آن عبور می کنیم
2142
01:06:11,039 –> 01:06:12,720
لاگ زیر خط تانسوربرد
2143
01:06:12,720 –> 01:06:14,799
و ما مسیر ورود به سیستم خود را مشخص کردیم بنابراین اگر ما
2144
01:06:14,799 –> 01:06:16,480
به آن برگرد
2145
01:06:16,480 –> 01:06:18,319
بنابراین وقتی تعریف کردیم می توانید اینجا را ببینید
2146
01:06:18,319 –> 01:06:20,240
ppo ما در واقع این را مشخص کردیم
2147
01:06:20,240 –> 01:06:21,599
مسیر لاگ تانسوربرد
2148
01:06:21,599 –> 01:06:23,599
بنابراین ما می توانیم سپس برویم و در واقع یک را بگیریم
2149
01:06:23,599 –> 01:06:24,960
به آن معیارها نگاه کنید و اینها هستند
2150
01:06:24,960 –> 01:06:26,319
معیارهای آموزشی ما خواهد بود
2151
01:06:26,319 –> 01:06:28,799
عالی است، پس بیایید ادامه دهیم و این کار را انجام دهیم
2152
01:06:28,799 –> 01:06:30,160
و اینگونه است که تانسوربرد را شروع می کنید
2153
01:06:30,160 –> 01:06:31,200
اما دوباره به شما نشان خواهم داد که چگونه
2154
01:06:31,200 –> 01:06:32,000
این کار را در یک ثانیه انجام دهید
2155
01:06:32,000 –> 01:06:34,720
پس بیا انجامش بدیم
2156
01:06:35,839 –> 01:06:38,960
بنابراین ما اکنون در حال ارزیابی هستیم
2157
01:06:38,960 –> 01:06:40,079
بیایید جلو برویم و این کار را انجام دهیم
2158
01:06:40,079 –> 01:06:42,480
قرار است از
2159
01:06:42,480 –> 01:06:44,559
ارزیابی روش خط مشی از
2160
01:06:44,559 –> 01:06:46,079
اینجا بالا پس به یاد داشته باشید که این اتفاق خواهد افتاد
2161
01:06:46,079 –> 01:06:48,319
روشی که به ما امکان می دهد تا چه اندازه خوب آزمایش کنیم
2162
01:06:48,319 –> 01:06:50,400
یک مدل در واقع در حال انجام است
2163
01:06:50,400 –> 01:06:53,039
اکنون مدل ppo در این خاص است
2164
01:06:53,039 –> 01:06:54,160
مورد در نظر گرفته شده است
2165
01:06:54,160 –> 01:06:57,039
اگر به طور میانگین نمره ای از آن را کسب کنید حل می شود
2166
01:06:57,039 –> 01:06:58,559
200 و بالاتر
2167
01:06:58,559 –> 01:07:00,160
بنابراین ایده آل ما می خواهیم آن مدل خود را ببینیم
2168
01:07:00,160 –> 01:07:02,400
برای تعیین به طور میانگین 200 امتیاز می گیرد
2169
01:07:02,400 –> 01:07:03,839
محیط زیست هست یا نه
2170
01:07:03,839 –> 01:07:05,280
در واقع در حال حل شدن است
2171
01:07:05,280 –> 01:07:06,960
در حال حاضر محیط های خاصی قرار است
2172
01:07:06,960 –> 01:07:08,960
یه جورایی یه کلاه دارن که کجاست
2173
01:07:08,960 –> 01:07:09,920
حل شده در نظر گرفته شده است
2174
01:07:09,920 –> 01:07:11,680
بقیه فقط مستمر خواهند بود
2175
01:07:11,680 –> 01:07:13,280
بالاترین امتیازی که می گیرید همان است
2176
01:07:13,280 –> 01:07:14,000
بهترین
2177
01:07:14,000 –> 01:07:15,920
بنابراین برک آوت و خودران
2178
01:07:15,920 –> 01:07:17,599
آموزشی که فکر نمی کنم داشته باشم
2179
01:07:17,599 –> 01:07:20,000
کلاه اما در این مورد carpol
2180
01:07:20,000 –> 01:07:20,960
محیط انجام می دهد
2181
01:07:20,960 –> 01:07:29,839
پس بیایید پیش برویم و این را آزمایش کنیم
2182
01:07:30,000 –> 01:07:32,799
خوب پس ما رفتیم و خط خود را نوشتیم
2183
01:07:32,799 –> 01:07:34,559
برویم و خط مشی ما را آزمایش کنیم یا
2184
01:07:34,559 –> 01:07:36,160
ارزیابی آن و خطی که ما داریم
2185
01:07:36,160 –> 01:07:38,799
نوشته شده است ارزیابی خطمشی خطمشی
2186
01:07:38,799 –> 01:07:40,480
و سپس به آن رفتیم و گذشتیم
2187
01:07:40,480 –> 01:07:42,799
از طریق دو آرگومان و دو کلمه کلیدی
2188
01:07:42,799 –> 01:07:43,599
استدلال ها
2189
01:07:43,599 –> 01:07:44,640
بنابراین ما رفته ایم و از خود عبور کرده ایم
2190
01:07:44,640 –> 01:07:47,119
محیط ما را مدل کنید
2191
01:07:47,119 –> 01:07:48,960
برای چند قسمت می خواهیم آن را تست کنیم
2192
01:07:48,960 –> 01:07:50,559
بنابراین در این مورد ما از آن عبور کرده ایم
2193
01:07:50,559 –> 01:07:53,200
n قسمت های زیرخط معادل
2194
01:07:53,200 –> 01:07:54,240
برابر با 10
2195
01:07:54,240 –> 01:07:56,079
و سپس ما رفته ایم و render را مشخص کرده ایم
2196
01:07:56,079 –> 01:07:57,839
برابر true است بنابراین عبور از رندر
2197
01:07:57,839 –> 01:07:59,440
برابر واقعی تعیین می کند که آیا ما یا نه
2198
01:07:59,440 –> 01:08:01,520
در واقع آن را در زمان واقعی تجسم کنید
2199
01:08:01,520 –> 01:08:03,359
بنابراین اگر در حال ارزیابی این سیاست هستید
2200
01:08:03,359 –> 01:08:04,880
colab سپس می خواهید مشخص کنید
2201
01:08:04,880 –> 01:08:06,640
رندر برابر نادرست است زیرا شما این کار را نمی کنید
2202
01:08:06,640 –> 01:08:08,079
می خواهم آن را تجسم کنم که نمی شود
2203
01:08:08,079 –> 01:08:08,640
کار کردن
2204
01:08:08,640 –> 01:08:12,000
حداقل با ارزیابی پیش فرض
2205
01:08:12,000 –> 01:08:13,920
بیایید جلو برویم و این را آزمایش کنیم و ببینیم
2206
01:08:13,920 –> 01:08:16,479
مدل ما واقعاً شبیه چه چیزی است
2207
01:08:16,479 –> 01:08:18,560
بنابراین می توانید ببینید که این بسیار پایدارتر است
2208
01:08:18,560 –> 01:08:19,679
زمان پس به یاد داشته باشید که چه زمانی
2209
01:08:19,679 –> 01:08:21,759
تست کردن آن در زمان شروع آن
2210
01:08:21,759 –> 01:08:23,520
یه جورایی افتاد و رفت
2211
01:08:23,520 –> 01:08:24,799
از همه جا
2212
01:08:24,799 –> 01:08:26,719
اکنون کاملاً پایدار است، بنابراین شما
2213
01:08:26,719 –> 01:08:28,399
می توانید ببینید که تقریباً آن را متعادل می کند
2214
01:08:28,399 –> 01:08:32,319
دقیقاً و بنابراین این 10 را انجام می دهد
2215
01:08:32,319 –> 01:08:33,520
بار پس از 10 عبور می کند
2216
01:08:33,520 –> 01:08:35,439
قسمت های مختلف و میانگین بگیرید
2217
01:08:35,439 –> 01:08:37,120
پاداش و ما در واقع آن را در a
2218
01:08:37,120 –> 01:08:39,839
دومین
2219
01:08:39,839 –> 01:08:41,520
خیلی خوب درست است پس فقط در چند مورد
2220
01:08:41,520 –> 01:08:43,040
خطوط کدی که توانسته اید بسازید
2221
01:08:43,040 –> 01:08:45,279
یک عامل یادگیری تقویتی
2222
01:08:45,279 –> 01:08:47,359
اکنون دوباره سرعت تمرین به سمت بالا می رود
2223
01:08:47,359 –> 01:08:49,279
زمانی که هستید بسیار شبیه باشید
2224
01:08:49,279 –> 01:08:51,679
آموزش روی gpu یا نه روی gpu
2225
01:08:51,679 –> 01:08:52,960
بسیار بسیار شبیه خواهد بود بنابراین
2226
01:08:52,960 –> 01:08:54,479
اگر gp روشن ندارید نگران نباشید
2227
01:08:54,479 –> 01:08:55,198
ماشین شما
2228
01:08:55,198 –> 01:08:58,158
این را بدون توجه به سرد بودن تست کنید تا اینطور باشد
2229
01:08:58,158 –> 01:08:58,880
اکنون انجام شده است
2230
01:08:58,880 –> 01:09:02,158
و شما می توانید ببینید که به طور متوسط پاداش ما است
2231
01:09:02,158 –> 01:09:03,759
200 بنابراین این محیط اکنون است
2232
01:09:03,759 –> 01:09:05,759
حل شده است، بنابراین ما خوب هستیم
2233
01:09:05,759 –> 01:09:07,759
بنابراین این دو مقدار که شما از آن خارج می شوید
2234
01:09:07,759 –> 01:09:08,960
ارزیابی سیاست
2235
01:09:08,960 –> 01:09:11,120
میانگین پاداش بیش از تعداد هستند
2236
01:09:11,120 –> 01:09:12,158
از قسمت ها
2237
01:09:12,158 –> 01:09:13,839
و انحراف معیار در آن
2238
01:09:13,839 –> 01:09:15,520
پاداش بنابراین در این مورد ما یک دریافت می کنیم
2239
01:09:15,520 –> 01:09:17,359
میانگین نمره 200 با یک استاندارد
2240
01:09:17,359 –> 01:09:18,640
انحراف صفر
2241
01:09:18,640 –> 01:09:20,479
بنابراین ما کامل هستیم
2242
01:09:20,479 –> 01:09:21,920
در این مورد خاص
2243
01:09:21,920 –> 01:09:23,920
حالا کار بعدی که می خواهیم انجام دهیم این است
2244
01:09:23,920 –> 01:09:25,439
در واقع آن محیط را ببندید
2245
01:09:25,439 –> 01:09:27,359
دوباره ما آن را در اینجا داریم پس اگر ما
2246
01:09:27,359 –> 01:09:29,399
می خواستم آن را ببندیم، فقط می توانیم تایپ کنیم
2247
01:09:29,399 –> 01:09:31,679
emv.close
2248
01:09:31,679 –> 01:09:34,880
و در حال حاضر آن را تعطیل می کند
2249
01:09:34,880 –> 01:09:37,040
در حال حاضر ما رفتیم و آن را ارزیابی کردیم
2250
01:09:37,040 –> 01:09:38,319
اما اگر واقعاً می خواستیم برویم و
2251
01:09:38,319 –> 01:09:39,198
این را مستقر کنید
2252
01:09:39,198 –> 01:09:40,880
در واقع چگونه می خواهیم این کار را انجام دهیم
2253
01:09:40,880 –> 01:09:42,880
بنابراین این یک نوع آزمایش ماست
2254
01:09:42,880 –> 01:09:43,600
مدل در یک
2255
01:09:43,600 –> 01:09:46,238
عملکرد محصور شده چه اتفاقی می افتد
2256
01:09:46,238 –> 01:09:47,839
اگر واقعاً می خواستیم برویم و بهتر است
2257
01:09:47,839 –> 01:09:49,279
از انجام آن مانند این ما در واقع
2258
01:09:49,279 –> 01:09:50,399
می خواست آن را انجام دهد
2259
01:09:50,399 –> 01:09:52,640
چیزی شبیه به کاری که اینجا انجام دادیم
2260
01:09:52,640 –> 01:09:54,080
خوب ما در واقع می توانیم این کار را انجام دهیم
2261
01:09:54,080 –> 01:09:55,920
تفاوت اصلی این است که به جای
2262
01:09:55,920 –> 01:09:59,040
با استفاده از env.actionspace.sample
2263
01:09:59,040 –> 01:10:00,800
ما در واقع از طریق خود عبور خواهیم کرد
2264
01:10:00,800 –> 01:10:02,640
مشاهدات محیطی به نماینده ما
2265
01:10:02,640 –> 01:10:04,239
اکنون سعی کنید بهترین ها را پیش بینی کنید
2266
01:10:04,239 –> 01:10:05,760
نوع عمل چون همین است
2267
01:10:05,760 –> 01:10:07,120
یادگیری تقویتی همه چیز در مورد است
2268
01:10:07,120 –> 01:10:07,920
یاد آوردن
2269
01:10:07,920 –> 01:10:10,239
ما مشاهدات خود را انجام خواهیم داد
2270
01:10:10,239 –> 01:10:12,000
آن را به نماینده ما ارسال کنید، نماینده ما در حال رفتن است
2271
01:10:12,000 –> 01:10:13,600
سعی کنید بهترین نوع را تعیین کنید
2272
01:10:13,600 –> 01:10:15,199
اقدامی که باید به محیط زیست خود انجام دهیم
2273
01:10:15,199 –> 01:10:16,560
پاداش خود را به حداکثر برسانیم
2274
01:10:16,560 –> 01:10:18,239
بنابراین جریان بسیار زیاد خواهد بود
2275
01:10:18,239 –> 01:10:19,760
مشابه پس ما خواهیم کرد
2276
01:10:19,760 –> 01:10:21,199
به محیط اطرافمان نگاهی بیندازیم تا ببینیم
2277
01:10:21,199 –> 01:10:23,600
از env.reset برای تنظیم مجدد محیط خود استفاده کنید
2278
01:10:23,600 –> 01:10:24,880
و مشاهدات ما را دریافت کنید
2279
01:10:24,880 –> 01:10:26,960
سپس از model.predict on استفاده می کنیم
2280
01:10:26,960 –> 01:10:28,640
آن مشاهدات برای تلاش برای به دست آوردن
2281
01:10:28,640 –> 01:10:30,480
بهترین نوع عمل ممکن
2282
01:10:30,480 –> 01:10:31,520
و سپس ما در واقع می خواهیم
2283
01:10:31,520 –> 01:10:33,280
آن مرحله تا بتوانیم در واقع آن را کپی کنیم
2284
01:10:33,280 –> 01:10:36,640
کل بلوک کد در اینجا
2285
01:10:36,960 –> 01:10:40,480
و همین پایین بیایید جلو برویم و
2286
01:10:40,480 –> 01:10:41,600
مدل ما را تست کنید
2287
01:10:41,600 –> 01:10:43,280
در حال حاضر به این ما می خواهیم چند
2288
01:10:43,280 –> 01:10:46,360
تغییرات کلیدی بنابراین به جای استفاده از
2289
01:10:46,360 –> 01:10:47,600
env.actionspace.sample
2290
01:10:47,600 –> 01:10:49,600
ما این را به مدل نقطه تغییر می دهیم
2291
01:10:49,600 –> 01:10:51,280
پیش بینی
2292
01:10:51,280 –> 01:10:53,280
و سپس به تابع model.predict ما
2293
01:10:53,280 –> 01:10:55,280
ما باید از مشاهدات خود عبور کنیم
2294
01:10:55,280 –> 01:10:57,120
در حال حاضر ما مشاهدات خود را داریم
2295
01:10:57,120 –> 01:10:58,560
نام دو چیز متفاوت است بنابراین ما می خواهیم
2296
01:10:58,560 –> 01:10:59,440
این را تغییر دهید
2297
01:10:59,440 –> 01:11:01,920
بنابراین env.reset ما آن را تغییر می دهیم
2298
01:11:01,920 –> 01:11:04,560
متغیر برابر با obs باشد
2299
01:11:04,560 –> 01:11:07,600
و سپس در اینجا در env.step.action
2300
01:11:07,600 –> 01:11:08,960
به جای داشتن n
2301
01:11:08,960 –> 01:11:10,800
تاکید کنید که ما تغییر خواهیم کرد
2302
01:11:10,800 –> 01:11:12,400
این به obs نیز
2303
01:11:12,400 –> 01:11:14,080
بنابراین در حالت ایده آل چیزی که ما می خواهیم تغییر دهیم این است
2304
01:11:14,080 –> 01:11:15,679
این خط اینجا پیش از آن بود
2305
01:11:15,679 –> 01:11:16,320
حالت
2306
01:11:16,320 –> 01:11:18,320
برابر است با e و b dot reset که می خواهیم انجام دهیم
2307
01:11:18,320 –> 01:11:19,679
خط عمل ما را تغییر دهیم
2308
01:11:19,679 –> 01:11:21,719
بنابراین به جای داشتن
2309
01:11:21,719 –> 01:11:23,040
env.actionspace.sample که می رویم
2310
01:11:23,040 –> 01:11:24,880
آن را به model.predict تغییر دهید
2311
01:11:24,880 –> 01:11:26,320
و ما از آن عبور خواهیم کرد
2312
01:11:26,320 –> 01:11:28,480
مشاهدات ما
2313
01:11:28,480 –> 01:11:31,040
و سپس در خط env.step ما که است
2314
01:11:31,040 –> 01:11:32,480
جایی که اقدام ما انجام می شود
2315
01:11:32,480 –> 01:11:33,600
ما ابتدا آن را تغییر می دهیم
2316
01:11:33,600 –> 01:11:35,840
پارامتر به obs نیز
2317
01:11:35,840 –> 01:11:38,480
بنابراین حالا اگر این را به جای گرفتن اجرا کنیم
2318
01:11:38,480 –> 01:11:40,080
مراحل تصادفی که در واقع خواهیم بود
2319
01:11:40,080 –> 01:11:42,320
از یک مدل برای برداشتن گام ها استفاده کنید، بنابراین به یاد داشته باشید
2320
01:11:42,320 –> 01:11:44,000
ما اکنون مدل خود را زیربنایی کردهایم، بنابراین هستیم
2321
01:11:44,000 –> 01:11:45,520
الان الان
2322
01:11:45,520 –> 01:11:49,199
با استفاده از مدل در اینجا
2323
01:11:49,280 –> 01:11:50,960
بنابراین اگر ما برویم و اجرا کنیم به نظر می رسد
2324
01:11:50,960 –> 01:11:52,640
ما کمی خطا داریم بیایید a را بگیریم
2325
01:11:52,640 –> 01:11:53,520
نگاه کن
2326
01:11:53,520 –> 01:11:55,920
و ما ممکن است نیاز داشته باشیم که اوه ما واقعا هستیم
2327
01:11:55,920 –> 01:11:57,440
از مدل ما دو قسمت می گیریم
2328
01:11:57,440 –> 01:11:59,040
اگر واقعاً اوه، در واقع یک را بگیریم
2329
01:11:59,040 –> 01:12:00,880
به این نگاه کن
2330
01:12:00,880 –> 01:12:04,159
ما از model.predict استفاده می کنیم
2331
01:12:05,040 –> 01:12:07,280
obs ما در واقع دو مقدار را پس می گیریم
2332
01:12:07,280 –> 01:12:08,960
ما این آرایه را دریافت می کنیم و این هیچ کدام را دریافت می کنیم
2333
01:12:08,960 –> 01:12:09,840
برای ما ارزش دارد
2334
01:12:09,840 –> 01:12:12,480
اقدام در واقع اولین بیت و
2335
01:12:12,480 –> 01:12:13,600
جزء دوم
2336
01:12:13,600 –> 01:12:16,560
ایالت های ما هستند
2337
01:12:17,280 –> 01:12:18,480
ما در واقع به آن ثانیه نیاز نداریم
2338
01:12:18,480 –> 01:12:20,080
جزء بنابراین ما فقط آن را می سازیم
2339
01:12:20,080 –> 01:12:21,920
تأکید کنید، بنابراین اگر ما واقعاً اکنون این کار را انجام دهیم
2340
01:12:21,920 –> 01:12:23,520
و ما نگاهی به عمل خود می اندازیم
2341
01:12:23,520 –> 01:12:25,040
که بهتر به نظر می رسد خیلی خوب است
2342
01:12:25,040 –> 01:12:27,040
ما فقط می خواهیم این یکی را تغییر دهیم
2343
01:12:27,040 –> 01:12:30,480
بنابراین ما می خواهیم این مقدار را باز کنیم
2344
01:12:31,040 –> 01:12:33,120
و محیط ما هنوز باز است
2345
01:12:33,120 –> 01:12:37,840
بیایید جلو برویم و آن را ببندیم
2346
01:12:38,400 –> 01:12:39,600
همه چیز بسته است بیایید این را امتحان کنیم
2347
01:12:39,600 –> 01:12:41,440
از نو
2348
01:12:41,440 –> 01:12:43,840
شما بروید تا بتوانید اجرا را ببینید
2349
01:12:43,840 –> 01:12:45,280
خیلی بهتر از قبل الان
2350
01:12:45,280 –> 01:12:46,560
متعادل کردن آن
2351
01:12:46,560 –> 01:12:48,640
اون قطب خیلی بهتر از چیزی که داشتیم
2352
01:12:48,640 –> 01:12:50,080
در ابتدا زمانی که ما تازه مصرف می کردیم
2353
01:12:50,080 –> 01:12:52,159
مراحل تصادفی و شما می توانید امتیاز را ببینید
2354
01:12:52,159 –> 01:12:53,600
در زیر چاپ شده است
2355
01:12:53,600 –> 01:12:55,280
تقریباً هر کدام 200 میگیریم
2356
01:12:55,280 –> 01:12:56,719
تک زمان یعنی
2357
01:12:56,719 –> 01:13:00,080
ما در حال حل کردن آن مدل هستیم
2358
01:13:00,080 –> 01:13:01,040
و شما بروید تا بتوانید آن را ببینید
2359
01:13:01,040 –> 01:13:02,640
ما اکنون رفته ایم و این کار را و دوباره انجام داده ایم
2360
01:13:02,640 –> 01:13:04,800
اگر شما بخواهید می توانیم این را ببندیم
2361
01:13:04,800 –> 01:13:06,640
شما همچنین می توانید این را به طور مداوم اجرا کنید
2362
01:13:06,640 –> 01:13:08,000
اما در این مورد ما آن را در یک انجام می دهیم
2363
01:13:08,000 –> 01:13:09,120
یک نوع حلقه خوب
2364
01:13:09,120 –> 01:13:10,719
و دوباره و دوباره می توانیم برویم و این کار را انجام دهیم
2365
01:13:10,719 –> 01:13:18,159
دوباره پس بیایید آن را زیبا اجرا کنیم
2366
01:13:18,159 –> 01:13:18,960
خوب درست است
2367
01:13:18,960 –> 01:13:21,199
ما اکنون به طور فعال از خود استفاده می کنیم
2368
01:13:21,199 –> 01:13:23,040
عامل یادگیری تقویتی بتواند
2369
01:13:23,040 –> 01:13:23,679
رفتن و
2370
01:13:23,679 –> 01:13:26,000
با ورزشگاه او باز ما تعامل داشته باشید
2371
01:13:26,000 –> 01:13:27,760
محیط، بنابراین در حال حاضر در حال متعادل کردن است
2372
01:13:27,760 –> 01:13:30,480
نظرسنجی کلی بهتر است
2373
01:13:30,480 –> 01:13:31,920
حالا بیایید در واقع به چه چیزی نگاهی بیندازیم
2374
01:13:31,920 –> 01:13:33,520
آنجا انجام دادیم پس رفتیم و
2375
01:13:33,520 –> 01:13:36,640
اجازه دهید در واقع این را حذف کنید، بنابراین اگر شما
2376
01:13:36,640 –> 01:13:37,520
ذهنت را پر کن
2377
01:13:37,520 –> 01:13:40,560
درست به بخش دو که در آن هستیم
2378
01:13:40,560 –> 01:13:42,000
بارگیری محیط ما
2379
01:13:42,000 –> 01:13:43,520
و ما در حال بازی با این هستیم که چگونه می توانیم
2380
01:13:43,520 –> 01:13:45,360
در واقع اکنون با آن بازی کنید
2381
01:13:45,360 –> 01:13:48,080
کاری که ما در واقع انجام دادیم این بود که یکی داشتیم
2382
01:13:48,080 –> 01:13:50,080
عملکرد بسیار مهمی که emv بود
2383
01:13:50,080 –> 01:13:53,199
دات ریست حالا به یاد بیاورید که تایپ می کنیم
2384
01:13:53,199 –> 01:13:55,120
بازنشانی نقطهای env ما میخواهیم آن را دریافت کنیم
2385
01:13:55,120 –> 01:13:58,719
مشاهدات برای فضای رصد ما
2386
01:13:58,719 –> 01:14:00,800
آنچه ما در واقع می توانیم انجام دهیم این است که می توانیم انجام دهیم
2387
01:14:00,800 –> 01:14:02,480
این مشاهدات یا آنچه ما هستیم
2388
01:14:02,480 –> 01:14:03,760
در واقع ما اینها را می گیریم
2389
01:14:03,760 –> 01:14:06,159
مشاهدات در اینجا
2390
01:14:06,159 –> 01:14:08,800
و ما آنها را به مدل خود منتقل می کنیم
2391
01:14:08,800 –> 01:14:10,480
مدل.پیش بینی
2392
01:14:10,480 –> 01:14:13,280
مشاهده کنید که در واقع چه چیزی را دریافت می کنید
2393
01:14:13,280 –> 01:14:14,800
در اینجا دو مقدار وجود دارد، پس بیایید
2394
01:14:14,800 –> 01:14:15,199
در حقیقت
2395
01:14:15,199 –> 01:14:18,640
نگاهی به آنچه که ما به دست می آوریم
2396
01:14:19,199 –> 01:14:21,679
برای انجام این کار، ما می خواهیم آن را برگردانیم
2397
01:14:21,679 –> 01:14:23,520
اقدام مدل و حالت بعدی است
2398
01:14:23,520 –> 01:14:25,280
که در سیاست های مکرر استفاده می شود، بنابراین دوباره
2399
01:14:25,280 –> 01:14:26,640
زیرا ما از جریان خود استفاده نمی کنیم
2400
01:14:26,640 –> 01:14:29,679
سیاست ما به آن وضعیت بعدی نمی رسد
2401
01:14:29,679 –> 01:14:32,239
بنابراین در واقع چه چیزی را در این مورد به دست می آوریم
2402
01:14:32,239 –> 01:14:34,320
مورد خاصی که به ما مربوط است
2403
01:14:34,320 –> 01:14:36,480
این اولین ارزش در اینجا است که ما است
2404
01:14:36,480 –> 01:14:37,440
آرایه
2405
01:14:37,440 –> 01:14:40,840
اکنون از نظر عمل ما به یاد داشته باشید
2406
01:14:40,840 –> 01:14:42,960
فضا
2407
01:14:42,960 –> 01:14:45,360
فضا
2408
01:14:46,000 –> 01:14:47,520
به یاد داشته باشید که دو نوع مختلف وجود دارد
2409
01:14:47,520 –> 01:14:49,920
عمل تا صفر
2410
01:14:49,920 –> 01:14:53,600
ببینیم یک صفر و یک می گیریم یا نه
2411
01:14:53,600 –> 01:14:55,440
در حال حاضر چیزی که ما اساساً در اینجا به دست می آوریم این است
2412
01:14:55,440 –> 01:14:57,600
به جای گرفتن یک عمل تصادفی
2413
01:14:57,600 –> 01:14:58,960
ما از مدل خود استفاده می کنیم
2414
01:14:58,960 –> 01:15:02,000
عملکرد پیش بینی نقطه در مشاهدات ما
2415
01:15:02,000 –> 01:15:03,920
از محیط ما برای تولید این
2416
01:15:03,920 –> 01:15:04,800
در اینجا اقدام کنید
2417
01:15:04,800 –> 01:15:07,239
بنابراین شما می توانید آن را به جای دریافت آن ببینید
2418
01:15:07,239 –> 01:15:08,400
env.actionspace.sample
2419
01:15:08,400 –> 01:15:10,719
مدل ما در واقع این را پیش بینی می کند
2420
01:15:10,719 –> 01:15:12,640
بر اساس مشاهدات جریان ما
2421
01:15:12,640 –> 01:15:13,360
محیط
2422
01:15:13,360 –> 01:15:16,320
در حال حاضر شما باید یک اقدام را انجام دهید
2423
01:15:16,320 –> 01:15:18,640
برای دریافت بهترین پاداش ممکن
2424
01:15:18,640 –> 01:15:19,920
بنابراین این به طور موثر چیزی است
2425
01:15:19,920 –> 01:15:21,360
یادگیری تقویتی در این مورد است
2426
01:15:21,360 –> 01:15:22,480
اگر ذهن خود را به آن برگردانید
2427
01:15:22,480 –> 01:15:23,120
نمودار
2428
01:15:23,120 –> 01:15:24,719
بنابراین ما نماینده خود را داریم، ما خودمان را داریم
2429
01:15:24,719 –> 01:15:26,159
محیط ما عمل ما و
2430
01:15:26,159 –> 01:15:27,440
ما پاداش خود را داریم، بیایید در واقع برویم
2431
01:15:27,440 –> 01:15:29,840
بازگشت به آن اسلاید
2432
01:15:29,840 –> 01:15:31,840
درست است، بنابراین ما نماینده خود را در این زمینه داریم
2433
01:15:31,840 –> 01:15:33,120
مورد ما
2434
01:15:33,120 –> 01:15:37,679
عامل این مدل است که ما اقدام خود را داریم
2435
01:15:37,679 –> 01:15:39,040
اوه در واقع اینطور است که ما خودمان را داریم
2436
01:15:39,040 –> 01:15:40,640
عامل ما محیط زیست خود را به طوری
2437
01:15:40,640 –> 01:15:41,120
یاد آوردن
2438
01:15:41,120 –> 01:15:44,400
محیط ما emv این متغیر است
2439
01:15:44,400 –> 01:15:46,000
اینجا
2440
01:15:46,000 –> 01:15:48,159
ما اقدام خود را در این خصوص انجام داده ایم
2441
01:15:48,159 –> 01:15:49,280
موردی که هست
2442
01:15:49,280 –> 01:15:50,960
چیزی که ما در اینجا تولید می کنیم پس این است
2443
01:15:50,960 –> 01:15:53,360
یکی و ما نیز مشاهدات خود را داریم
2444
01:15:53,360 –> 01:15:55,040
که این ارزش در اینجا است بنابراین ما را به خاطر بسپارید
2445
01:15:55,040 –> 01:15:57,360
مشاهده تا بتوانیم آن را چاپ کنیم
2446
01:15:57,360 –> 01:16:00,080
این چهار مقدار در حال حاضر اگر شما بازیگران
2447
01:16:00,080 –> 01:16:01,679
ذهن شما به عقب ما در واقع نگاهی انداختیم
2448
01:16:01,679 –> 01:16:03,360
در مورد هر یک از این مشاهدات
2449
01:16:03,360 –> 01:16:05,600
منظور اینجا بود
2450
01:16:05,600 –> 01:16:08,159
بنابراین مشاهدات ما موقعیت ماشین ما هستند
2451
01:16:08,159 –> 01:16:09,280
سرعت سبد خرید ما
2452
01:16:09,280 –> 01:16:11,440
زاویه قطب ما و قطب ما زاویه ای است
2453
01:16:11,440 –> 01:16:12,400
سرعت
2454
01:16:12,400 –> 01:16:13,840
بنابراین دوباره می توانید شروع به دیدن نحوه انجام این کار کنید
2455
01:16:13,840 –> 01:16:15,600
همه چیز با هم هماهنگ است
2456
01:16:15,600 –> 01:16:18,080
آن چهار جزء کلیدی را که دارید دریافت کرده اید
2457
01:16:18,080 –> 01:16:19,360
شما
2458
01:16:19,360 –> 01:16:20,719
شما نماینده خود را دارید شما خود را دارید
2459
01:16:20,719 –> 01:16:22,400
محیط شما باید عمل خود را و
2460
01:16:22,400 –> 01:16:23,120
شما نیز دارید
2461
01:16:23,120 –> 01:16:26,080
مشاهدات شما در حال حاضر یک چیز اصلی است
2462
01:16:26,080 –> 01:16:27,440
که هنوز صدا نزدم
2463
01:16:27,440 –> 01:16:30,400
پاداش حق است پس دیدیم که ما
2464
01:16:30,400 –> 01:16:31,840
مدل ما را دریافت کرد. پیش بینی کرد
2465
01:16:31,840 –> 01:16:33,360
اکنون چگونه می توانیم در واقع چه چیزی را تعیین کنیم
2466
01:16:33,360 –> 01:16:35,120
پاداش ما خوب است ما پاداش خود را دریافت می کنیم
2467
01:16:35,120 –> 01:16:37,199
هنگامی که ما مرحله env را اجرا می کنیم، بنابراین اگر ما
2468
01:16:37,199 –> 01:16:38,080
در واقع این کار را اکنون انجام دهید
2469
01:16:38,080 –> 01:16:41,199
در مرحله b نقطه و مدل ما را به خاطر بسپارید
2470
01:16:41,199 –> 01:16:43,040
فقط پیش بینی کرد این اقدام را انجام دهیم تا اگر ما
2471
01:16:43,040 –> 01:16:49,280
برو و آن عصاره را بیرون بیاور
2472
01:16:49,280 –> 01:16:52,480
و اگر ما عمل خود را به این منتقل کنیم
2473
01:16:52,480 –> 01:16:54,480
چیزی که در واقع داریم به دست می آوریم
2474
01:16:54,480 –> 01:16:55,920
ارزش هایی که به ما مربوط می شوند
2475
01:16:55,920 –> 01:16:57,280
ما به وضعیت خود می رسیم
2476
01:16:57,280 –> 01:16:59,440
بنابراین این وضعیت پس از گرفتن ما است
2477
01:16:59,440 –> 01:17:00,560
اقدام بر روی آن
2478
01:17:00,560 –> 01:17:02,640
پس این مقدار در اینجا در واقع است
2479
01:17:02,640 –> 01:17:04,320
پاداش ما تا بتوانید پاداش ما را در آن ببینید
2480
01:17:04,320 –> 01:17:05,360
این مورد خاص
2481
01:17:05,360 –> 01:17:08,000
ارزش یک است در حال حاضر اجازه دهید در واقع
2482
01:17:08,000 –> 01:17:11,120
نگاه کنید آیا در مورد پاداش صحبت می کند؟
2483
01:17:11,120 –> 01:17:14,000
اوه ثواب آنجاست که می روی، پس پاداش یکی است
2484
01:17:14,000 –> 01:17:14,880
برای هر قدم
2485
01:17:14,880 –> 01:17:17,120
انجام شده از جمله مراحل خاتمه تا
2486
01:17:17,120 –> 01:17:19,280
این اساسا به این معنی است
2487
01:17:19,280 –> 01:17:21,040
ما سوراخ چهار را به پایین رها نکرده ایم
2488
01:17:21,040 –> 01:17:22,560
به طور کامل به این معنی است که ما یک
2489
01:17:22,560 –> 01:17:23,760
پاداش یکی
2490
01:17:23,760 –> 01:17:25,760
اگر از آستانه خاصی عبور کنید و
2491
01:17:25,760 –> 01:17:27,360
قطب شروع به سقوط می کند و شما نمی کنید
2492
01:17:27,360 –> 01:17:28,560
دریافت آن پاداش
2493
01:17:28,560 –> 01:17:31,040
بنابراین اساسا با نگه داشتن قطب ما در
2494
01:17:31,040 –> 01:17:32,719
حالت عمودی و عدم زمین خوردن
2495
01:17:32,719 –> 01:17:33,280
گرفتن
2496
01:17:33,280 –> 01:17:35,280
انباشته کردن ارزش هر یک
2497
01:17:35,280 –> 01:17:37,440
زمان که چگونه ما این مقدار را دریافت کرده ایم
2498
01:17:37,440 –> 01:17:39,199
از 200 اینجا
2499
01:17:39,199 –> 01:17:41,600
به طوری که به طور خلاصه به شما نشان می دهد
2500
01:17:41,600 –> 01:17:42,480
نظریه
2501
01:17:42,480 –> 01:17:44,159
تمام راه را از طریق عملی بنابراین
2502
01:17:44,159 –> 01:17:46,000
این پنج مرحله در حال گرفتن یا چه چیزی است
2503
01:17:46,000 –> 01:17:47,600
ما در مرحله ششم چه هستیم
2504
01:17:47,600 –> 01:17:49,199
این شش مرحله به نوعی به شما نشان می دهد که چگونه این کار را انجام دهید
2505
01:17:49,199 –> 01:17:50,960
تعریف یک محیط چگونه آموزش a
2506
01:17:50,960 –> 01:17:52,880
نحوه ارزیابی و نحوه ارزیابی آن را مدل کنید
2507
01:17:52,880 –> 01:17:54,560
تا آن را نیز آزمایش کنیم، بنابراین ما انجام دادیم
2508
01:17:54,560 –> 01:17:57,840
اکنون کمی وجود دارد
2509
01:17:57,840 –> 01:17:59,280
در حالی که شما در حال تمرین هستید پس این واضح است
2510
01:17:59,280 –> 01:18:00,880
واقعا خیلی سریع آموزش دیده درست است
2511
01:18:00,880 –> 01:18:03,120
ما می توانیم آن را بچرخانیم و آن را واقعاً آموزش دهیم
2512
01:18:03,120 –> 01:18:04,960
سریع و راه اندازی کنید
2513
01:18:04,960 –> 01:18:07,440
حالا اگر شما در حال تمرین یک راه بزرگتر و
2514
01:18:07,440 –> 01:18:09,280
محیط بسیار پیچیده تر
2515
01:18:09,280 –> 01:18:10,800
شما ممکن است بخواهید انجام دهید این است که مشاهده کنید
2516
01:18:10,800 –> 01:18:12,800
سیاهههای مربوط به آموزش در داخل تانسوربرد
2517
01:18:12,800 –> 01:18:14,800
بنابراین آنچه که ما واقعاً می توانیم انجام دهیم این است که دقیقاً انجام دهیم
2518
01:18:14,800 –> 01:18:16,239
که اکنون می خواهم آن را از آن شروع کنم
2519
01:18:16,239 –> 01:18:18,239
درون نوت بوک های مشتری اما
2520
01:18:18,239 –> 01:18:20,239
در حالت ایده آل شما می خواهید این را اجرا کنید
2521
01:18:20,239 –> 01:18:21,600
یک خط فرمان به طوری که شما نیستید
2522
01:18:21,600 –> 01:18:23,360
نوت بوک خود را قفل کنید زیرا
2523
01:18:23,360 –> 01:18:24,640
وقتی این را اجرا کردید اجرا می شود
2524
01:18:24,640 –> 01:18:26,239
به طور مداوم قفل آن باز نمی شود
2525
01:18:26,239 –> 01:18:27,199
دفترچه یادداشت شما نیستید
2526
01:18:27,199 –> 01:18:28,719
قادر به اجرای هر چیز دیگری هستم، بنابراین من مرتب می کنم
2527
01:18:28,719 –> 01:18:29,840
به شما نشان می دهد که چگونه این کار را انجام دهید و سپس
2528
01:18:29,840 –> 01:18:31,120
به بعد ادامه خواهیم داد
2529
01:18:31,120 –> 01:18:33,199
بنابراین اولین چیزی که باید انجام دهیم این است که نیاز داریم
2530
01:18:33,199 –> 01:18:34,159
برای بدست آوردن
2531
01:18:34,159 –> 01:18:36,159
دایرکتوری ورود به سیستم که می خواهیم آن را مشاهده کنیم تا اگر
2532
01:18:36,159 –> 01:18:38,480
برمی گردیم به
2533
01:18:38,480 –> 01:18:41,760
پوشه های ما، بنابراین اگر من وارد آن شوم، این است
2534
01:18:41,760 –> 01:18:44,159
پوشه ریشه ما، بنابراین اگر من به آموزش بروید
2535
01:18:44,159 –> 01:18:46,239
سیاهههای مربوط می توانید ببینید که ما سه
2536
01:18:46,239 –> 01:18:47,600
مجموعه های آموزشی مختلف
2537
01:18:47,600 –> 01:18:49,199
حالا به یاد داشته باشید که تمریناتمان را شروع کردیم
2538
01:18:49,199 –> 01:18:50,480
سه بار پس این جایی است که ما داریم
2539
01:18:50,480 –> 01:18:52,080
سه مجموعه مختلف از سیاهههای مربوط
2540
01:18:52,080 –> 01:18:55,840
بنابراین یکی از ما بود من معتقدم
2541
01:18:55,840 –> 01:18:59,199
آیا همه آنها یکسان بودند نه نفر دوم ما
2542
01:18:59,199 –> 01:19:00,560
اولی و دومی ما بودند
2543
01:19:00,560 –> 01:19:02,480
طولانی ترین مورد سوم ما فقط همین بود
2544
01:19:02,480 –> 01:19:04,159
1000 مرحله آموزش پس اجازه دهید در واقع
2545
01:19:04,159 –> 01:19:06,159
به ppo2 نگاهی بیندازید
2546
01:19:06,159 –> 01:19:07,760
بنابراین کاری که می خواهیم انجام دهیم این است که می رویم
2547
01:19:07,760 –> 01:19:09,760
برای رفتن به آن پوشه و ما می رویم
2548
01:19:09,760 –> 01:19:11,520
برای تعیین تانسوربرد برای اجرا از آن
2549
01:19:11,520 –> 01:19:13,199
پوشه بنابراین ابتدا آنچه باید انجام دهیم این است
2550
01:19:13,199 –> 01:19:14,239
به آن مسیر بدهید
2551
01:19:14,239 –> 01:19:16,480
به آن پوشه ppo2 پس بیایید مشخص کنیم
2552
01:19:16,480 –> 01:19:22,960
که برای اولین بار
2553
01:19:22,960 –> 01:19:25,120
خوب پس ما رفتیم و خودمان را مشخص کردیم
2554
01:19:25,120 –> 01:19:26,800
بخش لاگ آموزش پس اگر بریم و بگیریم
2555
01:19:26,800 –> 01:19:29,280
به آن نگاه کن
2556
01:19:30,880 –> 01:19:33,040
بنابراین می توانید ببینید که این مسیری را به ما می دهد
2557
01:19:33,040 –> 01:19:35,280
به پوشه ppo2 ما بنابراین آموزش
2558
01:19:35,280 –> 01:19:37,199
سیاهههای مربوط و سپس ppo2 پس این است
2559
01:19:37,199 –> 01:19:39,120
به طور موثر
2560
01:19:39,120 –> 01:19:42,960
جایی که ما برای آموزش رفتیم
2561
01:19:42,960 –> 01:19:45,840
و سپس لاگ و سپس ppo2 بنابراین این فایل
2562
01:19:45,840 –> 01:19:47,120
اینجا ماست
2563
01:19:47,120 –> 01:19:49,040
فایل لاگ تنسوربرد که قصد داریم به آن بپردازیم
2564
01:19:49,040 –> 01:19:50,320
بتواند استفاده کند
2565
01:19:50,320 –> 01:19:51,840
اکنون تمام کاری که باید انجام دهیم تا شروع کنیم
2566
01:19:51,840 –> 01:19:54,560
tensorboard از داخل آن پوشه
2567
01:19:54,560 –> 01:19:56,400
و شما به تعداد زیادی تانسوربرد نیاز خواهید داشت
2568
01:19:56,400 –> 01:19:57,920
نصب شده است بنابراین من معتقدم که فقط یک پیپ است
2569
01:19:57,920 –> 01:20:00,640
تنسوربرد را نصب کنید تا بروید و این کار را انجام دهید
2570
01:20:00,640 –> 01:20:03,760
برای رفتن و اجرای این فقط باید اجرا کنیم
2571
01:20:03,760 –> 01:20:06,880
علامت تعجب تنسوربرد خط تیره
2572
01:20:06,880 –> 01:20:07,600
وارد شوید عزیز
2573
01:20:07,600 –> 01:20:10,159
و سپس باید آموزش خود را مشخص کنیم
2574
01:20:10,159 –> 01:20:12,719
مسیر ورود به سیستم
2575
01:20:13,360 –> 01:20:14,800
بله درست به نظر می رسد که اینطور نوشته شده است
2576
01:20:14,800 –> 01:20:16,880
علامت تعجب تانسوربرد
2577
01:20:16,880 –> 01:20:19,840
خط تیره لاگ عزیز برابر و بعد
2578
01:20:19,840 –> 01:20:21,280
داخل براکت های خمیده
2579
01:20:21,280 –> 01:20:23,199
آموزش مسیر ورود به سیستم زیر خط ما
2580
01:20:23,199 –> 01:20:25,600
اشتباه نوشته
2581
01:20:25,600 –> 01:20:28,719
بنابراین اجازه دهید به سرعت توضیح دهم که این خط چیست
2582
01:20:28,719 –> 01:20:30,159
این کار را انجام می دهد، فکر می کنم برخی از آنها را داشته ام
2583
01:20:30,159 –> 01:20:32,719
نظرات در این مورد قبل از آن
2584
01:20:32,719 –> 01:20:34,639
با استفاده از علامت تعجب در داخل a
2585
01:20:34,639 –> 01:20:36,719
نوت بوک مشتری با استفاده از a شناخته می شود
2586
01:20:36,719 –> 01:20:38,239
فرمان جادویی
2587
01:20:38,239 –> 01:20:40,400
بنابراین این به شما امکان می دهد خط فرمان را اجرا کنید
2588
01:20:40,400 –> 01:20:42,800
دستورات از داخل نوت بوک شما پس توسط
2589
01:20:42,800 –> 01:20:44,800
من با گذاشتن علامت تعجب این
2590
01:20:44,800 –> 01:20:46,320
شبیه رفتن من است
2591
01:20:46,320 –> 01:20:48,239
به یک خط فرمان یا به ترمینال و
2592
01:20:48,239 –> 01:20:49,760
نوشتن سیاهه خط تیره تخته تنسور
2593
01:20:49,760 –> 01:20:52,080
بلاههههههههههههههه
2594
01:20:52,080 –> 01:20:53,280
مورد خاص چیزی است که من در واقع
2595
01:20:53,280 –> 01:20:54,000
نوشته شده است
2596
01:20:54,000 –> 01:20:56,159
علامت تعجب تنسوربرد خط تیره
2597
01:20:56,159 –> 01:20:57,280
ثبت نام کرده اید اجازه دهید من در واقع به شما نشان دهم که این است
2598
01:20:57,280 –> 01:20:59,280
احتمالا منطقی تر خواهد بود
2599
01:20:59,280 –> 01:21:02,400
بنابراین اگر من رفتم درایو سی دی یوتیوب
2600
01:21:02,400 –> 01:21:05,600
یادگیری تقویتی سی دی اوه
2601
01:21:05,600 –> 01:21:09,199
اجازه دهید در واقع به اجازه دهید در واقع
2602
01:21:09,199 –> 01:21:12,239
دقیقا همین مورد را مشخص کنید
2603
01:21:12,239 –> 01:21:14,080
پس نوشته شده آموزش ورود ورود که
2604
01:21:14,080 –> 01:21:15,280
رفتن به گزارش های آموزشی
2605
01:21:15,280 –> 01:21:17,920
خوب پس این شبیه به من است که این کار را انجام دهم
2606
01:21:17,920 –> 01:21:20,080
تانسوربرد
2607
01:21:20,080 –> 01:21:24,719
dash dash log عزیز همسان
2608
01:21:24,719 –> 01:21:30,159
آموزش اسلش لاگ slash ppo2
2609
01:21:32,080 –> 01:21:33,840
بنابراین درست است شما می توانید به نوعی ببینید که چگونه این است
2610
01:21:33,840 –> 01:21:35,280
در واقع در حال اجرا در داخل
2611
01:21:35,280 –> 01:21:36,960
از یک خط فرمان و در نهایت شما
2612
01:21:36,960 –> 01:21:39,280
باید خطی دریافت کند که بگوید در حال اجرا است
2613
01:21:39,280 –> 01:21:42,639
در http localhost 6006
2614
01:21:42,639 –> 01:21:44,560
این خط در اینجا که من نوشته ام
2615
01:21:44,560 –> 01:21:47,600
داخل یک خط فرمان دقیقاً وجود دارد
2616
01:21:47,600 –> 01:21:48,320
همان
2617
01:21:48,320 –> 01:21:51,920
به عنوان چیزی که ما در اینجا می دویم
2618
01:21:51,920 –> 01:21:54,159
بنابراین کاری که می توانم انجام دهم این است که می توانم به اینجا بروم
2619
01:21:54,159 –> 01:21:55,840
پیوندی در اینجا که توسط ایجاد می شود
2620
01:21:55,840 –> 01:21:58,080
تانسوربرد
2621
01:21:58,080 –> 01:22:00,639
و شما تمام آموزش های خود را دریافت خواهید کرد و
2622
01:22:00,639 –> 01:22:02,080
به نظر نمی رسد که ما هیچ آموزشی داشته باشیم
2623
01:22:02,080 –> 01:22:04,719
متریک چه اتفاقی در آنجا افتاده است
2624
01:22:04,719 –> 01:22:06,400
خوب بیایید مستقیماً وارد آن شویم
2625
01:22:06,400 –> 01:22:08,560
پوشه
2626
01:22:08,560 –> 01:22:12,159
بنابراین ما به تمرین می رویم
2627
01:22:15,520 –> 01:22:18,960
سپس به ppo2 می رویم
2628
01:22:18,960 –> 01:22:22,320
و سپس ما tensorboard را اجرا می کنیم
2629
01:22:23,679 –> 01:22:28,080
خط تیره لاگ عزیز برابر است با نقطه
2630
01:22:28,880 –> 01:22:30,400
این بار جذابیت بیایید ببینیم که آیا این
2631
01:22:30,400 –> 01:22:32,159
درست کار می کند، بنابراین باید در حال اجرا باشد
2632
01:22:32,159 –> 01:22:33,440
http
2633
01:22:33,440 –> 01:22:35,920
خط تیره یا کولون داش داش میزبان محلی و
2634
01:22:35,920 –> 01:22:36,800
سپس شش
2635
01:22:36,800 –> 01:22:38,960
و سپس شش هزار و شش بیایید
2636
01:22:38,960 –> 01:22:41,280
اکنون تازه کردن
2637
01:22:41,280 –> 01:22:45,120
خیلی خوب بهتر است پس کاری که ما رفتیم و انجام دادیم
2638
01:22:45,120 –> 01:22:45,760
آیا من رفتم
2639
01:22:45,760 –> 01:22:47,600
و فقط در پوشه ای که هستم قرار داده شد
2640
01:22:47,600 –> 01:22:49,199
حدس میزنم دارم اینو میگیرم
2641
01:22:49,199 –> 01:22:51,280
مسیری که مشخص کردم اشتباه بود اما
2642
01:22:51,280 –> 01:22:52,560
خوب است شما می توانید ببینید که چگونه
2643
01:22:52,560 –> 01:22:54,159
آن را اجرا کنید
2644
01:22:54,159 –> 01:22:56,159
بسیار خوب پس از اینجا می روید
2645
01:22:56,159 –> 01:22:58,159
انبوهی از معیارهای مختلف را دریافت کنید
2646
01:22:58,159 –> 01:22:59,360
در حال حاضر به طور خاص شما می خواهید دریافت کنید
2647
01:22:59,360 –> 01:23:01,280
معیارهای قطار بنابراین این نوع به شما نشان می دهد
2648
01:23:01,280 –> 01:23:03,440
فریم در ثانیه
2649
01:23:03,440 –> 01:23:04,639
و همچنین تعدادی از آنها را دریافت خواهید کرد
2650
01:23:04,639 –> 01:23:0