در این مطلب، ویدئو با یادگیری عمیق و پایتون یک مدل سمیت نظر بسازید با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:12:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:01,920
وب میتواند یک مکان بسیار واضح باشد،
2
00:00:01,920 –> 00:00:04,720
گاهی اوقات نظرات میتوانند به
3
00:00:04,720 –> 00:00:06,879
خوبی سمی شوند در این ویدیو،
4
00:00:06,879 –> 00:00:08,480
ما میخواهیم به نحوه
5
00:00:08,480 –> 00:00:10,480
تشخیص آنها با استفاده از یادگیری عمیق نگاهی بیندازیم. اجازه دهید
6
00:00:10,480 –> 00:00:12,360
آن را انجام دهیم
7
00:00:12,360 –> 00:00:15,430
[Music]
8
00:00:30,230 –> 00:00:33,550
[Music]
9
00:00:38,640 –> 00:00:39,760
10
00:00:39,760 –> 00:00:41,520
نیکلاس فرونوت و در این ویدیو ما
11
00:00:41,520 –> 00:00:43,520
قصد داریم به
12
00:00:43,520 –> 00:00:46,079
سمیت رایج نگاهی بیندازیم تا بتوانیم
13
00:00:46,079 –> 00:00:48,640
جملاتی از زبان طبیعی را
14
00:00:48,640 –> 00:00:50,640
از طریق یک مدل یادگیری عمیق عبور دهیم و
15
00:00:50,640 –> 00:00:52,559
عناصر مختلف سمیت را
16
00:00:52,559 –> 00:00:55,199
در آنها تشخیص دهیم. مواردی مانند
17
00:00:55,199 –> 00:00:58,480
سمیت شدید سمیت اساسی اگر
18
00:00:58,480 –> 00:01:00,719
چیزی به عنوان سمیت اساسی
19
00:01:00,719 –> 00:01:02,079
وجود داشته باشد، چه تهدیدهایی در
20
00:01:02,079 –> 00:01:04,159
آن جملات و غیره وجود داشته باشد یا نه، ما میتوانیم
21
00:01:04,159 –> 00:01:05,920
این موضوع را با جزئیات بیشتری ببینیم زیرا
22
00:01:05,920 –> 00:01:08,240
اکنون به دادههای خود در این نگاه میکنیم.
23
00:01:08,240 –> 00:01:09,600
آموزش ما یک
24
00:01:09,600 –> 00:01:11,360
سری چیزها را پوشش می دهیم، اما به طور خاص
25
00:01:11,360 –> 00:01:13,200
ابتدا روی بارگذاری داده هایمان تمرکز می
26
00:01:13,200 –> 00:01:14,960
کنیم، سپس نگاهی
27
00:01:14,960 –> 00:01:16,640
به کارهایی که باید برای پیش پردازش
28
00:01:16,640 –> 00:01:18,320
آن اطلاعات انجام دهیم بیاندازیم. بنابراین ما به طور خاص
29
00:01:18,320 –> 00:01:20,960
یک را می گیریم به توکن سازی نگاه کنید، ما همچنین
30
00:01:20,960 –> 00:01:22,640
شبکه عصبی عمیق خود را از
31
00:01:22,640 –> 00:01:24,000
ابتدا ایجاد خواهیم کرد، بنابراین این شامل یک
32
00:01:24,000 –> 00:01:25,520
لایه جاسازی برای مقابله با
33
00:01:25,520 –> 00:01:27,680
زبان طبیعی است، سپس آن را آزمایش می کنیم تا
34
00:01:27,680 –> 00:01:28,880
ببینیم که آیا واقعاً می
35
00:01:28,880 –> 00:01:31,119
تواند سمیت را تشخیص دهد یا خیر. همچنین
36
00:01:31,119 –> 00:01:32,720
در پایان یک گرادیان ایجاد میکنیم تا بتوانیم
37
00:01:32,720 –> 00:01:34,799
مدل آماده انجام آن را آزمایش کنیم، بیایید
38
00:01:34,799 –> 00:01:37,280
به آن
39
00:01:38,720 –> 00:01:41,200
برسیم، نیک ما اخیراً در کانال
40
00:01:41,200 –> 00:01:42,799
شل ما با قلدرها مشکل داشتیم.
41
00:01:42,799 –> 00:01:44,399
42
00:01:44,399 –> 00:01:48,960
آن صفحه کلید دوباره نه نه نه
43
00:01:49,119 –> 00:01:51,040
من سوگند می خورم آیا کاری وجود دارد که می توانید
44
00:01:51,040 –> 00:01:53,520
با ml انجام دهید تا آن را شناسایی کنید و شاید آن را متوقف کنید
45
00:01:53,520 –> 00:01:55,680
مطمئن باشید که می توانیم از یادگیری عمیق برای تشخیص
46
00:01:55,680 –> 00:01:57,439
سمیت استفاده کنیم خوب آنچه برای
47
00:01:57,439 –> 00:01:59,680
شروع ایده آل نیاز دارید برخی از نظرات مبتنی بر متن
48
00:01:59,680 –> 00:02:01,360
و آنها برچسبهای مرتبط
49
00:02:01,360 –> 00:02:02,719
در مورد سمی بودن یا نبودن آنها، ما در
50
00:02:02,719 –> 00:02:04,240
واقع این را به عنوان یک مشکل یادگیری تحت نظارت مدلسازی میکنیم.
51
00:02:04,240 –> 00:02:06,320
چگونه از
52
00:02:06,320 –> 00:02:07,680
آنها برای یادگیری عمیق استفاده میکنید، بیایید
53
00:02:07,680 –> 00:02:09,520
به تخته سفید برویم تا بچههای خوب
54
00:02:09,520 –> 00:02:11,760
به تخته شکست خوش آمدید،
55
00:02:11,760 –> 00:02:13,920
پس چگونه دقیقا همینطوره ما قصد داریم
56
00:02:13,920 –> 00:02:16,400
این مدل سمیت نظر را به خوبی
57
00:02:16,400 –> 00:02:17,680
بسازیم،
58
00:02:17,680 –> 00:02:20,879
ابتدا با مجموعه دادههای خود در قالب csv
59
00:02:20,879 –> 00:02:23,280
60
00:02:23,280 –> 00:02:25,440
شروع میکنیم که در اینجا تکمیل میشود و این
61
00:02:25,440 –> 00:02:28,000
مجموعه دادهها در واقع از
62
00:02:28,000 –> 00:02:30,080
چالش سمیت نظرات Kaggle میآیند. که من
63
00:02:30,080 –> 00:02:32,319
فکر می کنم توسط شرکتی به نام Jigsaw میزبانی می شود،
64
00:02:32,319 –> 00:02:34,319
بنابراین ما در واقع این مجموعه داده
65
00:02:34,319 –> 00:02:36,800
را داریم که می توانیم اکنون
66
00:02:36,800 –> 00:02:38,879
از نظر این ورودی یا آنچه در واقع به
67
00:02:38,879 –> 00:02:40,959
نظر می رسد ما در واقع
68
00:02:40,959 –> 00:02:44,480
یک سری نظرات داشته باشیم
69
00:02:44,720 –> 00:02:46,879
و اینها هستند. واقعاً فقط رشته ای خواهد بود،
70
00:02:46,879 –> 00:02:49,440
بنابراین ممکن است نظراتی مانند
71
00:02:49,440 –> 00:02:51,440
من از شما
72
00:02:51,440 –> 00:02:53,599
متنفرم، دوستت دارم
73
00:02:53,599 –> 00:02:56,400
و اوه،
74
00:02:56,400 –> 00:02:59,280
75
00:03:00,319 –> 00:03:02,080
از نظر برچسب هایی که در
76
00:03:02,080 –> 00:03:03,680
واقع
77
00:03:03,680 –> 00:03:05,920
به هر یک از اینها چسبانده شده است، می آیم برای شما. جملاتی که اینها
78
00:03:05,920 –> 00:03:08,080
چند خروجی خواهند داشت، بنابراین ممکن است
79
00:03:08,080 –> 00:03:10,319
درجه بندی های مختلفی از سمیت داشته باشیم،
80
00:03:10,319 –> 00:03:12,400
ممکن است این نظر را داشته باشیم که آیا نظر
81
00:03:12,400 –> 00:03:14,000
نسبتاً سمی است یا نه،
82
00:03:14,000 –> 00:03:16,239
خواه به شدت سمی باشد یا نه،
83
00:03:16,239 –> 00:03:18,239
خواه تهدید باشد یا نباشد یا نژادپرستانه باشد یا نه، بنابراین
84
00:03:18,239 –> 00:03:19,840
ما آ در واقع
85
00:03:19,840 –> 00:03:21,680
نتایج متفاوتی خواهیم داشت که اکنون می توانیم یک نظر خاص را درجه بندی کنیم،
86
00:03:21,680 –> 00:03:23,760
این واقعاً
87
00:03:23,760 –> 00:03:25,360
بسیار مفید است زیرا به
88
00:03:25,360 –> 00:03:27,760
شما امکان می دهد ارزیابی کنید که یک نظر خاص چقدر رایج یا چقدر سمی
89
00:03:27,760 –> 00:03:29,440
است و کدام
90
00:03:29,440 –> 00:03:31,599
جزء آن واقعاً سمی است، بنابراین
91
00:03:31,599 –> 00:03:33,159
برچسب های ما واقعاً به این نتیجه می رسند.
92
00:03:33,159 –> 00:03:35,200
چند باینری باشد بنابراین
93
00:03:35,200 –> 00:03:37,760
اولین نظر ما ممکن است um باشد،
94
00:03:37,760 –> 00:03:39,920
یعنی فرض کنید در این مورد خاص
95
00:03:39,920 –> 00:03:41,760
نسبتاً سمی است، بنابراین ممکن است یک مورد
96
00:03:41,760 –> 00:03:42,560
در اینجا
97
00:03:42,560 –> 00:03:44,640
داشته باشیم که به شدت سمی نیست، بنابراین ممکن
98
00:03:44,640 –> 00:03:47,280
است صفر داشته باشیم، تهدیدی نیست، بنابراین دوباره
99
00:03:47,280 –> 00:03:49,360
ممکن است یک مورد داشته باشیم. صفر و این مقدار
100
00:03:49,360 –> 00:03:51,920
کمی بزرگ شده است و همچنین ممکن است در
101
00:03:51,920 –> 00:03:53,120
مورد خاص ما
102
00:03:53,120 –> 00:03:55,680
نژادپرستانه نباشد، بنابراین ممکن است در آنجا صفر داشته باشیم،
103
00:03:55,680 –> 00:03:57,840
بنابراین این در واقع به ما اجازه می دهد تا ارزیابی
104
00:03:57,840 –> 00:03:59,920
کنیم که یک نظر خاص چقدر یا چقدر سمی
105
00:03:59,920 –> 00:04:02,159
است من تو را دوست دارم مورد خاص ما
106
00:04:02,159 –> 00:04:04,080
بسیار خوب است، بنابراین ممکن است
107
00:04:04,080 –> 00:04:06,159
صفرها را در سراسر صفحه داشته
108
00:04:06,159 –> 00:04:08,319
باشیم، اکنون آخرین نظر ما در
109
00:04:08,319 –> 00:04:10,319
مورد خاص ما می توانیم آن را ارزیابی کنیم و بگوییم که
110
00:04:10,319 –> 00:04:12,159
هی، بیایید بگوییم که
111
00:04:12,159 –> 00:04:14,560
نسبتاً سمی نیست، بنابراین ما خواهیم داشت.
112
00:04:14,560 –> 00:04:17,199
صفر بسیار سمی است بنابراین ممکن است یک داشته
113
00:04:17,199 –> 00:04:19,358
باشیم که حاوی یک تهدید است زیرا می گوید
114
00:04:19,358 –> 00:04:20,880
من برای شما می آیم پس ممکن
115
00:04:20,880 –> 00:04:23,280
است یک عدد داشته باشد و آخرین مقدار صفر است
116
00:04:23,280 –> 00:04:25,360
زیرا نژادپرستی در آنجا وجود ندارد
117
00:04:25,360 –> 00:04:26,479
بنابراین می توانید ببینید که
118
00:04:26,479 –> 00:04:27,360
ما نظراتی خواهیم داشت و
119
00:04:27,360 –> 00:04:29,840
برچسبهای نتیجه دودویی مرتبطی خواهیم داشت که
120
00:04:29,840 –> 00:04:31,440
به آنها متصل میشوند، اما شما احتمالاً به این
121
00:04:31,440 –> 00:04:33,280
فکر میکنید که چگونه میتوانیم واقعاً از
122
00:04:33,280 –> 00:04:36,720
این برای یک مشکل یادگیری عمیق استفاده کنیم و
123
00:04:36,720 –> 00:04:38,479
در واقع یک مورد را اعمال خواهیم کرد.
124
00:04:38,479 –> 00:04:41,120
مرحله پیش پردازش به نام توکنسازی،
125
00:04:41,120 –> 00:04:42,160
بنابراین اولین کاری که
126
00:04:42,160 –> 00:04:44,080
میخواهیم انجام دهیم این است که خروجیها
127
00:04:44,080 –> 00:04:45,759
یا ورودیهای خود را در واقع میگیریم و میخواهیم
128
00:04:45,759 –> 00:04:48,080
آنها را به توکن تبدیل کنیم.
129
00:04:48,080 –> 00:04:50,720
130
00:04:50,720 –> 00:04:52,000
ما
131
00:04:52,000 –> 00:04:53,440
همه این کلمات را در یک
132
00:04:53,440 –> 00:04:54,800
جمله خاص در نظر می گیریم و
133
00:04:54,800 –> 00:04:57,600
آنها را به دنباله ای از اعداد صحیح تبدیل می کنیم
134
00:04:57,600 –> 00:04:59,680
تا کلمه i برای مثال
135
00:04:59,680 –> 00:05:02,479
به عنوان عدد 42 نمایش داده شود. کلمه
136
00:05:02,479 –> 00:05:04,800
نفرت ممکن است به عنوان نشان داده شود. شماره
137
00:05:04,800 –> 00:05:05,759
138
00:05:05,759 –> 00:05:07,759
هشت کلمه تو ممکن است به عنوان
139
00:05:07,759 –> 00:05:10,479
عدد 56 نمایش داده شود اما نکته خوب در مورد این این
140
00:05:10,479 –> 00:05:12,160
است که شما نیازی به کدگذاری
141
00:05:12,160 –> 00:05:14,400
آنها ندارید یا خودتان آنها را به صورت دستی رمزگذاری کنید،
142
00:05:14,400 –> 00:05:16,720
ما در واقع یک لایه یا یک
143
00:05:16,720 –> 00:05:18,560
تابع کمکی در داخل keras داریم به نام
144
00:05:18,560 –> 00:05:21,120
تابع بردار متن و این در واقع
145
00:05:21,120 –> 00:05:23,280
این توکن سازی را برای ما به طور خودکار انجام می دهد
146
00:05:23,280 –> 00:05:24,800
و همچنین برخی
147
00:05:24,800 –> 00:05:27,919
از مراحل پیش پردازش اضافی را برای ما انجام می دهد، اما
148
00:05:27,919 –> 00:05:29,680
به خودی خود این اعداد
149
00:05:29,680 –> 00:05:31,520
واقعاً ارزش زیادی به مدل یادگیری عمیق ما اضافه نمی
150
00:05:31,520 –> 00:05:33,600
کنند، بنابراین آنچه که در واقع می توانیم
151
00:05:33,600 –> 00:05:35,360
انجام دهیم این است که آن را یک قدم جلوتر ببریم. و
152
00:05:35,360 –> 00:05:38,080
اینها را به یک جاسازی تبدیل کنید، حالا
153
00:05:38,080 –> 00:05:40,160
فکر کنید که بهترین دوست شما چقدر میتواند
154
00:05:40,160 –> 00:05:42,400
شما را بشناسد، آنها میدانند که دوست دارید
155
00:05:42,400 –> 00:05:44,240
چه بخورید چه چیزی را دوست دارید تماشا
156
00:05:44,240 –> 00:05:46,320
کنید، چه ویژگیهای خاصی در شخصیت خود داشته باشید یا نه، مثلاً
157
00:05:46,320 –> 00:05:48,160
رنگ موهایتان، رنگ
158
00:05:48,160 –> 00:05:50,639
پوست، رنگ چشمهایتان.
159
00:05:50,639 –> 00:05:52,240
آنها همه این
160
00:05:52,240 –> 00:05:54,720
ویژگی های خاص را در مورد شما به خوبی می دانند، این
161
00:05:54,720 –> 00:05:57,039
شبیه به نحوه عملکرد یک جاسازی است.
162
00:05:57,039 –> 00:05:59,280
163
00:05:59,280 –> 00:06:01,199
164
00:06:01,199 –> 00:06:03,680
مقادیر صحیح یا شناور،
165
00:06:03,680 –> 00:06:07,360
بنابراین ممکن است در اینجا یک جاسازی داشته باشیم
166
00:06:07,360 –> 00:06:09,840
و این واقعاً فقط یک بردار دیگر است،
167
00:06:09,840 –> 00:06:13,280
بنابراین بردار ما برای عدد 42
168
00:06:13,280 –> 00:06:16,440
که نشان دهنده کلمه i ممکن است
169
00:06:16,440 –> 00:06:18,160
0.1 باشد
170
00:06:18,160 –> 00:06:19,919
، مقدار اول ممکن است 0.1 باشد، مقدار دوم
171
00:06:19,919 –> 00:06:23,440
ممکن است 0.2 باشد، مقدار سوم 0.7
172
00:06:23,440 –> 00:06:26,160
و آخرین 0.0 بنابراین این اعداد
173
00:06:26,160 –> 00:06:27,919
در واقع نشان دهنده ویژگی های خاصی
174
00:06:27,919 –> 00:06:29,759
در مورد آن کلمه هستند، اکنون دیگر
175
00:06:29,759 –> 00:06:31,360
نیازی به دانستن این ویژگی ها ندارید
176
00:06:31,360 –> 00:06:33,199
زیرا شبکه عصبی عمیق ما قرار
177
00:06:33,199 –> 00:06:35,199
است یاد بگیرد که این
178
00:06:35,199 –> 00:06:36,720
ویژگی های خاص و این
179
00:06:36,720 –> 00:06:38,960
مقادیر خاص در داخل تعبیه چه چیزی باید باشد. به
180
00:06:38,960 –> 00:06:41,039
همین ترتیب، ما یکی برای شماره هشت خود خواهیم داشت
181
00:06:41,039 –> 00:06:43,280
که نمایانگر کلمه
182
00:06:43,280 –> 00:06:48,080
نفرت است، بنابراین ممکن است 0.8 0.7 باشد، بنابراین
183
00:06:48,080 –> 00:06:49,919
فرض کنید این دو ویژگی اصلی در داخل
184
00:06:49,919 –> 00:06:52,479
تعبیه ما نشان دهنده میزان ذهنی
185
00:06:52,479 –> 00:06:54,880
بودن یا تهاجمی بودن آنها است و
186
00:06:54,880 –> 00:06:56,880
آخرین مورد ممکن است 0.2 باشد و دوباره من فقط
187
00:06:56,880 –> 00:06:58,479
اعداد تصادفی را در اینجا وصل می کنم تا به
188
00:06:58,479 –> 00:07:00,479
شما ایده بدهم که این چگونه به نظر می رسد
189
00:07:00,479 –> 00:07:02,400
و آخرین موردی که شما دارید،
190
00:07:02,400 –> 00:07:03,840
بنابراین بیایید بگوییم که بسیار ذهنی است
191
00:07:03,840 –> 00:07:06,160
. ممکن است 0.8 باشد، آن 0.1 نفرت انگیز نیست
192
00:07:06,160 –> 00:07:08,880
و دوباره چه کسی می داند که
193
00:07:08,880 –> 00:07:11,120
دو ویژگی آخر نشان دهنده چیست، اما جاسازی ما
194
00:07:11,120 –> 00:07:13,440
آنها را یاد می گیرد، بنابراین اکنون ما قول خود را
195
00:07:13,440 –> 00:07:15,520
گرفته ایم که آن را نشانه گذاری کرده ایم و همچنین
196
00:07:15,520 –> 00:07:17,599
آن را به یک جاسازی تبدیل کرده ایم.
197
00:07:17,599 –> 00:07:19,360
جایی که ما میتوانیم آن را به یک شبکه عصبی عمیق منتقل کنیم،
198
00:07:19,360 –> 00:07:21,520
اکنون یک شبکه عصبی عمیق
199
00:07:21,520 –> 00:07:22,960
در این مورد خاص
200
00:07:22,960 –> 00:07:25,280
از تعدادی لایه lstm استفاده میکند و
201
00:07:25,280 –> 00:07:27,120
دلیل اینکه ما این لایهها را انتخاب کردهایم این است
202
00:07:27,120 –> 00:07:29,280
که وقتی صحبت از
203
00:07:29,280 –> 00:07:31,199
آن به میان میآید بسیار خوب هستند. کار با دنبالههایی
204
00:07:31,199 –> 00:07:33,039
که دقیقاً همان چیزی است که دنباله
205
00:07:33,039 –> 00:07:34,639
جاسازیهای ما نشان میدهد،
206
00:07:34,639 –> 00:07:37,360
اکنون خروجی نهایی شبکه عصبی عمیق
207
00:07:37,360 –> 00:07:39,199
ما مجموعهای از نتایج دودویی چندگانه خواهد بود،
208
00:07:39,199 –> 00:07:40,560
بنابراین ما در واقع
209
00:07:40,560 –> 00:07:42,800
210
00:07:42,800 –> 00:07:45,120
در مورد خاص خود تعدادی چند یک یا صفر خواهیم داشت.
211
00:07:45,120 –> 00:07:49,039
برگردیم به برچسب هایی که اینجا
212
00:07:49,039 –> 00:07:50,240
داشتیم، وقتی رفتیم و آموزش
213
00:07:50,240 –> 00:07:51,599
آن برچسب را تمام کردیم، در واقع آن را
214
00:07:51,599 –> 00:07:54,599
سریالی می کنیم، بنابراین آن را به
215
00:07:54,599 –> 00:07:57,199
فرمت h5 تبدیل می کنیم و اگر سریال مبتدی من را در دیپ l ندیده اید.
216
00:07:57,199 –> 00:07:58,879
کسب درامد را به
217
00:07:58,879 –> 00:08:00,240
هر طریقی انجام دهید و مراقب باشید، زیرا من
218
00:08:00,240 –> 00:08:02,160
بسیاری از این موارد را با جزئیات بسیار بیشتر توضیح می دهم،
219
00:08:02,160 –> 00:08:05,039
اما فرمت h5 ما به ما اجازه می دهد تا
220
00:08:05,039 –> 00:08:07,840
شبکه عصبی عمیق آموزش دیده
221
00:08:07,840 –> 00:08:09,840
خود را در دیسک یا هارد دیسک خود در مورد خاص خود ذخیره
222
00:08:09,840 –> 00:08:12,240
کنیم. انجام دهید این است
223
00:08:12,240 –> 00:08:14,160
که ما آن را یک قدم جلوتر
224
00:08:14,160 –> 00:08:16,080
برداریم، ما این مدل h5 را
225
00:08:16,080 –> 00:08:17,680
میگیریم و آن را در یک گرادینت ادغام میکنیم،
226
00:08:17,680 –> 00:08:19,520
بنابراین اگر قبلاً با
227
00:08:19,520 –> 00:08:21,520
gradio کار نکردهاید، این یک روش واقعا سبک است
228
00:08:21,520 –> 00:08:24,080
اما واقعاً قدرتمند است. ایجاد
229
00:08:24,080 –> 00:08:26,080
رابط های کاربری برای مدل های یادگیری عمیق شما،
230
00:08:26,080 –> 00:08:27,520
بنابراین ما در واقع قادر خواهیم بود از
231
00:08:27,520 –> 00:08:29,520
طریق یک نظر به برنامه رادیویی خود منتقل کنیم و
232
00:08:29,520 –> 00:08:31,759
این یک سری خروجی را نشان می دهد
233
00:08:31,759 –> 00:08:33,839
که نشان می دهد نظر ما
234
00:08:33,839 –> 00:08:34,719
235
00:08:34,719 –> 00:08:37,200
غیرسمی یا سمی است یا خیر، بنابراین ما می توانیم در واقع
236
00:08:37,200 –> 00:08:39,919
مدل خود را در زمان واقعی ببینید و آزمایش کنید و
237
00:08:39,919 –> 00:08:41,839
آماده انجام آن هستیم، بیایید شروع کنیم به
238
00:08:41,839 –> 00:08:45,839
کدنویسی خوب بچه ها، بنابراین سمیت را نظر دهید، بنابراین
239
00:08:45,839 –> 00:08:48,880
از نظر گذراندن و مرتب
240
00:08:48,880 –> 00:08:50,080
کردن مشتری خود،
241
00:08:50,080 –> 00:08:51,440
چند کار وجود دارد که ما باید
242
00:08:51,440 –> 00:08:53,440
ابتدا انجام دهیم. نیاز به نصب یک دسته
243
00:08:53,440 –> 00:08:55,680
از وابستگیها و وارد کردن برخی
244
00:08:55,680 –> 00:08:58,000
دادهها، سپس آن را از قبل پردازش میکنیم و
245
00:08:58,000 –> 00:08:59,600
یک مدل یادگیری عمیق
246
00:08:59,600 –> 00:09:02,320
میسازیم که از api متوالی keras استفاده میکند،
247
00:09:02,320 –> 00:09:03,279
سپس یک سری
248
00:09:03,279 –> 00:09:05,760
پیشبینی انجام میدهیم که آن را ارزیابی کنیم و همچنین
249
00:09:05,760 –> 00:09:07,920
آزمایش خواهیم کرد. مدل خود را بیرون بیاورید و آن را در
250
00:09:07,920 –> 00:09:10,480
برنامه گرادیو خود ادغام کنید، اکنون
251
00:09:10,480 –> 00:09:12,399
ابتدا دادهها را بررسی میکنیم، بنابراین
252
00:09:12,399 –> 00:09:14,399
برای انجام این کار، از دادههای
253
00:09:14,399 –> 00:09:16,080
254
00:09:16,080 –> 00:09:17,680
چالش طبقهبندی نظرات سمی استفاده میکنیم، فقط کافی است دوبار
255
00:09:17,680 –> 00:09:20,000
بررسی کنیم که ماوس mizumi وصل شده است یا
256
00:09:20,000 –> 00:09:21,680
ترکپد. از این دادهها استفاده خواهم کرد
257
00:09:21,680 –> 00:09:23,120
و اگر واقعاً
258
00:09:23,120 –> 00:09:24,320
259
00:09:24,320 –> 00:09:26,480
وقتی به دادهها نگاه میکنید نگاهی بیندازید، نمیدانم آیا
260
00:09:26,480 –> 00:09:27,920
میتوانید آن را از طریق این باز کنید، به نظر نمیرسد
261
00:09:27,920 –> 00:09:29,040
خوب است، به هر حال به شما نشان خواهم
262
00:09:29,040 –> 00:09:30,640
داد اما اساساً ما
263
00:09:30,640 –> 00:09:33,279
چندین برچسب خواهیم داشت، بنابراین اگر واقعاً برویم و
264
00:09:33,279 –> 00:09:35,120
نگاهی بیندازیم که واقعاً آن را دانلود
265
00:09:35,120 –> 00:09:38,399
کردهام، بیایید آن را باز کنیم،
266
00:09:38,959 –> 00:09:40,480
بنابراین اگر نگاهی بیندازیم، فکر میکنم
267
00:09:40,480 –> 00:09:43,760
از دادههای قطار استفاده
268
00:09:44,240 –> 00:09:47,040
خواهیم کرد. خیلی بزرگ
269
00:09:47,040 –> 00:09:49,200
درست است، پس ما یک شناسه داریم
270
00:09:49,200 –> 00:09:51,120
اجازه دهید روی آن زوم کنم بنابراین ما یک
271
00:09:51,120 –> 00:09:53,120
شناسه داریم، چند متن نظر داریم
272
00:09:53,120 –> 00:09:55,200
که می توانید در آنجا ببینید، همچنین
273
00:09:55,200 –> 00:09:57,279
تعدادی برچسب داریم که اکنون در
274
00:09:57,279 –> 00:09:58,720
جلسه تخته سفید یا تابلوی تفکیک به یاد داشته باشید
275
00:09:58,720 –> 00:10:00,720
که به نوعی اشاره کردم که
276
00:10:00,720 –> 00:10:02,560
دسته ای از
277
00:10:02,560 –> 00:10:04,800
انواع مختلف وجود دارد. از زمینه ها، بنابراین ما دارای سمیت
278
00:10:04,800 –> 00:10:06,480
سمیت شدید هستیم،
279
00:10:06,480 –> 00:10:08,880
خواه ناپسند باشد یا نباشد، چه تهدید
280
00:10:08,880 –> 00:10:10,320
توهین باشد یا نه، و آیا نفرت هویتی وجود دارد یا نه
281
00:10:10,320 –> 00:10:12,240
که ممکن است مواردی
282
00:10:12,240 –> 00:10:15,440
مانند نژادپرستی را شامل شود، بنابراین ما می توانیم در واقع
283
00:10:15,440 –> 00:10:17,120
هر یک از این اجزای ویژگی را استخراج کنیم یا
284
00:10:17,120 –> 00:10:18,800
با هر یک از این خروجی ها و استفاده از
285
00:10:18,800 –> 00:10:20,240
آن در مدل یادگیری عمیق ما،
286
00:10:20,240 –> 00:10:21,760
بنابراین در واقع یک مدل چند خروجی خواهد
287
00:10:21,760 –> 00:10:22,959
288
00:10:22,959 –> 00:10:25,760
بود، بنابراین داده های ما این است و
289
00:10:25,760 –> 00:10:27,279
نکته خوب در مورد این این است که من
290
00:10:27,279 –> 00:10:29,440
تمام کدهای موجود در حساب github خود را دارم.
291
00:10:29,440 –> 00:10:30,720
بنابراین اگر میخواهید آن را آزمایش کنید،
292
00:10:30,720 –> 00:10:33,200
قطعاً میتوانید و اگر خیلی
293
00:10:33,200 –> 00:10:35,120
مطمئن نیستید چگونه شروع کنید،
294
00:10:35,120 –> 00:10:36,720
به آموزش مبتدی برگردید زیرا من به
295
00:10:36,720 –> 00:10:38,320
شما نشان میدهم که چگونه از ابتدا شروع کنید
296
00:10:38,320 –> 00:10:40,560
چگونه این اطلاعات را شبیهسازی کنید یا چگونه
297
00:10:40,560 –> 00:10:42,800
این کد را شبیه سازی کنید و خودتان
298
00:10:42,800 –> 00:10:45,279
با استفاده از نوت بوک jupyter آن را آزمایش کنید،
299
00:10:45,279 –> 00:10:46,800
من یکی از
300
00:10:46,800 –> 00:10:48,079
مدل های از پیش آموزش دیده ام را نیز در اینجا قرار داده ام، فکر نمی کنم
301
00:10:48,079 –> 00:10:49,279
برای این مدت طولانی آموزش داده شده باشد، بنابراین فقط
302
00:10:49,279 –> 00:10:50,480
به خاطر داشته
303
00:10:50,480 –> 00:10:52,480
باشید که اول از همه چیزهایی که باید انجام دهیم
304
00:10:52,480 –> 00:10:54,320
برخی از وابستگی ها را نصب کنید و
305
00:10:54,320 –> 00:10:55,600
داده ها را وارد کنید، بنابراین اولین کاری که می
306
00:10:55,600 –> 00:10:58,160
خواهیم انجام دهیم این است که
307
00:10:58,160 –> 00:11:00,000
اکنون برخی از وابستگی ها را نصب کنیم تا این کار
308
00:11:00,000 –> 00:11:01,279
را انجام دهیم، این خط کد را
309
00:11:01,279 –> 00:11:03,360
در اینجا اجرا می کنیم که علامت تعجب است pip
310
00:11:03,360 –> 00:11:06,399
install tensorflow tensorflow dash. gpu
311
00:11:06,399 –> 00:11:09,200
pandas matplotlib و scikit
312
00:11:09,200 –> 00:11:11,040
Learn بنابراین tensorflow و tensorflow gpu
313
00:11:11,040 –> 00:11:12,720
کتابخانههای یادگیری عمیق ما خواهند بود، بنابراین
314
00:11:12,720 –> 00:11:14,640
وقتی
315
00:11:14,640 –> 00:11:16,880
مدل متوالی خود را ایجاد میکنیم، از این مورد استفاده
316
00:11:16,880 –> 00:11:18,480
میشود و به ما کمک میکند تا در دادههای جدولی بخوانیم
317
00:11:18,480 –> 00:11:20,640
زیرا در داخل یک فرمت اکسل یا
318
00:11:20,640 –> 00:11:23,200
csv matplotlib فقط به ما کمک می کند تا در زمینه ترسیم و یادگیری ساده به ما کمک کند
319
00:11:23,200 –> 00:11:24,959
، من نمی توانم
320
00:11:24,959 –> 00:11:26,480
به یاد بیاورم که از چه چیزی استفاده می کنیم، زیرا فکر می کنم
321
00:11:26,480 –> 00:11:28,399
از آن برای معیارها استفاده کردم، اما ممکن است
322
00:11:28,399 –> 00:11:30,240
آن کد را تغییر داده باشم، بنابراین اولین چیزها
323
00:11:30,240 –> 00:11:32,079
f ابتدا بیایید برویم و آن نصب را اجرا کنیم تا
324
00:11:32,079 –> 00:11:34,160
بتوانید ببینید در حال اجرا است و
325
00:11:34,160 –> 00:11:35,360
به نظر می رسد که ما با موفقیت نصب کرده ایم
326
00:11:35,360 –> 00:11:37,600
و هیچ خطایی در آنجا
327
00:11:37,600 –> 00:11:39,200
328
00:11:39,200 –> 00:11:40,480
نصب نشده است.
329
00:11:40,480 –> 00:11:43,040
نصبهای ما
330
00:11:43,040 –> 00:11:43,920
331
00:11:43,920 –> 00:11:46,240
اکنون انجام شد. کار بعدی که خروجی ما است،
332
00:11:46,240 –> 00:11:47,760
اکنون کار بعدی که میخواهیم انجام دهیم این است که
333
00:11:47,760 –> 00:11:49,519
در واقع برخی از وابستگیها را وارد کنیم،
334
00:11:49,519 –> 00:11:51,360
بنابراین چهار وابستگی کلیدی وجود دارد که ما در حال
335
00:11:51,360 –> 00:11:53,680
وارد کردن آنها هستیم، بنابراین اولین مورد os است، بنابراین من
336
00:11:53,680 –> 00:11:55,120
کمی در مورد آنچه که داریم صحبت کردم. از
337
00:11:55,120 –> 00:11:57,600
کتابخانه OS در
338
00:11:57,600 –> 00:11:59,839
ویدیوی طبقهبندیکننده تصویر استفاده کنید، بنابراین واقعاً این
339
00:11:59,839 –> 00:12:01,839
فقط برای کمک به کار با مسیرهای مختلف فایل است
340
00:12:01,839 –> 00:12:03,040
، بنابراین اگر باید در
341
00:12:03,040 –> 00:12:04,160
مسیرهای مختلف فایل پیمایش کنید، میتوانید
342
00:12:04,160 –> 00:12:05,560
به معنای واقعی کلمه
343
00:12:05,560 –> 00:12:07,839
os.path.join را تایپ کنید و شما می توانید خیلی راحت تر پیمایش کنید،
344
00:12:07,839 –> 00:12:08,880
345
00:12:08,880 –> 00:12:11,519
خط بعدی پانداها هستند، بنابراین پانداها را
346
00:12:11,519 –> 00:12:14,240
به عنوان پانداهای pd وارد کنید به ما کمک می کند تا داده های جدولی را بخوانیم، به
347
00:12:14,240 –> 00:12:15,440
ویژه زمانی که
348
00:12:15,440 –> 00:12:18,800
با فایل های csv یا متنی یا فایل های اکسل کار می
349
00:12:18,800 –> 00:12:20,880
کنیم، سپس tensorflow را وارد می کنیم، بنابراین
350
00:12:20,880 –> 00:12:22,720
tensorflow را به عنوان t وارد می کنیم. اگر کمی به
351
00:12:22,720 –> 00:12:24,000
آنجا برویم، بنابراین احتمالاً میتوانستیم
352
00:12:24,000 –> 00:12:25,920
آن را کمی دیرتر وارد کنیم، اما من فکر
353
00:12:25,920 –> 00:12:27,760
کردم که آن را زودتر وارد کنم
354
00:12:27,760 –> 00:12:29,440
، اوه
355
00:12:29,440 –> 00:12:30,720
356
00:12:30,720 –> 00:12:32,000
357
00:12:32,000 –> 00:12:34,000
استفاده از keras
358
00:12:34,000 –> 00:12:35,760
در زیر کاپوت
359
00:12:35,760 –> 00:12:38,240
numpy بنابراین numpy را به عنوان np وارد کنید، من فکر میکنم
360
00:12:38,240 –> 00:12:39,920
واقعاً فقط یک مکان وجود دارد که من از
361
00:12:39,920 –> 00:12:41,560
numpy در اینجا استفاده میکنم و آن برای
362
00:12:41,560 –> 00:12:43,440
np.expanddim است، بنابراین اگر به شما نشان دهم که
363
00:12:43,440 –> 00:12:46,240
364
00:12:46,240 –> 00:12:48,160
mp.expand underscore کمرنگ میشود
365
00:12:48,160 –> 00:12:50,320
و آن این است که اوه، ما این کار را نکردهایم. آن را وارد کرد،
366
00:12:50,320 –> 00:12:52,000
اجازه دهید ابتدا آن را اجرا کنیم تا آن را
367
00:12:52,000 –> 00:12:53,519
وارد کنیم
368
00:12:53,519 –> 00:12:56,560
و np expand dims فقط به
369
00:12:56,560 –> 00:12:58,560
قرار دادن هر یک از اطلاعات شما در داخل
370
00:12:58,560 –> 00:13:00,720
مجموعه دیگری از آرایه ها کمک می کند، بنابراین معمولاً
371
00:13:00,720 –> 00:13:03,279
وقتی یک نمونه در
372
00:13:03,279 –> 00:13:04,880
دسته خود دارید و می خواهید ارسال کنید از این استفاده می کنید. آن
373
00:13:04,880 –> 00:13:06,160
را به مدل یادگیری عمیق شما میرسانید،
374
00:13:06,160 –> 00:13:08,560
زیرا منتظر نمونههای متعدد
375
00:13:08,560 –> 00:13:10,079
در آن دسته خاص است، بنابراین ما
376
00:13:10,079 –> 00:13:12,480
معمولاً آن را در داخل آن قرار
377
00:13:12,480 –> 00:13:13,920
378
00:13:13,920 –> 00:13:15,680
379
00:13:15,680 –> 00:13:17,120
میدهیم.
380
00:13:17,120 –> 00:13:18,560
y کار بعدی که میتوانیم انجام دهیم این است
381
00:13:18,560 –> 00:13:21,040
که دادههای خود را وارد کنیم، بنابراین بیایید این را تجزیه کنیم
382
00:13:21,040 –> 00:13:22,639
تا دو بخش در اینجا اتفاق
383
00:13:22,639 –> 00:13:23,519
384
00:13:23,519 –> 00:13:25,279
385
00:13:25,279 –> 00:13:28,800
میافتد، بنابراین اولین قسمت این است که از تابع pd.read csv برای خواندن در csv
386
00:13:28,800 –> 00:13:30,079
و سپس قسمت بعدی استفاده میکنیم. بیت این است که ما در حال
387
00:13:30,079 –> 00:13:31,760
عبور از مسیر دادههایی
388
00:13:31,760 –> 00:13:33,200
هستیم که میخواهیم استفاده کنیم، اکنون این
389
00:13:33,200 –> 00:13:34,720
دادههای آموزشی بسیار بزرگ است، بنابراین ما در
390
00:13:34,720 –> 00:13:36,480
واقع از دادههای آموزشی
391
00:13:36,480 –> 00:13:38,480
برای آزمایش و اعتبارسنجی خود نیز استفاده
392
00:13:38,480 –> 00:13:39,519
میکنیم، زیرا این کار را انجام نمیدهیم. در
393
00:13:39,519 –> 00:13:40,800
چالش kaggle رقابت میکنید، اما اگر میخواهید
394
00:13:40,800 –> 00:13:43,760
میتوانید از همه آن دادهها استفاده کنید، بنابراین
395
00:13:43,760 –> 00:13:46,000
بیایید نگاهی بیندازیم، بنابراین os.path.join
396
00:13:46,000 –> 00:13:48,240
مسیر فایل کامل
397
00:13:48,240 –> 00:13:50,639
مجموعه دادههای ما را به ما میدهد، بنابراین اگر این را بگیرم، آن را
398
00:13:50,639 –> 00:13:51,680
در آنجا جایگذاری کنم.
399
00:13:51,680 –> 00:13:53,360
درست است، بنابراین مسیر کامل
400
00:13:53,360 –> 00:13:55,279
مجموعه دادههای ما چالش طبقهبندی نظرات سمی اره منبت کاری اره مویی است
401
00:13:55,279 –> 00:13:57,519
و سپس برای csv قطار به عقب
402
00:13:57,519 –> 00:14:00,000
و سپس فایل csv قطار واقعی،
403
00:14:00,000 –> 00:14:01,600
بنابراین اگر واقعاً نگاهی بیندازیم که چه اتفاقی میافتد این
404
00:14:01,600 –> 00:14:04,160
است که وارد آن میشویم، پس بیایید
405
00:14:04,160 –> 00:14:07,279
به ریشه خود برویم. پوشه
406
00:14:08,000 –> 00:14:09,360
بنابراین ما در حال رفتن به این پوشه بنابراین
407
00:14:09,360 –> 00:14:11,279
اره منبت کاری اره مویی طبقه بندی آب و هوا سمی
408
00:14:11,279 –> 00:14:12,959
چالش cation سپس ما میخواهیم dot csv را آموزش دهیم
409
00:14:12,959 –> 00:14:14,639
و سپس این فایل را
410
00:14:14,639 –> 00:14:16,959
در اینجا انتخاب میکنیم، بنابراین اگر مسیر فایل کامل را به شما نشان دهم،
411
00:14:16,959 –> 00:14:18,880
به اینجا میرویم و سپس
412
00:14:18,880 –> 00:14:20,720
وارد قطار csv میشویم و سپس
413
00:14:20,720 –> 00:14:24,079
414
00:14:24,079 –> 00:14:26,000
415
00:14:26,000 –> 00:14:28,639
416
00:14:28,639 –> 00:14:30,399
اگر قبلاً از پانداها استفاده کرده اید، این فایل خاص را باز کنید تا آن را بارگیری کنید و سپس pd.re csv یک تابع کاملاً استاندارد است، بنابراین اگر قبلاً از پانداها استفاده
417
00:14:30,399 –> 00:14:31,600
کرده باشید، تعداد زیادی از آنها وجود دارد، بنابراین اگر
418
00:14:31,600 –> 00:14:34,160
pd.read را تایپ کردم، می توانید آن را بخوانید. یک
419
00:14:34,160 –> 00:14:35,600
دسته کامل از فایل ها درست است، بنابراین اگر می خواهید
420
00:14:35,600 –> 00:14:38,639
در یک csv در اکسل یک فایل feather را بخوانید، من
421
00:14:38,639 –> 00:14:40,000
نمی توانم به یاد بیاورم که برای
422
00:14:40,000 –> 00:14:43,279
فایل پارکت um json از فایل pico
423
00:14:43,279 –> 00:14:45,519
spss چه پر استفاده شده است، بنابراین یک دسته کامل از داده ها وجود دارد
424
00:14:45,519 –> 00:14:46,880
که می توانید در واقع بروید و بخوانید در
425
00:14:46,880 –> 00:14:49,360
استفاده از پانداها
426
00:14:49,360 –> 00:14:51,199
خوب است، بنابراین با انجام این کار میتوانیم
427
00:14:51,199 –> 00:14:52,720
دادههای خود را دریافت کنیم، بنابراین اگر آن
428
00:14:52,720 –> 00:14:54,079
سلول را اجرا
429
00:14:54,079 –> 00:14:56,240
کنم، باید دادههای ما را به ما نشان دهد تا بتوانید
430
00:14:56,240 –> 00:14:57,680
ببینید که ما چند ستون
431
00:14:57,680 –> 00:14:59,519
داریم، بنابراین شناسه خود را داریم. دقیقاً همانطور
432
00:14:59,519 –> 00:15:02,560
که داخل فایل اکسل خود را به شما نشان دادم،
433
00:15:02,560 –> 00:15:04,560
نظر خود را نیز دریافت کردیم، همچنین ستون های مختلف خود
434
00:15:04,560 –> 00:15:06,560
را نیز داریم. o سمی شدید سمی
435
00:15:06,560 –> 00:15:09,680
تهدید ناپسند توهین و نفرت هویت
436
00:15:09,680 –> 00:15:13,040
حالا اگر ما برویم نگاهی به دم خود بیندازیم
437
00:15:13,040 –> 00:15:15,600
پس باز هم کلی
438
00:15:15,600 –> 00:15:18,000
کامنت داریم و اگر نگاهی به آن بیندازیم
439
00:15:18,000 –> 00:15:19,199
در واقع به یکی از نظرات خود نگاه کنیم.
440
00:15:19,199 –> 00:15:21,519
اگر به
441
00:15:21,519 –> 00:15:25,440
اوه برویم، بیایید اولین مثال خود را بگیریم، بنابراین df.i
442
00:15:25,440 –> 00:15:28,399
قفل صفر
443
00:15:28,399 –> 00:15:32,000
میکنیم و سپس میتوانیم متن نظر را بگیریم،
444
00:15:33,120 –> 00:15:34,880
بنابراین این نمونهای از یک نظر است، بنابراین
445
00:15:34,880 –> 00:15:36,800
توضیح دهید که چرا ویرایشهای انجامشده تحت
446
00:15:36,800 –> 00:15:38,800
نام کاربری من طرفدار متالیکا هاردکور
447
00:15:38,800 –> 00:15:41,519
بازگردانده شدهاند. وندالیسم
448
00:15:41,519 –> 00:15:43,839
فقط روی مقداری گاز بسته می شود بعد از آن بلاهههههه.
449
00:15:43,839 –> 00:15:45,440
450
00:15:45,440 –> 00:15:47,279
451
00:15:47,279 –> 00:15:48,800
452
00:15:48,800 –> 00:15:50,720
453
00:15:50,720 –> 00:15:52,800
که من می دانم
454
00:15:52,800 –> 00:15:54,639
یکی دیگر چیست
455
00:15:54,639 –> 00:15:56,079
هی مرد، من واقعاً سعی نمی کنم
456
00:15:56,079 –> 00:15:57,600
دیوار را ویرایش کنم،
457
00:15:57,600 –> 00:15:59,759
اما می توانید شروع کنید به اینکه ببینید فیلدهای واقعی
458
00:15:59,759 –> 00:16:01,519
چگونه هستند و اگر ما برویم و
459
00:16:01,519 –> 00:16:04,639
به نظرات نگاهی بیندازیم
460
00:16:04,639 –> 00:16:06,240
.
461
00:16:06,240 –> 00:16:09,440
df dot و سپس df.columns
462
00:16:09,440 –> 00:16:11,360
و فرض کنید ما t را می خواستیم o
463
00:16:11,360 –> 00:16:13,680
همه این فیلدها را درست بگیرید، بنابراین سمی و
464
00:16:13,680 –> 00:16:15,600
شدید سمی تهدید توهین و
465
00:16:15,600 –> 00:16:17,920
هویت
466
00:16:17,920 –> 00:16:20,240
467
00:16:20,240 –> 00:16:23,839
468
00:16:23,839 –> 00:16:26,480
469
00:16:26,480 –> 00:16:29,040
470
00:16:29,040 –> 00:16:30,079
471
00:16:30,079 –> 00:16:32,720
بعد از اینکه سه را قفل کردم خوب است، بنابراین
472
00:16:32,720 –> 00:16:35,040
این نظر خاص هیچ سمی
473
00:16:35,040 –> 00:16:37,120
ندارد، به شدت سمی نیست، زشت نیست، اصلاً
474
00:16:37,120 –> 00:16:39,600
تهدید آمیز نیست، توهین آمیز نیست و
475
00:16:39,600 –> 00:16:41,120
هیچ هویتی وجود ندارد.
476
00:16:41,120 –> 00:16:43,360
477
00:16:43,759 –> 00:16:45,519
478
00:16:45,519 –> 00:16:47,680
479
00:16:47,680 –> 00:16:50,560
من هم
480
00:16:50,560 –> 00:16:51,759
همینطور دوباره، بنابراین به نظر نمیرسد مقدار زیادی وجود دارد،
481
00:16:51,759 –> 00:16:53,120
من سعی میکنم یکی را پیدا کنم که
482
00:16:53,120 –> 00:16:55,759
سمی باشد،
483
00:16:55,759 –> 00:16:57,519
بیایید برویم df. سر
484
00:16:57,519 –> 00:16:59,680
بیایید یک فیلتر انجام دهیم تا df و سپس میتوانیم سمی شویم که
485
00:16:59,680 –> 00:17:03,320
486
00:17:05,039 –> 00:17:06,240
برابر با یک
487
00:17:06,240 –> 00:17:07,679
خوب خنک است، بنابراین کمی صحبت کردم، بنابراین به
488
00:17:07,679 –> 00:17:09,199
نظر می رسد که چه چیزی می تواند باشد که می
489
00:17:09,199 –> 00:17:11,760
تواند هفت باشد، نه،
490
00:17:12,640 –> 00:17:14,720
اوه، خوب که یک نفر کمی بسیار
491
00:17:14,720 –> 00:17:16,319
مبتذل است، خوب پس واضح است که ما
492
00:17:16,319 –> 00:17:18,799
دوباره در آنجا فحش می دهیم، این بخشی
493
00:17:18,799 –> 00:17:20,559
از مشکلی نیست که ما می بینیم
494
00:17:20,559 –> 00:17:22,559
این روزها در وب میخواهیم
495
00:17:22,559 –> 00:17:25,679
بتوانیم برخی از نظرات سمی را مسدود کنیم، بنابراین
496
00:17:25,679 –> 00:17:27,119
این چیزی است که مدل یادگیری عمیق
497
00:17:27,119 –> 00:17:29,039
ما میتواند کمتر بتواند آن را مسدود کند،
498
00:17:29,039 –> 00:17:31,840
بنابراین ما میتوانیم
499
00:17:31,840 –> 00:17:33,280
ببینیم که نظرات سمی داریم. ما میخواهیم
500
00:17:33,280 –> 00:17:35,120
برویم و بتوانیم آنها را شناسایی کنیم و
501
00:17:35,120 –> 00:17:36,799
معمولاً شما از آن در داخل
502
00:17:36,799 –> 00:17:38,240
مانند یک برنامه وب یا چیزی استفاده میکنید تا بتوانید
503
00:17:38,240 –> 00:17:40,320
این پستها را اصلاً مسدود کنید، اما
504
00:17:40,320 –> 00:17:42,000
در حال حاضر ما رفتهایم و وابستگیهای خود را نصب
505
00:17:42,000 –> 00:17:43,600
کردهایم و ما. رفتهایم و
506
00:17:43,600 –> 00:17:46,160
دادههایی را وارد کردهایم، بیایید
507
00:17:46,160 –> 00:17:49,600
به مشتری خود بازگردیم و ببینیم چه چیز شیرینی بعدی است،
508
00:17:51,120 –> 00:17:53,039
بنابراین ما اکنون دادهها را به دست
509
00:17:53,039 –> 00:17:54,960
آوردهایم که باید آنها را از قبل پردازش کنیم تا
510
00:17:54,960 –> 00:17:56,640
برای مدلسازی آماده شویم. این شامل
511
00:17:56,640 –> 00:17:58,799
چند مورد است. گامهای مهم اولی
512
00:17:58,799 –> 00:18:01,039
توکن کردن دادهها به این فکر کنید
513
00:18:01,039 –> 00:18:03,360
که جملات را به زبان مخفی خودمان ترجمه میکنیم
514
00:18:03,360 –> 00:18:05,120
که فقط
515
00:18:05,120 –> 00:18:06,880
مدل یادگیری عمیق میفهمد
516
00:18:06,880 –> 00:18:08,400
که ما چه کار میکنیم، در واقع فقط
517
00:18:08,400 –> 00:18:10,559
تبدیل هر کلمه در جمله
518
00:18:10,559 –> 00:18:12,720
به یک شناسه منحصر به فرد است تا هر کلمه
519
00:18:12,720 –> 00:18:14,880
نقشهبرداری کند. به یک عدد
520
00:18:14,880 –> 00:18:17,200
آه آن را هر چیزی در غیر این صورت، بله، در حالی که در حال انجام
521
00:18:17,200 –> 00:18:18,799
آن هستیم، پارتیشنهای آزمایش و اعتبارسنجی آموزشی خود را نیز ایجاد میکنیم،
522
00:18:18,799 –> 00:18:21,360
بنابراین
523
00:18:21,360 –> 00:18:23,919
ما در مرحله پیش پردازش هستیم، بنابراین
524
00:18:23,919 –> 00:18:26,160
میبینیم که برخی از دادههای خود را
525
00:18:26,160 –> 00:18:28,240
داریم و دادههایی از چالشی که
526
00:18:28,240 –> 00:18:30,640
اکنون در حال پیشپردازش هستیم، بنابراین اولین
527
00:18:30,640 –> 00:18:31,760
کاری که
528
00:18:31,760 –> 00:18:33,280
میخواهیم انجام دهیم این است که لایه برداری متن خود را دریافت میکنیم.
529
00:18:33,280 –> 00:18:36,240
530
00:18:36,240 –> 00:18:37,919
531
00:18:37,919 –> 00:18:40,480
آسان است، بنابراین
532
00:18:40,480 –> 00:18:41,679
خط کامل از
533
00:18:41,679 –> 00:18:44,000
tensorflow.keras.layers است که
534
00:18:44,000 –> 00:18:46,320
بردار متن را وارد می کنیم، بنابراین اگر ما برویم
535
00:18:46,320 –> 00:18:47,679
و وارد کنیم که
536
00:18:47,679 –> 00:18:49,440
این به ما اجازه می دهد از
537
00:18:49,440 –> 00:18:51,919
لایه برداری متن استفاده کنیم، اکنون به
538
00:18:51,919 –> 00:18:54,559
خاطر داشته باشید که من در حال حاضر از tensorflow استفاده
539
00:18:54,559 –> 00:18:57,760
می کنم 2.8 فکر می کنم پیپ است لیست
540
00:18:57,760 –> 00:19:01,039
اوم این لایه خاص قبلاً در لایههای آزمایشی پنهان بود یا
541
00:19:01,039 –> 00:19:03,039
در دسترس بود،
542
00:19:03,039 –> 00:19:04,720
بنابراین اجازه دهید سریعاً به
543
00:19:04,720 –> 00:19:05,679
شما نشان دهم
544
00:19:05,679 –> 00:19:08,320
بله، بنابراین تنسورفلو 2.8، بنابراین در
545
00:19:08,320 –> 00:19:10,080
حال حاضر در زیر
546
00:19:10,080 –> 00:19:11,360
547
00:19:11,360 –> 00:19:13,280
بردار کردن متن چرخ و فلک عکس تنش قرار دارد، بنابراین
548
00:19:13,280 –> 00:19:16,880
من فکر میکنم قبلاً نقطه در زیر شماره آزمایشی بود.
549
00:19:17,200 –> 00:19:18,640
550
00:19:18,640 –> 00:19:20,559
در زیر میدانم که قبلاً کجا بوده است، اما در نسخه 2.4.1
551
00:19:20,559 –> 00:19:22,559
جای دیگری مشکلی ندارد، بنابراین
552
00:19:22,559 –> 00:19:24,320
لایه برداری متن است و چیزی که ما
553
00:19:24,320 –> 00:19:26,480
از آن لایه برداری متن استفاده میکنیم این است که متن خود
554
00:19:26,480 –> 00:19:29,039
را توکن کنیم، بنابراین اگر ما بروید
555
00:19:29,039 –> 00:19:30,880
و درست نگاه کنید،
556
00:19:30,880 –> 00:19:32,960
بنابراین این یک لایه پیش پردازش است
557
00:19:32,960 –> 00:19:34,880
که ویژگی های متن را به دنباله های اعداد صحیح نگاشت می
558
00:19:34,880 –> 00:19:37,120
کند، روشی فانتزی برای گفتن اینکه یک
559
00:19:37,120 –> 00:19:40,240
کلمه را می گیریم و آن را به یک کد تبدیل می کنیم، بنابراین من
560
00:19:40,240 –> 00:19:42,960
ممکن است شماره 42 باشم هی ممکن است شماره
561
00:19:42,960 –> 00:19:45,360
19 و غیره بنابراین
562
00:19:45,360 –> 00:19:46,880
نیازی نیست بروید و این کار را انجام دهید، بنابراین
563
00:19:46,880 –> 00:19:48,720
قبلاً در لایههای keras
564
00:19:48,720 –> 00:19:51,440
پیش پردازش آزمایشی بود، بنابراین اکنون
565
00:19:51,440 –> 00:19:54,240
زیر لایههای keras وکتورسازی متن است
566
00:19:54,240 –> 00:19:56,160
خوب است، بنابراین اکنون که لایه برداری متن خود را
567
00:19:56,160 –> 00:19:57,840
داریم، میتوانیم برویم و حذف کنید
568
00:19:57,840 –> 00:19:59,679
که کار بعدی که میخواهیم
569
00:19:59,679 –> 00:20:01,039
ادامه دهیم و انجام دهیم این
570
00:20:01,039 –> 00:20:04,159
است که دادههایمان را به نظرات
571
00:20:04,159 –> 00:20:06,559
و ویژگیهایمان تقسیم کنیم، بنابراین من در اینجا کمی به شما نشان دادم
572
00:20:06,559 –> 00:20:07,919
چگونه در واقع
573
00:20:07,919 –> 00:20:09,440
نظرات را استخراج کنید، اما فرض کنید برای
574
00:20:09,440 –> 00:20:11,120
مثال ما فقط نظرات را میخواستیم.
575
00:20:11,120 –> 00:20:13,280
خودشان تا ما می توانیم بدیهی است بروید و
576
00:20:13,280 –> 00:20:15,440
فقط از مقداری نمایه سازی از پانداها استفاده کنید تا
577
00:20:15,440 –> 00:20:17,120
بتوانم تایپ کنم، بیایید نگاهی به
578
00:20:17,120 –> 00:20:20,480
ستون های نقطه سی دی اف
579
00:20:20,480 –> 00:20:22,480
ستون خود بیاندازیم تا متن رایج
580
00:20:22,480 –> 00:20:24,480
توهین و تهدید توهین زشت و زشت سمی را
581
00:20:24,480 –> 00:20:26,159
شناسایی کنیم، بنابراین اگر فقط
582
00:20:26,159 –> 00:20:29,039
متن نظر خود را می خواستیم میتوانید متن زیر خط کامنت df را تایپ
583
00:20:29,039 –> 00:20:31,280
کنید و این نظرات ما را به
584
00:20:31,280 –> 00:20:32,720
ما میدهد، بنابراین میتوانید ببینید که ما
585
00:20:32,720 –> 00:20:34,559
همه آنها
586
00:20:34,559 –> 00:20:36,480
را دقیقاً در اختیار داریم، حالا چه اتفاقی میافتد
587
00:20:36,480 –> 00:20:38,960
اگر بخواهیم همه این فیلدها را به دست بیاوریم،
588
00:20:38,960 –> 00:20:40,880
بسیار سمی و
589
00:20:40,880 –> 00:20:42,799
خطرناک a زیرا ما می
590
00:20:42,799 –> 00:20:44,880
خواهیم مدل یادگیری عمیق ما همه
591
00:20:44,880 –> 00:20:46,559
اینها را همزمان پیش بینی کند، بنابراین آیا
592
00:20:46,559 –> 00:20:48,480
نظر خاص در هر
593
00:20:48,480 –> 00:20:50,880
یک از این دسته بندی ها قرار می گیرد یا نه، و می
594
00:20:50,880 –> 00:20:52,320
تواند در همه آنها قرار گیرد، بنابراین ممکن است
595
00:20:52,320 –> 00:20:54,720
یکی یکی یکی یکی داشته باشیم. و غیره
596
00:20:54,720 –> 00:20:56,480
بنابراین ما واقعاً میتوانیم این کار را انجام دهیم،
597
00:20:56,480 –> 00:20:57,760
بنابراین کاری که برای
598
00:20:57,760 –> 00:20:59,840
استخراج این متن انجام میدهیم دقیقاً همین است، بنابراین
599
00:20:59,840 –> 00:21:02,880
میتوانیم در df.columns تایپ
600
00:21:02,880 –> 00:21:04,799
کنیم و همه چیز را بعد
601
00:21:04,799 –> 00:21:06,240
از دو ستون اول بگیریم و ما می تواند
602
00:21:06,240 –> 00:21:08,400
اسلای انجام دهد بنابراین من اساساً
603
00:21:08,400 –> 00:21:10,000
میخواهم بگویم یک دو را شروع کنید و بعد از
604
00:21:10,000 –> 00:21:11,440
آن همه چیز را از نظر
605
00:21:11,440 –> 00:21:12,640
ستونها دریافت کنید و اجازه دهید به شما نشان دهم که چه چیزی
606
00:21:12,640 –> 00:21:14,320
برمیگردد،
607
00:21:14,320 –> 00:21:15,679
بنابراین اساساً ما قصد داریم
608
00:21:15,679 –> 00:21:18,159
توهین تهدید زشت و زشت سمی را وارد کنیم.
609
00:21:18,159 –> 00:21:20,159
و از هویت نفرت و از آنجا که ما
610
00:21:20,159 –> 00:21:21,600
اکنون ستون ها را داریم، می توانیم در واقع از
611
00:21:21,600 –> 00:21:23,440
آن به عنوان یک فیلتر در داخل قاب داده خود استفاده کنیم
612
00:21:23,440 –> 00:21:26,240
تا بتوانم از df عبور
613
00:21:26,240 –> 00:21:28,640
کنم و این کار را انجام دهم، بنابراین اکنون فقط
614
00:21:28,640 –> 00:21:30,400
این مقادیر را خارج می کنم، می توانم یک
615
00:21:30,400 –> 00:21:31,760
مرحله اضافی انجام دهم و فقط این
616
00:21:31,760 –> 00:21:35,039
را به یک آرایه numpy تبدیل کنید، بنابراین مقادیر نقطهای را تایپ کنید
617
00:21:35,039 –> 00:21:36,960
و این به ما یک فرمت فایل کامل
618
00:21:36,960 –> 00:21:39,360
میدهد که در واقع میتوانیم آن را به
619
00:21:39,360 –> 00:21:41,039
مدل یادگیری عمیق تنسورفلو خود منتقل کنیم،
620
00:21:41,039 –> 00:21:43,919
زیرا هر نظر اکنون یک بردار دارد
621
00:21:43,919 –> 00:21:45,679
که نشان میدهد آیا در یکی از آنها قرار میگیرد یا نه.
622
00:21:45,679 –> 00:21:47,120
این دستهها
623
00:21:47,120 –> 00:21:49,039
بسیار سمی هستند، تهدید توهین و
624
00:21:49,039 –> 00:21:51,679
هویت و غیره، بنابراین ما
625
00:21:51,679 –> 00:21:53,120
دقیقاً همین کار را در اینجا انجام میدهیم، بنابراین
626
00:21:53,120 –> 00:21:54,240
627
00:21:54,240 –> 00:21:56,559
نظر خود را در متغیری به نام x ذخیره میکنیم و برچسبهای خود را در یک متغیر
628
00:21:56,559 –> 00:21:58,240
ذخیره میکنیم.
629
00:21:58,240 –> 00:22:00,080
var iable با y تماس گرفت،
630
00:22:00,080 –> 00:22:02,720
بنابراین اگر من بروم و آن سلول را اجرا کنم،
631
00:22:02,720 –> 00:22:05,039
اکنون می توانید زیر x را ببینید، ما همه
632
00:22:05,039 –> 00:22:07,120
نظرات خود را داریم و در زیر y
633
00:22:07,120 –> 00:22:09,440
، همه برچسب های خود را داریم، بنابراین
634
00:22:09,440 –> 00:22:11,520
635
00:22:11,520 –> 00:22:13,200
اکنون چیز بعدی که می خواهیم در آنجا بسیار خوب به نظر می رسیم. در واقع
636
00:22:13,200 –> 00:22:16,559
میخواهیم برویم و تعریف
637
00:22:16,559 –> 00:22:17,679
کنیم که واقعاً چند کلمه در
638
00:22:17,679 –> 00:22:19,919
فرهنگ لغت خود داریم، بنابراین در
639
00:22:19,919 –> 00:22:22,000
لایه برداری متن خود، میتوانیم
640
00:22:22,000 –> 00:22:24,159
در واقع مشخص کنیم که چه تعداد کلمه را میخواهیم
641
00:22:24,159 –> 00:22:26,640
در داخل آن لغت ذخیره کنیم، حالا هر
642
00:22:26,640 –> 00:22:28,880
چه تعداد کلمات بیشتری را ذخیره کنید. هرچه بزرگتر
643
00:22:28,880 –> 00:22:30,799
یا مدل شما بزرگتر
644
00:22:30,799 –> 00:22:32,400
میشود، زیرا
645
00:22:32,400 –> 00:22:34,320
اگر جاسازیهای عظیمی از کلمات
646
00:22:34,320 –> 00:22:35,440
داشته باشید، اکنون برای هر کلمه به یک کلمه نیاز دارید،
647
00:22:35,440 –> 00:22:37,679
من
648
00:22:37,679 –> 00:22:40,080
آن را روی 200000 تعیین کردهام. که
649
00:22:40,080 –> 00:22:41,919
کلمات زیادی هستند که قطعاً میتوانید این را کاهش دهید
650
00:22:41,919 –> 00:22:44,159
، اما ممکن است به قیمت
651
00:22:44,159 –> 00:22:46,400
تولید یک مدل بسیار دقیق باشد، بنابراین
652
00:22:46,400 –> 00:22:49,280
این ویژگیهای حداکثر در واقع
653
00:22:49,280 –> 00:22:51,840
تعداد کلمات
654
00:22:52,480 –> 00:22:55,120
در واژگان
655
00:22:55,120 –> 00:22:56,960
درست است و این فقط یک متغیر اساسی
656
00:22:56,960 –> 00:22:58,320
در اینجا است، بنابراین حداکثر تأکید کنید. ویژگی هایی که ما
657
00:22:58,320 –> 00:23:00,559
آن معادل را تنظیم می کنیم l تا 200 000. اگر
658
00:23:00,559 –> 00:23:01,840
مدل شما خیلی بزرگ شده است شما در
659
00:23:01,840 –> 00:23:03,600
حال اتمام vram هستید، می توانید سعی کنید
660
00:23:03,600 –> 00:23:05,120
این را رها کنید و
661
00:23:05,120 –> 00:23:07,120
اکنون کاری که می خواهیم انجام دهیم این است
662
00:23:07,120 –> 00:23:10,640
که لایه برداری متن خود را مقداردهی اولیه کنیم،
663
00:23:10,640 –> 00:23:12,640
بنابراین در اینجا من یک مثال ایجاد کرده ام تا ما.
664
00:23:12,640 –> 00:23:14,240
یک متغیر جدید به نام vectorizer را تایپ کرده یا ایجاد کرده
665
00:23:14,240 –> 00:23:16,320
ایم و ما
666
00:23:16,320 –> 00:23:18,240
لایه برداری متن ما را
667
00:23:18,240 –> 00:23:19,280
از اینجا به بالا اختصاص داده
668
00:23:19,280 –> 00:23:21,120
ایم و اکنون در حال عبور از آن هستیم که می
669
00:23:21,120 –> 00:23:23,120
خواهیم حداکثر تعداد کلمات داخل
670
00:23:23,120 –> 00:23:25,520
واژگان ما برابر با 200000 باشد
671
00:23:25,520 –> 00:23:27,120
که از اینجاست. بنابراین حداکثر
672
00:23:27,120 –> 00:23:30,000
نشانه های زیر خط برابر با حداکثر ویژگی های زیر خط است، بنابراین
673
00:23:30,000 –> 00:23:31,760
این واقعاً می تواند حداکثر کلمات زیر خط باشد
674
00:23:31,760 –> 00:23:33,679
درست
675
00:23:33,679 –> 00:23:35,280
می تواند به همین راحتی باشد و ما
676
00:23:35,280 –> 00:23:37,600
می توانیم این را برداریم و به اینجا منتقل
677
00:23:37,600 –> 00:23:40,320
کنیم، نه بزرگ،
678
00:23:40,320 –> 00:23:42,080
اجازه دهید آن را دوباره تبدیل کنیم و سپس مشخص می کنیم
679
00:23:42,080 –> 00:23:44,640
که چگونه حداکثر
680
00:23:44,640 –> 00:23:46,320
طول جمله ما چقدر خواهد بود، بنابراین
681
00:23:46,320 –> 00:23:48,400
این طول جمله در نشانه ها است، بنابراین
682
00:23:48,400 –> 00:23:50,480
این اساساً می گوید که هر جمله
683
00:23:50,480 –> 00:23:52,080
ای که از داده های خود
684
00:23:52,080 –> 00:23:55,279
در اینجا تنظیم می کنیم، آن را در 1800 کلمه محدود می کنیم
685
00:23:55,279 –> 00:23:56,880
و دوباره شما میتوانید این را طولانیتر کنید،
686
00:23:56,880 –> 00:23:58,720
میتوانید آن را کوتاهتر کنید، اما اگر آن را
687
00:23:58,720 –> 00:24:00,000
طولانیتر کنید، به این معنی است که مدل نیز
688
00:24:00,000 –> 00:24:02,400
بهطور قابلتوجهی بزرگتر میشود
689
00:24:02,400 –> 00:24:04,000
و همچنین مشخص کردهایم که
690
00:24:04,000 –> 00:24:06,080
میخواهیم حالت خروجی ما عدد صحیح باشد، بنابراین این
691
00:24:06,080 –> 00:24:07,919
به این معنی است که در حال رفتن است. برای نگاشت هر
692
00:24:07,919 –> 00:24:10,080
کلمه به یک مقدار صحیح، پس
693
00:24:10,080 –> 00:24:11,200
همانطور که
694
00:24:11,200 –> 00:24:14,559
گفتم کلمه یک ممکن است کلمه نفرت باشد کلمه دو ممکن
695
00:24:14,559 –> 00:24:15,279
است
696
00:24:15,279 –> 00:24:17,760
شغل باشد کلمه سه ممکن است مک دونالد
697
00:24:17,760 –> 00:24:19,840
باشد و غیره اساساً ما
698
00:24:19,840 –> 00:24:21,440
اعداد صحیح می گیریم و کلمات را می
699
00:24:21,440 –> 00:24:24,000
گیریم و ما آنها را به اعداد صحیح
700
00:24:24,000 –> 00:24:25,919
کامل تبدیل میکنیم، بنابراین دوباره میتوانیم آن را مقداردهی اولیه کنیم،
701
00:24:25,919 –> 00:24:27,360
بنابراین من این را مرور کردم، بنابراین
702
00:24:27,360 –> 00:24:29,200
خط اول بردار برابر با بردار متن است،
703
00:24:29,200 –> 00:24:31,200
ما مشخص میکنیم که چه تعداد
704
00:24:31,200 –> 00:24:33,679
کلمه در واژگان خود میخواهیم
705
00:24:33,679 –> 00:24:35,440
حداکثر طول جمله ما چقدر است.
706
00:24:35,440 –> 00:24:37,679
خواهد بود یا حداکثر طول ورودی که ما می
707
00:24:37,679 –> 00:24:38,720
خواهیم از طریق آن به مدل یادگیری عمیق خود منتقل کنیم
708
00:24:38,720 –> 00:24:40,640
و اینکه چگونه می خواهیم
709
00:24:40,640 –> 00:24:42,480
خروجی های ما به نظر برسد که یک
710
00:24:42,480 –> 00:24:43,919
عدد صحیح است.
711
00:24:43,919 –> 00:24:45,360
712
00:24:45,360 –> 00:24:46,880
713
00:24:46,880 –> 00:24:48,960
اکنون این کار بسیار آسان است تنها کاری
714
00:24:48,960 –> 00:24:50,000
که باید انجام دهید این است که vectorizer.adapt را تایپ کنید
715
00:24:50,000 –> 00:24:51,679
716
00:24:51,679 –> 00:24:53,520
و آداپتور قرار است تمام
717
00:24:53,520 –> 00:24:55,679
کلماتی را که در واژگان ما هستند یاد بگیرد،
718
00:24:55,679 –> 00:24:56,400
بنابراین
719
00:24:56,400 –> 00:24:57,919
در این مورد خاص، همه کلماتی را
720
00:24:57,919 –> 00:24:59,840
که در داخل خود داریم جملات
721
00:24:59,840 –> 00:25:00,760
را تایپ می کنیم
722
00:25:00,760 –> 00:25:02,799
vectorizer.adapt و سپس از مقدار x نقطه عبور می کنیم،
723
00:25:02,799 –> 00:25:04,320
بنابراین مقادیر اکسل فقط
724
00:25:04,320 –> 00:25:05,520
آن را تبدیل می کند
725
00:25:05,520 –> 00:25:07,200
نه اینکه یک ستون باشد
726
00:25:07,200 –> 00:25:08,960
، نه ما به کنسول نیاز نداریم نه
727
00:25:08,960 –> 00:25:11,039
اینکه ستونی باشد که قرار است تبدیل شود. یا
728
00:25:11,039 –> 00:25:13,039
به جای اینکه یک تکه پاندا باشد یا
729
00:25:13,039 –> 00:25:14,480
730
00:25:14,480 –> 00:25:16,720
سری ام چیست، بنابراین اگر اجازه بدهم این را به شما نشان دهم،
731
00:25:16,720 –> 00:25:18,480
تایپ کنید،
732
00:25:18,480 –> 00:25:20,400
بنابراین در حال حاضر یک سری پاندا است
733
00:25:20,400 –> 00:25:22,320
که فقط یک فرمت فایل است، در واقع
734
00:25:22,320 –> 00:25:24,559
یک ستون از مجموعه داده های پاندا است که
735
00:25:24,559 –> 00:25:26,320
ما میخواهیم آن را به یک نمایش numpy تبدیل کنیم،
736
00:25:26,320 –> 00:25:28,240
بنابراین اگر مقادیر x را تایپ کنیم،
737
00:25:28,240 –> 00:25:29,360
738
00:25:29,360 –> 00:25:31,440
میبینیم که این اکنون یک آرایه numpy است که بزرگ
739
00:25:31,440 –> 00:25:32,480
740
00:25:32,480 –> 00:25:34,799
نیست، پس کاری که
741
00:25:34,799 –> 00:25:35,919
میخواهیم انجام دهیم این است که آن
742
00:25:35,919 –> 00:25:38,080
آرایه numpy خاص را به ما منتقل میکنیم. vectorizer
743
00:25:38,080 –> 00:25:40,159
بنابراین vectorizer.adapt و ما در حال
744
00:25:40,159 –> 00:25:42,640
عبور از c خود هستیم omments اما
745
00:25:42,640 –> 00:25:44,799
اگر برویم و اجرا کنیم به عنوان یک مسابقه بیحرکت نشان داده میشود که کمی زمان میبرد،
746
00:25:44,799 –> 00:25:46,400
747
00:25:46,400 –> 00:25:48,559
اما در واقع یاد
748
00:25:48,559 –> 00:25:49,679
میگیریم که قبلاً میتوانستید
749
00:25:49,679 –> 00:25:51,760
واژگان این vectorizer را فقط
750
00:25:51,760 –> 00:25:53,159
با تایپ کردن
751
00:25:53,159 –> 00:25:54,400
vectorizer.getvocabulary خارج کنید. اما به
752
00:25:54,400 –> 00:25:55,760
هر دلیلی
753
00:25:55,760 –> 00:25:57,919
در حال حاضر کمی خطا ایجاد می کند،
754
00:25:57,919 –> 00:25:59,840
بنابراین من این را کمی
755
00:25:59,840 –> 00:26:00,880
پیش آزمایش کردم، اما
756
00:26:00,880 –> 00:26:02,799
به نظر می رسد که در آخرین به روز رسانی خراب شده است،
757
00:26:02,799 –> 00:26:05,400
بنابراین می توانید vectorizer.getvocabulary را تایپ کنید
758
00:26:05,400 –> 00:26:07,279
و این در
759
00:26:07,279 –> 00:26:09,200
واقع به شما می دهد. واژگان و
760
00:26:09,200 –> 00:26:11,600
نگاشت را توضیح دهید بنابراین
761
00:26:11,600 –> 00:26:13,679
مقدار 1 این کلمه است مقدار 2 این
762
00:26:13,679 –> 00:26:15,279
کلمه است و باید فقط یک
763
00:26:15,279 –> 00:26:16,880
آرایه برگشتی
764
00:26:16,880 –> 00:26:18,559
یا یک آرایه برگشتی از هر یک از
765
00:26:18,559 –> 00:26:20,159
کلمات به شما بدهد و موقعیت در آن آرایه
766
00:26:20,159 –> 00:26:22,240
نشان دهنده آن است که چه عددی از آن
767
00:26:22,240 –> 00:26:24,400
دنباله است که کلمه
768
00:26:24,400 –> 00:26:26,240
خاص این مورد خاص خراب است از
769
00:26:26,240 –> 00:26:28,400
من نپرسید چرا دیدم که یک اشکالی وجود
770
00:26:28,400 –> 00:26:30,080
دارد که در سرریز پشته ایجاد شده است اما فقط
771
00:26:30,080 –> 00:26:31,600
برای توجه فعلاً در آینده ممکن است
772
00:26:31,600 –> 00:26:34,720
بعداً دوباره ظاهر شود ممکن است برطرف شود
773
00:26:34,720 –> 00:26:37,039
اما اکنون به نظر می رسد ممکن است خراب شده باشد،
774
00:26:37,039 –> 00:26:40,400
بنابراین مدل ما اکنون بردار شده است،
775
00:26:40,400 –> 00:26:42,240
بنابراین می توانیم در واقع در um vectorizer تایپ کنیم
776
00:26:42,240 –> 00:26:43,919
777
00:26:43,919 –> 00:26:47,520
و من می توانم در um hello تایپ کنم،
778
00:26:47,520 –> 00:26:50,000
زندگی عالی است
779
00:26:50,000 –> 00:26:51,600
و این در واقع آن را
780
00:26:51,600 –> 00:26:53,679
به دنباله ای از اعداد تبدیل می کند تا بتوانید
781
00:26:53,679 –> 00:26:56,679
ببینید بنابراین 286 261 است. بنابراین
782
00:26:56,679 –> 00:27:00,960
286 است سلام، پس 261 است جهان 305 زندگی است،
783
00:27:00,960 –> 00:27:02,240
بنابراین به خاطر داشته باشید که
784
00:27:02,240 –> 00:27:04,159
علائم نگارشی و همچنین بخشی از این را حذف می کند، بنابراین
785
00:27:04,159 –> 00:27:06,559
اجازه دهید من به شما نشان دهم
786
00:27:06,559 –> 00:27:10,480
که بردار متن با حروف مهره ای وجود ندارد،
787
00:27:10,480 –> 00:27:12,159
بنابراین در واقع آن را استاندارد می کند تا آن را
788
00:27:12,159 –> 00:27:13,600
کاهش دهد. نوارها را حذف می کند،
789
00:27:13,600 –> 00:27:15,279
بنابراین فقط یک چیز دیگر را
790
00:27:15,279 –> 00:27:16,960
باید به خاطر بسپاریم، بنابراین اگر ما واقعاً برویم و
791
00:27:16,960 –> 00:27:19,360
برگردیم مدت زمان این است یک دو سه
792
00:27:19,360 –> 00:27:21,360
چهار پنج، بنابراین اگر ما برویم و پنج مقدار اول را بگیریم،
793
00:27:21,360 –> 00:27:24,000
794
00:27:24,559 –> 00:27:26,480
بنابراین می توانید ببینید که این عدد است.
795
00:27:26,480 –> 00:27:29,279
نمایش آن 286 است hello
796
00:27:29,279 –> 00:27:32,240
261 is world 305 is life
797
00:27:32,240 –> 00:27:35,360
9 is 275 عالی است
798
00:27:35,360 –> 00:27:37,679
به طوری که نشان می دهد که بردار یا
799
00:27:37,679 –> 00:27:39,440
تأثیر برداری در این مورد خاص چیست،
800
00:27:39,440 –> 00:27:40,960
اکنون ما می خواهیم این کار
801
00:27:40,960 –> 00:27:43,200
را برای تمام متن خود انجام دهیم. اینجا فقط یک
802
00:27:43,200 –> 00:27:45,520
جمله تصادفی نیست
803
00:27:45,520 –> 00:27:47,200
این خروجی از لایه بردار
804
00:27:47,200 –> 00:27:49,360
سرد است و این دقیقاً همان کاری است که
805
00:27:49,360 –> 00:27:50,880
ما در اینجا انجام میدهیم، بنابراین میخواهیم
806
00:27:50,880 –> 00:27:53,360
تمام مقادیر x خود را به بردار خود منتقل کنیم
807
00:27:53,360 –> 00:27:54,559
و چیزی که
808
00:27:54,559 –> 00:27:56,240
میخواهیم برگردانیم مجموعه دادهای است که متن بردار نامیده میشود.
809
00:27:56,240 –> 00:27:58,000
اگر ما برویم و دوباره این را اجرا کنیم
810
00:27:58,000 –> 00:27:59,200
ممکن است کمی طول بکشد زیرا
811
00:27:59,200 –> 00:28:00,559
به خاطر داشته باشید که تک تک
812
00:28:00,559 –> 00:28:03,120
کلمات را مرور میکند و این نشانهگذاری است،
813
00:28:03,120 –> 00:28:04,720
بنابراین اگر اکنون به متن برداری نگاهی بیندازیم،
814
00:28:04,720 –> 00:28:06,799
815
00:28:06,799 –> 00:28:09,279
این نمایش عددی
816
00:28:09,279 –> 00:28:11,600
همه جملات ما است، بنابراین یک
817
00:28:11,600 –> 00:28:14,960
هزار برای این 159 571
818
00:28:14,960 –> 00:28:17,600
نمونه و این همان طول
819
00:28:17,600 –> 00:28:20,320
داده x ما است بنابراین x
820
00:28:20,320 –> 00:28:21,320
بنابراین می توانید
821
00:28:21,320 –> 00:28:27,120
159 571 نمونه 159 571 نمونه را ببینید و
822
00:28:27,120 –> 00:28:30,080
ما آن را تا 1800 کلمه نگه داشته ایم، بنابراین به خاطر داشته باشید
823
00:28:30,080 –> 00:28:32,000
که به این دلیل است که ما توالی خروجی خود را به حداکثر رسانده ایم.
824
00:28:32,000 –> 00:28:34,399
طول تا 1800 کلمه در اینجا،
825
00:28:34,399 –> 00:28:36,240
پس این همان چیزی است که این شکل در اینجا
826
00:28:36,240 –> 00:28:38,159
نشان می دهد، بنابراین
827
00:28:38,159 –> 00:28:39,919
این تعداد مثال است،
828
00:28:39,919 –> 00:28:41,919
این حداکثر تعداد کلمات است در حال حاضر اگر یک
829
00:28:41,919 –> 00:28:43,760
جمله خاص با حداکثر آن مطابقت نداشته باشد،
830
00:28:43,760 –> 00:28:45,679
می توانید ببینید که فقط بقیه را با آن پر می کند.
831
00:28:45,679 –> 00:28:47,840
صفر سیستم عامل درست است، پس زمانی
832
00:28:47,840 –> 00:28:50,640
که توکنسازی کامل
833
00:28:50,640 –> 00:28:53,440
شد، بقیه آن 1800 مقدار را
834
00:28:53,440 –> 00:28:55,200
با صفر اضافه میکند، بنابراین این کار بهطور مؤثری
835
00:28:55,200 –> 00:28:56,399
کار میکند،
836
00:28:56,399 –> 00:28:58,159
بنابراین متن برداری شده ما است
837
00:28:58,159 –> 00:29:00,240
و اکنون بردار شده است، کار بعدی
838
00:29:00,240 –> 00:29:01,600
که میخواهیم انجام دهیم این است که در واقع ادامه دهید
839
00:29:01,600 –> 00:29:03,279
و مجموعه دادههای خود را ایجاد کنید، اجازه دهید
840
00:29:03,279 –> 00:29:04,960
تا اینجا را به سرعت خلاصه
841
00:29:04,960 –> 00:29:06,240
کنیم، بنابراین ما رفتهایم و لایه برداری متن خود را وارد
842
00:29:06,240 –> 00:29:08,000
کردهایم
843
00:29:08,000 –> 00:29:10,480
و متغیرهای x و y خود را ایجاد کردهایم، سپس
844
00:29:10,480 –> 00:29:12,240
رفتهایم و لایه برداری متن را نمونهسازی کردهایم
845
00:29:12,240 –> 00:29:14,000
و آموزش دادهایم. بنابراین
846
00:29:14,000 –> 00:29:15,279
بیایید فقط چیزهایی را که به
847
00:29:15,279 –> 00:29:17,520
آن نیاز نداریم حذف کنیم،
848
00:29:17,520 –> 00:29:20,159
اوه، ما هم به این
849
00:29:20,159 –> 00:29:22,000
نیاز نداریم، بنابراین ما رفتیم و آن را آموزش دادیم تا
850
00:29:22,000 –> 00:29:23,919
بتوانیم واژگان خود را یاد بگیریم.
851
00:29:23,919 –> 00:29:25,440
852
00:29:25,440 –> 00:29:26,799
انگشتان من
853
00:29:26,799 –> 00:29:28,799
قرار است آن را در نسخه بعدی اصلاح کنند و ما در
854
00:29:28,799 –> 00:29:30,320
واقع همه آن را بردار کرده
855
00:29:30,320 –> 00:29:31,760
ایم، بنابراین اکنون رفته ایم و من
856
00:29:31,760 –> 00:29:33,120
آن را بردار می
857
00:29:33,120 –> 00:29:35,919
نامم، اما به طور موثر مجموعه داده ها را نشانه گذاری می کند و
858
00:29:35,919 –> 00:29:37,360
این چیزی که ما در
859
00:29:37,360 –> 00:29:39,279
داخل vec خود به دست می آوریم
860
00:29:39,279 –> 00:29:40,399
اکنون کاری که میخواهیم انجام دهیم این است
861
00:29:40,399 –> 00:29:42,320
که یک خط لوله داده تنسورفلو ایجاد میکنیم،
862
00:29:42,320 –> 00:29:44,559
بنابراین
863
00:29:44,559 –> 00:29:46,080
وقتی صحبت از رفتن و آموزش مدلهای یادگیری عمیق شما به میان میآید، زندگی ما را بسیار آسانتر میکند
864
00:29:46,080 –> 00:29:47,360
865
00:29:47,360 –> 00:29:49,679
و به ویژه زمانی مفید است که
866
00:29:49,679 –> 00:29:51,520
شما دادههایی داریم که نمیتوانند در
867
00:29:51,520 –> 00:29:53,360
حافظه جای بگیرند، بنابراین ما در واقع صد
868
00:29:53,360 –> 00:29:55,919
و شصت هزار نمونه از
869
00:29:55,919 –> 00:29:57,440
نظرات سمی و غیرسمی دریافت کردهایم، بنابراین
870
00:29:57,440 –> 00:29:59,760
اگر بزرگتر شود، این
871
00:29:59,760 –> 00:30:02,159
خط لوله داده به شما کمک
872
00:30:02,159 –> 00:30:03,360
873
00:30:03,360 –> 00:30:05,760
میکند. نمیدانم آموزش مبتدی را دیدهاید یا
874
00:30:05,760 –> 00:30:07,360
نه، اما من یادداشتی دارم که این را
875
00:30:07,360 –> 00:30:08,720
به خاطر بسپارید، من فقط
876
00:30:08,720 –> 00:30:10,799
mikshabap را به یاد میآورم، بنابراین هر زمان که
877
00:30:10,799 –> 00:30:12,159
یک مجموعه داده ایجاد میکنید، فقط باید به
878
00:30:12,159 –> 00:30:13,840
یاد داشته باشید که معمولاً باید
879
00:30:13,840 –> 00:30:15,440
در نقشه در نقشه نقشه برداری کنید. این مورد اما شما
880
00:30:15,440 –> 00:30:16,480
به یاد داشته باشید که
881
00:30:16,480 –> 00:30:20,080
حافظه پنهان c در مکشباب s این است که
882
00:30:20,080 –> 00:30:22,880
بچ درهم آمیخته b prefetch p است، بنابراین اگر
883
00:30:22,880 –> 00:30:24,240
میک شبات را به خاطر دارید بگذارید
884
00:30:24,240 –> 00:30:27,279
این را در اینجا بنویسم merc shabap
885
00:30:27,279 –> 00:30:29,520
h اوه را نادیده بگیرید، خوب ما آن را در
886
00:30:29,520 –> 00:30:32,000
این مخلوط مورد خاص رها می کنیم. bap
887
00:30:32,000 –> 00:30:34,480
تولید خط لوله داده پایه است n تنظیم کنید تا
888
00:30:34,480 –> 00:30:36,799
مخفف map cache
889
00:30:36,799 –> 00:30:37,919
shuffle
890
00:30:37,919 –> 00:30:40,399
batch و سپس واکشی اولیه باشد،
891
00:30:40,399 –> 00:30:41,840
بنابراین این سادهترین راه برای به یاد آوردن
892
00:30:41,840 –> 00:30:43,120
نحوه ساخت این
893
00:30:43,120 –> 00:30:45,200
خطوط لوله داده است که چگونه خطوط لوله داده را نمونهسازی میکنید
894
00:30:45,200 –> 00:30:47,679
، معمولاً دو راه است،
895
00:30:47,679 –> 00:30:51,520
بنابراین یا از برشهای تانسور
896
00:30:51,520 –> 00:30:52,320
یا
897
00:30:52,320 –> 00:30:53,440
فهرست است
898
00:30:53,440 –> 00:30:55,440
، فکر میکنم این است. فهرست دایرکتوری یا لیست
899
00:30:55,440 –> 00:30:59,600
فایلها چیست tf.data.dataset
900
00:30:59,600 –> 00:31:01,360
901
00:31:01,360 –> 00:31:04,399
فایلهای فهرست نقطه نقطهای
902
00:31:04,399 –> 00:31:06,320
اگر میخواهید یک آموزش در
903
00:31:06,320 –> 00:31:08,080
مورد مجموعه دادههای tensorflow میخواهید به من اطلاع دهید و ما آن را بررسی میکنیم،
904
00:31:08,080 –> 00:31:10,000
اما در اینجا ما در
905
00:31:10,000 –> 00:31:11,360
واقع پنج خط داریم، بنابراین اول
906
00:31:11,360 –> 00:31:12,720
ما مجموعه دادههای خود را ایجاد میکنیم و سپس
907
00:31:12,720 –> 00:31:15,120
هر مرحله یک مرحله پیشپردازش دادههای بعدی را اعمال
908
00:31:15,120 –> 00:31:17,760
909
00:31:17,760 –> 00:31:18,840
910
00:31:18,840 –> 00:31:20,720
میکنیم، بنابراین مجموعه دادهها برابر با tf.data.dataset است و از آن روش،
911
00:31:20,720 –> 00:31:23,200
روش from tensorslices را ارسال میکنیم یا از آن استفاده میکنیم
912
00:31:23,200 –> 00:31:24,159
913
00:31:24,159 –> 00:31:25,519
و سپس به چه چیزی میرویم. برای انجام این کار
914
00:31:25,519 –> 00:31:26,799
این است که ما از
915
00:31:26,799 –> 00:31:28,080
دادههای خود که به تازگی ایجاد کردهایم
916
00:31:28,080 –> 00:31:29,360
عبور میدهیم، بنابراین از متن بردار خود
917
00:31:29,360 –> 00:31:30,640
918
00:31:30,640 –> 00:31:32,399
عبور میکنیم و همچنین از برچسبهای خود عبور میکنیم، بنابراین این
919
00:31:32,399 –> 00:31:34,320
ویژگیهای ورودی ما است. و این
920
00:31:34,320 –> 00:31:36,159
من متغیر هدف ما است، بنابراین متن را بردارید
921
00:31:36,159 –> 00:31:37,360
و y،
922
00:31:37,360 –> 00:31:38,159
بنابراین
923
00:31:38,159 –> 00:31:39,919
اگر ما برویم و این خط را اجرا کنیم، در واقع
924
00:31:39,919 –> 00:31:41,440
میتوانیم همه اینها را اجرا کنیم، زیرا هیچ چیز دیگری قرار نیست
925
00:31:41,440 –> 00:31:43,039
مجموعه دادهها را تغییر دهد،
926
00:31:43,039 –> 00:31:44,480
این فقط
927
00:31:44,480 –> 00:31:46,559
مراحل خط لوله است، بنابراین یک
928
00:31:46,559 –> 00:31:48,960
مجموعه داده نوشته شده برابر است. dataset.k بنابراین
929
00:31:48,960 –> 00:31:50,720
دادههای شما را مورد استفاده قرار میدهد، سپس ما آنها را به هم میزنیم
930
00:31:50,720 –> 00:31:53,360
تا مجموعه داده برابر با dataset.shuffle باشد و
931
00:31:53,360 –> 00:31:55,039
در حال بررسی میزان بزرگی اندازه بافر ما هستیم،
932
00:31:55,039 –> 00:31:56,720
933
00:31:56,720 –> 00:31:59,039
سپس مجموعه دادهها برابر با dataset است. دستهای این مجموعه آنها را جمعآوری
934
00:31:59,039 –> 00:32:01,200
میکنیم، بنابراین اکنون ما در واقع
935
00:32:01,200 –> 00:32:04,720
هر دسته را بهعنوان یک سری 16
936
00:32:04,720 –> 00:32:06,559
نمونه نشان میدهیم و سپس آن را از قبل واکشی میکنیم،
937
00:32:06,559 –> 00:32:08,000
بنابراین نکته خوب در مورد Prefetch این است
938
00:32:08,000 –> 00:32:10,480
که کمک میکند از
939
00:32:10,480 –> 00:32:14,080
ایجاد گلوگاه یا ابزار بعدی جلوگیری کند،
940
00:32:14,080 –> 00:32:15,039
941
00:32:15,039 –> 00:32:16,799
بنابراین اگر ما برویم و آن را اجرا کنیم خیلی خوب
942
00:32:16,799 –> 00:32:18,320
است ما در واقع میتوانیم به من اجازه بدهیم به شما نشان دهم که چگونه
943
00:32:18,320 –> 00:32:19,919
میتوانید دادهها را از این خارج کنید، بنابراین
944
00:32:19,919 –> 00:32:21,679
میتوانیم نقطه مجموعه دادهها را
945
00:32:21,679 –> 00:32:24,080
بهعنوان نقطه تکرارکننده numpy تایپ کنیم،
946
00:32:24,080 –> 00:32:25,840
بنابراین یک دسته بهدست میآید
947
00:32:25,840 –> 00:32:26,720
948
00:32:26,720 –> 00:32:28,320
و بنابراین میتوانید در اینجا دسته ما را به
949
00:32:28,320 –> 00:32:31,440
عنوان متن نمایش داده شود
950
00:32:31,440 –> 00:32:33,919
فرمت برداری آن به اضافه تمام l abels بنابراین
951
00:32:33,919 –> 00:32:35,360
می توانید اینجا را ببینید به نظر نمی
952
00:32:35,360 –> 00:32:37,679
رسد که ما واقعاً هیچ نمونه سمی داریم،
953
00:32:37,679 –> 00:32:39,760
بنابراین تمام صفرها در سراسر صفحه
954
00:32:39,760 –> 00:32:42,000
مجموعه داده به عنوان numpy iterator.next
955
00:32:42,000 –> 00:32:44,159
در واقع متن ما را دریافت می کند
956
00:32:44,159 –> 00:32:46,880
بنابراین ما می توانیم واقعاً این را از بسته بندی باز
957
00:32:46,880 –> 00:32:50,640
کنیم. پس بیایید به دسته x
958
00:32:50,640 –> 00:32:53,279
دسته y برویم
959
00:32:53,760 –> 00:32:56,080
بنابراین دسته x نمونه های متن برداری شده ما خواهد بود
960
00:32:56,080 –> 00:32:58,159
که می توانید در آنجا ببینید
961
00:32:58,159 –> 00:33:00,399
و ما می توانیم به شکل نقطه تایپ کنیم
962
00:33:00,399 –> 00:33:02,399
بنابراین می توانید ببینید که ما 16 نمونه داریم و
963
00:33:02,399 –> 00:33:04,640
هر کدام حداکثر 1800 کلمه هستند. و
964
00:33:04,640 –> 00:33:06,399
سپس اگر به y خود نگاهی بیندازیم،
965
00:33:06,399 –> 00:33:08,720
همه باید دوباره برچسب های ما باشند، 16
966
00:33:08,720 –> 00:33:12,000
نمونه و به عنوان
967
00:33:12,000 –> 00:33:14,080
بردار مقدار شش نشان داده می شود، بنابراین
968
00:33:14,080 –> 00:33:16,320
در هر یک از آن بردارها شش مقدار
969
00:33:16,320 –> 00:33:19,120
سرد داریم، بنابراین مجموعه داده های ما اکنون ایجاد شده است.
970
00:33:19,120 –> 00:33:20,320
کار بعدی که ما واقعاً
971
00:33:20,320 –> 00:33:22,000
میخواهیم انجام دهیم این است که برویم و اعتبار آموزشی و پارتیشنهای آزمایشی خود را ایجاد کنیم،
972
00:33:22,000 –> 00:33:24,559
973
00:33:24,559 –> 00:33:26,720
بنابراین این یک چیز خوب دیگر در مورد
974
00:33:26,720 –> 00:33:28,640
خط لوله داده است، بنابراین ما میتوانیم در واقع برویم
975
00:33:28,640 –> 00:33:30,720
و شروع به برداشت یا پارتیشن بندی
976
00:33:30,720 –> 00:33:31,919
اجزا کنیم، بنابراین در اینجا
977
00:33:31,919 –> 00:33:34,000
مجموعه دادهها را نوشتهایم. بگیریم و 70 را برداریم
978
00:33:34,000 –> 00:33:36,880
از طول مجموعه داده ها، بنابراین این
979
00:33:36,880 –> 00:33:38,080
بدان معنی است که ما به طور موثر
980
00:33:38,080 –> 00:33:40,720
70 را به پارتیشن آموزشی خود اختصاص خواهیم داد،
981
00:33:40,720 –> 00:33:41,679
بنابراین
982
00:33:41,679 –> 00:33:42,960
اولین چیزی که ما محاسبه می
983
00:33:42,960 –> 00:33:44,559
کنیم طول مجموعه داده ما است، بنابراین اگر
984
00:33:44,559 –> 00:33:46,880
مجموعه داده len را
985
00:33:46,880 –> 00:33:48,200
درست تایپ کنیم، می دانیم که
986
00:33:48,200 –> 00:33:50,880
9974 دسته، نمونه نیستند،
987
00:33:50,880 –> 00:33:52,159
درست دستهای هستند، زیرا به یاد داشته باشید که
988
00:33:52,159 –> 00:33:54,000
ما دادههایمان را در اینجا دستهبندی کردهایم، بنابراین
989
00:33:54,000 –> 00:33:57,679
واقعاً بیشتر شبیه به آن مقدار داده است،
990
00:33:57,679 –> 00:33:59,360
خیلی خوب است، بنابراین
991
00:33:59,360 –> 00:34:01,519
طول خود را میگیریم و سپس میتوانیم در 0.7 ضرب کنیم، بنابراین
992
00:34:01,519 –> 00:34:03,279
این بدان معناست که ما
993
00:34:03,279 –> 00:34:03,960
آن
994
00:34:03,960 –> 00:34:06,320
6981 دسته را برای آموزش خود می گیریم
995
00:34:06,320 –> 00:34:08,719
و آن را به یک عدد صحیح تبدیل
996
00:34:08,719 –> 00:34:09,760
997
00:34:09,760 –> 00:34:12,879
می کنیم سپس می توانیم از data.take برای برداشتن یا
998
00:34:12,879 –> 00:34:15,440
برداشتن آن پارتیشن از داده ها و
999
00:34:15,440 –> 00:34:16,879
اختصاص آن به یک متغیر استفاده کنیم و این
1000
00:34:16,879 –> 00:34:18,000
دقیقاً همان چیزی است که ما در آنجا این کار را انجام
1001
00:34:18,000 –> 00:34:19,839
میدهیم تا data.take را انجام دهیم و
1002
00:34:19,839 –> 00:34:21,399
مشخص میکنیم که
1003
00:34:21,399 –> 00:34:24,639
6981 دسته در مجموعه داده قطار خود
1004
00:34:24,639 –> 00:34:26,000
میخواهیم و سپس
1005
00:34:26,000 –> 00:34:28,399
برای اعتبارسنجی و آزمایش پارتیشنهایمان کاری مشابه انجام میدهیم
1006
00:34:28,399 –> 00:34:29,918
، بزرگترین تفاوت این است که در حال
1007
00:34:29,918 –> 00:34:32,480
پاس کردن هستیم. از طریق نقطه پرش قبل ما می رویم
1008
00:34:32,480 –> 00:34:35,040
و زنجیر روی.take بنابراین نقطه
1009
00:34:35,040 –> 00:34:36,960
پرش مشخص می کند که ما می خواهیم برای شروع یک
1010
00:34:36,960 –> 00:34:39,040
پارتیشن خاص را نادیده بگیریم، بنابراین
1011
00:34:39,040 –> 00:34:40,719
به خاطر داشته باشید که پارتیشن آموزشی ما
1012
00:34:40,719 –> 00:34:43,199
70 کل داده ما است، بنابراین ما اولین چیزی هستیم که من از
1013
00:34:43,199 –> 00:34:45,199
آن رد می شوم. آن 70
1014
00:34:45,199 –> 00:34:47,119
سپس ما 20 را
1015
00:34:47,119 –> 00:34:49,520
به عنوان پارتیشن اعتبار سنجی خود در آنجا
1016
00:34:49,520 –> 00:34:51,199
می گیریم، بنابراین می توانید ببینید که 70 را رد می کنیم، سپس می
1017
00:34:51,199 –> 00:34:53,440
رویم و 20 مورد دیگر را می
1018
00:34:53,440 –> 00:34:55,918
گیریم، سپس می رویم و 90 را رد می کنیم زیرا
1019
00:34:55,918 –> 00:34:57,760
این پارتیشن قطار و اعتبار سنجی
1020
00:34:57,760 –> 00:34:59,680
قرار داده شده است. با هم می توانید
1021
00:34:59,680 –> 00:35:00,960
0.9 را در آنجا
1022
00:35:00,960 –> 00:35:02,800
0.9 ببینید، اجازه دهید من
1023
00:35:02,800 –> 00:35:06,000
همانجا 0.9 بزرگنمایی کنم، بله عالی است
1024
00:35:06,000 –> 00:35:07,200
و سپس ما می رویم و
1025
00:35:07,200 –> 00:35:08,720
10 درصد آخر را می گیریم و آن را
1026
00:35:08,720 –> 00:35:10,480
به پارتیشن آزمایشی خود اختصاص می دهیم، بنابراین اگر من بروم و اجرا
1027
00:35:10,480 –> 00:35:11,359
کنم
1028
00:35:11,359 –> 00:35:13,520
این بدان معنی است که ما قبلاً به شما نشان
1029
00:35:13,520 –> 00:35:17,760
دادهایم که این بدان معناست که طول قطار
1030
00:35:17,760 –> 00:35:18,760
1031
00:35:18,760 –> 00:35:20,880
6981 دسته طول
1032
00:35:20,880 –> 00:35:23,320
پارتیشن اعتبار سنجی ما
1033
00:35:23,320 –> 00:35:26,320
1994 دسته است و طول پارتیشن آزمایشی ما
1034
00:35:26,320 –> 00:35:30,640
997 دسته است و دوباره این
1035
00:35:30,640 –> 00:35:32,000
خط پایین اینجا به نوعی به شما نشان میدهد که چگونه
1036
00:35:32,000 –> 00:35:33,599
میتوانید بروید و دریافت کنید. به صورت دستهای تهیه میشود، اما من
1037
00:35:33,599 –> 00:35:36,079
قبلاً آن را در آنجا نشان دادهام، بنابراین ما ج
1038
00:35:36,079 –> 00:35:38,480
هر چیزی که مجموعه دادهها نقطهای است بهعنوان
1039
00:35:38,480 –> 00:35:40,560
تکرارکننده numpy اجرا کنید، بنابراین در واقع
1040
00:35:40,560 –> 00:35:42,800
یک ژنراتور ایجاد یا ایجاد میکند و سپس نقطه بعدی را برای
1041
00:35:42,800 –> 00:35:44,320
دریافت دسته بعدی، بنابراین میتوانیم در واقع
1042
00:35:44,320 –> 00:35:45,760
um
1043
00:35:45,760 –> 00:35:48,800
train generator
1044
00:35:48,800 –> 00:35:51,280
را تایپ کنیم و سپس میتوانیم در
1045
00:35:51,280 –> 00:35:53,119
مرحله بعد، نقطه ژنراتور قطار
1046
00:35:53,119 –> 00:35:54,800
را تایپ کنیم. به تدریج از طریق
1047
00:35:54,800 –> 00:35:56,240
دستههای ما به درستی گام بردارید، بنابراین اگر من بروم و دوباره آن را اجرا کنم،
1048
00:35:56,240 –> 00:35:57,920
میتوانید ببینید که در حال تغییر است، دوباره آن را اجرا
1049
00:35:57,920 –> 00:36:00,960
کنید، بنابراین وقتی ما واقعاً میرویم
1050
00:36:00,960 –> 00:36:03,200
و آموزش میدهیم که چگونه مدل ما واقعاً این کار را انجام میدهد
1051
00:36:03,200 –> 00:36:05,440
، واقعاً یا مدل یادگیری عمیق ما
1052
00:36:05,440 –> 00:36:06,880
واقعاً این کار را انجام میدهد.
1053
00:36:06,880 –> 00:36:07,680
1054
00:36:07,680 –> 00:36:09,680
اینکه از یک Batch Go عبور کند و
1055
00:36:09,680 –> 00:36:11,280
از یک مسیر خاص عبور
1056
00:36:11,280 –> 00:36:12,880
کند، به یک گذر به جلو می رود، سپس
1057
00:36:12,880 –> 00:36:14,720
می رود و یک گذر به عقب انجام می دهد و
1058
00:36:14,720 –> 00:36:16,079
گرادیان ها را به روز می کند و سپس به
1059
00:36:16,079 –> 00:36:18,560
دسته بعدی می رود همین کار را انجام دهید. و
1060
00:36:18,560 –> 00:36:20,240
راهی که به دسته بعدی می رود این است که در
1061
00:36:20,240 –> 00:36:22,240
حال اجرا کردن نقطه بعدی برای رفتن و گرفتن
1062
00:36:22,240 –> 00:36:24,240
دسته بعدی و دوباره عبور به جلو به
1063
00:36:24,240 –> 00:36:26,640
عقب به روز رسانی گرادیان
1064
00:36:26,640 –> 00:36:27,680
خنک است،
1065
00:36:27,680 –> 00:36:29,280
بنابراین ما چه کار کردیم و انجام دادیم،
1066
00:36:29,280 –> 00:36:32,160
اکنون رفته ایم و داده های خود را از قبل پردازش کرده ایم.
1067
00:36:32,160 –> 00:36:33,760
ما رفتیم و از یک لایه برداری متن
1068
00:36:33,760 –> 00:36:36,320
استفاده کردیم و آن را توکن
1069
00:36:36,320 –> 00:36:39,359
کردیم، رفتیم و مجموعه داده های خود را ایجاد کردیم، بنابراین رفتیم
1070
00:36:39,359 –> 00:36:40,800
و از متن بردار
1071
00:36:40,800 –> 00:36:43,280
شده و همچنین همه برچسب هایمان عبور کردیم و سپس
1072
00:36:43,280 –> 00:36:44,960
رفتیم و تست آموزشی خود را ایجاد کردیم
1073
00:36:44,960 –> 00:36:47,200
و دوستان پارتیشنهای اعتبارسنجی به یاد داشته باشید که
1074
00:36:47,200 –> 00:36:49,119
همه این کدها در داخل github موجود است،
1075
00:36:49,119 –> 00:36:50,320
بنابراین اگر میخواهید آن را انتخاب کنید،
1076
00:36:50,320 –> 00:36:52,079
همه آنها در آنجا در دسترس خواهند بود، اما با
1077
00:36:52,079 –> 00:36:54,480
توجه به این نکته که مرحله پیشپردازش ما
1078
00:36:54,480 –> 00:36:56,400
اکنون انجام شده است، اجازه دهید
1079
00:36:56,400 –> 00:36:59,599
به مشتری خود برگردیم و ببینید
1080
00:37:01,119 –> 00:37:02,960
بعدش چی می شه خوب پس بالاخره به سمت
1081
00:37:02,960 –> 00:37:05,280
یادگیری عمیق خوب
1082
00:37:05,280 –> 00:37:09,760
می رویم پس چقدر