فیلم آموزشی: با یادگیری عمیق و پایتون یک مدل سمیت نظر بسازید با زیرنویس فارسی

در این مطلب، ویدئو با یادگیری عمیق و پایتون یک مدل سمیت نظر بسازید با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:12:45

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:00,000 –> 00:00:01,920
وب می‌تواند یک مکان بسیار واضح باشد،

2
00:00:01,920 –> 00:00:04,720
گاهی اوقات نظرات می‌توانند به

3
00:00:04,720 –> 00:00:06,879
خوبی سمی شوند در این ویدیو،

4
00:00:06,879 –> 00:00:08,480
ما می‌خواهیم به نحوه

5
00:00:08,480 –> 00:00:10,480
تشخیص آنها با استفاده از یادگیری عمیق نگاهی بیندازیم. اجازه دهید

6
00:00:10,480 –> 00:00:12,360
آن را انجام دهیم

7
00:00:12,360 –> 00:00:15,430
[Music]

8
00:00:30,230 –> 00:00:33,550
[Music]

9
00:00:38,640 –> 00:00:39,760

10
00:00:39,760 –> 00:00:41,520
نیکلاس فرونوت و در این ویدیو ما

11
00:00:41,520 –> 00:00:43,520
قصد داریم به

12
00:00:43,520 –> 00:00:46,079
سمیت رایج نگاهی بیندازیم تا بتوانیم

13
00:00:46,079 –> 00:00:48,640
جملاتی از زبان طبیعی را

14
00:00:48,640 –> 00:00:50,640
از طریق یک مدل یادگیری عمیق عبور دهیم و

15
00:00:50,640 –> 00:00:52,559
عناصر مختلف سمیت را

16
00:00:52,559 –> 00:00:55,199
در آنها تشخیص دهیم. مواردی مانند

17
00:00:55,199 –> 00:00:58,480
سمیت شدید سمیت اساسی اگر

18
00:00:58,480 –> 00:01:00,719
چیزی به عنوان سمیت اساسی

19
00:01:00,719 –> 00:01:02,079
وجود داشته باشد، چه تهدیدهایی در

20
00:01:02,079 –> 00:01:04,159
آن جملات و غیره وجود داشته باشد یا نه، ما می‌توانیم

21
00:01:04,159 –> 00:01:05,920
این موضوع را با جزئیات بیشتری ببینیم زیرا

22
00:01:05,920 –> 00:01:08,240
اکنون به داده‌های خود در این نگاه می‌کنیم.

23
00:01:08,240 –> 00:01:09,600
آموزش ما یک

24
00:01:09,600 –> 00:01:11,360
سری چیزها را پوشش می دهیم، اما به طور خاص

25
00:01:11,360 –> 00:01:13,200
ابتدا روی بارگذاری داده هایمان تمرکز می

26
00:01:13,200 –> 00:01:14,960
کنیم، سپس نگاهی

27
00:01:14,960 –> 00:01:16,640
به کارهایی که باید برای پیش پردازش

28
00:01:16,640 –> 00:01:18,320
آن اطلاعات انجام دهیم بیاندازیم. بنابراین ما به طور خاص

29
00:01:18,320 –> 00:01:20,960
یک را می گیریم به توکن سازی نگاه کنید، ما همچنین

30
00:01:20,960 –> 00:01:22,640
شبکه عصبی عمیق خود را از

31
00:01:22,640 –> 00:01:24,000
ابتدا ایجاد خواهیم کرد، بنابراین این شامل یک

32
00:01:24,000 –> 00:01:25,520
لایه جاسازی برای مقابله با

33
00:01:25,520 –> 00:01:27,680
زبان طبیعی است، سپس آن را آزمایش می کنیم تا

34
00:01:27,680 –> 00:01:28,880
ببینیم که آیا واقعاً می

35
00:01:28,880 –> 00:01:31,119
تواند سمیت را تشخیص دهد یا خیر. همچنین

36
00:01:31,119 –> 00:01:32,720
در پایان یک گرادیان ایجاد می‌کنیم تا بتوانیم

37
00:01:32,720 –> 00:01:34,799
مدل آماده انجام آن را آزمایش کنیم، بیایید

38
00:01:34,799 –> 00:01:37,280
به آن

39
00:01:38,720 –> 00:01:41,200
برسیم، نیک ما اخیراً در کانال

40
00:01:41,200 –> 00:01:42,799
شل ما با قلدرها مشکل داشتیم.

41
00:01:42,799 –> 00:01:44,399

42
00:01:44,399 –> 00:01:48,960
آن صفحه کلید دوباره نه نه نه

43
00:01:49,119 –> 00:01:51,040
من سوگند می خورم آیا کاری وجود دارد که می توانید

44
00:01:51,040 –> 00:01:53,520
با ml انجام دهید تا آن را شناسایی کنید و شاید آن را متوقف کنید

45
00:01:53,520 –> 00:01:55,680
مطمئن باشید که می توانیم از یادگیری عمیق برای تشخیص

46
00:01:55,680 –> 00:01:57,439
سمیت استفاده کنیم خوب آنچه برای

47
00:01:57,439 –> 00:01:59,680
شروع ایده آل نیاز دارید برخی از نظرات مبتنی بر متن

48
00:01:59,680 –> 00:02:01,360
و آنها برچسب‌های مرتبط

49
00:02:01,360 –> 00:02:02,719
در مورد سمی بودن یا نبودن آن‌ها، ما در

50
00:02:02,719 –> 00:02:04,240
واقع این را به عنوان یک مشکل یادگیری تحت نظارت مدل‌سازی می‌کنیم.

51
00:02:04,240 –> 00:02:06,320
چگونه از

52
00:02:06,320 –> 00:02:07,680
آنها برای یادگیری عمیق استفاده می‌کنید، بیایید

53
00:02:07,680 –> 00:02:09,520
به تخته سفید برویم تا بچه‌های خوب

54
00:02:09,520 –> 00:02:11,760
به تخته شکست خوش آمدید،

55
00:02:11,760 –> 00:02:13,920
پس چگونه دقیقا همینطوره ما قصد داریم

56
00:02:13,920 –> 00:02:16,400
این مدل سمیت نظر را به خوبی

57
00:02:16,400 –> 00:02:17,680
بسازیم،

58
00:02:17,680 –> 00:02:20,879
ابتدا با مجموعه داده‌های خود در قالب csv

59
00:02:20,879 –> 00:02:23,280

60
00:02:23,280 –> 00:02:25,440
شروع می‌کنیم که در اینجا تکمیل می‌شود و این

61
00:02:25,440 –> 00:02:28,000
مجموعه داده‌ها در واقع از

62
00:02:28,000 –> 00:02:30,080
چالش سمیت نظرات Kaggle می‌آیند. که من

63
00:02:30,080 –> 00:02:32,319
فکر می کنم توسط شرکتی به نام Jigsaw میزبانی می شود،

64
00:02:32,319 –> 00:02:34,319
بنابراین ما در واقع این مجموعه داده

65
00:02:34,319 –> 00:02:36,800
را داریم که می توانیم اکنون

66
00:02:36,800 –> 00:02:38,879
از نظر این ورودی یا آنچه در واقع به

67
00:02:38,879 –> 00:02:40,959
نظر می رسد ما در واقع

68
00:02:40,959 –> 00:02:44,480
یک سری نظرات داشته باشیم

69
00:02:44,720 –> 00:02:46,879
و اینها هستند. واقعاً فقط رشته ای خواهد بود،

70
00:02:46,879 –> 00:02:49,440
بنابراین ممکن است نظراتی مانند

71
00:02:49,440 –> 00:02:51,440
من از شما

72
00:02:51,440 –> 00:02:53,599
متنفرم، دوستت دارم

73
00:02:53,599 –> 00:02:56,400
و اوه،

74
00:02:56,400 –> 00:02:59,280

75
00:03:00,319 –> 00:03:02,080
از نظر برچسب هایی که در

76
00:03:02,080 –> 00:03:03,680
واقع

77
00:03:03,680 –> 00:03:05,920
به هر یک از اینها چسبانده شده است، می آیم برای شما. جملاتی که اینها

78
00:03:05,920 –> 00:03:08,080
چند خروجی خواهند داشت، بنابراین ممکن است

79
00:03:08,080 –> 00:03:10,319
درجه بندی های مختلفی از سمیت داشته باشیم،

80
00:03:10,319 –> 00:03:12,400
ممکن است این نظر را داشته باشیم که آیا نظر

81
00:03:12,400 –> 00:03:14,000
نسبتاً سمی است یا نه،

82
00:03:14,000 –> 00:03:16,239
خواه به شدت سمی باشد یا نه،

83
00:03:16,239 –> 00:03:18,239
خواه تهدید باشد یا نباشد یا نژادپرستانه باشد یا نه، بنابراین

84
00:03:18,239 –> 00:03:19,840
ما آ در واقع

85
00:03:19,840 –> 00:03:21,680
نتایج متفاوتی خواهیم داشت که اکنون می توانیم یک نظر خاص را درجه بندی کنیم،

86
00:03:21,680 –> 00:03:23,760
این واقعاً

87
00:03:23,760 –> 00:03:25,360
بسیار مفید است زیرا به

88
00:03:25,360 –> 00:03:27,760
شما امکان می دهد ارزیابی کنید که یک نظر خاص چقدر رایج یا چقدر سمی

89
00:03:27,760 –> 00:03:29,440
است و کدام

90
00:03:29,440 –> 00:03:31,599
جزء آن واقعاً سمی است، بنابراین

91
00:03:31,599 –> 00:03:33,159
برچسب های ما واقعاً به این نتیجه می رسند.

92
00:03:33,159 –> 00:03:35,200
چند باینری باشد بنابراین

93
00:03:35,200 –> 00:03:37,760
اولین نظر ما ممکن است um باشد،

94
00:03:37,760 –> 00:03:39,920
یعنی فرض کنید در این مورد خاص

95
00:03:39,920 –> 00:03:41,760
نسبتاً سمی است، بنابراین ممکن است یک مورد

96
00:03:41,760 –> 00:03:42,560
در اینجا

97
00:03:42,560 –> 00:03:44,640
داشته باشیم که به شدت سمی نیست، بنابراین ممکن

98
00:03:44,640 –> 00:03:47,280
است صفر داشته باشیم، تهدیدی نیست، بنابراین دوباره

99
00:03:47,280 –> 00:03:49,360
ممکن است یک مورد داشته باشیم. صفر و این مقدار

100
00:03:49,360 –> 00:03:51,920
کمی بزرگ شده است و همچنین ممکن است در

101
00:03:51,920 –> 00:03:53,120
مورد خاص ما

102
00:03:53,120 –> 00:03:55,680
نژادپرستانه نباشد، بنابراین ممکن است در آنجا صفر داشته باشیم،

103
00:03:55,680 –> 00:03:57,840
بنابراین این در واقع به ما اجازه می دهد تا ارزیابی

104
00:03:57,840 –> 00:03:59,920
کنیم که یک نظر خاص چقدر یا چقدر سمی

105
00:03:59,920 –> 00:04:02,159
است من تو را دوست دارم مورد خاص ما

106
00:04:02,159 –> 00:04:04,080
بسیار خوب است، بنابراین ممکن است

107
00:04:04,080 –> 00:04:06,159
صفرها را در سراسر صفحه داشته

108
00:04:06,159 –> 00:04:08,319
باشیم، اکنون آخرین نظر ما در

109
00:04:08,319 –> 00:04:10,319
مورد خاص ما می توانیم آن را ارزیابی کنیم و بگوییم که

110
00:04:10,319 –> 00:04:12,159
هی، بیایید بگوییم که

111
00:04:12,159 –> 00:04:14,560
نسبتاً سمی نیست، بنابراین ما خواهیم داشت.

112
00:04:14,560 –> 00:04:17,199
صفر بسیار سمی است بنابراین ممکن است یک داشته

113
00:04:17,199 –> 00:04:19,358
باشیم که حاوی یک تهدید است زیرا می گوید

114
00:04:19,358 –> 00:04:20,880
من برای شما می آیم پس ممکن

115
00:04:20,880 –> 00:04:23,280
است یک عدد داشته باشد و آخرین مقدار صفر است

116
00:04:23,280 –> 00:04:25,360
زیرا نژادپرستی در آنجا وجود ندارد

117
00:04:25,360 –> 00:04:26,479
بنابراین می توانید ببینید که

118
00:04:26,479 –> 00:04:27,360
ما نظراتی خواهیم داشت و

119
00:04:27,360 –> 00:04:29,840
برچسب‌های نتیجه دودویی مرتبطی خواهیم داشت که

120
00:04:29,840 –> 00:04:31,440
به آنها متصل می‌شوند، اما شما احتمالاً به این

121
00:04:31,440 –> 00:04:33,280
فکر می‌کنید که چگونه می‌توانیم واقعاً از

122
00:04:33,280 –> 00:04:36,720
این برای یک مشکل یادگیری عمیق استفاده کنیم و

123
00:04:36,720 –> 00:04:38,479
در واقع یک مورد را اعمال خواهیم کرد.

124
00:04:38,479 –> 00:04:41,120
مرحله پیش پردازش به نام توکن‌سازی،

125
00:04:41,120 –> 00:04:42,160
بنابراین اولین کاری که

126
00:04:42,160 –> 00:04:44,080
می‌خواهیم انجام دهیم این است که خروجی‌ها

127
00:04:44,080 –> 00:04:45,759
یا ورودی‌های خود را در واقع می‌گیریم و می‌خواهیم

128
00:04:45,759 –> 00:04:48,080
آنها را به توکن تبدیل کنیم.

129
00:04:48,080 –> 00:04:50,720

130
00:04:50,720 –> 00:04:52,000
ما

131
00:04:52,000 –> 00:04:53,440
همه این کلمات را در یک

132
00:04:53,440 –> 00:04:54,800
جمله خاص در نظر می گیریم و

133
00:04:54,800 –> 00:04:57,600
آنها را به دنباله ای از اعداد صحیح تبدیل می کنیم

134
00:04:57,600 –> 00:04:59,680
تا کلمه i برای مثال

135
00:04:59,680 –> 00:05:02,479
به عنوان عدد 42 نمایش داده شود. کلمه

136
00:05:02,479 –> 00:05:04,800
نفرت ممکن است به عنوان نشان داده شود. شماره

137
00:05:04,800 –> 00:05:05,759

138
00:05:05,759 –> 00:05:07,759
هشت کلمه تو ممکن است به عنوان

139
00:05:07,759 –> 00:05:10,479
عدد 56 نمایش داده شود اما نکته خوب در مورد این این

140
00:05:10,479 –> 00:05:12,160
است که شما نیازی به کدگذاری

141
00:05:12,160 –> 00:05:14,400
آنها ندارید یا خودتان آنها را به صورت دستی رمزگذاری کنید،

142
00:05:14,400 –> 00:05:16,720
ما در واقع یک لایه یا یک

143
00:05:16,720 –> 00:05:18,560
تابع کمکی در داخل keras داریم به نام

144
00:05:18,560 –> 00:05:21,120
تابع بردار متن و این در واقع

145
00:05:21,120 –> 00:05:23,280
این توکن سازی را برای ما به طور خودکار انجام می دهد

146
00:05:23,280 –> 00:05:24,800
و همچنین برخی

147
00:05:24,800 –> 00:05:27,919
از مراحل پیش پردازش اضافی را برای ما انجام می دهد، اما

148
00:05:27,919 –> 00:05:29,680
به خودی خود این اعداد

149
00:05:29,680 –> 00:05:31,520
واقعاً ارزش زیادی به مدل یادگیری عمیق ما اضافه نمی

150
00:05:31,520 –> 00:05:33,600
کنند، بنابراین آنچه که در واقع می توانیم

151
00:05:33,600 –> 00:05:35,360
انجام دهیم این است که آن را یک قدم جلوتر ببریم. و

152
00:05:35,360 –> 00:05:38,080
اینها را به یک جاسازی تبدیل کنید، حالا

153
00:05:38,080 –> 00:05:40,160
فکر کنید که بهترین دوست شما چقدر می‌تواند

154
00:05:40,160 –> 00:05:42,400
شما را بشناسد، آنها می‌دانند که دوست دارید

155
00:05:42,400 –> 00:05:44,240
چه بخورید چه چیزی را دوست دارید تماشا

156
00:05:44,240 –> 00:05:46,320
کنید، چه ویژگی‌های خاصی در شخصیت خود داشته باشید یا نه، مثلاً

157
00:05:46,320 –> 00:05:48,160
رنگ موهایتان، رنگ

158
00:05:48,160 –> 00:05:50,639
پوست، رنگ چشم‌هایتان.

159
00:05:50,639 –> 00:05:52,240
آنها همه این

160
00:05:52,240 –> 00:05:54,720
ویژگی های خاص را در مورد شما به خوبی می دانند، این

161
00:05:54,720 –> 00:05:57,039
شبیه به نحوه عملکرد یک جاسازی است.

162
00:05:57,039 –> 00:05:59,280

163
00:05:59,280 –> 00:06:01,199

164
00:06:01,199 –> 00:06:03,680
مقادیر صحیح یا شناور،

165
00:06:03,680 –> 00:06:07,360
بنابراین ممکن است در اینجا یک جاسازی داشته باشیم

166
00:06:07,360 –> 00:06:09,840
و این واقعاً فقط یک بردار دیگر است،

167
00:06:09,840 –> 00:06:13,280
بنابراین بردار ما برای عدد 42

168
00:06:13,280 –> 00:06:16,440
که نشان دهنده کلمه i ممکن است

169
00:06:16,440 –> 00:06:18,160
0.1 باشد

170
00:06:18,160 –> 00:06:19,919
، مقدار اول ممکن است 0.1 باشد، مقدار دوم

171
00:06:19,919 –> 00:06:23,440
ممکن است 0.2 باشد، مقدار سوم 0.7

172
00:06:23,440 –> 00:06:26,160
و آخرین 0.0 بنابراین این اعداد

173
00:06:26,160 –> 00:06:27,919
در واقع نشان دهنده ویژگی های خاصی

174
00:06:27,919 –> 00:06:29,759
در مورد آن کلمه هستند، اکنون دیگر

175
00:06:29,759 –> 00:06:31,360
نیازی به دانستن این ویژگی ها ندارید

176
00:06:31,360 –> 00:06:33,199
زیرا شبکه عصبی عمیق ما قرار

177
00:06:33,199 –> 00:06:35,199
است یاد بگیرد که این

178
00:06:35,199 –> 00:06:36,720
ویژگی های خاص و این

179
00:06:36,720 –> 00:06:38,960
مقادیر خاص در داخل تعبیه چه چیزی باید باشد. به

180
00:06:38,960 –> 00:06:41,039
همین ترتیب، ما یکی برای شماره هشت خود خواهیم داشت

181
00:06:41,039 –> 00:06:43,280
که نمایانگر کلمه

182
00:06:43,280 –> 00:06:48,080
نفرت است، بنابراین ممکن است 0.8 0.7 باشد، بنابراین

183
00:06:48,080 –> 00:06:49,919
فرض کنید این دو ویژگی اصلی در داخل

184
00:06:49,919 –> 00:06:52,479
تعبیه ما نشان دهنده میزان ذهنی

185
00:06:52,479 –> 00:06:54,880
بودن یا تهاجمی بودن آنها است و

186
00:06:54,880 –> 00:06:56,880
آخرین مورد ممکن است 0.2 باشد و دوباره من فقط

187
00:06:56,880 –> 00:06:58,479
اعداد تصادفی را در اینجا وصل می کنم تا به

188
00:06:58,479 –> 00:07:00,479
شما ایده بدهم که این چگونه به نظر می رسد

189
00:07:00,479 –> 00:07:02,400
و آخرین موردی که شما دارید،

190
00:07:02,400 –> 00:07:03,840
بنابراین بیایید بگوییم که بسیار ذهنی است

191
00:07:03,840 –> 00:07:06,160
. ممکن است 0.8 باشد، آن 0.1 نفرت انگیز نیست

192
00:07:06,160 –> 00:07:08,880
و دوباره چه کسی می داند که

193
00:07:08,880 –> 00:07:11,120
دو ویژگی آخر نشان دهنده چیست، اما جاسازی ما

194
00:07:11,120 –> 00:07:13,440
آنها را یاد می گیرد، بنابراین اکنون ما قول خود را

195
00:07:13,440 –> 00:07:15,520
گرفته ایم که آن را نشانه گذاری کرده ایم و همچنین

196
00:07:15,520 –> 00:07:17,599
آن را به یک جاسازی تبدیل کرده ایم.

197
00:07:17,599 –> 00:07:19,360
جایی که ما می‌توانیم آن را به یک شبکه عصبی عمیق منتقل کنیم،

198
00:07:19,360 –> 00:07:21,520
اکنون یک شبکه عصبی عمیق

199
00:07:21,520 –> 00:07:22,960
در این مورد خاص

200
00:07:22,960 –> 00:07:25,280
از تعدادی لایه lstm استفاده می‌کند و

201
00:07:25,280 –> 00:07:27,120
دلیل اینکه ما این لایه‌ها را انتخاب کرده‌ایم این است

202
00:07:27,120 –> 00:07:29,280
که وقتی صحبت از

203
00:07:29,280 –> 00:07:31,199
آن به میان می‌آید بسیار خوب هستند. کار با دنباله‌هایی

204
00:07:31,199 –> 00:07:33,039
که دقیقاً همان چیزی است که دنباله

205
00:07:33,039 –> 00:07:34,639
جاسازی‌های ما نشان می‌دهد،

206
00:07:34,639 –> 00:07:37,360
اکنون خروجی نهایی شبکه عصبی عمیق

207
00:07:37,360 –> 00:07:39,199
ما مجموعه‌ای از نتایج دودویی چندگانه خواهد بود،

208
00:07:39,199 –> 00:07:40,560
بنابراین ما در واقع

209
00:07:40,560 –> 00:07:42,800

210
00:07:42,800 –> 00:07:45,120
در مورد خاص خود تعدادی چند یک یا صفر خواهیم داشت.

211
00:07:45,120 –> 00:07:49,039
برگردیم به برچسب هایی که اینجا

212
00:07:49,039 –> 00:07:50,240
داشتیم، وقتی رفتیم و آموزش

213
00:07:50,240 –> 00:07:51,599
آن برچسب را تمام کردیم، در واقع آن را

214
00:07:51,599 –> 00:07:54,599
سریالی می کنیم، بنابراین آن را به

215
00:07:54,599 –> 00:07:57,199
فرمت h5 تبدیل می کنیم و اگر سریال مبتدی من را در دیپ l ندیده اید.

216
00:07:57,199 –> 00:07:58,879
کسب درامد را به

217
00:07:58,879 –> 00:08:00,240
هر طریقی انجام دهید و مراقب باشید، زیرا من

218
00:08:00,240 –> 00:08:02,160
بسیاری از این موارد را با جزئیات بسیار بیشتر توضیح می دهم،

219
00:08:02,160 –> 00:08:05,039
اما فرمت h5 ما به ما اجازه می دهد تا

220
00:08:05,039 –> 00:08:07,840
شبکه عصبی عمیق آموزش دیده

221
00:08:07,840 –> 00:08:09,840
خود را در دیسک یا هارد دیسک خود در مورد خاص خود ذخیره

222
00:08:09,840 –> 00:08:12,240
کنیم. انجام دهید این است

223
00:08:12,240 –> 00:08:14,160
که ما آن را یک قدم جلوتر

224
00:08:14,160 –> 00:08:16,080
برداریم، ما این مدل h5 را

225
00:08:16,080 –> 00:08:17,680
می‌گیریم و آن را در یک گرادینت ادغام می‌کنیم،

226
00:08:17,680 –> 00:08:19,520
بنابراین اگر قبلاً با

227
00:08:19,520 –> 00:08:21,520
gradio کار نکرده‌اید، این یک روش واقعا سبک است

228
00:08:21,520 –> 00:08:24,080
اما واقعاً قدرتمند است. ایجاد

229
00:08:24,080 –> 00:08:26,080
رابط های کاربری برای مدل های یادگیری عمیق شما،

230
00:08:26,080 –> 00:08:27,520
بنابراین ما در واقع قادر خواهیم بود از

231
00:08:27,520 –> 00:08:29,520
طریق یک نظر به برنامه رادیویی خود منتقل کنیم و

232
00:08:29,520 –> 00:08:31,759
این یک سری خروجی را نشان می دهد

233
00:08:31,759 –> 00:08:33,839
که نشان می دهد نظر ما

234
00:08:33,839 –> 00:08:34,719

235
00:08:34,719 –> 00:08:37,200
غیرسمی یا سمی است یا خیر، بنابراین ما می توانیم در واقع

236
00:08:37,200 –> 00:08:39,919
مدل خود را در زمان واقعی ببینید و آزمایش کنید و

237
00:08:39,919 –> 00:08:41,839
آماده انجام آن هستیم، بیایید شروع کنیم به

238
00:08:41,839 –> 00:08:45,839
کدنویسی خوب بچه ها، بنابراین سمیت را نظر دهید، بنابراین

239
00:08:45,839 –> 00:08:48,880
از نظر گذراندن و مرتب

240
00:08:48,880 –> 00:08:50,080
کردن مشتری خود،

241
00:08:50,080 –> 00:08:51,440
چند کار وجود دارد که ما باید

242
00:08:51,440 –> 00:08:53,440
ابتدا انجام دهیم. نیاز به نصب یک دسته

243
00:08:53,440 –> 00:08:55,680
از وابستگی‌ها و وارد کردن برخی

244
00:08:55,680 –> 00:08:58,000
داده‌ها، سپس آن را از قبل پردازش می‌کنیم و

245
00:08:58,000 –> 00:08:59,600
یک مدل یادگیری عمیق

246
00:08:59,600 –> 00:09:02,320
می‌سازیم که از api متوالی keras استفاده می‌کند،

247
00:09:02,320 –> 00:09:03,279
سپس یک سری

248
00:09:03,279 –> 00:09:05,760
پیش‌بینی انجام می‌دهیم که آن را ارزیابی کنیم و همچنین

249
00:09:05,760 –> 00:09:07,920
آزمایش خواهیم کرد. مدل خود را بیرون بیاورید و آن را در

250
00:09:07,920 –> 00:09:10,480
برنامه گرادیو خود ادغام کنید، اکنون

251
00:09:10,480 –> 00:09:12,399
ابتدا داده‌ها را بررسی می‌کنیم، بنابراین

252
00:09:12,399 –> 00:09:14,399
برای انجام این کار، از داده‌های

253
00:09:14,399 –> 00:09:16,080

254
00:09:16,080 –> 00:09:17,680
چالش طبقه‌بندی نظرات سمی استفاده می‌کنیم، فقط کافی است دوبار

255
00:09:17,680 –> 00:09:20,000
بررسی کنیم که ماوس mizumi وصل شده است یا

256
00:09:20,000 –> 00:09:21,680
ترک‌پد. از این داده‌ها استفاده خواهم کرد

257
00:09:21,680 –> 00:09:23,120
و اگر واقعاً

258
00:09:23,120 –> 00:09:24,320

259
00:09:24,320 –> 00:09:26,480
وقتی به داده‌ها نگاه می‌کنید نگاهی بیندازید، نمی‌دانم آیا

260
00:09:26,480 –> 00:09:27,920
می‌توانید آن را از طریق این باز کنید، به نظر نمی‌رسد

261
00:09:27,920 –> 00:09:29,040
خوب است، به هر حال به شما نشان خواهم

262
00:09:29,040 –> 00:09:30,640
داد اما اساساً ما

263
00:09:30,640 –> 00:09:33,279
چندین برچسب خواهیم داشت، بنابراین اگر واقعاً برویم و

264
00:09:33,279 –> 00:09:35,120
نگاهی بیندازیم که واقعاً آن را دانلود

265
00:09:35,120 –> 00:09:38,399
کرده‌ام، بیایید آن را باز کنیم،

266
00:09:38,959 –> 00:09:40,480
بنابراین اگر نگاهی بیندازیم، فکر می‌کنم

267
00:09:40,480 –> 00:09:43,760
از داده‌های قطار استفاده

268
00:09:44,240 –> 00:09:47,040
خواهیم کرد. خیلی بزرگ

269
00:09:47,040 –> 00:09:49,200
درست است، پس ما یک شناسه داریم

270
00:09:49,200 –> 00:09:51,120
اجازه دهید روی آن زوم کنم بنابراین ما یک

271
00:09:51,120 –> 00:09:53,120
شناسه داریم، چند متن نظر داریم

272
00:09:53,120 –> 00:09:55,200
که می توانید در آنجا ببینید، همچنین

273
00:09:55,200 –> 00:09:57,279
تعدادی برچسب داریم که اکنون در

274
00:09:57,279 –> 00:09:58,720
جلسه تخته سفید یا تابلوی تفکیک به یاد داشته باشید

275
00:09:58,720 –> 00:10:00,720
که به نوعی اشاره کردم که

276
00:10:00,720 –> 00:10:02,560
دسته ای از

277
00:10:02,560 –> 00:10:04,800
انواع مختلف وجود دارد. از زمینه ها، بنابراین ما دارای سمیت

278
00:10:04,800 –> 00:10:06,480
سمیت شدید هستیم،

279
00:10:06,480 –> 00:10:08,880
خواه ناپسند باشد یا نباشد، چه تهدید

280
00:10:08,880 –> 00:10:10,320
توهین باشد یا نه، و آیا نفرت هویتی وجود دارد یا نه

281
00:10:10,320 –> 00:10:12,240
که ممکن است مواردی

282
00:10:12,240 –> 00:10:15,440
مانند نژادپرستی را شامل شود، بنابراین ما می توانیم در واقع

283
00:10:15,440 –> 00:10:17,120
هر یک از این اجزای ویژگی را استخراج کنیم یا

284
00:10:17,120 –> 00:10:18,800
با هر یک از این خروجی ها و استفاده از

285
00:10:18,800 –> 00:10:20,240
آن در مدل یادگیری عمیق ما،

286
00:10:20,240 –> 00:10:21,760
بنابراین در واقع یک مدل چند خروجی خواهد

287
00:10:21,760 –> 00:10:22,959

288
00:10:22,959 –> 00:10:25,760
بود، بنابراین داده های ما این است و

289
00:10:25,760 –> 00:10:27,279
نکته خوب در مورد این این است که من

290
00:10:27,279 –> 00:10:29,440
تمام کدهای موجود در حساب github خود را دارم.

291
00:10:29,440 –> 00:10:30,720
بنابراین اگر می‌خواهید آن را آزمایش کنید،

292
00:10:30,720 –> 00:10:33,200
قطعاً می‌توانید و اگر خیلی

293
00:10:33,200 –> 00:10:35,120
مطمئن نیستید چگونه شروع کنید،

294
00:10:35,120 –> 00:10:36,720
به آموزش مبتدی برگردید زیرا من به

295
00:10:36,720 –> 00:10:38,320
شما نشان می‌دهم که چگونه از ابتدا شروع کنید

296
00:10:38,320 –> 00:10:40,560
چگونه این اطلاعات را شبیه‌سازی کنید یا چگونه

297
00:10:40,560 –> 00:10:42,800
این کد را شبیه سازی کنید و خودتان

298
00:10:42,800 –> 00:10:45,279
با استفاده از نوت بوک jupyter آن را آزمایش کنید،

299
00:10:45,279 –> 00:10:46,800
من یکی از

300
00:10:46,800 –> 00:10:48,079
مدل های از پیش آموزش دیده ام را نیز در اینجا قرار داده ام، فکر نمی کنم

301
00:10:48,079 –> 00:10:49,279
برای این مدت طولانی آموزش داده شده باشد، بنابراین فقط

302
00:10:49,279 –> 00:10:50,480
به خاطر داشته

303
00:10:50,480 –> 00:10:52,480
باشید که اول از همه چیزهایی که باید انجام دهیم

304
00:10:52,480 –> 00:10:54,320
برخی از وابستگی ها را نصب کنید و

305
00:10:54,320 –> 00:10:55,600
داده ها را وارد کنید، بنابراین اولین کاری که می

306
00:10:55,600 –> 00:10:58,160
خواهیم انجام دهیم این است که

307
00:10:58,160 –> 00:11:00,000
اکنون برخی از وابستگی ها را نصب کنیم تا این کار

308
00:11:00,000 –> 00:11:01,279
را انجام دهیم، این خط کد را

309
00:11:01,279 –> 00:11:03,360
در اینجا اجرا می کنیم که علامت تعجب است pip

310
00:11:03,360 –> 00:11:06,399
install tensorflow tensorflow dash. gpu

311
00:11:06,399 –> 00:11:09,200
pandas matplotlib و scikit

312
00:11:09,200 –> 00:11:11,040
Learn بنابراین tensorflow و tensorflow gpu

313
00:11:11,040 –> 00:11:12,720
کتابخانه‌های یادگیری عمیق ما خواهند بود، بنابراین

314
00:11:12,720 –> 00:11:14,640
وقتی

315
00:11:14,640 –> 00:11:16,880
مدل متوالی خود را ایجاد می‌کنیم، از این مورد استفاده

316
00:11:16,880 –> 00:11:18,480
می‌شود و به ما کمک می‌کند تا در داده‌های جدولی بخوانیم

317
00:11:18,480 –> 00:11:20,640
زیرا در داخل یک فرمت اکسل یا

318
00:11:20,640 –> 00:11:23,200
csv matplotlib فقط به ما کمک می کند تا در زمینه ترسیم و یادگیری ساده به ما کمک کند

319
00:11:23,200 –> 00:11:24,959
، من نمی توانم

320
00:11:24,959 –> 00:11:26,480
به یاد بیاورم که از چه چیزی استفاده می کنیم، زیرا فکر می کنم

321
00:11:26,480 –> 00:11:28,399
از آن برای معیارها استفاده کردم، اما ممکن است

322
00:11:28,399 –> 00:11:30,240
آن کد را تغییر داده باشم، بنابراین اولین چیزها

323
00:11:30,240 –> 00:11:32,079
f ابتدا بیایید برویم و آن نصب را اجرا کنیم تا

324
00:11:32,079 –> 00:11:34,160
بتوانید ببینید در حال اجرا است و

325
00:11:34,160 –> 00:11:35,360
به نظر می رسد که ما با موفقیت نصب کرده ایم

326
00:11:35,360 –> 00:11:37,600
و هیچ خطایی در آنجا

327
00:11:37,600 –> 00:11:39,200

328
00:11:39,200 –> 00:11:40,480
نصب نشده است.

329
00:11:40,480 –> 00:11:43,040
نصب‌های ما

330
00:11:43,040 –> 00:11:43,920

331
00:11:43,920 –> 00:11:46,240
اکنون انجام شد. کار بعدی که خروجی ما است،

332
00:11:46,240 –> 00:11:47,760
اکنون کار بعدی که می‌خواهیم انجام دهیم این است که

333
00:11:47,760 –> 00:11:49,519
در واقع برخی از وابستگی‌ها را وارد کنیم،

334
00:11:49,519 –> 00:11:51,360
بنابراین چهار وابستگی کلیدی وجود دارد که ما در حال

335
00:11:51,360 –> 00:11:53,680
وارد کردن آن‌ها هستیم، بنابراین اولین مورد os است، بنابراین من

336
00:11:53,680 –> 00:11:55,120
کمی در مورد آنچه که داریم صحبت کردم. از

337
00:11:55,120 –> 00:11:57,600
کتابخانه OS در

338
00:11:57,600 –> 00:11:59,839
ویدیوی طبقه‌بندی‌کننده تصویر استفاده کنید، بنابراین واقعاً این

339
00:11:59,839 –> 00:12:01,839
فقط برای کمک به کار با مسیرهای مختلف فایل است

340
00:12:01,839 –> 00:12:03,040
، بنابراین اگر باید در

341
00:12:03,040 –> 00:12:04,160
مسیرهای مختلف فایل پیمایش کنید، می‌توانید

342
00:12:04,160 –> 00:12:05,560
به معنای واقعی کلمه

343
00:12:05,560 –> 00:12:07,839
os.path.join را تایپ کنید و شما می توانید خیلی راحت تر پیمایش کنید،

344
00:12:07,839 –> 00:12:08,880

345
00:12:08,880 –> 00:12:11,519
خط بعدی پانداها هستند، بنابراین پانداها را

346
00:12:11,519 –> 00:12:14,240
به عنوان پانداهای pd وارد کنید به ما کمک می کند تا داده های جدولی را بخوانیم، به

347
00:12:14,240 –> 00:12:15,440
ویژه زمانی که

348
00:12:15,440 –> 00:12:18,800
با فایل های csv یا متنی یا فایل های اکسل کار می

349
00:12:18,800 –> 00:12:20,880
کنیم، سپس tensorflow را وارد می کنیم، بنابراین

350
00:12:20,880 –> 00:12:22,720
tensorflow را به عنوان t وارد می کنیم. اگر کمی به

351
00:12:22,720 –> 00:12:24,000
آنجا برویم، بنابراین احتمالاً می‌توانستیم

352
00:12:24,000 –> 00:12:25,920
آن را کمی دیرتر وارد کنیم، اما من فکر

353
00:12:25,920 –> 00:12:27,760
کردم که آن را زودتر وارد کنم

354
00:12:27,760 –> 00:12:29,440
، اوه

355
00:12:29,440 –> 00:12:30,720

356
00:12:30,720 –> 00:12:32,000

357
00:12:32,000 –> 00:12:34,000
استفاده از keras

358
00:12:34,000 –> 00:12:35,760
در زیر کاپوت

359
00:12:35,760 –> 00:12:38,240
numpy بنابراین numpy را به عنوان np وارد کنید، من فکر می‌کنم

360
00:12:38,240 –> 00:12:39,920
واقعاً فقط یک مکان وجود دارد که من از

361
00:12:39,920 –> 00:12:41,560
numpy در اینجا استفاده می‌کنم و آن برای

362
00:12:41,560 –> 00:12:43,440
np.expanddim است، بنابراین اگر به شما نشان دهم که

363
00:12:43,440 –> 00:12:46,240

364
00:12:46,240 –> 00:12:48,160
mp.expand underscore کم‌رنگ می‌شود

365
00:12:48,160 –> 00:12:50,320
و آن این است که اوه، ما این کار را نکرده‌ایم. آن را وارد کرد،

366
00:12:50,320 –> 00:12:52,000
اجازه دهید ابتدا آن را اجرا کنیم تا آن را

367
00:12:52,000 –> 00:12:53,519
وارد کنیم

368
00:12:53,519 –> 00:12:56,560
و np expand dims فقط به

369
00:12:56,560 –> 00:12:58,560
قرار دادن هر یک از اطلاعات شما در داخل

370
00:12:58,560 –> 00:13:00,720
مجموعه دیگری از آرایه ها کمک می کند، بنابراین معمولاً

371
00:13:00,720 –> 00:13:03,279
وقتی یک نمونه در

372
00:13:03,279 –> 00:13:04,880
دسته خود دارید و می خواهید ارسال کنید از این استفاده می کنید. آن

373
00:13:04,880 –> 00:13:06,160
را به مدل یادگیری عمیق شما می‌رسانید،

374
00:13:06,160 –> 00:13:08,560
زیرا منتظر نمونه‌های متعدد

375
00:13:08,560 –> 00:13:10,079
در آن دسته خاص است، بنابراین ما

376
00:13:10,079 –> 00:13:12,480
معمولاً آن را در داخل آن قرار

377
00:13:12,480 –> 00:13:13,920

378
00:13:13,920 –> 00:13:15,680

379
00:13:15,680 –> 00:13:17,120
می‌دهیم.

380
00:13:17,120 –> 00:13:18,560
y کار بعدی که می‌توانیم انجام دهیم این است

381
00:13:18,560 –> 00:13:21,040
که داده‌های خود را وارد کنیم، بنابراین بیایید این را تجزیه کنیم

382
00:13:21,040 –> 00:13:22,639
تا دو بخش در اینجا اتفاق

383
00:13:22,639 –> 00:13:23,519

384
00:13:23,519 –> 00:13:25,279

385
00:13:25,279 –> 00:13:28,800
می‌افتد، بنابراین اولین قسمت این است که از تابع pd.read csv برای خواندن در csv

386
00:13:28,800 –> 00:13:30,079
و سپس قسمت بعدی استفاده می‌کنیم. بیت این است که ما در حال

387
00:13:30,079 –> 00:13:31,760
عبور از مسیر داده‌هایی

388
00:13:31,760 –> 00:13:33,200
هستیم که می‌خواهیم استفاده کنیم، اکنون این

389
00:13:33,200 –> 00:13:34,720
داده‌های آموزشی بسیار بزرگ است، بنابراین ما در

390
00:13:34,720 –> 00:13:36,480
واقع از داده‌های آموزشی

391
00:13:36,480 –> 00:13:38,480
برای آزمایش و اعتبارسنجی خود نیز استفاده

392
00:13:38,480 –> 00:13:39,519
می‌کنیم، زیرا این کار را انجام نمی‌دهیم. در

393
00:13:39,519 –> 00:13:40,800
چالش kaggle رقابت می‌کنید، اما اگر می‌خواهید

394
00:13:40,800 –> 00:13:43,760
می‌توانید از همه آن داده‌ها استفاده کنید، بنابراین

395
00:13:43,760 –> 00:13:46,000
بیایید نگاهی بیندازیم، بنابراین os.path.join

396
00:13:46,000 –> 00:13:48,240
مسیر فایل کامل

397
00:13:48,240 –> 00:13:50,639
مجموعه داده‌های ما را به ما می‌دهد، بنابراین اگر این را بگیرم، آن را

398
00:13:50,639 –> 00:13:51,680
در آنجا جای‌گذاری کنم.

399
00:13:51,680 –> 00:13:53,360
درست است، بنابراین مسیر کامل

400
00:13:53,360 –> 00:13:55,279
مجموعه داده‌های ما چالش طبقه‌بندی نظرات سمی اره منبت کاری اره مویی است

401
00:13:55,279 –> 00:13:57,519
و سپس برای csv قطار به عقب

402
00:13:57,519 –> 00:14:00,000
و سپس فایل csv قطار واقعی،

403
00:14:00,000 –> 00:14:01,600
بنابراین اگر واقعاً نگاهی بیندازیم که چه اتفاقی می‌افتد این

404
00:14:01,600 –> 00:14:04,160
است که وارد آن می‌شویم، پس بیایید

405
00:14:04,160 –> 00:14:07,279
به ریشه خود برویم. پوشه

406
00:14:08,000 –> 00:14:09,360
بنابراین ما در حال رفتن به این پوشه بنابراین

407
00:14:09,360 –> 00:14:11,279
اره منبت کاری اره مویی طبقه بندی آب و هوا سمی

408
00:14:11,279 –> 00:14:12,959
چالش cation سپس ما می‌خواهیم dot csv را آموزش دهیم

409
00:14:12,959 –> 00:14:14,639
و سپس این فایل را

410
00:14:14,639 –> 00:14:16,959
در اینجا انتخاب می‌کنیم، بنابراین اگر مسیر فایل کامل را به شما نشان دهم،

411
00:14:16,959 –> 00:14:18,880
به اینجا می‌رویم و سپس

412
00:14:18,880 –> 00:14:20,720
وارد قطار csv می‌شویم و سپس

413
00:14:20,720 –> 00:14:24,079

414
00:14:24,079 –> 00:14:26,000

415
00:14:26,000 –> 00:14:28,639

416
00:14:28,639 –> 00:14:30,399
اگر قبلاً از پانداها استفاده کرده اید، این فایل خاص را باز کنید تا آن را بارگیری کنید و سپس pd.re csv یک تابع کاملاً استاندارد است، بنابراین اگر قبلاً از پانداها استفاده

417
00:14:30,399 –> 00:14:31,600
کرده باشید، تعداد زیادی از آنها وجود دارد، بنابراین اگر

418
00:14:31,600 –> 00:14:34,160
pd.read را تایپ کردم، می توانید آن را بخوانید. یک

419
00:14:34,160 –> 00:14:35,600
دسته کامل از فایل ها درست است، بنابراین اگر می خواهید

420
00:14:35,600 –> 00:14:38,639
در یک csv در اکسل یک فایل feather را بخوانید، من

421
00:14:38,639 –> 00:14:40,000
نمی توانم به یاد بیاورم که برای

422
00:14:40,000 –> 00:14:43,279
فایل پارکت um json از فایل pico

423
00:14:43,279 –> 00:14:45,519
spss چه پر استفاده شده است، بنابراین یک دسته کامل از داده ها وجود دارد

424
00:14:45,519 –> 00:14:46,880
که می توانید در واقع بروید و بخوانید در

425
00:14:46,880 –> 00:14:49,360
استفاده از پانداها

426
00:14:49,360 –> 00:14:51,199
خوب است، بنابراین با انجام این کار می‌توانیم

427
00:14:51,199 –> 00:14:52,720
داده‌های خود را دریافت کنیم، بنابراین اگر آن

428
00:14:52,720 –> 00:14:54,079
سلول را اجرا

429
00:14:54,079 –> 00:14:56,240
کنم، باید داده‌های ما را به ما نشان دهد تا بتوانید

430
00:14:56,240 –> 00:14:57,680
ببینید که ما چند ستون

431
00:14:57,680 –> 00:14:59,519
داریم، بنابراین شناسه خود را داریم. دقیقاً همانطور

432
00:14:59,519 –> 00:15:02,560
که داخل فایل اکسل خود را به شما نشان دادم،

433
00:15:02,560 –> 00:15:04,560
نظر خود را نیز دریافت کردیم، همچنین ستون های مختلف خود

434
00:15:04,560 –> 00:15:06,560
را نیز داریم. o سمی شدید سمی

435
00:15:06,560 –> 00:15:09,680
تهدید ناپسند توهین و نفرت هویت

436
00:15:09,680 –> 00:15:13,040
حالا اگر ما برویم نگاهی به دم خود بیندازیم

437
00:15:13,040 –> 00:15:15,600
پس باز هم کلی

438
00:15:15,600 –> 00:15:18,000
کامنت داریم و اگر نگاهی به آن بیندازیم

439
00:15:18,000 –> 00:15:19,199
در واقع به یکی از نظرات خود نگاه کنیم.

440
00:15:19,199 –> 00:15:21,519
اگر به

441
00:15:21,519 –> 00:15:25,440
اوه برویم، بیایید اولین مثال خود را بگیریم، بنابراین df.i

442
00:15:25,440 –> 00:15:28,399
قفل صفر

443
00:15:28,399 –> 00:15:32,000
می‌کنیم و سپس می‌توانیم متن نظر را بگیریم،

444
00:15:33,120 –> 00:15:34,880
بنابراین این نمونه‌ای از یک نظر است، بنابراین

445
00:15:34,880 –> 00:15:36,800
توضیح دهید که چرا ویرایش‌های انجام‌شده تحت

446
00:15:36,800 –> 00:15:38,800
نام کاربری من طرفدار متالیکا هاردکور

447
00:15:38,800 –> 00:15:41,519
بازگردانده شده‌اند. وندالیسم

448
00:15:41,519 –> 00:15:43,839
فقط روی مقداری گاز بسته می شود بعد از آن بلاهههههه.

449
00:15:43,839 –> 00:15:45,440

450
00:15:45,440 –> 00:15:47,279

451
00:15:47,279 –> 00:15:48,800

452
00:15:48,800 –> 00:15:50,720

453
00:15:50,720 –> 00:15:52,800
که من می دانم

454
00:15:52,800 –> 00:15:54,639
یکی دیگر چیست

455
00:15:54,639 –> 00:15:56,079
هی مرد، من واقعاً سعی نمی کنم

456
00:15:56,079 –> 00:15:57,600
دیوار را ویرایش کنم،

457
00:15:57,600 –> 00:15:59,759
اما می توانید شروع کنید به اینکه ببینید فیلدهای واقعی

458
00:15:59,759 –> 00:16:01,519
چگونه هستند و اگر ما برویم و

459
00:16:01,519 –> 00:16:04,639
به نظرات نگاهی بیندازیم

460
00:16:04,639 –> 00:16:06,240
.

461
00:16:06,240 –> 00:16:09,440
df dot و سپس df.columns

462
00:16:09,440 –> 00:16:11,360
و فرض کنید ما t را می خواستیم o

463
00:16:11,360 –> 00:16:13,680
همه این فیلدها را درست بگیرید، بنابراین سمی و

464
00:16:13,680 –> 00:16:15,600
شدید سمی تهدید توهین و

465
00:16:15,600 –> 00:16:17,920
هویت

466
00:16:17,920 –> 00:16:20,240

467
00:16:20,240 –> 00:16:23,839

468
00:16:23,839 –> 00:16:26,480

469
00:16:26,480 –> 00:16:29,040

470
00:16:29,040 –> 00:16:30,079

471
00:16:30,079 –> 00:16:32,720
بعد از اینکه سه را قفل کردم خوب است، بنابراین

472
00:16:32,720 –> 00:16:35,040
این نظر خاص هیچ سمی

473
00:16:35,040 –> 00:16:37,120
ندارد، به شدت سمی نیست، زشت نیست، اصلاً

474
00:16:37,120 –> 00:16:39,600
تهدید آمیز نیست، توهین آمیز نیست و

475
00:16:39,600 –> 00:16:41,120
هیچ هویتی وجود ندارد.

476
00:16:41,120 –> 00:16:43,360

477
00:16:43,759 –> 00:16:45,519

478
00:16:45,519 –> 00:16:47,680

479
00:16:47,680 –> 00:16:50,560
من هم

480
00:16:50,560 –> 00:16:51,759
همینطور دوباره، بنابراین به نظر نمی‌رسد مقدار زیادی وجود دارد،

481
00:16:51,759 –> 00:16:53,120
من سعی می‌کنم یکی را پیدا کنم که

482
00:16:53,120 –> 00:16:55,759
سمی باشد،

483
00:16:55,759 –> 00:16:57,519
بیایید برویم df. سر

484
00:16:57,519 –> 00:16:59,680
بیایید یک فیلتر انجام دهیم تا df و سپس می‌توانیم سمی شویم که

485
00:16:59,680 –> 00:17:03,320

486
00:17:05,039 –> 00:17:06,240
برابر با یک

487
00:17:06,240 –> 00:17:07,679
خوب خنک است، بنابراین کمی صحبت کردم، بنابراین به

488
00:17:07,679 –> 00:17:09,199
نظر می رسد که چه چیزی می تواند باشد که می

489
00:17:09,199 –> 00:17:11,760
تواند هفت باشد، نه،

490
00:17:12,640 –> 00:17:14,720
اوه، خوب که یک نفر کمی بسیار

491
00:17:14,720 –> 00:17:16,319
مبتذل است، خوب پس واضح است که ما

492
00:17:16,319 –> 00:17:18,799
دوباره در آنجا فحش می دهیم، این بخشی

493
00:17:18,799 –> 00:17:20,559
از مشکلی نیست که ما می بینیم

494
00:17:20,559 –> 00:17:22,559
این روزها در وب می‌خواهیم

495
00:17:22,559 –> 00:17:25,679
بتوانیم برخی از نظرات سمی را مسدود کنیم، بنابراین

496
00:17:25,679 –> 00:17:27,119
این چیزی است که مدل یادگیری عمیق

497
00:17:27,119 –> 00:17:29,039
ما می‌تواند کمتر بتواند آن را مسدود کند،

498
00:17:29,039 –> 00:17:31,840
بنابراین ما می‌توانیم

499
00:17:31,840 –> 00:17:33,280
ببینیم که نظرات سمی داریم. ما می‌خواهیم

500
00:17:33,280 –> 00:17:35,120
برویم و بتوانیم آن‌ها را شناسایی کنیم و

501
00:17:35,120 –> 00:17:36,799
معمولاً شما از آن در داخل

502
00:17:36,799 –> 00:17:38,240
مانند یک برنامه وب یا چیزی استفاده می‌کنید تا بتوانید

503
00:17:38,240 –> 00:17:40,320
این پست‌ها را اصلاً مسدود کنید، اما

504
00:17:40,320 –> 00:17:42,000
در حال حاضر ما رفته‌ایم و وابستگی‌های خود را نصب

505
00:17:42,000 –> 00:17:43,600
کرده‌ایم و ما. رفته‌ایم و

506
00:17:43,600 –> 00:17:46,160
داده‌هایی را وارد کرده‌ایم، بیایید

507
00:17:46,160 –> 00:17:49,600
به مشتری خود بازگردیم و ببینیم چه چیز شیرینی بعدی است،

508
00:17:51,120 –> 00:17:53,039
بنابراین ما اکنون داده‌ها را به دست

509
00:17:53,039 –> 00:17:54,960
آورده‌ایم که باید آن‌ها را از قبل پردازش کنیم تا

510
00:17:54,960 –> 00:17:56,640
برای مدل‌سازی آماده شویم. این شامل

511
00:17:56,640 –> 00:17:58,799
چند مورد است. گام‌های مهم اولی

512
00:17:58,799 –> 00:18:01,039
توکن کردن داده‌ها به این فکر کنید

513
00:18:01,039 –> 00:18:03,360
که جملات را به زبان مخفی خودمان ترجمه می‌کنیم

514
00:18:03,360 –> 00:18:05,120
که فقط

515
00:18:05,120 –> 00:18:06,880
مدل یادگیری عمیق می‌فهمد

516
00:18:06,880 –> 00:18:08,400
که ما چه کار می‌کنیم، در واقع فقط

517
00:18:08,400 –> 00:18:10,559
تبدیل هر کلمه در جمله

518
00:18:10,559 –> 00:18:12,720
به یک شناسه منحصر به فرد است تا هر کلمه

519
00:18:12,720 –> 00:18:14,880
نقشه‌برداری کند. به یک عدد

520
00:18:14,880 –> 00:18:17,200
آه آن را هر چیزی در غیر این صورت، بله، در حالی که در حال انجام

521
00:18:17,200 –> 00:18:18,799
آن هستیم، پارتیشن‌های آزمایش و اعتبارسنجی آموزشی خود را نیز ایجاد می‌کنیم،

522
00:18:18,799 –> 00:18:21,360
بنابراین

523
00:18:21,360 –> 00:18:23,919
ما در مرحله پیش پردازش هستیم، بنابراین

524
00:18:23,919 –> 00:18:26,160
می‌بینیم که برخی از داده‌های خود را

525
00:18:26,160 –> 00:18:28,240
داریم و داده‌هایی از چالشی که

526
00:18:28,240 –> 00:18:30,640
اکنون در حال پیش‌پردازش هستیم، بنابراین اولین

527
00:18:30,640 –> 00:18:31,760
کاری که

528
00:18:31,760 –> 00:18:33,280
می‌خواهیم انجام دهیم این است که لایه برداری متن خود را دریافت می‌کنیم.

529
00:18:33,280 –> 00:18:36,240

530
00:18:36,240 –> 00:18:37,919

531
00:18:37,919 –> 00:18:40,480
آسان است، بنابراین

532
00:18:40,480 –> 00:18:41,679
خط کامل از

533
00:18:41,679 –> 00:18:44,000
tensorflow.keras.layers است که

534
00:18:44,000 –> 00:18:46,320
بردار متن را وارد می کنیم، بنابراین اگر ما برویم

535
00:18:46,320 –> 00:18:47,679
و وارد کنیم که

536
00:18:47,679 –> 00:18:49,440
این به ما اجازه می دهد از

537
00:18:49,440 –> 00:18:51,919
لایه برداری متن استفاده کنیم، اکنون به

538
00:18:51,919 –> 00:18:54,559
خاطر داشته باشید که من در حال حاضر از tensorflow استفاده

539
00:18:54,559 –> 00:18:57,760
می کنم 2.8 فکر می کنم پیپ است لیست

540
00:18:57,760 –> 00:19:01,039
اوم این لایه خاص قبلاً در لایه‌های آزمایشی پنهان بود یا

541
00:19:01,039 –> 00:19:03,039
در دسترس بود،

542
00:19:03,039 –> 00:19:04,720
بنابراین اجازه دهید سریعاً به

543
00:19:04,720 –> 00:19:05,679
شما نشان دهم

544
00:19:05,679 –> 00:19:08,320
بله، بنابراین تنسورفلو 2.8، بنابراین در

545
00:19:08,320 –> 00:19:10,080
حال حاضر در زیر

546
00:19:10,080 –> 00:19:11,360

547
00:19:11,360 –> 00:19:13,280
بردار کردن متن چرخ و فلک عکس تنش قرار دارد، بنابراین

548
00:19:13,280 –> 00:19:16,880
من فکر می‌کنم قبلاً نقطه در زیر شماره آزمایشی بود.

549
00:19:17,200 –> 00:19:18,640

550
00:19:18,640 –> 00:19:20,559
در زیر می‌دانم که قبلاً کجا بوده است، اما در نسخه 2.4.1

551
00:19:20,559 –> 00:19:22,559
جای دیگری مشکلی ندارد، بنابراین

552
00:19:22,559 –> 00:19:24,320
لایه برداری متن است و چیزی که ما

553
00:19:24,320 –> 00:19:26,480
از آن لایه برداری متن استفاده می‌کنیم این است که متن خود

554
00:19:26,480 –> 00:19:29,039
را توکن کنیم، بنابراین اگر ما بروید

555
00:19:29,039 –> 00:19:30,880
و درست نگاه کنید،

556
00:19:30,880 –> 00:19:32,960
بنابراین این یک لایه پیش پردازش است

557
00:19:32,960 –> 00:19:34,880
که ویژگی های متن را به دنباله های اعداد صحیح نگاشت می

558
00:19:34,880 –> 00:19:37,120
کند، روشی فانتزی برای گفتن اینکه یک

559
00:19:37,120 –> 00:19:40,240
کلمه را می گیریم و آن را به یک کد تبدیل می کنیم، بنابراین من

560
00:19:40,240 –> 00:19:42,960
ممکن است شماره 42 باشم هی ممکن است شماره

561
00:19:42,960 –> 00:19:45,360
19 و غیره بنابراین

562
00:19:45,360 –> 00:19:46,880
نیازی نیست بروید و این کار را انجام دهید، بنابراین

563
00:19:46,880 –> 00:19:48,720
قبلاً در لایه‌های keras

564
00:19:48,720 –> 00:19:51,440
پیش پردازش آزمایشی بود، بنابراین اکنون

565
00:19:51,440 –> 00:19:54,240
زیر لایه‌های keras وکتورسازی متن است

566
00:19:54,240 –> 00:19:56,160
خوب است، بنابراین اکنون که لایه برداری متن خود را

567
00:19:56,160 –> 00:19:57,840
داریم، می‌توانیم برویم و حذف کنید

568
00:19:57,840 –> 00:19:59,679
که کار بعدی که می‌خواهیم

569
00:19:59,679 –> 00:20:01,039
ادامه دهیم و انجام دهیم این

570
00:20:01,039 –> 00:20:04,159
است که داده‌هایمان را به نظرات

571
00:20:04,159 –> 00:20:06,559
و ویژگی‌هایمان تقسیم کنیم، بنابراین من در اینجا کمی به شما نشان دادم

572
00:20:06,559 –> 00:20:07,919
چگونه در واقع

573
00:20:07,919 –> 00:20:09,440
نظرات را استخراج کنید، اما فرض کنید برای

574
00:20:09,440 –> 00:20:11,120
مثال ما فقط نظرات را می‌خواستیم.

575
00:20:11,120 –> 00:20:13,280
خودشان تا ما می توانیم بدیهی است بروید و

576
00:20:13,280 –> 00:20:15,440
فقط از مقداری نمایه سازی از پانداها استفاده کنید تا

577
00:20:15,440 –> 00:20:17,120
بتوانم تایپ کنم، بیایید نگاهی به

578
00:20:17,120 –> 00:20:20,480
ستون های نقطه سی دی اف

579
00:20:20,480 –> 00:20:22,480
ستون خود بیاندازیم تا متن رایج

580
00:20:22,480 –> 00:20:24,480
توهین و تهدید توهین زشت و زشت سمی را

581
00:20:24,480 –> 00:20:26,159
شناسایی کنیم، بنابراین اگر فقط

582
00:20:26,159 –> 00:20:29,039
متن نظر خود را می خواستیم می‌توانید متن زیر خط کامنت df را تایپ

583
00:20:29,039 –> 00:20:31,280
کنید و این نظرات ما را به

584
00:20:31,280 –> 00:20:32,720
ما می‌دهد، بنابراین می‌توانید ببینید که ما

585
00:20:32,720 –> 00:20:34,559
همه آن‌ها

586
00:20:34,559 –> 00:20:36,480
را دقیقاً در اختیار داریم، حالا چه اتفاقی می‌افتد

587
00:20:36,480 –> 00:20:38,960
اگر بخواهیم همه این فیلدها را به دست بیاوریم،

588
00:20:38,960 –> 00:20:40,880
بسیار سمی و

589
00:20:40,880 –> 00:20:42,799
خطرناک a زیرا ما می

590
00:20:42,799 –> 00:20:44,880
خواهیم مدل یادگیری عمیق ما همه

591
00:20:44,880 –> 00:20:46,559
اینها را همزمان پیش بینی کند، بنابراین آیا

592
00:20:46,559 –> 00:20:48,480
نظر خاص در هر

593
00:20:48,480 –> 00:20:50,880
یک از این دسته بندی ها قرار می گیرد یا نه، و می

594
00:20:50,880 –> 00:20:52,320
تواند در همه آنها قرار گیرد، بنابراین ممکن است

595
00:20:52,320 –> 00:20:54,720
یکی یکی یکی یکی داشته باشیم. و غیره

596
00:20:54,720 –> 00:20:56,480
بنابراین ما واقعاً می‌توانیم این کار را انجام دهیم،

597
00:20:56,480 –> 00:20:57,760
بنابراین کاری که برای

598
00:20:57,760 –> 00:20:59,840
استخراج این متن انجام می‌دهیم دقیقاً همین است، بنابراین

599
00:20:59,840 –> 00:21:02,880
می‌توانیم در df.columns تایپ

600
00:21:02,880 –> 00:21:04,799
کنیم و همه چیز را بعد

601
00:21:04,799 –> 00:21:06,240
از دو ستون اول بگیریم و ما می تواند

602
00:21:06,240 –> 00:21:08,400
اسلای انجام دهد بنابراین من اساساً

603
00:21:08,400 –> 00:21:10,000
می‌خواهم بگویم یک دو را شروع کنید و بعد از

604
00:21:10,000 –> 00:21:11,440
آن همه چیز را از نظر

605
00:21:11,440 –> 00:21:12,640
ستون‌ها دریافت کنید و اجازه دهید به شما نشان دهم که چه چیزی

606
00:21:12,640 –> 00:21:14,320
برمی‌گردد،

607
00:21:14,320 –> 00:21:15,679
بنابراین اساساً ما قصد داریم

608
00:21:15,679 –> 00:21:18,159
توهین تهدید زشت و زشت سمی را وارد کنیم.

609
00:21:18,159 –> 00:21:20,159
و از هویت نفرت و از آنجا که ما

610
00:21:20,159 –> 00:21:21,600
اکنون ستون ها را داریم، می توانیم در واقع از

611
00:21:21,600 –> 00:21:23,440
آن به عنوان یک فیلتر در داخل قاب داده خود استفاده کنیم

612
00:21:23,440 –> 00:21:26,240
تا بتوانم از df عبور

613
00:21:26,240 –> 00:21:28,640
کنم و این کار را انجام دهم، بنابراین اکنون فقط

614
00:21:28,640 –> 00:21:30,400
این مقادیر را خارج می کنم، می توانم یک

615
00:21:30,400 –> 00:21:31,760
مرحله اضافی انجام دهم و فقط این

616
00:21:31,760 –> 00:21:35,039
را به یک آرایه numpy تبدیل کنید، بنابراین مقادیر نقطه‌ای را تایپ کنید

617
00:21:35,039 –> 00:21:36,960
و این به ما یک فرمت فایل کامل

618
00:21:36,960 –> 00:21:39,360
می‌دهد که در واقع می‌توانیم آن را به

619
00:21:39,360 –> 00:21:41,039
مدل یادگیری عمیق تنسورفلو خود منتقل کنیم،

620
00:21:41,039 –> 00:21:43,919
زیرا هر نظر اکنون یک بردار دارد

621
00:21:43,919 –> 00:21:45,679
که نشان می‌دهد آیا در یکی از آنها قرار می‌گیرد یا نه.

622
00:21:45,679 –> 00:21:47,120
این دسته‌ها

623
00:21:47,120 –> 00:21:49,039
بسیار سمی هستند، تهدید توهین و

624
00:21:49,039 –> 00:21:51,679
هویت و غیره، بنابراین ما

625
00:21:51,679 –> 00:21:53,120
دقیقاً همین کار را در اینجا انجام می‌دهیم، بنابراین

626
00:21:53,120 –> 00:21:54,240

627
00:21:54,240 –> 00:21:56,559
نظر خود را در متغیری به نام x ذخیره می‌کنیم و برچسب‌های خود را در یک متغیر

628
00:21:56,559 –> 00:21:58,240
ذخیره می‌کنیم.

629
00:21:58,240 –> 00:22:00,080
var iable با y تماس گرفت،

630
00:22:00,080 –> 00:22:02,720
بنابراین اگر من بروم و آن سلول را اجرا کنم،

631
00:22:02,720 –> 00:22:05,039
اکنون می توانید زیر x را ببینید، ما همه

632
00:22:05,039 –> 00:22:07,120
نظرات خود را داریم و در زیر y

633
00:22:07,120 –> 00:22:09,440
، همه برچسب های خود را داریم، بنابراین

634
00:22:09,440 –> 00:22:11,520

635
00:22:11,520 –> 00:22:13,200
اکنون چیز بعدی که می خواهیم در آنجا بسیار خوب به نظر می رسیم. در واقع

636
00:22:13,200 –> 00:22:16,559
می‌خواهیم برویم و تعریف

637
00:22:16,559 –> 00:22:17,679
کنیم که واقعاً چند کلمه در

638
00:22:17,679 –> 00:22:19,919
فرهنگ لغت خود داریم، بنابراین در

639
00:22:19,919 –> 00:22:22,000
لایه برداری متن خود، می‌توانیم

640
00:22:22,000 –> 00:22:24,159
در واقع مشخص کنیم که چه تعداد کلمه را می‌خواهیم

641
00:22:24,159 –> 00:22:26,640
در داخل آن لغت ذخیره کنیم، حالا هر

642
00:22:26,640 –> 00:22:28,880
چه تعداد کلمات بیشتری را ذخیره کنید. هرچه بزرگ‌تر

643
00:22:28,880 –> 00:22:30,799
یا مدل شما بزرگ‌تر

644
00:22:30,799 –> 00:22:32,400
می‌شود، زیرا

645
00:22:32,400 –> 00:22:34,320
اگر جاسازی‌های عظیمی از کلمات

646
00:22:34,320 –> 00:22:35,440
داشته باشید، اکنون برای هر کلمه به یک کلمه نیاز دارید،

647
00:22:35,440 –> 00:22:37,679
من

648
00:22:37,679 –> 00:22:40,080
آن را روی 200000 تعیین کرده‌ام. که

649
00:22:40,080 –> 00:22:41,919
کلمات زیادی هستند که قطعاً می‌توانید این را کاهش دهید

650
00:22:41,919 –> 00:22:44,159
، اما ممکن است به قیمت

651
00:22:44,159 –> 00:22:46,400
تولید یک مدل بسیار دقیق باشد، بنابراین

652
00:22:46,400 –> 00:22:49,280
این ویژگی‌های حداکثر در واقع

653
00:22:49,280 –> 00:22:51,840
تعداد کلمات

654
00:22:52,480 –> 00:22:55,120
در واژگان

655
00:22:55,120 –> 00:22:56,960
درست است و این فقط یک متغیر اساسی

656
00:22:56,960 –> 00:22:58,320
در اینجا است، بنابراین حداکثر تأکید کنید. ویژگی هایی که ما

657
00:22:58,320 –> 00:23:00,559
آن معادل را تنظیم می کنیم l تا 200 000. اگر

658
00:23:00,559 –> 00:23:01,840
مدل شما خیلی بزرگ شده است شما در

659
00:23:01,840 –> 00:23:03,600
حال اتمام vram هستید، می توانید سعی کنید

660
00:23:03,600 –> 00:23:05,120
این را رها کنید و

661
00:23:05,120 –> 00:23:07,120
اکنون کاری که می خواهیم انجام دهیم این است

662
00:23:07,120 –> 00:23:10,640
که لایه برداری متن خود را مقداردهی اولیه کنیم،

663
00:23:10,640 –> 00:23:12,640
بنابراین در اینجا من یک مثال ایجاد کرده ام تا ما.

664
00:23:12,640 –> 00:23:14,240
یک متغیر جدید به نام vectorizer را تایپ کرده یا ایجاد کرده

665
00:23:14,240 –> 00:23:16,320
ایم و ما

666
00:23:16,320 –> 00:23:18,240
لایه برداری متن ما را

667
00:23:18,240 –> 00:23:19,280
از اینجا به بالا اختصاص داده

668
00:23:19,280 –> 00:23:21,120
ایم و اکنون در حال عبور از آن هستیم که می

669
00:23:21,120 –> 00:23:23,120
خواهیم حداکثر تعداد کلمات داخل

670
00:23:23,120 –> 00:23:25,520
واژگان ما برابر با 200000 باشد

671
00:23:25,520 –> 00:23:27,120
که از اینجاست. بنابراین حداکثر

672
00:23:27,120 –> 00:23:30,000
نشانه های زیر خط برابر با حداکثر ویژگی های زیر خط است، بنابراین

673
00:23:30,000 –> 00:23:31,760
این واقعاً می تواند حداکثر کلمات زیر خط باشد

674
00:23:31,760 –> 00:23:33,679
درست

675
00:23:33,679 –> 00:23:35,280
می تواند به همین راحتی باشد و ما

676
00:23:35,280 –> 00:23:37,600
می توانیم این را برداریم و به اینجا منتقل

677
00:23:37,600 –> 00:23:40,320
کنیم، نه بزرگ،

678
00:23:40,320 –> 00:23:42,080
اجازه دهید آن را دوباره تبدیل کنیم و سپس مشخص می کنیم

679
00:23:42,080 –> 00:23:44,640
که چگونه حداکثر

680
00:23:44,640 –> 00:23:46,320
طول جمله ما چقدر خواهد بود، بنابراین

681
00:23:46,320 –> 00:23:48,400
این طول جمله در نشانه ها است، بنابراین

682
00:23:48,400 –> 00:23:50,480
این اساساً می گوید که هر جمله

683
00:23:50,480 –> 00:23:52,080
ای که از داده های خود

684
00:23:52,080 –> 00:23:55,279
در اینجا تنظیم می کنیم، آن را در 1800 کلمه محدود می کنیم

685
00:23:55,279 –> 00:23:56,880
و دوباره شما می‌توانید این را طولانی‌تر کنید،

686
00:23:56,880 –> 00:23:58,720
می‌توانید آن را کوتاه‌تر کنید، اما اگر آن را

687
00:23:58,720 –> 00:24:00,000
طولانی‌تر کنید، به این معنی است که مدل نیز

688
00:24:00,000 –> 00:24:02,400
به‌طور قابل‌توجهی بزرگ‌تر می‌شود

689
00:24:02,400 –> 00:24:04,000
و همچنین مشخص کرده‌ایم که

690
00:24:04,000 –> 00:24:06,080
می‌خواهیم حالت خروجی ما عدد صحیح باشد، بنابراین این

691
00:24:06,080 –> 00:24:07,919
به این معنی است که در حال رفتن است. برای نگاشت هر

692
00:24:07,919 –> 00:24:10,080
کلمه به یک مقدار صحیح، پس

693
00:24:10,080 –> 00:24:11,200
همانطور که

694
00:24:11,200 –> 00:24:14,559
گفتم کلمه یک ممکن است کلمه نفرت باشد کلمه دو ممکن

695
00:24:14,559 –> 00:24:15,279
است

696
00:24:15,279 –> 00:24:17,760
شغل باشد کلمه سه ممکن است مک دونالد

697
00:24:17,760 –> 00:24:19,840
باشد و غیره اساساً ما

698
00:24:19,840 –> 00:24:21,440
اعداد صحیح می گیریم و کلمات را می

699
00:24:21,440 –> 00:24:24,000
گیریم و ما آنها را به اعداد صحیح

700
00:24:24,000 –> 00:24:25,919
کامل تبدیل می‌کنیم، بنابراین دوباره می‌توانیم آن را مقداردهی اولیه کنیم،

701
00:24:25,919 –> 00:24:27,360
بنابراین من این را مرور کردم، بنابراین

702
00:24:27,360 –> 00:24:29,200
خط اول بردار برابر با بردار متن است،

703
00:24:29,200 –> 00:24:31,200
ما مشخص می‌کنیم که چه تعداد

704
00:24:31,200 –> 00:24:33,679
کلمه در واژگان خود می‌خواهیم

705
00:24:33,679 –> 00:24:35,440
حداکثر طول جمله ما چقدر است.

706
00:24:35,440 –> 00:24:37,679
خواهد بود یا حداکثر طول ورودی که ما می

707
00:24:37,679 –> 00:24:38,720
خواهیم از طریق آن به مدل یادگیری عمیق خود منتقل کنیم

708
00:24:38,720 –> 00:24:40,640
و اینکه چگونه می خواهیم

709
00:24:40,640 –> 00:24:42,480
خروجی های ما به نظر برسد که یک

710
00:24:42,480 –> 00:24:43,919
عدد صحیح است.

711
00:24:43,919 –> 00:24:45,360

712
00:24:45,360 –> 00:24:46,880

713
00:24:46,880 –> 00:24:48,960
اکنون این کار بسیار آسان است تنها کاری

714
00:24:48,960 –> 00:24:50,000
که باید انجام دهید این است که vectorizer.adapt را تایپ کنید

715
00:24:50,000 –> 00:24:51,679

716
00:24:51,679 –> 00:24:53,520
و آداپتور قرار است تمام

717
00:24:53,520 –> 00:24:55,679
کلماتی را که در واژگان ما هستند یاد بگیرد،

718
00:24:55,679 –> 00:24:56,400
بنابراین

719
00:24:56,400 –> 00:24:57,919
در این مورد خاص، همه کلماتی را

720
00:24:57,919 –> 00:24:59,840
که در داخل خود داریم جملات

721
00:24:59,840 –> 00:25:00,760
را تایپ می کنیم

722
00:25:00,760 –> 00:25:02,799
vectorizer.adapt و سپس از مقدار x نقطه عبور می کنیم،

723
00:25:02,799 –> 00:25:04,320
بنابراین مقادیر اکسل فقط

724
00:25:04,320 –> 00:25:05,520
آن را تبدیل می کند

725
00:25:05,520 –> 00:25:07,200
نه اینکه یک ستون باشد

726
00:25:07,200 –> 00:25:08,960
، نه ما به کنسول نیاز نداریم نه

727
00:25:08,960 –> 00:25:11,039
اینکه ستونی باشد که قرار است تبدیل شود. یا

728
00:25:11,039 –> 00:25:13,039
به جای اینکه یک تکه پاندا باشد یا

729
00:25:13,039 –> 00:25:14,480

730
00:25:14,480 –> 00:25:16,720
سری ام چیست، بنابراین اگر اجازه بدهم این را به شما نشان دهم،

731
00:25:16,720 –> 00:25:18,480
تایپ کنید،

732
00:25:18,480 –> 00:25:20,400
بنابراین در حال حاضر یک سری پاندا است

733
00:25:20,400 –> 00:25:22,320
که فقط یک فرمت فایل است، در واقع

734
00:25:22,320 –> 00:25:24,559
یک ستون از مجموعه داده های پاندا است که

735
00:25:24,559 –> 00:25:26,320
ما می‌خواهیم آن را به یک نمایش numpy تبدیل کنیم،

736
00:25:26,320 –> 00:25:28,240
بنابراین اگر مقادیر x را تایپ کنیم،

737
00:25:28,240 –> 00:25:29,360

738
00:25:29,360 –> 00:25:31,440
می‌بینیم که این اکنون یک آرایه numpy است که بزرگ

739
00:25:31,440 –> 00:25:32,480

740
00:25:32,480 –> 00:25:34,799
نیست، پس کاری که

741
00:25:34,799 –> 00:25:35,919
می‌خواهیم انجام دهیم این است که آن

742
00:25:35,919 –> 00:25:38,080
آرایه numpy خاص را به ما منتقل می‌کنیم. vectorizer

743
00:25:38,080 –> 00:25:40,159
بنابراین vectorizer.adapt و ما در حال

744
00:25:40,159 –> 00:25:42,640
عبور از c خود هستیم omments اما

745
00:25:42,640 –> 00:25:44,799
اگر برویم و اجرا کنیم به عنوان یک مسابقه بی‌حرکت نشان داده می‌شود که کمی زمان می‌برد،

746
00:25:44,799 –> 00:25:46,400

747
00:25:46,400 –> 00:25:48,559
اما در واقع یاد

748
00:25:48,559 –> 00:25:49,679
می‌گیریم که قبلاً می‌توانستید

749
00:25:49,679 –> 00:25:51,760
واژگان این vectorizer را فقط

750
00:25:51,760 –> 00:25:53,159
با تایپ کردن

751
00:25:53,159 –> 00:25:54,400
vectorizer.getvocabulary خارج کنید. اما به

752
00:25:54,400 –> 00:25:55,760
هر دلیلی

753
00:25:55,760 –> 00:25:57,919
در حال حاضر کمی خطا ایجاد می کند،

754
00:25:57,919 –> 00:25:59,840
بنابراین من این را کمی

755
00:25:59,840 –> 00:26:00,880
پیش آزمایش کردم، اما

756
00:26:00,880 –> 00:26:02,799
به نظر می رسد که در آخرین به روز رسانی خراب شده است،

757
00:26:02,799 –> 00:26:05,400
بنابراین می توانید vectorizer.getvocabulary را تایپ کنید

758
00:26:05,400 –> 00:26:07,279
و این در

759
00:26:07,279 –> 00:26:09,200
واقع به شما می دهد. واژگان و

760
00:26:09,200 –> 00:26:11,600
نگاشت را توضیح دهید بنابراین

761
00:26:11,600 –> 00:26:13,679
مقدار 1 این کلمه است مقدار 2 این

762
00:26:13,679 –> 00:26:15,279
کلمه است و باید فقط یک

763
00:26:15,279 –> 00:26:16,880
آرایه برگشتی

764
00:26:16,880 –> 00:26:18,559
یا یک آرایه برگشتی از هر یک از

765
00:26:18,559 –> 00:26:20,159
کلمات به شما بدهد و موقعیت در آن آرایه

766
00:26:20,159 –> 00:26:22,240
نشان دهنده آن است که چه عددی از آن

767
00:26:22,240 –> 00:26:24,400
دنباله است که کلمه

768
00:26:24,400 –> 00:26:26,240
خاص این مورد خاص خراب است از

769
00:26:26,240 –> 00:26:28,400
من نپرسید چرا دیدم که یک اشکالی وجود

770
00:26:28,400 –> 00:26:30,080
دارد که در سرریز پشته ایجاد شده است اما فقط

771
00:26:30,080 –> 00:26:31,600
برای توجه فعلاً در آینده ممکن است

772
00:26:31,600 –> 00:26:34,720
بعداً دوباره ظاهر شود ممکن است برطرف شود

773
00:26:34,720 –> 00:26:37,039
اما اکنون به نظر می رسد ممکن است خراب شده باشد،

774
00:26:37,039 –> 00:26:40,400
بنابراین مدل ما اکنون بردار شده است،

775
00:26:40,400 –> 00:26:42,240
بنابراین می توانیم در واقع در um vectorizer تایپ کنیم

776
00:26:42,240 –> 00:26:43,919

777
00:26:43,919 –> 00:26:47,520
و من می توانم در um hello تایپ کنم،

778
00:26:47,520 –> 00:26:50,000
زندگی عالی است

779
00:26:50,000 –> 00:26:51,600
و این در واقع آن را

780
00:26:51,600 –> 00:26:53,679
به دنباله ای از اعداد تبدیل می کند تا بتوانید

781
00:26:53,679 –> 00:26:56,679
ببینید بنابراین 286 261 است. بنابراین

782
00:26:56,679 –> 00:27:00,960
286 است سلام، پس 261 است جهان 305 زندگی است،

783
00:27:00,960 –> 00:27:02,240
بنابراین به خاطر داشته باشید که

784
00:27:02,240 –> 00:27:04,159
علائم نگارشی و همچنین بخشی از این را حذف می کند، بنابراین

785
00:27:04,159 –> 00:27:06,559
اجازه دهید من به شما نشان دهم

786
00:27:06,559 –> 00:27:10,480
که بردار متن با حروف مهره ای وجود ندارد،

787
00:27:10,480 –> 00:27:12,159
بنابراین در واقع آن را استاندارد می کند تا آن را

788
00:27:12,159 –> 00:27:13,600
کاهش دهد. نوارها را حذف می کند،

789
00:27:13,600 –> 00:27:15,279
بنابراین فقط یک چیز دیگر را

790
00:27:15,279 –> 00:27:16,960
باید به خاطر بسپاریم، بنابراین اگر ما واقعاً برویم و

791
00:27:16,960 –> 00:27:19,360
برگردیم مدت زمان این است یک دو سه

792
00:27:19,360 –> 00:27:21,360
چهار پنج، بنابراین اگر ما برویم و پنج مقدار اول را بگیریم،

793
00:27:21,360 –> 00:27:24,000

794
00:27:24,559 –> 00:27:26,480
بنابراین می توانید ببینید که این عدد است.

795
00:27:26,480 –> 00:27:29,279
نمایش آن 286 است hello

796
00:27:29,279 –> 00:27:32,240
261 is world 305 is life

797
00:27:32,240 –> 00:27:35,360
9 is 275 عالی است

798
00:27:35,360 –> 00:27:37,679
به طوری که نشان می دهد که بردار یا

799
00:27:37,679 –> 00:27:39,440
تأثیر برداری در این مورد خاص چیست،

800
00:27:39,440 –> 00:27:40,960
اکنون ما می خواهیم این کار

801
00:27:40,960 –> 00:27:43,200
را برای تمام متن خود انجام دهیم. اینجا فقط یک

802
00:27:43,200 –> 00:27:45,520
جمله تصادفی نیست

803
00:27:45,520 –> 00:27:47,200
این خروجی از لایه بردار

804
00:27:47,200 –> 00:27:49,360
سرد است و این دقیقاً همان کاری است که

805
00:27:49,360 –> 00:27:50,880
ما در اینجا انجام می‌دهیم، بنابراین می‌خواهیم

806
00:27:50,880 –> 00:27:53,360
تمام مقادیر x خود را به بردار خود منتقل کنیم

807
00:27:53,360 –> 00:27:54,559
و چیزی که

808
00:27:54,559 –> 00:27:56,240
می‌خواهیم برگردانیم مجموعه داده‌ای است که متن بردار نامیده می‌شود.

809
00:27:56,240 –> 00:27:58,000
اگر ما برویم و دوباره این را اجرا کنیم

810
00:27:58,000 –> 00:27:59,200
ممکن است کمی طول بکشد زیرا

811
00:27:59,200 –> 00:28:00,559
به خاطر داشته باشید که تک تک

812
00:28:00,559 –> 00:28:03,120
کلمات را مرور می‌کند و این نشانه‌گذاری است،

813
00:28:03,120 –> 00:28:04,720
بنابراین اگر اکنون به متن برداری نگاهی بیندازیم،

814
00:28:04,720 –> 00:28:06,799

815
00:28:06,799 –> 00:28:09,279
این نمایش عددی

816
00:28:09,279 –> 00:28:11,600
همه جملات ما است، بنابراین یک

817
00:28:11,600 –> 00:28:14,960
هزار برای این 159 571

818
00:28:14,960 –> 00:28:17,600
نمونه و این همان طول

819
00:28:17,600 –> 00:28:20,320
داده x ما است بنابراین x

820
00:28:20,320 –> 00:28:21,320
بنابراین می توانید

821
00:28:21,320 –> 00:28:27,120
159 571 نمونه 159 571 نمونه را ببینید و

822
00:28:27,120 –> 00:28:30,080
ما آن را تا 1800 کلمه نگه داشته ایم، بنابراین به خاطر داشته باشید

823
00:28:30,080 –> 00:28:32,000
که به این دلیل است که ما توالی خروجی خود را به حداکثر رسانده ایم.

824
00:28:32,000 –> 00:28:34,399
طول تا 1800 کلمه در اینجا،

825
00:28:34,399 –> 00:28:36,240
پس این همان چیزی است که این شکل در اینجا

826
00:28:36,240 –> 00:28:38,159
نشان می دهد، بنابراین

827
00:28:38,159 –> 00:28:39,919
این تعداد مثال است،

828
00:28:39,919 –> 00:28:41,919
این حداکثر تعداد کلمات است در حال حاضر اگر یک

829
00:28:41,919 –> 00:28:43,760
جمله خاص با حداکثر آن مطابقت نداشته باشد،

830
00:28:43,760 –> 00:28:45,679
می توانید ببینید که فقط بقیه را با آن پر می کند.

831
00:28:45,679 –> 00:28:47,840
صفر سیستم عامل درست است، پس زمانی

832
00:28:47,840 –> 00:28:50,640
که توکن‌سازی کامل

833
00:28:50,640 –> 00:28:53,440
شد، بقیه آن 1800 مقدار را

834
00:28:53,440 –> 00:28:55,200
با صفر اضافه می‌کند، بنابراین این کار به‌طور مؤثری

835
00:28:55,200 –> 00:28:56,399
کار می‌کند،

836
00:28:56,399 –> 00:28:58,159
بنابراین متن برداری شده ما است

837
00:28:58,159 –> 00:29:00,240
و اکنون بردار شده است، کار بعدی

838
00:29:00,240 –> 00:29:01,600
که می‌خواهیم انجام دهیم این است که در واقع ادامه دهید

839
00:29:01,600 –> 00:29:03,279
و مجموعه داده‌های خود را ایجاد کنید، اجازه دهید

840
00:29:03,279 –> 00:29:04,960
تا اینجا را به سرعت خلاصه

841
00:29:04,960 –> 00:29:06,240
کنیم، بنابراین ما رفته‌ایم و لایه برداری متن خود را وارد

842
00:29:06,240 –> 00:29:08,000
کرده‌ایم

843
00:29:08,000 –> 00:29:10,480
و متغیرهای x و y خود را ایجاد کرده‌ایم، سپس

844
00:29:10,480 –> 00:29:12,240
رفته‌ایم و لایه برداری متن را نمونه‌سازی کرده‌ایم

845
00:29:12,240 –> 00:29:14,000
و آموزش داده‌ایم. بنابراین

846
00:29:14,000 –> 00:29:15,279
بیایید فقط چیزهایی را که به

847
00:29:15,279 –> 00:29:17,520
آن نیاز نداریم حذف کنیم،

848
00:29:17,520 –> 00:29:20,159
اوه، ما هم به این

849
00:29:20,159 –> 00:29:22,000
نیاز نداریم، بنابراین ما رفتیم و آن را آموزش دادیم تا

850
00:29:22,000 –> 00:29:23,919
بتوانیم واژگان خود را یاد بگیریم.

851
00:29:23,919 –> 00:29:25,440

852
00:29:25,440 –> 00:29:26,799
انگشتان من

853
00:29:26,799 –> 00:29:28,799
قرار است آن را در نسخه بعدی اصلاح کنند و ما در

854
00:29:28,799 –> 00:29:30,320
واقع همه آن را بردار کرده

855
00:29:30,320 –> 00:29:31,760
ایم، بنابراین اکنون رفته ایم و من

856
00:29:31,760 –> 00:29:33,120
آن را بردار می

857
00:29:33,120 –> 00:29:35,919
نامم، اما به طور موثر مجموعه داده ها را نشانه گذاری می کند و

858
00:29:35,919 –> 00:29:37,360
این چیزی که ما در

859
00:29:37,360 –> 00:29:39,279
داخل vec خود به دست می آوریم

860
00:29:39,279 –> 00:29:40,399
اکنون کاری که می‌خواهیم انجام دهیم این است

861
00:29:40,399 –> 00:29:42,320
که یک خط لوله داده تنسورفلو ایجاد می‌کنیم،

862
00:29:42,320 –> 00:29:44,559
بنابراین

863
00:29:44,559 –> 00:29:46,080
وقتی صحبت از رفتن و آموزش مدل‌های یادگیری عمیق شما به میان می‌آید، زندگی ما را بسیار آسان‌تر می‌کند

864
00:29:46,080 –> 00:29:47,360

865
00:29:47,360 –> 00:29:49,679
و به ویژه زمانی مفید است که

866
00:29:49,679 –> 00:29:51,520
شما داده‌هایی داریم که نمی‌توانند در

867
00:29:51,520 –> 00:29:53,360
حافظه جای بگیرند، بنابراین ما در واقع صد

868
00:29:53,360 –> 00:29:55,919
و شصت هزار نمونه از

869
00:29:55,919 –> 00:29:57,440
نظرات سمی و غیرسمی دریافت کرده‌ایم، بنابراین

870
00:29:57,440 –> 00:29:59,760
اگر بزرگ‌تر شود، این

871
00:29:59,760 –> 00:30:02,159
خط لوله داده به شما کمک

872
00:30:02,159 –> 00:30:03,360

873
00:30:03,360 –> 00:30:05,760
می‌کند. نمی‌دانم آموزش مبتدی را دیده‌اید یا

874
00:30:05,760 –> 00:30:07,360
نه، اما من یادداشتی دارم که این را

875
00:30:07,360 –> 00:30:08,720
به خاطر بسپارید، من فقط

876
00:30:08,720 –> 00:30:10,799
mikshabap را به یاد می‌آورم، بنابراین هر زمان که

877
00:30:10,799 –> 00:30:12,159
یک مجموعه داده ایجاد می‌کنید، فقط باید به

878
00:30:12,159 –> 00:30:13,840
یاد داشته باشید که معمولاً باید

879
00:30:13,840 –> 00:30:15,440
در نقشه در نقشه نقشه برداری کنید. این مورد اما شما

880
00:30:15,440 –> 00:30:16,480
به یاد داشته باشید که

881
00:30:16,480 –> 00:30:20,080
حافظه پنهان c در مکشباب s این است که

882
00:30:20,080 –> 00:30:22,880
بچ درهم آمیخته b prefetch p است، بنابراین اگر

883
00:30:22,880 –> 00:30:24,240
میک شبات را به خاطر دارید بگذارید

884
00:30:24,240 –> 00:30:27,279
این را در اینجا بنویسم merc shabap

885
00:30:27,279 –> 00:30:29,520
h اوه را نادیده بگیرید، خوب ما آن را در

886
00:30:29,520 –> 00:30:32,000
این مخلوط مورد خاص رها می کنیم. bap

887
00:30:32,000 –> 00:30:34,480
تولید خط لوله داده پایه است n تنظیم کنید تا

888
00:30:34,480 –> 00:30:36,799
مخفف map cache

889
00:30:36,799 –> 00:30:37,919
shuffle

890
00:30:37,919 –> 00:30:40,399
batch و سپس واکشی اولیه باشد،

891
00:30:40,399 –> 00:30:41,840
بنابراین این ساده‌ترین راه برای به یاد آوردن

892
00:30:41,840 –> 00:30:43,120
نحوه ساخت این

893
00:30:43,120 –> 00:30:45,200
خطوط لوله داده است که چگونه خطوط لوله داده را نمونه‌سازی می‌کنید

894
00:30:45,200 –> 00:30:47,679
، معمولاً دو راه است،

895
00:30:47,679 –> 00:30:51,520
بنابراین یا از برش‌های تانسور

896
00:30:51,520 –> 00:30:52,320
یا

897
00:30:52,320 –> 00:30:53,440
فهرست است

898
00:30:53,440 –> 00:30:55,440
، فکر می‌کنم این است. فهرست دایرکتوری یا لیست

899
00:30:55,440 –> 00:30:59,600
فایل‌ها چیست tf.data.dataset

900
00:30:59,600 –> 00:31:01,360

901
00:31:01,360 –> 00:31:04,399
فایل‌های فهرست نقطه نقطه‌ای

902
00:31:04,399 –> 00:31:06,320
اگر می‌خواهید یک آموزش در

903
00:31:06,320 –> 00:31:08,080
مورد مجموعه داده‌های tensorflow می‌خواهید به من اطلاع دهید و ما آن را بررسی می‌کنیم،

904
00:31:08,080 –> 00:31:10,000
اما در اینجا ما در

905
00:31:10,000 –> 00:31:11,360
واقع پنج خط داریم، بنابراین اول

906
00:31:11,360 –> 00:31:12,720
ما مجموعه داده‌های خود را ایجاد می‌کنیم و سپس

907
00:31:12,720 –> 00:31:15,120
هر مرحله یک مرحله پیش‌پردازش داده‌های بعدی را اعمال

908
00:31:15,120 –> 00:31:17,760

909
00:31:17,760 –> 00:31:18,840

910
00:31:18,840 –> 00:31:20,720
می‌کنیم، بنابراین مجموعه داده‌ها برابر با tf.data.dataset است و از آن روش،

911
00:31:20,720 –> 00:31:23,200
روش from tensorslices را ارسال می‌کنیم یا از آن استفاده می‌کنیم

912
00:31:23,200 –> 00:31:24,159

913
00:31:24,159 –> 00:31:25,519
و سپس به چه چیزی می‌رویم. برای انجام این کار

914
00:31:25,519 –> 00:31:26,799
این است که ما از

915
00:31:26,799 –> 00:31:28,080
داده‌های خود که به تازگی ایجاد کرده‌ایم

916
00:31:28,080 –> 00:31:29,360
عبور می‌دهیم، بنابراین از متن بردار خود

917
00:31:29,360 –> 00:31:30,640

918
00:31:30,640 –> 00:31:32,399
عبور می‌کنیم و همچنین از برچسب‌های خود عبور می‌کنیم، بنابراین این

919
00:31:32,399 –> 00:31:34,320
ویژگی‌های ورودی ما است. و این

920
00:31:34,320 –> 00:31:36,159
من متغیر هدف ما است، بنابراین متن را بردارید

921
00:31:36,159 –> 00:31:37,360
و y،

922
00:31:37,360 –> 00:31:38,159
بنابراین

923
00:31:38,159 –> 00:31:39,919
اگر ما برویم و این خط را اجرا کنیم، در واقع

924
00:31:39,919 –> 00:31:41,440
می‌توانیم همه اینها را اجرا کنیم، زیرا هیچ چیز دیگری قرار نیست

925
00:31:41,440 –> 00:31:43,039
مجموعه داده‌ها را تغییر دهد،

926
00:31:43,039 –> 00:31:44,480
این فقط

927
00:31:44,480 –> 00:31:46,559
مراحل خط لوله است، بنابراین یک

928
00:31:46,559 –> 00:31:48,960
مجموعه داده نوشته شده برابر است. dataset.k بنابراین

929
00:31:48,960 –> 00:31:50,720
داده‌های شما را مورد استفاده قرار می‌دهد، سپس ما آن‌ها را به هم می‌زنیم

930
00:31:50,720 –> 00:31:53,360
تا مجموعه داده برابر با dataset.shuffle باشد و

931
00:31:53,360 –> 00:31:55,039
در حال بررسی میزان بزرگی اندازه بافر ما هستیم،

932
00:31:55,039 –> 00:31:56,720

933
00:31:56,720 –> 00:31:59,039
سپس مجموعه داده‌ها برابر با dataset است. دسته‌ای این مجموعه آن‌ها را جمع‌آوری

934
00:31:59,039 –> 00:32:01,200
می‌کنیم، بنابراین اکنون ما در واقع

935
00:32:01,200 –> 00:32:04,720
هر دسته را به‌عنوان یک سری 16

936
00:32:04,720 –> 00:32:06,559
نمونه نشان می‌دهیم و سپس آن را از قبل واکشی می‌کنیم،

937
00:32:06,559 –> 00:32:08,000
بنابراین نکته خوب در مورد Prefetch این است

938
00:32:08,000 –> 00:32:10,480
که کمک می‌کند از

939
00:32:10,480 –> 00:32:14,080
ایجاد گلوگاه یا ابزار بعدی جلوگیری کند،

940
00:32:14,080 –> 00:32:15,039

941
00:32:15,039 –> 00:32:16,799
بنابراین اگر ما برویم و آن را اجرا کنیم خیلی خوب

942
00:32:16,799 –> 00:32:18,320
است ما در واقع می‌توانیم به من اجازه بدهیم به شما نشان دهم که چگونه

943
00:32:18,320 –> 00:32:19,919
می‌توانید داده‌ها را از این خارج کنید، بنابراین

944
00:32:19,919 –> 00:32:21,679
می‌توانیم نقطه مجموعه داده‌ها را

945
00:32:21,679 –> 00:32:24,080
به‌عنوان نقطه تکرارکننده numpy تایپ کنیم،

946
00:32:24,080 –> 00:32:25,840
بنابراین یک دسته به‌دست می‌آید

947
00:32:25,840 –> 00:32:26,720

948
00:32:26,720 –> 00:32:28,320
و بنابراین می‌توانید در اینجا دسته ما را به

949
00:32:28,320 –> 00:32:31,440
عنوان متن نمایش داده شود

950
00:32:31,440 –> 00:32:33,919
فرمت برداری آن به اضافه تمام l abels بنابراین

951
00:32:33,919 –> 00:32:35,360
می توانید اینجا را ببینید به نظر نمی

952
00:32:35,360 –> 00:32:37,679
رسد که ما واقعاً هیچ نمونه سمی داریم،

953
00:32:37,679 –> 00:32:39,760
بنابراین تمام صفرها در سراسر صفحه

954
00:32:39,760 –> 00:32:42,000
مجموعه داده به عنوان numpy iterator.next

955
00:32:42,000 –> 00:32:44,159
در واقع متن ما را دریافت می کند

956
00:32:44,159 –> 00:32:46,880
بنابراین ما می توانیم واقعاً این را از بسته بندی باز

957
00:32:46,880 –> 00:32:50,640
کنیم. پس بیایید به دسته x

958
00:32:50,640 –> 00:32:53,279
دسته y برویم

959
00:32:53,760 –> 00:32:56,080
بنابراین دسته x نمونه های متن برداری شده ما خواهد بود

960
00:32:56,080 –> 00:32:58,159
که می توانید در آنجا ببینید

961
00:32:58,159 –> 00:33:00,399
و ما می توانیم به شکل نقطه تایپ کنیم

962
00:33:00,399 –> 00:33:02,399
بنابراین می توانید ببینید که ما 16 نمونه داریم و

963
00:33:02,399 –> 00:33:04,640
هر کدام حداکثر 1800 کلمه هستند. و

964
00:33:04,640 –> 00:33:06,399
سپس اگر به y خود نگاهی بیندازیم،

965
00:33:06,399 –> 00:33:08,720
همه باید دوباره برچسب های ما باشند، 16

966
00:33:08,720 –> 00:33:12,000
نمونه و به عنوان

967
00:33:12,000 –> 00:33:14,080
بردار مقدار شش نشان داده می شود، بنابراین

968
00:33:14,080 –> 00:33:16,320
در هر یک از آن بردارها شش مقدار

969
00:33:16,320 –> 00:33:19,120
سرد داریم، بنابراین مجموعه داده های ما اکنون ایجاد شده است.

970
00:33:19,120 –> 00:33:20,320
کار بعدی که ما واقعاً

971
00:33:20,320 –> 00:33:22,000
می‌خواهیم انجام دهیم این است که برویم و اعتبار آموزشی و پارتیشن‌های آزمایشی خود را ایجاد کنیم،

972
00:33:22,000 –> 00:33:24,559

973
00:33:24,559 –> 00:33:26,720
بنابراین این یک چیز خوب دیگر در مورد

974
00:33:26,720 –> 00:33:28,640
خط لوله داده است، بنابراین ما می‌توانیم در واقع برویم

975
00:33:28,640 –> 00:33:30,720
و شروع به برداشت یا پارتیشن بندی

976
00:33:30,720 –> 00:33:31,919
اجزا کنیم، بنابراین در اینجا

977
00:33:31,919 –> 00:33:34,000
مجموعه داده‌ها را نوشته‌ایم. بگیریم و 70 را برداریم

978
00:33:34,000 –> 00:33:36,880
از طول مجموعه داده ها، بنابراین این

979
00:33:36,880 –> 00:33:38,080
بدان معنی است که ما به طور موثر

980
00:33:38,080 –> 00:33:40,720
70 را به پارتیشن آموزشی خود اختصاص خواهیم داد،

981
00:33:40,720 –> 00:33:41,679
بنابراین

982
00:33:41,679 –> 00:33:42,960
اولین چیزی که ما محاسبه می

983
00:33:42,960 –> 00:33:44,559
کنیم طول مجموعه داده ما است، بنابراین اگر

984
00:33:44,559 –> 00:33:46,880
مجموعه داده len را

985
00:33:46,880 –> 00:33:48,200
درست تایپ کنیم، می دانیم که

986
00:33:48,200 –> 00:33:50,880
9974 دسته، نمونه نیستند،

987
00:33:50,880 –> 00:33:52,159
درست دسته‌ای هستند، زیرا به یاد داشته باشید که

988
00:33:52,159 –> 00:33:54,000
ما داده‌هایمان را در اینجا دسته‌بندی کرده‌ایم، بنابراین

989
00:33:54,000 –> 00:33:57,679
واقعاً بیشتر شبیه به آن مقدار داده است،

990
00:33:57,679 –> 00:33:59,360
خیلی خوب است، بنابراین

991
00:33:59,360 –> 00:34:01,519
طول خود را می‌گیریم و سپس می‌توانیم در 0.7 ضرب کنیم، بنابراین

992
00:34:01,519 –> 00:34:03,279
این بدان معناست که ما

993
00:34:03,279 –> 00:34:03,960
آن

994
00:34:03,960 –> 00:34:06,320
6981 دسته را برای آموزش خود می گیریم

995
00:34:06,320 –> 00:34:08,719
و آن را به یک عدد صحیح تبدیل

996
00:34:08,719 –> 00:34:09,760

997
00:34:09,760 –> 00:34:12,879
می کنیم سپس می توانیم از data.take برای برداشتن یا

998
00:34:12,879 –> 00:34:15,440
برداشتن آن پارتیشن از داده ها و

999
00:34:15,440 –> 00:34:16,879
اختصاص آن به یک متغیر استفاده کنیم و این

1000
00:34:16,879 –> 00:34:18,000
دقیقاً همان چیزی است که ما در آنجا این کار را انجام

1001
00:34:18,000 –> 00:34:19,839
می‌دهیم تا data.take را انجام دهیم و

1002
00:34:19,839 –> 00:34:21,399
مشخص می‌کنیم که

1003
00:34:21,399 –> 00:34:24,639
6981 دسته در مجموعه داده قطار خود

1004
00:34:24,639 –> 00:34:26,000
می‌خواهیم و سپس

1005
00:34:26,000 –> 00:34:28,399
برای اعتبارسنجی و آزمایش پارتیشن‌هایمان کاری مشابه انجام می‌دهیم

1006
00:34:28,399 –> 00:34:29,918
، بزرگترین تفاوت این است که در حال

1007
00:34:29,918 –> 00:34:32,480
پاس کردن هستیم. از طریق نقطه پرش قبل ما می رویم

1008
00:34:32,480 –> 00:34:35,040
و زنجیر روی.take بنابراین نقطه

1009
00:34:35,040 –> 00:34:36,960
پرش مشخص می کند که ما می خواهیم برای شروع یک

1010
00:34:36,960 –> 00:34:39,040
پارتیشن خاص را نادیده بگیریم، بنابراین

1011
00:34:39,040 –> 00:34:40,719
به خاطر داشته باشید که پارتیشن آموزشی ما

1012
00:34:40,719 –> 00:34:43,199
70 کل داده ما است، بنابراین ما اولین چیزی هستیم که من از

1013
00:34:43,199 –> 00:34:45,199
آن رد می شوم. آن 70

1014
00:34:45,199 –> 00:34:47,119
سپس ما 20 را

1015
00:34:47,119 –> 00:34:49,520
به عنوان پارتیشن اعتبار سنجی خود در آنجا

1016
00:34:49,520 –> 00:34:51,199
می گیریم، بنابراین می توانید ببینید که 70 را رد می کنیم، سپس می

1017
00:34:51,199 –> 00:34:53,440
رویم و 20 مورد دیگر را می

1018
00:34:53,440 –> 00:34:55,918
گیریم، سپس می رویم و 90 را رد می کنیم زیرا

1019
00:34:55,918 –> 00:34:57,760
این پارتیشن قطار و اعتبار سنجی

1020
00:34:57,760 –> 00:34:59,680
قرار داده شده است. با هم می توانید

1021
00:34:59,680 –> 00:35:00,960
0.9 را در آنجا

1022
00:35:00,960 –> 00:35:02,800
0.9 ببینید، اجازه دهید من

1023
00:35:02,800 –> 00:35:06,000
همانجا 0.9 بزرگنمایی کنم، بله عالی است

1024
00:35:06,000 –> 00:35:07,200
و سپس ما می رویم و

1025
00:35:07,200 –> 00:35:08,720
10 درصد آخر را می گیریم و آن را

1026
00:35:08,720 –> 00:35:10,480
به پارتیشن آزمایشی خود اختصاص می دهیم، بنابراین اگر من بروم و اجرا

1027
00:35:10,480 –> 00:35:11,359
کنم

1028
00:35:11,359 –> 00:35:13,520
این بدان معنی است که ما قبلاً به شما نشان

1029
00:35:13,520 –> 00:35:17,760
داده‌ایم که این بدان معناست که طول قطار

1030
00:35:17,760 –> 00:35:18,760

1031
00:35:18,760 –> 00:35:20,880
6981 دسته طول

1032
00:35:20,880 –> 00:35:23,320
پارتیشن اعتبار سنجی ما

1033
00:35:23,320 –> 00:35:26,320
1994 دسته است و طول پارتیشن آزمایشی ما

1034
00:35:26,320 –> 00:35:30,640
997 دسته است و دوباره این

1035
00:35:30,640 –> 00:35:32,000
خط پایین اینجا به نوعی به شما نشان می‌دهد که چگونه

1036
00:35:32,000 –> 00:35:33,599
می‌توانید بروید و دریافت کنید. به صورت دسته‌ای تهیه می‌شود، اما من

1037
00:35:33,599 –> 00:35:36,079
قبلاً آن را در آنجا نشان داده‌ام، بنابراین ما ج

1038
00:35:36,079 –> 00:35:38,480
هر چیزی که مجموعه داده‌ها نقطه‌ای است به‌عنوان

1039
00:35:38,480 –> 00:35:40,560
تکرارکننده numpy اجرا کنید، بنابراین در واقع

1040
00:35:40,560 –> 00:35:42,800
یک ژنراتور ایجاد یا ایجاد می‌کند و سپس نقطه بعدی را برای

1041
00:35:42,800 –> 00:35:44,320
دریافت دسته بعدی، بنابراین می‌توانیم در واقع

1042
00:35:44,320 –> 00:35:45,760
um

1043
00:35:45,760 –> 00:35:48,800
train generator

1044
00:35:48,800 –> 00:35:51,280
را تایپ کنیم و سپس می‌توانیم در

1045
00:35:51,280 –> 00:35:53,119
مرحله بعد، نقطه ژنراتور قطار

1046
00:35:53,119 –> 00:35:54,800
را تایپ کنیم. به تدریج از طریق

1047
00:35:54,800 –> 00:35:56,240
دسته‌های ما به درستی گام بردارید، بنابراین اگر من بروم و دوباره آن را اجرا کنم،

1048
00:35:56,240 –> 00:35:57,920
می‌توانید ببینید که در حال تغییر است، دوباره آن را اجرا

1049
00:35:57,920 –> 00:36:00,960
کنید، بنابراین وقتی ما واقعاً می‌رویم

1050
00:36:00,960 –> 00:36:03,200
و آموزش می‌دهیم که چگونه مدل ما واقعاً این کار را انجام می‌دهد

1051
00:36:03,200 –> 00:36:05,440
، واقعاً یا مدل یادگیری عمیق ما

1052
00:36:05,440 –> 00:36:06,880
واقعاً این کار را انجام می‌دهد.

1053
00:36:06,880 –> 00:36:07,680

1054
00:36:07,680 –> 00:36:09,680
اینکه از یک Batch Go عبور کند و

1055
00:36:09,680 –> 00:36:11,280
از یک مسیر خاص عبور

1056
00:36:11,280 –> 00:36:12,880
کند، به یک گذر به جلو می رود، سپس

1057
00:36:12,880 –> 00:36:14,720
می رود و یک گذر به عقب انجام می دهد و

1058
00:36:14,720 –> 00:36:16,079
گرادیان ها را به روز می کند و سپس به

1059
00:36:16,079 –> 00:36:18,560
دسته بعدی می رود همین کار را انجام دهید. و

1060
00:36:18,560 –> 00:36:20,240
راهی که به دسته بعدی می رود این است که در

1061
00:36:20,240 –> 00:36:22,240
حال اجرا کردن نقطه بعدی برای رفتن و گرفتن

1062
00:36:22,240 –> 00:36:24,240
دسته بعدی و دوباره عبور به جلو به

1063
00:36:24,240 –> 00:36:26,640
عقب به روز رسانی گرادیان

1064
00:36:26,640 –> 00:36:27,680
خنک است،

1065
00:36:27,680 –> 00:36:29,280
بنابراین ما چه کار کردیم و انجام دادیم،

1066
00:36:29,280 –> 00:36:32,160
اکنون رفته ایم و داده های خود را از قبل پردازش کرده ایم.

1067
00:36:32,160 –> 00:36:33,760
ما رفتیم و از یک لایه برداری متن

1068
00:36:33,760 –> 00:36:36,320
استفاده کردیم و آن را توکن

1069
00:36:36,320 –> 00:36:39,359
کردیم، رفتیم و مجموعه داده های خود را ایجاد کردیم، بنابراین رفتیم

1070
00:36:39,359 –> 00:36:40,800
و از متن بردار

1071
00:36:40,800 –> 00:36:43,280
شده و همچنین همه برچسب هایمان عبور کردیم و سپس

1072
00:36:43,280 –> 00:36:44,960
رفتیم و تست آموزشی خود را ایجاد کردیم

1073
00:36:44,960 –> 00:36:47,200
و دوستان پارتیشن‌های اعتبارسنجی به یاد داشته باشید که

1074
00:36:47,200 –> 00:36:49,119
همه این کدها در داخل github موجود است،

1075
00:36:49,119 –> 00:36:50,320
بنابراین اگر می‌خواهید آن را انتخاب کنید،

1076
00:36:50,320 –> 00:36:52,079
همه آن‌ها در آنجا در دسترس خواهند بود، اما با

1077
00:36:52,079 –> 00:36:54,480
توجه به این نکته که مرحله پیش‌پردازش ما

1078
00:36:54,480 –> 00:36:56,400
اکنون انجام شده است، اجازه دهید

1079
00:36:56,400 –> 00:36:59,599
به مشتری خود برگردیم و ببینید

1080
00:37:01,119 –> 00:37:02,960
بعدش چی می شه خوب پس بالاخره به سمت

1081
00:37:02,960 –> 00:37:05,280
یادگیری عمیق خوب

1082
00:37:05,280 –> 00:37:09,760
می رویم پس چقدر

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: کد ربات Discord با پایتون در 3 دقیقه (2022) با زیرنویس فارسی

فیلم آموزشی: رندر صفحات پویا – پیوندهای محصول خراش وب با پایتون با زیرنویس فارسی

فیلم آموزشی: ژئوکدینگ با ArcGIS API برای پایتون با زیرنویس فارسی

فیلم آموزشی: دوره شماره 17 پایتون – لیست ها (قسمت 2) با زیرنویس فارسی

فیلم آموزشی: اپراتورهای SQL: قسمت شماره 29 دوره Python API با زیرنویس فارسی

فیلم آموزشی: لیست نام مستعار و شبیه سازی در پایتون با زیرنویس فارسی

فیلم آموزشی: Wordle مبتنی بر متن در پایتون کمتر از 15 دقیقه! با زیرنویس فارسی

فیلم آموزشی: پایتون پیشرفته- شرح تفصیلی مدیریت استثنا در پایتون

فیلم آموزشی: پردازش داده ها با پایتون در SQL Server 2017 برای مبتدیان با زیرنویس فارسی

فیلم آموزشی: Python: Bollinger Bands 1 برنامه نویسی در پایتون و نمودارسازی در Matplotlib با زیرنویس فارسی

فیلم آموزشی: مدیریت فایل | پایتون | مسیر مطلق و نسبی با زیرنویس فارسی

فیلم آموزشی: ماژول های جالب پایتون | ماژول ها در پایتون | ماژول های مفید پایتون | #شلوارک | Simplile Learn

فیلم آموزشی: سخنرانی 15: پیاده سازی پایتون SVD و تقریب رتبه پایین

فیلم آموزشی: بهترین روش‌ها برای برنامه‌های پایتون مدیریت‌شده توسط Compose با زیرنویس فارسی

فیلم آموزشی: سوکت پایتون | نحوه تبدیل آدرس IP به فرمت های مختلف | برنامه نویسی سوکت با زیرنویس فارسی

فیلم آموزشی: تجزیه و تحلیل ارزهای دیجیتال در پایتون با زیرنویس فارسی

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: