در این مطلب، ویدئو ترسیم داده های TF-IDF و K-Means با Matplotlib (مدل سازی موضوع در پایتون برای DH 02.04) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:11:17
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,009 –> 00:00:09,809
[موسیقی]
2
00:00:11,599 –> 00:00:13,679
سلام و خوش آمدید به این مجموعه در
3
00:00:13,679 –> 00:00:14,719
مورد مدلسازی موضوع
4
00:00:14,719 –> 00:00:17,039
و طبقهبندی متن برای
5
00:00:17,039 –> 00:00:19,279
علوم انسانی دیجیتال یا هر کسی که میخواهد
6
00:00:19,279 –> 00:00:21,520
در آخرین ویدیویی که به k-means
7
00:00:21,520 –> 00:00:23,519
و tf-idf نگاه کردیم نگاه کند و مجموعهای از
8
00:00:23,519 –> 00:00:24,320
دادهها را
9
00:00:24,320 –> 00:00:26,160
که من نکردم را جمعبندی کردیم. با این حال در آخرین
10
00:00:26,160 –> 00:00:27,920
آدرس ویدیویی یک چیز مهم است که
11
00:00:27,920 –> 00:00:30,480
چگونه این داده ها را تجسم می کنید تا
12
00:00:30,480 –> 00:00:31,920
بتوانید آن ها را مشاهده کنید و ببینید
13
00:00:31,920 –> 00:00:34,000
اسناد شما در کدام نمودار رسم شده اند
14
00:00:34,000 –> 00:00:35,200
و این چیزی است که ما در این ویدئو روی آن تمرکز خواهیم کرد
15
00:00:35,200 –> 00:00:36,800
به عبارت دیگر ما
16
00:00:36,800 –> 00:00:37,600
تمرکز بر روی
17
00:00:37,600 –> 00:00:39,920
تجسم دادهها است که اغلب
18
00:00:39,920 –> 00:00:41,360
مهم است زمانی که نمیخواهید
19
00:00:41,360 –> 00:00:44,480
فهرستی طولانی از نامهای خوشه را بخوانید، در عوض
20
00:00:44,480 –> 00:00:45,520
میخواهید به مکانهایی که
21
00:00:45,520 –> 00:00:48,160
اسناد در یک نمودار ظاهر میشوند نگاه کنید و اینگونه است
22
00:00:48,160 –> 00:00:49,360
که ما امروز این کار را انجام
23
00:00:49,360 –> 00:00:50,480
خواهیم داد. ما
24
00:00:50,480 –> 00:00:52,719
از matplotlib استفاده خواهیم کرد که کتابخانه ای بسیار
25
00:00:52,719 –> 00:00:54,640
مهم برای علوم است
26
00:00:54,640 –> 00:00:56,160
و کتابخانه بسیار مهمی برای
27
00:00:56,160 –> 00:00:58,160
انسان گرایان است که عمدتاً در
28
00:00:58,160 –> 00:01:00,960
قلمرو نقشه برداری شبکه های اجتماعی است، اما
29
00:01:00,960 –> 00:01:02,960
همچنین برای ترسیم
30
00:01:02,960 –> 00:01:05,840
داده هایی از جمله بسیار مفید است. مانند ویژگیها و خوشههای دادههای موردی ما،
31
00:01:05,840 –> 00:01:06,880
32
00:01:06,880 –> 00:01:08,640
بنابراین کاری که میخواهیم انجام دهیم این است
33
00:01:08,640 –> 00:01:10,479
که دقیقاً با همان کدمان کار میکنیم،
34
00:01:10,479 –> 00:01:11,760
درست از جایی که در ویدیوی آخر متوقف
35
00:01:11,760 –> 00:01:12,560
36
00:01:12,560 –> 00:01:15,119
شدیم، اما این را از
37
00:01:15,119 –> 00:01:15,680
5
38
00:01:15,680 –> 00:01:18,560
یا 20 تغییر میدهیم. به 5 تا فقط برای ساده
39
00:01:18,560 –> 00:01:20,000
کردن تعداد خوشه ها در اینجا
40
00:01:20,000 –> 00:01:21,920
و دلیل اینکه من این کار را انجام می دهم این است
41
00:01:21,920 –> 00:01:23,119
42
00:01:23,119 –> 00:01:24,240
که نمی خواهم 20
43
00:01:24,240 –> 00:01:26,080
رنگ مختلف داشته باشم، می
44
00:01:26,080 –> 00:01:26,560
خواهم فقط
45
00:01:26,560 –> 00:01:28,159
پنج رنگ داشته باشم و خواهید دید که چرا این کار را انجام می دهم.
46
00:01:28,159 –> 00:01:29,680
فقط در یک ثانیه مرتبط است، اساساً هر
47
00:01:29,680 –> 00:01:30,799
خوشه در
48
00:01:30,799 –> 00:01:32,240
نقشه ما یک رنگ دریافت می کند و همانطور
49
00:01:32,240 –> 00:01:33,360
که می خواهید بگویید وقتی این را ترسیم می کنیم،
50
00:01:33,360 –> 00:01:34,240
تمام
51
00:01:34,240 –> 00:01:36,799
پنج خوشه تقریباً
52
00:01:36,799 –> 00:01:38,000
برای داده های در دست کافی نیستند
53
00:01:38,000 –> 00:01:40,159
و به همین دلیل این نیز مفید است.
54
00:01:40,159 –> 00:01:41,520
بیایید درست از جایی که کار را متوقف
55
00:01:41,520 –> 00:01:42,159
کردیم ادامه دهیم، ما
56
00:01:42,159 –> 00:01:44,720
همه چیز را در یک اسکریپت اجرا می کنیم، همچنین در
57
00:01:44,720 –> 00:01:46,240
حال حاضر قرار نیست توابع فانتزی ایجاد
58
00:01:46,240 –> 00:01:47,840
کنیم، ما فقط می خواهیم
59
00:01:47,840 –> 00:01:50,399
اسکریپت های اولیه را انجام دهیم تا وارد کنیم
60
00:01:50,399 –> 00:01:51,360
61
00:01:51,360 –> 00:01:53,600
matplotlib مهم است که آن نقطه pi
62
00:01:53,600 –> 00:01:54,560
نمودار را
63
00:01:54,560 –> 00:01:57,520
به صورت plt نصب کنید و برای انجام matplotlib این کار را انجام دهید
64
00:01:57,520 –> 00:01:58,960
. متضمن نصب pip
65
00:01:58,960 –> 00:02:02,320
matplotlib دقیقاً مانند
66
00:02:02,320 –> 00:02:03,920
آن چیزی که باید وارد کنید
67
00:02:03,920 –> 00:02:05,520
این است که ما از sklearn می گوییم ما
68
00:02:05,520 –> 00:02:08,720
هنوز در حال کار با sklearn.d.com import pca هستیم
69
00:02:08,720 –> 00:02:11,120
این برای اینکه
70
00:02:11,120 –> 00:02:12,640
به ما امکان دهد واقعاً
71
00:02:12,640 –> 00:02:15,040
رسم خود را ترسیم کنیم ضروری است. داده ها، کار بعدی که می خواهیم
72
00:02:15,040 –> 00:02:15,760
انجام دهیم این
73
00:02:15,760 –> 00:02:18,480
است که مدل k-means
74
00:02:18,480 –> 00:02:19,840
خود را در اینجا
75
00:02:19,840 –> 00:02:23,920
می گیریم و می گوییم شاخص های k-mean
76
00:02:23,920 –> 00:02:27,440
نه شاخص های زیر خط بزرگ k-mean
77
00:02:27,440 –> 00:02:29,599
و این از یک پشته می آید.
78
00:02:29,599 –> 00:02:30,800
پست سرریز من لینکی را در
79
00:02:30,800 –> 00:02:32,319
توضیحات زیر
80
00:02:32,319 –> 00:02:36,640
میگذارم. مدل نقطهای متناسب با زیرخط پیشبینی
81
00:02:36,640 –> 00:02:39,040
میکنیم که بردارهایی را
82
00:02:39,040 –> 00:02:41,760
که اینجا در آخرین ویدیو دیدیم،
83
00:02:41,760 –> 00:02:45,120
از tf idf
84
00:02:45,120 –> 00:02:46,160
نیز عبور میدهیم و بنابراین آنچه را که میخواهیم انجام دهیم انجام این کار این
85
00:02:46,160 –> 00:02:47,280
است که اساساً همه آن
86
00:02:47,280 –> 00:02:48,959
بردارها را همه آن کلمات کلیدی می گیریم و از آن
87
00:02:48,959 –> 00:02:50,319
داده ها برای
88
00:02:50,319 –> 00:02:52,400
ترسیم همه چیز استفاده می کنیم و
89
00:02:52,400 –> 00:02:54,160
این کار را با ایجاد یک شی جدید به نام
90
00:02:54,160 –> 00:02:56,640
کوچک pca انجام می دهیم و آن را با
91
00:02:56,640 –> 00:02:59,120
حروف بزرگ pca برابر می کنیم. برای
92
00:02:59,120 –> 00:03:02,239
گرفتن pca درست در اینجا از کتابخانه scikit-learn
93
00:03:02,239 –> 00:03:03,200
94
00:03:03,200 –> 00:03:05,040
و ما به p الاغ در یک آرگومان
95
00:03:05,040 –> 00:03:06,400
و این تعداد
96
00:03:06,400 –> 00:03:07,599
مؤلفههایی است
97
00:03:07,599 –> 00:03:10,080
که میخواهیم آن را برابر با 2 کنیم. و
98
00:03:10,080 –> 00:03:11,440
سپس کاری که باید انجام دهیم این است که باید
99
00:03:11,440 –> 00:03:13,840
دادههای خود را رسم کنیم.
100
00:03:13,840 –> 00:03:14,959
شما این همه نوع را خواهید دید
101
00:03:14,959 –> 00:03:17,120
وقتی همه این کد را مینویسیم خیلی سریع اتفاق میافتد،
102
00:03:17,120 –> 00:03:18,480
بنابراین میخواهیم بگوییم
103
00:03:18,480 –> 00:03:22,159
نقاط نمودار پراکنده
104
00:03:22,159 –> 00:03:24,799
و متأسفانه عبور میکنیم که
105
00:03:24,799 –> 00:03:25,760
آن را برابر میکنیم و
106
00:03:25,760 –> 00:03:26,159
میخواهیم بگوییم
107
00:03:26,159 –> 00:03:29,680
108
00:03:29,680 –> 00:03:31,720
تبدیل pca dot fit و ما. میخواهیم بگوییم آرایه
109
00:03:31,720 –> 00:03:32,879
vectors.2،
110
00:03:32,879 –> 00:03:35,840
بنابراین همه
111
00:03:35,840 –> 00:03:36,640
آنها را
112
00:03:36,640 –> 00:03:39,680
روی یک آرایه واقعی تنظیم میکنیم و سپس کاری که
113
00:03:39,680 –> 00:03:41,200
میخواهیم انجام دهیم این است که چند رنگ ایجاد میکنیم
114
00:03:41,200 –> 00:03:42,560
115
00:03:42,560 –> 00:03:43,920
حالا این تعداد رنگ باید
116
00:03:43,920 –> 00:03:46,000
با تعداد خوشههای ما
117
00:03:46,000 –> 00:03:48,000
در یک matplotlib مطابقت دارد، میتوانید
118
00:03:48,000 –> 00:03:49,440
رنگهای هگزا دسیمال را ارسال کنید
119
00:03:49,440 –> 00:03:51,280
یا میتوانید از دستورات داخلی آنها استفاده کنید،
120
00:03:51,280 –> 00:03:52,879
بنابراین میتوانید اعداد را به صورت
121
00:03:52,879 –> 00:03:56,959
r برای قرمز b برای آبی c برای فیروزهای
122
00:03:56,959 –> 00:04:00,400
um y برای زرد و m4 ارسال کنید، فکر میکنم
123
00:04:00,400 –> 00:04:02,239
سرخابی است. من هرگز نمی توانم آن رنگ
124
00:04:02,239 –> 00:04:04,319
را به خاطر بسپارم که به نظر ارغوانی است
125
00:04:04,319 –> 00:04:06,560
و اکنون ما محور x خود را ترسیم می کنیم
126
00:04:06,560 –> 00:04:09,360
بنابراین ما محور x را برابر
127
00:04:09,360 –> 00:04:12,400
می کنیم که لیستی ارائه می دهیم و برای o می
128
00:04:12,400 –> 00:04:12,879
گوییم
129
00:04:12,879 –> 00:04:16,399
o
130
00:04:16,399 –> 00:04:19,680
o صفر و
131
00:04:19,680 –> 00:04:23,120
نقاط طرح را پراکنده
132
00:04:23,120 –> 00:04:24,800
می کنیم و سپس کمی
133
00:04:24,800 –> 00:04:27,040
کپی و چسباندن انجام می دهیم هرگز ایده خوبی نیست.
134
00:04:27,040 –> 00:04:28,400
برای انجام این کار، اما من می دانم که اینجا چه کار می
135
00:04:28,400 –> 00:04:30,320
کنم، بنابراین اشکالی ندارد و ما این کار را انجام
136
00:04:30,320 –> 00:04:31,440
می دهیم که به ما امکان می دهد
137
00:04:31,440 –> 00:04:32,400
داده ها و
138
00:04:32,400 –> 00:04:34,960
یک محور x و y را ترسیم کنیم و سپس کاری که می
139
00:04:34,960 –> 00:04:36,320
خواهیم انجام دهیم این است که ما. دوباره fig را انجام میدهید
140
00:04:36,320 –> 00:04:38,080
و محور را با زیر
141
00:04:38,080 –> 00:04:40,400
نمودارهای plt dot برابر میکنید
142
00:04:40,400 –> 00:04:41,600
و اگر نمیدانید اینجا چه خبر
143
00:04:41,600 –> 00:04:43,280
است، من یک سری ویدیویی منتشر
144
00:04:43,280 –> 00:04:45,360
خواهم کرد، فکر میکنم در آینده نزدیک
145
00:04:45,360 –> 00:04:47,600
در uh matplotlib و همه کارهای متفاوتی
146
00:04:47,600 –> 00:04:48,639
که می توانید با آن انجام دهید،
147
00:04:48,639 –> 00:04:49,440
قبلاً آن را
148
00:04:49,440 –> 00:04:51,600
در مجموعه شبکه های اجتماعی خود دریافت کرده ام، اما در سری های بعدی عمیق
149
00:04:51,600 –> 00:04:52,639
تر آن را توضیح خواهم داد،
150
00:04:52,639 –> 00:04:54,639
اوه،
151
00:04:54,639 –> 00:04:55,919
اساساً این راهی است که ما می توانیم
152
00:04:55,919 –> 00:04:56,479
153
00:04:56,479 –> 00:04:59,040
در این مورد به نوعی نمودار را ترسیم کنیم. یک نمودار پراکندگی بنابراین ما می
154
00:04:59,040 –> 00:05:00,639
خواهیم اندازه شکل را 50 در
155
00:05:00,639 –> 00:05:01,120
50
156
00:05:01,120 –> 00:05:03,600
قرار دهیم.
157
00:05:03,600 –> 00:05:04,800
158
00:05:04,800 –> 00:05:07,840
e از 50 در 50 که پیدا کردم در
159
00:05:07,840 –> 00:05:08,960
واقع همان چیزی بود که برای اینکه
160
00:05:08,960 –> 00:05:10,639
همه چیز را به درستی نمودار کنم
161
00:05:10,639 –> 00:05:11,600
و سپس انجام می دهیم این است
162
00:05:11,600 –> 00:05:14,160
که آن را ترسیم می کنیم محور x
163
00:05:14,160 –> 00:05:16,880
محور y و c را تنظیم می کنیم.
164
00:05:16,880 –> 00:05:18,400
برابر با
165
00:05:18,400 –> 00:05:22,160
رنگ d
166
00:05:22,160 –> 00:05:23,600
اجازه دهید مطمئن شوم که درست است بله
167
00:05:23,600 –> 00:05:25,280
برای شاخص های d و k میانگین،
168
00:05:25,280 –> 00:05:27,680
بنابراین وارد می شود و
169
00:05:27,680 –> 00:05:28,720
170
00:05:28,720 –> 00:05:31,280
برای هر آیتم در شاخص های k-means
171
00:05:31,280 –> 00:05:33,680
مشخص می شود که کدام خوشه
172
00:05:33,680 –> 00:05:35,600
در یکی از آن پنج قرار دارد و آن
173
00:05:35,600 –> 00:05:36,960
174
00:05:36,960 –> 00:05:38,800
در اینجا وارد لیست رنگهای خود میشویم و
175
00:05:38,800 –> 00:05:40,160
شاخص مربوطه را میگیریم،
176
00:05:40,160 –> 00:05:43,520
بنابراین خوشه صفر
177
00:05:43,520 –> 00:05:45,840
در پایین لیست قرمز آبی و غیره خواهد بود، بنابراین
178
00:05:45,840 –