در این مطلب، ویدئو توسعه یک مدل خوشه بندی K-Means با استفاده از پایتون | علم داده | ادورکا | Data Science Rewind -3 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:39:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:09,200 –> 00:00:10,480
سلام بچه ها این راهول است که
2
00:00:10,480 –> 00:00:13,920
از مدولا به جلسه خوش آمدید
3
00:00:13,920 –> 00:00:16,400
امروز ما یک دستور کار داریم که
4
00:00:16,400 –> 00:00:17,359
در مورد
5
00:00:17,359 –> 00:00:21,199
k به معنای خوشه بندی صحبت کنیم اکنون k به معنای
6
00:00:21,199 –> 00:00:22,800
خوشه بندی است و در واقع خوشه بندی چیست،
7
00:00:22,800 –> 00:00:24,640
بنابراین بیایید سعی کنیم ابتدا جزئیات را درک کنیم،
8
00:00:24,640 –> 00:00:26,720
اما قبل از آن این
9
00:00:26,720 –> 00:00:28,480
آنچه قرار است بیاموزیم
10
00:00:28,480 –> 00:00:30,880
مقدمه ای بر تجزیه و تحلیل خوشه ای یادگیری ماشینی
11
00:00:30,880 –> 00:00:32,079
12
00:00:32,079 –> 00:00:34,880
نوع خوشه بندی مقدمه بر
13
00:00:34,880 –> 00:00:36,719
k-means خوشه بندی چگونه k به معنای
14
00:00:36,719 –> 00:00:37,760
کار خوشه بندی است
15
00:00:37,760 –> 00:00:40,079
و در نهایت یک مثال می زنم که در آن
16
00:00:40,079 –> 00:00:41,440
در مورد
17
00:00:41,440 –> 00:00:44,239
شرکت کارت اعتباری صحبت خواهیم کرد و یک مجموعه داده را
18
00:00:44,239 –> 00:00:44,640
انتخاب خواهیم کرد.
19
00:00:44,640 –> 00:00:48,320
و ما سعی خواهیم کرد آن مشکل را به درستی حل کنیم،
20
00:00:48,320 –> 00:00:50,399
بنابراین در حال حاضر آنچه که اول از همه
21
00:00:50,399 –> 00:00:53,199
یادگیری ماشینی است،
22
00:00:53,440 –> 00:00:54,879
بنابراین یادگیری ماشینی نوعی
23
00:00:54,879 –> 00:00:56,719
هوش مصنوعی است
24
00:00:56,719 –> 00:00:58,960
که کامپیوتر را با
25
00:00:58,960 –> 00:01:00,239
توانایی یادگیری بدون
26
00:01:00,239 –> 00:01:03,280
برنامهریزی صریح فراهم میکند، اگر
27
00:01:03,280 –> 00:01:05,519
مثالی بزنم
28
00:01:05,519 –> 00:01:07,680
، فرض کنید میخواهم برای انجام پیش بینی
29
00:01:07,680 –> 00:01:09,040
قیمت خانه
30
00:01:09,040 –> 00:01:11,280
من هستم بیایید بگوییم خوب هستم و می خواهم
31
00:01:11,280 –> 00:01:13,439
بدانم قیمت
32
00:01:13,439 –> 00:01:18,000
خانه من چقدر است، بنابراین چگونه آن قیمت را قضاوت کنم و آن
33
00:01:18,000 –> 00:01:20,400
قیمت را قضاوت کنم y شاید مساحت
34
00:01:20,400 –> 00:01:21,680
خانه من
35
00:01:21,680 –> 00:01:24,479
از شهر تعداد
36
00:01:24,479 –> 00:01:26,080
اتاقهای خانه
37
00:01:26,080 –> 00:01:28,720
من فاصله داشته باشد، بنابراین اینها برخی از
38
00:01:28,720 –> 00:01:29,439
39
00:01:29,439 –> 00:01:31,840
ویژگیهایی هستند که میخواهم انجام دهم یا
40
00:01:31,840 –> 00:01:34,880
به آن ویژگیها کمک میکنم تا پیشبینی را انجام دهم،
41
00:01:34,880 –> 00:01:36,560
بنابراین در اینجا کاری که من انجام میدهم هستم. در واقع
42
00:01:36,560 –> 00:01:38,720
پیش بینی متغیر پیوسته
43
00:01:38,720 –> 00:01:41,439
که قیمت خانه است مانند 20 لک 30
44
00:01:41,439 –> 00:01:41,920
لک
45
00:01:41,920 –> 00:01:44,479
40 لک 90 لایک این یک عدد پیوسته است
46
00:01:44,479 –> 00:01:45,360
47
00:01:45,360 –> 00:01:47,520
بنابراین وقتی می خواهم یک عدد پیوسته
48
00:01:47,520 –> 00:01:49,520
پیش بینی کنم که
49
00:01:49,520 –> 00:01:52,560
رگرسیون رگرسیون است یکی از انواع
50
00:01:52,560 –> 00:01:55,600
یادگیری ماشینی نظارت شده است که حالا چرا اینطور
51
00:01:55,600 –> 00:01:57,439
است تحت نظارت، زیرا
52
00:01:57,439 –> 00:02:00,799
ما این داده ها را به عنوان داده های برچسب دار داریم،
53
00:02:00,799 –> 00:02:03,360
من از قبل قیمت خانه من را می دانم،
54
00:02:03,360 –> 00:02:04,799
اکنون بررسی
55
00:02:04,799 –> 00:02:07,040
می کنم که مدل من چه می گوید، فرض کنید
56
00:02:07,040 –> 00:02:08,878
قیمت خانه من 25 لایک است،
57
00:02:08,878 –> 00:02:10,479
اما مدل من می گوید 10 لک،
58
00:02:10,479 –> 00:02:12,400
سپس یک خطای بزرگ وجود دارد که یعنی
59
00:02:12,400 –> 00:02:15,599
مدل من خروجی درستی را پیشبینی نمیکند
60
00:02:15,599 –> 00:02:17,680
، فرض کنید قیمت خانهام
61
00:02:17,680 –> 00:02:18,640
دوباره 25 لک است و
62
00:02:18,640 –> 00:02:20,959
مدل من 24 لک 50 هزار را پیشبینی میکند
63
00:02:20,959 –> 00:02:22,000
که
64
00:02:22,000 –> 00:02:23,840
بسیار نزدیک به قیمت واقعی خانه
65
00:02:23,840 –> 00:02:25,200
من است، یعنی مدل من
66
00:02:25,200 –> 00:02:28,080
پیش بینی بسیار بهتر و خوب و
67
00:02:28,080 –> 00:02:30,319
دادن دقت خوب به من،
68
00:02:30,319 –> 00:02:31,840
به طوری که یکی از سناریوهای
69
00:02:31,840 –> 00:02:33,680
یادگیری ماشینی است که یک یادگیری نظارت شده
70
00:02:33,680 –> 00:02:35,680
است که در آن من یک داده برچسب
71
00:02:35,680 –> 00:02:38,000
دارم و سپس می خواهم بدانم خوب این یک
72
00:02:38,000 –> 00:02:39,120
قیمت خانه است که
73
00:02:39,120 –> 00:02:41,280
یک متغیر پیوسته را پیش بینی می کند. آیا رگرسیون رگرسیون
74
00:02:41,280 –> 00:02:42,800
نظارت شده من
75
00:02:42,800 –> 00:02:45,040
است به این دلیل است که یکی از یادگیری های
76
00:02:45,040 –> 00:02:45,840
نظارت شده
77
00:02:45,840 –> 00:02:48,160
مثال دیگری از
78
00:02:48,160 –> 00:02:50,160
رگرسیون مانند پیش بینی حقوق و دستمزد است که
79
00:02:50,160 –> 00:02:52,560
تعداد لایک های یوتیوب را در
80
00:02:52,560 –> 00:02:53,440
ویدیوی
81
00:02:53,440 –> 00:02:57,120
من پیش بینی می کند، سپس می توانم بگویم پیش بینی درآمد ممکن است
82
00:02:57,120 –> 00:02:59,920
در بازه زمانی یا شاید درآمد
83
00:02:59,920 –> 00:03:00,720
84
00:03:00,720 –> 00:03:03,440
فروشگاه های من، بنابراین اینها برخی هستند. از مثالهایی
85
00:03:03,440 –> 00:03:04,959
که من یک رگرسیون را اعمال
86
00:03:04,959 –> 00:03:05,760
87
00:03:05,760 –> 00:03:08,480
میکنم که یک یادگیری ماشینی نظارتشده است، سپس یک یادگیری نظارتشده دیگر وجود دارد
88
00:03:08,480 –> 00:03:10,080
که به عنوان طبقهبندی شناخته میشود
89
00:03:10,080 –> 00:03:12,319
، میخواهم طبقهبندی کنم،
90
00:03:12,319 –> 00:03:14,640
بنابراین وقتی میخواهم یک متغیر گسسته را پیشبینی کنم
91
00:03:14,640 –> 00:03:15,599
92
00:03:15,599 –> 00:03:18,000
بله یا خیر، آیا شما جلسه را دوست دارید
93
00:03:18,000 –> 00:03:19,920
یا خیر. نه بله یا نه
94
00:03:19,920 –> 00:03:22,080
پس چه گزینه هایی داریم بله و
95
00:03:22,080 –> 00:03:23,680
نه دو گزینه
96
00:03:23,680 –> 00:03:26,560
به طوری که گسسته باشد بنابراین وقتی می خواهم
97
00:03:26,560 –> 00:03:27,440
پیش بینی را
98
00:03:27,440 –> 00:03:30,840
با گسسته انجام دهم به عنوان خروجی
99
00:03:30,840 –> 00:03:32,640
طبقه بندی است
100
00:03:32,640 –> 00:03:34,640
که آیا کارمند من مرا ترک می کند یا نه
101
00:03:34,640 –> 00:03:35,840
بله یا
102
00:03:35,840 –> 00:03:38,080
خیر آیا بیمار من به بیماری مبتلا می شود یا
103
00:03:38,080 –> 00:03:39,840
نه بله یا
104
00:03:39,840 –> 00:03:41,760
خیر آیا مشتری من مرا ترک می کند یا نه
105
00:03:41,760 –> 00:03:42,959
بله یا خیر
106
00:03:42,959 –> 00:03:44,480
بنابراین اینها مانند الگوریتم طبقه بندی هستند
107
00:03:44,480 –> 00:03:47,040
این یک یادگیری نظارت شده
108
00:03:47,040 –> 00:03:49,120
است. زیرا این دوباره یک داده برچسبدار است،
109
00:03:49,120 –> 00:03:51,599
زیرا من مجموعهای از دادهها را دارم که
110
00:03:51,599 –> 00:03:52,640
شامل
111
00:03:52,640 –> 00:03:55,200
مشتریان قبلی است و میدانم که کدام
112
00:03:55,200 –> 00:03:57,040
مشتری کدام مشتری
113
00:03:57,040 –> 00:03:59,280
را تبدیل نکرده است، بنابراین من
114
00:03:59,280 –> 00:04:01,040
قبلاً مجموعه دادهها را بر این اساس
115
00:04:01,040 –> 00:04:02,799
دارم و از آن مجموعه داده برای آموزش استفاده خواهم
116
00:04:02,799 –> 00:04:05,120
کرد. مدل و سپس
117
00:04:05,120 –> 00:04:06,000
118
00:04:06,000 –> 00:04:07,680
من وقتی دادههای جدید را دریافت میکنم، در واقع میتوانم با آن مدل پیشبینی
119
00:04:07,680 –> 00:04:10,000
کنم،
120
00:04:10,000 –> 00:04:11,920
بنابراین یادگیری نظارت شده چیزی نیست جز
121
00:04:11,920 –> 00:04:14,080
جایی که میتوانم دقت خود را بررسی کنم که
122
00:04:14,080 –> 00:04:15,920
آیا دقت درست است یا نه،
123
00:04:15,920 –> 00:04:17,918
آیا مدل من خوب کار میکند یا
124
00:04:17,918 –> 00:04:19,600
نه. یادگیری نظارت شده
125
00:04:19,600 –> 00:04:22,160
بنابراین در یادگیری نظارت شده
126
00:04:22,160 –> 00:04:22,720
ما دو
127
00:04:22,720 –> 00:04:24,960
سناریو داریم رگرسیون و طبقه بندی
128
00:04:24,960 –> 00:04:26,639
زمانی که می خواهم عدد پیوسته را پیش بینی کنم
129
00:04:26,639 –> 00:04:28,240
که رگرسیون است
130
00:04:28,240 –> 00:04:30,560
وقتی می خواهم انجام دهم. پیشبینی
131
00:04:30,560 –> 00:04:32,320
عدد گسسته بله یا خیر که
132
00:04:32,320 –> 00:04:35,840
پس از آن یادگیری بدون نظارت طبقهبندی میشود
133
00:04:35,840 –> 00:04:36,639
134
00:04:36,639 –> 00:04:38,080
و این همان چیزی است که ما
135
00:04:38,080 –> 00:04:40,400
در اینجا در مورد آن
136
00:04:40,400 –> 00:04:42,720
137
00:04:42,720 –> 00:04:43,919
138
00:04:43,919 –> 00:04:46,080
139
00:04:46,080 –> 00:04:48,000
صحبت خواهیم
140
00:04:48,000 –> 00:04:50,320
کرد. مشتریانی که بر اساس
141
00:04:50,320 –> 00:04:51,919
امتیاز هزینه و
142
00:04:51,919 –> 00:04:54,400
شاید درآمد دارم، فرض کنید مشتری
143
00:04:54,400 –> 00:04:55,759
با امتیاز خرج کردن پایین
144
00:04:55,759 –> 00:04:58,800
و درآمد کم دارم که یک خوشه
145
00:04:58,800 –> 00:05:01,919
امتیاز خرج زیاد است درآمد
146
00:05:01,919 –> 00:05:02,880
147
00:05:02,880 –> 00:05:05,520
بالا خوشه دوم خرج زیاد کم درآمد خوشه سوم
148
00:05:05,520 –> 00:05:07,120
و خرج کم خیلی با درآمد بالا
149
00:05:07,120 –> 00:05:09,120
خوشه چهارم بنابراین اینها مانند چهار
150
00:05:09,120 –> 00:05:11,039
خوشه از داده های من هستند
151
00:05:11,039 –> 00:05:13,360
که بسیار ممکن است برخی از
152
00:05:13,360 –> 00:05:15,600
مثال ها مانند شرکت کارت اعتباری اگر شرکت کارت
153
00:05:15,600 –> 00:05:17,360
اعتباری را درست در
154
00:05:17,360 –> 00:05:19,039
شرکت کارت اعتباری می بینید ما مشتریان پلاتینی داریم
155
00:05:19,039 –> 00:05:20,720
مشتریان جسور مشتریان نقره ای
156
00:05:20,720 –> 00:05:22,400
مشتریان برنزی که چگونه
157
00:05:22,400 –> 00:05:23,759
تصمیم می گیرند بر اساس هزینه های خود تصمیم می گیرند.
158
00:05:23,759 –> 00:05:24,639
159
00:05:24,639 –> 00:05:26,720
160
00:05:26,720 –> 00:05:28,320
اگر مردم بیشتر
161
00:05:28,320 –> 00:05:30,880
از این کارت اعتباری بیشتر از کارت اعتباری خود استفاده می کنند، آنها بر اساس درآمد خود تصمیم می گیرند
162
00:05:30,880 –> 00:05:32,400
پس
163
00:05:32,400 –> 00:05:33,759
شاید مشتری پلاتینی باشد زیرا
164
00:05:33,759 –> 00:05:35,440
هزینه ها بیشتر است،
165
00:05:35,440 –> 00:05:37,759
بنابراین خوشه بندی چگونه کار می کند من می خواهم
166
00:05:37,759 –> 00:05:39,520
167
00:05:39,520 –> 00:05:42,000
دانش آموزانم را دسته بندی کنم می خواهم دانش آموزانم را خوشه بندی کنم
168
00:05:42,000 –> 00:05:44,000
اینها دانش آموزان ضعیف هستند
169
00:05:44,000 –> 00:05:45,520
این دانش آموزان ممتاز هستند این
170
00:05:45,520 –> 00:05:47,520
دانش آموزان متوسط هستند و به همین ترتیب چگونه این خوشه بندی را انجام خواهم دا
171
00:05:47,520 –> 00:05:48,400
172
00:05:48,400 –> 00:05:50,400
. در حال حاضر خوشه بندی بدون نظارت است چرا
173
00:05:50,400 –> 00:05:52,320
دلیل آن این است که داده های بدون برچسب است.
174
00:05:52,320 –> 00:05:54,800
من نمی دانم که آیا فرض کنید
175
00:05:54,800 –> 00:05:56,000
srinivas
176
00:05:56,000 –> 00:05:57,520
دانش آموز ممتاز من است یا دانش آموز ضعیف.
177
00:05:57,520 –> 00:05:59,520
178
00:05:59,520 –> 00:06:00,880
179
00:06:00,880 –> 00:06:01,759
180
00:06:01,759 –> 00:06:03,680
از پاسخ هایی که
181
00:06:03,680 –> 00:06:04,800
در کلاس می دهد
182
00:06:04,800 –> 00:06:07,039
مارکس در امتحان یا شاید
183
00:06:07,039 –> 00:06:09,680
شرکت در فعالیت های مختلف است،
184
00:06:09,680 –> 00:06:11,280
بنابراین بر اساس آن تصمیم می
185
00:06:11,280 –> 00:06:13,039
گیرم خوب نیواس دانش آموز ممتازی است
186
00:06:13,039 –> 00:06:14,800
زیرا نمره خوبی می گیرد و
187
00:06:14,800 –> 00:06:17,440
غیره اما نمی توانم بررسی کنم که آیا اینطور است یا خیر.
188
00:06:17,440 –> 00:06:18,319
درست است یا نه
189
00:06:18,319 –> 00:06:19,919
که این مبارزه بدون برچسب است و به
190
00:06:19,919 –> 00:06:21,680
همین دلیل است که به عنوان بدون نظارت شناخته می شود،
191
00:06:21,680 –> 00:06:23,919
من چیزی برای اثبات آن ندارم که
192
00:06:23,919 –> 00:06:25,440
صرفاً بر اساس مجموعه
193
00:06:25,440 –> 00:06:28,319
داده ها است و به روشی بدون نظارت است.
194
00:06:28,319 –> 00:06:30,160
موارد استفاده از یادگیری
195
00:06:30,160 –> 00:06:32,800
ماشین گوگل ماشین خودران گوگل
196
00:06:32,800 –> 00:06:33,520
ماشین بدون راننده هوشمند است
197
00:06:33,520 –> 00:06:35,199
که داده ها را از محیط جمع آوری می کند و از
198
00:06:35,199 –> 00:06:36,639
طریق سنسورها
199
00:06:36,639 –> 00:06:38,960
تصمیم می گیرد مانند زمان
200
00:06:38,960 –> 00:06:39,759
201
00:06:39,759 –> 00:06:42,400
سبقت گرفتن و زمان پیچیدن به
202
00:06:42,400 –> 00:06:42,800
راست
203
00:06:42,800 –> 00:06:45,919
. اتفاقی که می افتد گوگل است
204
00:06:45,919 –> 00:06:47,919
که در واقع چه کاری انجام می دهد که این ماشین
205
00:06:47,919 –> 00:06:49,199
واقعاً چه کار
206
00:06:49,199 –> 00:06:51,759
می کند تصاویر را می گیرد. فرض کنید ماشین
207
00:06:51,759 –> 00:06:53,840
در حال رانندگی است تصاویری را می گیرد که
208
00:06:53,840 –> 00:06:54,400
209
00:06:54,400 –> 00:06:57,599
در جلوی آن ماشین است و سپس تصویر را می خواند
210
00:06:57,599 –> 00:06:59,440
بنابراین واضح است که ماشین نمی تواند
211
00:06:59,440 –> 00:07:01,280
مستقیماً تصویری را بخواند شما باید آن را تبدیل کنید. آن را
212
00:07:01,280 –> 00:07:02,560
به اعداد،
213
00:07:02,560 –> 00:07:04,319
بنابراین ماشین کاری که انجام می دهد
214
00:07:04,319 –> 00:07:05,840
، تصویر را
215
00:07:05,840 –> 00:07:06,880
216
00:07:06,880 –> 00:07:08,639
بر اساس پیکسل ها به عدد تبدیل
217
00:07:08,639 –> 00:07:11,199
218
00:07:11,199 –> 00:07:12,960
می کند.
219
00:07:12,960 –> 00:07:15,280
220
00:07:15,280 –> 00:07:17,199
221
00:07:17,199 –> 00:07:19,280
بنابراین اگر تصویری داشته باشم اگر آن را
222
00:07:19,280 –> 00:07:21,120
به ماتریس تبدیل کنم مجموعه ای
223
00:07:21,120 –> 00:07:22,240
از ماتریس ها ایجاد می شود
224
00:07:22,240 –> 00:07:25,280
و سپس توسط یک ماشین خوانده می شود
225
00:07:25,280 –> 00:07:27,440
و متوجه می شود آیا
226
00:07:27,440 –> 00:07:29,520
چیزی در جلوی ماشین وجود دارد یا نه
227
00:07:29,520 –> 00:07:32,400
بر این اساس که متوقف می شود یا ادامه می
228
00:07:32,400 –> 00:07:33,599
یابد
229
00:07:33,599 –> 00:07:35,759
که یکی از مثال های این است، اما یک
230
00:07:35,759 –> 00:07:38,240
مثال پیشرفته تر در مرحله
231
00:07:38,240 –> 00:07:40,479
بعد این است که ما در مورد یادگیری نظارت شده بحث کردیم،
232
00:07:40,479 –> 00:07:41,919
بیایید این را بخوانید
233
00:07:41,919 –> 00:07:43,759
شما بیشتر خواهید داشت. ایده اما من قبلاً
234
00:07:43,759 –> 00:07:45,120
این ایده را ارائه دادم که یادگیری نظارتی درست چیست،
235
00:07:45,120 –> 00:07:46,080
بنابراین
236
00:07:46,080 –> 00:07:48,240
یادگیری نظارت شده
237
00:07:48,240 –> 00:07:49,599
هنگام آموزش مجموعه داده ها و برچسب های
238
00:07:49,599 –> 00:07:50,639
از پیش تعریف شده طبقه بندی کننده را تغذیه می کند
239
00:07:50,639 –> 00:07:53,680
همانطور که دقیقاً اشاره کردم که آیا
240
00:07:53,680 –> 00:07:55,680
ویجای یکی از شاگردان من در اینجا در
241
00:07:55,680 –> 00:07:58,160
کلاس است که آیا تبدیل می کند یا
242
00:07:58,160 –> 00:07:59,680
خیر. به کلاس ادواردو بپیوندید یا
243
00:07:59,680 –> 00:08:02,479
نه مثلاً میخواهم پیشبینی کنم که
244
00:08:02,479 –> 00:08:04,720
بنابراین از مجموعه دادههای قدیمی استفاده خواهم کرد
245
00:08:04,720 –> 00:08:06,720
، مثلاً جهان سینما و ویجی دارای
246
00:08:06,720 –> 00:08:07,599
ویژگیهای
247
00:08:07,599 –> 00:08:10,840
یکسانی هستند، همان سن حقوق و تحصیلات مشابه،
248
00:08:10,840 –> 00:08:14,479
بنابراین سالمندان شاگرد من بودند،
249
00:08:14,479 –> 00:08:16,160
بنابراین شانس ویجی برای دانشآموز شدن من
250
00:08:16,160 –> 00:08:17,520
بیشتر
251
00:08:17,520 –> 00:08:19,120
از این، از دادههای قدیمی استفاده میکنم که سه
252
00:08:19,120 –> 00:08:20,800
خبر است، یک مدل ایجاد
253
00:08:20,800 –> 00:08:22,800
254
00:08:22,800 –> 00:08:24,000
255
00:08:24,000 –> 00:08:26,639
میکنم و سپس با استفاده از آن مدل، ویجت را پیشبینی میکنم، بنابراین این همان چیزی است که نمونه طبقهبندی من است.
256
00:08:26,639 –> 00:08:27,599
257
00:08:27,599 –> 00:08:29,440
rn برای دستهبندی
258
00:08:29,440 –> 00:08:31,840
دادههای خاص در یک سطح خاص
259
00:08:31,840 –> 00:08:33,760
اگر اینجا را ببینید که چه زمانی و کجا باید
260
00:08:33,760 –> 00:08:34,880
خانه بخرم،
261
00:08:34,880 –> 00:08:36,479
بنابراین همانطور که به این مثال اشاره کردم
262
00:08:36,479 –> 00:08:38,080
خانه دارای
263
00:08:38,080 –> 00:08:40,799
مساحت نرخ جرم و جنایت فاصله از
264
00:08:40,799 –> 00:08:41,679
دفتر مرکزی
265
00:08:41,679 –> 00:08:44,720
فوت مربع و محل
266
00:08:44,720 –> 00:08:46,560
است که میخواهم پیشبینی کنم. قیمت خانه من
267
00:08:46,560 –> 00:08:48,800
اگر میزان جرم و جنایت بیشتر باشد، بدیهی است که
268
00:08:48,800 –> 00:08:49,600
قیمت خانه من بسیار کمتر خواهد بود،
269
00:08:49,600 –> 00:08:51,760
بنابراین اینها برخی از
270
00:08:51,760 –> 00:08:53,760
ویژگی هایی است که به من کمک می کند تا
271
00:08:53,760 –> 00:08:54,800
قیمت خانه را پیش بینی کنم،
272
00:08:54,800 –> 00:08:57,519
بنابراین اینها مانند متغیرهای مستقل هستند
273
00:08:57,519 –> 00:08:59,519
و متغیر وابسته
274
00:08:59,519 –> 00:09:03,200
من قیمت خانه من چیست، ما بچه ها این کار را انجام دادیم. در مدرسه
275
00:09:03,200 –> 00:09:04,800
و ما قبلاً مقداری ریاضی می دانیم
276
00:09:04,800 –> 00:09:07,279
که y برابر با mx به اضافه c
277
00:09:07,279 –> 00:09:10,399
است که معادله رگرسیون من است y چیزی
278
00:09:10,399 –> 00:09:13,279
است که متغیر وابسته من است که
279
00:09:13,279 –> 00:09:14,080
280
00:09:14,080 –> 00:09:17,680
قیمت خانه برابر است با mx به علاوه c
281
00:09:17,680 –> 00:09:20,560
که در آن x متغیر مستقل من است m
282
00:09:20,560 –> 00:09:22,320
شیب من یک خط است
283
00:09:22,320 –> 00:09:24,720
و c رهگیری است اگر
284
00:09:24,720 –> 00:09:26,080
چندین x داشته
285
00:09:26,080 –> 00:09:27,920
باشم، مثلاً قیمت خانه را میخواهم
286
00:09:27,920 –> 00:09:29,120
بر اساس تعداد اتاقهای
287
00:09:29,120 –> 00:09:31,040
مساحت خانهام، فاصله از
288
00:09:31,040 –> 00:09:33,279
میزان جرم و جنایت شهر پیشبینی کنم، بنابراین من چهار x دارم.
289
00:09:33,279 –> 00:09:35,760
معادله y برابر با m 1 x
290
00:09:35,760 –> 00:09:37,040
1 به علاوه m 2 x 2
291
00:09:37,040 –> 00:09:40,240
به علاوه m 3 x 3 به علاوه m 4 x 4 به علاوه c می شود
292
00:09:40,240 –> 00:09:41,920
که معادله رگرسیون من است
293
00:09:41,920 –> 00:09:43,760
که یادگیری بدون نظارت است همانطور که در
294
00:09:43,760 –> 00:09:45,600
مورد آن بحث کردیم من می خواهم
295
00:09:45,600 –> 00:09:49,200
مجموعه داده های خود را یک تصویر تصویری خوشه کنم
296
00:09:49,200 –> 00:09:51,839
میوهها ابتدا به سیستم وارد میشوند، سیستم
297
00:09:51,839 –> 00:09:52,560
298
00:09:52,560 –> 00:09:55,040
غذاهای مختلف را با استفاده از ویژگیهایی مانند
299
00:09:55,040 –> 00:09:55,600
300
00:09:55,600 –> 00:09:57,839
اندازه رنگ و دستههای آن شناسایی میکند و سپس
301
00:09:57,839 –> 00:09:58,880
302
00:09:58,880 –> 00:10:01,360
وقتی میوه جدیدی نشان داده میشود، آنها را دستهبندی میکند، ویژگیهای آن را تجزیه و تحلیل میکند
303
00:10:01,360 –> 00:10:03,279
و در دستهای قرار میگیرد
304
00:10:03,279 –> 00:10:04,800
که دارای ویژگی مشابه است
305
00:10:04,800 –> 00:10:06,959
همانطور که درست اشاره کردم دانشآموزانم براساس آن
306
00:10:06,959 –> 00:10:08,320
تعداد نمرهها
307
00:10:08,320 –> 00:10:10,880
بر اساس تعداد پاسخهایی
308
00:10:10,880 –> 00:10:11,760
که در
309
00:10:11,760 –> 00:10:13,680
کلاس و رویدادهای مختلف دادهاند، من
310
00:10:13,680 –> 00:10:15,200
میخواهم مشتریام را خوشهبندی کنم،
311
00:10:15,200 –> 00:10:17,200
بنابراین در اینجا نیز همین اتفاق
312
00:10:17,200 –> 00:10:19,519
میافتد، بنابراین یادگیری بدون نظارت
313
00:10:19,519 –> 00:10:22,240
بر اساس ویژگی من گروهبندی
314
00:10:22,240 –> 00:10:23,279
دانشآموزان را
315
00:10:23,279 –> 00:10:25,680
خوشهبندی میکنم، مشتریان را خوشهبندی میکنم.
316
00:10:25,680 –> 00:10:26,640
317
00:10:26,640 –> 00:10:29,120
کدام کارمند به درستی کار می کند، بنابراین من
318
00:10:29,120 –> 00:10:30,399
می خواهم
319
00:10:30,399 –> 00:10:32,480
محصولات خود را خوشه بندی کنم، شاید کدام محصولات
320
00:10:32,480 –> 00:10:34,800
خوب عمل می کنند، بنابراین این
321
00:10:34,800 –> 00:10:37,600
روش بسیار مفیدی برای خوشه بندی داده ها است.
322
00:10:37,600 –> 00:10:38,720
من
323
00:10:38,720 –> 00:10:41,920
بینش بیشتری از آن خواهم داشت
324
00:10:41,920 –> 00:10:44,000
و تصمیمات خوبی میگیرم، بیایید یک
325
00:10:44,000 –> 00:10:44,959
326
00:10:44,959 –> 00:10:48,160
مثال دیگر بزنیم، فرض کنیم یک دوره جدید
327
00:10:48,160 –> 00:10:50,880
علوم داده را با پایتون راهاندازی کردهام
328
00:10:50,880 –> 00:10:52,800
، این آخرین دوره با تمام
329
00:10:52,800 –> 00:10:55,519
فناوریهای جدید و همه الگوریتمهای جدید است که
330
00:10:55,519 –> 00:10:57,440
اکنون میخواهم این دوره را راه اندازی کنید و
331
00:10:57,440 –> 00:10:59,600
بودجه بازاریابی من بسیار کمتر است
332
00:10:59,600 –> 00:11:02,160
من ده هزار مشتری در اطراف خود
333
00:11:02,160 –> 00:11:02,720
دارم من ده
334
00:11:02,720 –> 00:11:06,079
هزار مخاطب از مشتریانم
335
00:11:06,079 –> 00:11:08,240
دارم و بودجه من برای بازاریابی فقط یک هزار
336
00:11:08,240 –> 00:11:09,839
مشتری است من می توانم فقط یک هزار
337
00:11:09,839 –> 00:11:10,880
مشتری
338
00:11:10,880 –> 00:11:13,040
در آن ده هزار مشتری بازاریابی کنم که
339
00:11:13,040 –> 00:11:14,320
مشتری دارم از
340
00:11:14,320 –> 00:11:17,120
فرض پزشکی، من مشتریانی از
341
00:11:17,120 –> 00:11:17,920
bcom
342
00:11:17,920 –> 00:11:20,959
از متخصصان مهندسی i.t
343
00:11:20,959 –> 00:11:23,839
و رشته های مختلف دیگر دارم، حالا اگر
344
00:11:23,839 –> 00:11:24,720
345
00:11:24,720 –> 00:11:27,760
1000 مشتری تصادفی را انتخاب کنم، این احتمال وجود دارد که
346
00:11:27,760 –> 00:11:28,000
347
00:11:28,000 –> 00:11:31,279
مشتریان پزشکی را به بازار عرضه کنم یا ممکن
348
00:11:31,279 –> 00:11:33,279
است اکنون مشتری شوم،
349
00:11:33,279 –> 00:11:34,959
شانس آنها برای تبدیل
350
00:11:34,959 –> 00:11:37,040
صفر به درستی چقدر است، زیرا آنها دارند.
351
00:11:37,040 –> 00:11:38,959
خط متفاوتی که آنها نمیدانند
352
00:11:38,959 –> 00:11:41,279
پایتون چیست، بنابراین من میخواهم
353
00:11:41,279 –> 00:11:43,040
مشتریانم را بر اساس
354
00:11:43,040 –> 00:11:46,079
تحصیلاتشان بر اساس o دسته بندی کنم در سن آنها، فرض کنید من
355
00:11:46,079 –> 00:11:46,480
356
00:11:46,480 –> 00:11:48,320
مشتریانی با سنین مختلف دارم، برخی از
357
00:11:48,320 –> 00:11:50,160
مشتریان از 20 تا 25 سال
358
00:11:50,160 –> 00:11:53,920
25 تا 30 و 60 تا 65 سال هستند. اگر
359
00:11:53,920 –> 00:11:56,560
دوره خود را بین 60 تا 65 سال مشتریانم هدف قرار دهم
360
00:11:56,560 –> 00:11:58,320
، احتمال خرید آنها کمتر است.
361
00:11:58,320 –> 00:11:59,920
362
00:11:59,920 –> 00:12:01,760
البته اگر نسل جوان را هدف قرار
363
00:12:01,760 –> 00:12:03,360
364
00:12:03,360 –> 00:12:05,120
دهم، آنها میخرند زیرا میخواهند شغل خود را تغییر دهند، میخواهند فنآوریهای جدید را یاد
365
00:12:05,120 –> 00:12:06,399
بگیرند و میتوانند
366
00:12:06,399 –> 00:12:09,440
از آن در شرکتهای جدید خود استفاده کنند، بنابراین در اینجا
367
00:12:09,440 –> 00:12:10,720
کاری که من انجام میدهم
368
00:12:10,720 –> 00:12:14,399
بر اساس ویژگیهایی است که سعی میکنم آن را به دست بیاورم.
369
00:12:14,399 –> 00:12:17,519
نوع مشتری
370
00:12:17,519 –> 00:12:19,519
که در آن شانس خرید
371
00:12:19,519 –> 00:12:20,800
دوره پایتون بیشتر است
372
00:12:20,800 –> 00:12:23,440
و سپس من آنها را بازاریابی خواهم کرد بنابراین بدیهی است که
373
00:12:23,440 –> 00:12:25,839
پایگاه مشتری را محدود می کنم و به
374
00:12:25,839 –> 00:12:29,680
پایگاه دقیق مشتری برخورد می کنم و سپس
375
00:12:29,680 –> 00:12:31,760
آنها را برای بازاریابی هدف قرار می دهم بنابراین در اینجا
376
00:12:31,760 –> 00:12:34,000
من در هزینه بازاریابی صرفه جویی می
377
00:12:34,000 –> 00:12:36,639
کنم زیرا بودجه من است 4000
378
00:12:36,639 –> 00:12:37,040
379
00:12:37,040 –> 00:12:40,399
مشتری من 10000 مشتری داشتم برای محدود
380
00:12:40,399 –> 00:12:43,600
کردن پایگاه مشتری دسته بندی کردم و سپس
381
00:12:43,600 –> 00:12:46,800
دقیقاً به نقطه مشتری رسیدم که فکر
382
00:12:46,800 –> 00:12:47,200
383
00:12:47,200 –> 00:12:49,200
می کنم محصولی را خریداری می کنم که دارای شناسه
384
00:12:49,200 –> 00:12:51,360
حرفه ای و موتور است. افرادی
385
00:12:51,360 –> 00:12:53,120
که از پس زمینه شناسه یا
386
00:12:53,120 –> 00:12:55,760
مهندسی ایده با سن 20 تا 25
387
00:12:55,760 –> 00:12:57,120
سال هستند،
388
00:12:57,120 –> 00:12:59,440
بنابراین شانس افزایش می یابد، می توانم بگویم که
389
00:12:59,440 –> 00:13:00,480
یک کمپین بازاریابی خوب است
390
00:13:00,480 –> 00:13:04,079
زیرا من در واقع به
391
00:13:04,079 –> 00:13:06,399
نوع دقیق مشتریان برخورد کرده ام، بنابراین این
392
00:13:06,399 –> 00:13:07,279
یک سناریوی
393
00:13:07,279 –> 00:13:09,839
درست است. در اینجا من در هزینه های زیادی صرفه جویی می کنم
394
00:13:09,839 –> 00:13:11,519
زیرا فرض کنید اگر 10
395
00:13:11,519 –> 00:13:13,360
1000 مشتری پزشکی را هدف قرار دهم بدیهی است که
396
00:13:13,360 –> 00:13:15,040
شانس تبدیل
397
00:13:15,040 –> 00:13:18,959
تقریباً صفر درصد است من آن پول را برای بازاریابی از دست دادم
398
00:13:18,959 –> 00:13:21,920
اما اگر از خوشه
399
00:13:21,920 –> 00:13:24,000
بندی استفاده کنم و دقیقاً مشتریان خود را هدف قرار دهم در آن
400
00:13:24,000 –> 00:13:25,600
صورت پول خود را پس انداز می کنم زیرا
401
00:13:25,600 –> 00:13:27,360
شانس 80 درصد است، شاید به این دلیل
402
00:13:27,360 –> 00:13:27,839
که آنها
403
00:13:27,839 –> 00:13:29,360
دوره دریافت می کنند یا دوره را می خرند،
404
00:13:29,360 –> 00:13:31,680
بنابراین یک کمپین بازاریابی زیبا است
405
00:13:31,680 –> 00:13:33,519
زیرا من از تعداد دقیق مشتریان متنفرم
406
00:13:33,519 –> 00:13:34,959
407
00:13:34,959 –> 00:13:37,040
اکنون تجزیه و تحلیل خوشه ای بیایید
408
00:13:37,040 –> 00:13:39,120
اکنون در مورد خوشه بندی با جزئیات صحبت کنیم،
409
00:13:39,120 –> 00:13:41,680
بنابراین خوشه بندی به معنای گروه بندی است. اشیاء
410
00:13:41,680 –> 00:13:43,680
بر اساس اطلاعات یافت شده
411
00:13:43,680 –> 00:13:46,399
در داده های توصیف کننده شی یا
412
00:13:46,399 –> 00:13:48,079
رابطه آنها
413
00:13:48,079 –> 00:13:50,880
، هدف این است که اشیاء در یک گروه
414
00:13:50,880 –> 00:13:51,440
باید
415
00:13:51,440 –> 00:13:53,519
مشابه یکدیگر باشند. اما متفاوت از
416
00:13:53,519 –> 00:13:54,959
اشیاء در گروه
417
00:13:54,959 –> 00:13:57,279
دیگری است، همان چیزی است که من به درستی اشاره کردم، آن
418
00:13:57,279 –> 00:13:58,639
با یافتن یک ساختار
419
00:13:58,639 –> 00:14:01,760
در مجموعه ای از داده های بدون برچسب سروکار دارد،
420
00:14:01,760 –> 00:14:03,279
این برخی از تکنیک های
421
00:14:03,279 –> 00:14:05,600
k به معنای خوشه بندی هستند
422
00:14:05,600 –> 00:14:07,680
که اگر ابزاری مانند تابلو
423
00:14:07,680 –> 00:14:09,600
را بشناسید، یک ابزار گزارش است، بسیار مورد استفاده قرار می گیرد. همچنین دارای یک
424
00:14:09,600 –> 00:14:11,680
ویژگی برای خوشهبندی دادهها است
425
00:14:11,680 –> 00:14:14,000
و همچنین k-means را در انتهای پشتی اجرا میکند،
426
00:14:14,000 –> 00:14:15,040
بنابراین
427
00:14:15,040 –> 00:14:17,440
شبکه به شدت مورد استفاده قرار میگیرد، سپس c
428
00:14:17,440 –> 00:14:19,519
به معنای خوشهبندی یا خوشهبندی فازی
429
00:14:19,519 –> 00:14:21,120
داریم، سپس خوشهبندی سلسله مراتبی
430
00:14:21,120 –> 00:14:23,279
نیز داریم، بنابراین این سه روشی هستند
431
00:14:23,279 –> 00:14:25,360
که برای آن استفاده میکنیم. خوشه بندی اما همانطور که
432
00:14:25,360 –> 00:14:27,120
اشاره کردم k به این معنی
433
00:14:27,120 –> 00:14:29,519
است که خوشه بندی مورد تقاضا است زیرا به من کمک می کند تا
434
00:14:29,519 –> 00:14:30,240
بفهمم
435
00:14:30,240 –> 00:14:32,480
چه تعداد خوشه باید در
436
00:14:32,480 –> 00:14:33,680
437
00:14:33,680 –> 00:14:36,079
موارد استفاده از خوشه بندی مجموعه داده داشته باشیم، بنابراین بیایید دوباره
438
00:14:36,079 –> 00:14:37,519
این را درست بخوانیم تا
439
00:14:37,519 –> 00:14:39,760
بازاریابی گروهی متمایز از
440
00:14:39,760 –> 00:14:41,040
پایگاه های داده مشتری
441
00:14:41,040 –> 00:14:43,760
مانند مشتری را کشف کنیم. کسانی که تماسهای طولانی مدت زیادی
442
00:14:43,760 –> 00:14:45,279
برقرار
443
00:14:45,279 –> 00:14:46,959
میکنند و اساساً مشتری را جدا میکنند،
444
00:14:46,959 –> 00:14:48,800
فرض کنید من یک
445
00:14:48,800 –> 00:14:51,120
محصول جدید ارائه میکنم که در آن به مشتری من کمک میکند تا مشکل را برطرف کند.
446
00:14:51,120 –> 00:14:52,079
447
00:14:52,079 –> 00:14:54,639
به دلیل نرخ ارزانتر، تماسهای راه دور را انجام
448
00:14:54,639 –> 00:14:56,000
میدهم،
449
00:14:56,000 –> 00:14:57,600
بنابراین من آن مشتریان را هدف قرار میدهم، باید
450
00:14:57,600 –> 00:14:59,519
آن بیمه را دستهبندی کنم که
451
00:14:59,519 –> 00:15:02,079
گروههایی از بیمهگذاران بیمه محصولات
452
00:15:02,079 –> 00:15:03,279
453
00:15:03,279 –> 00:15:06,160
با نرخ متوسط خسارت بالا را شناسایی میکند، زم
454
00:15:06,160 –> 00:15:06,720
455
00:15:06,720 –> 00:15:09,680
نی که کشاورزان سودآور است، محصولات را خراب میکنند، بنابراین ما
456
00:15:09,680 –> 00:15:11,199
ند بیمه نیز میتوانیم طب
457
00:15:11,199 –> 00:15:13,440
هبندی کنیم. شناسایی کاربری اراضی مشتریان
458
00:15:13,440 –> 00:15:15,600
مناطق با کاربری مشابه
459
00:15:15,600 –> 00:15:16,079
460
00:15:16,079 –> 00:15:18,639
در مطالعات لرزهای پایگاه داده gis
461
00:15:18,639 –> 00:15:20,639
شناسایی مناطق احتمالی
462
00:15:20,639 –> 00:15:23,440
برای اکتشاف گاز نفت بر اساس دادههای لرزهای،
463
00:15:23,440 –> 00:15:24,160
464
00:15:24,160 –> 00:15:25,839
بنابراین موارد کاربری مختلفی وجود دارد
465
00:15:25,839 –> 00:15:27,920
که میتوانیم خوشهبندی k-means را اعمال کنیم
466
00:15:27,920 –> 00:15:29,519
و دادهها را خوشهبندی کنیم و سپس استفاده کنیم. این
467
00:15:29,519 –> 00:15:30,480
دادهها برای
468
00:15:30,480 –> 00:15:32,560
پیشبینیهای آینده یا شاید اقدامات آتی
469
00:15:32,560 –> 00:15:33,839
470
00:15:33,839 –> 00:15:36,320
انواع خوشهبندی همانطور که بحث کردیم k
471
00:15:36,320 –> 00:15:38,399
به این معنی است که این یک خوشه انحصاری است
472
00:15:38,399 –> 00:15:40,639
که ما خوشهها را ایجاد میکنیم،
473
00:15:40,639 –> 00:15:42,079
همه با هم مجزا
474
00:15:42,079 –> 00:15:44,560
هستند
475
00:15:44,560 –> 00:15:46,560
476
00:15:46,560 –> 00:15:48,160
.
477
00:15:48,160 –> 00:15:51,040
مشتریان بنابراین یک آیتم
478
00:15:51,040 –> 00:15:54,079
منحصراً به یک خوشه تعلق دارد نه چند
479
00:15:54,079 –> 00:15:56,160
k به این معنی که این نوع از آن خارج است
480
00:15:56,160 –> 00:15:57,360
خوشهبندی استفاده میشود،
481
00:15:57,360 –> 00:15:59,040
پس خوشهبندی همپوشانی
482
00:15:59,040 –> 00:16:01,440
نیز داریم که مانند c و خوشه فازی است
483
00:16:01,440 –> 00:16:02,880
، این احتمال وجود دارد که
484
00:16:02,880 –> 00:16:04,959
مشتریان من
485
00:16:04,959 –> 00:16:07,839
یا هر چیزی در دو خوشه همپوشانی داشته باشند، این
486
00:16:07,839 –> 00:16:08,720
نقاط آبی را میبینید،
487
00:16:08,720 –> 00:16:11,199
اینها مانند مشتریانی هستند که در
488
00:16:11,199 –> 00:16:12,320
هر دو خوشه هستند،
489
00:16:12,320 –> 00:16:14,079
بنابراین یک آیتم می تواند به چندین خوشه تعلق داشته باشد
490
00:16:14,079 –> 00:16:15,920
درجه
491
00:16:15,920 –> 00:16:18,880
ارتباط آن با هر خوشه
492
00:16:18,880 –> 00:16:19,519
برای z
493
00:16:19,519 –> 00:16:22,800
c شناخته شده است یعنی این نوع
494
00:16:22,800 –> 00:16:25,199
خوشه بندی انحصاری و سپس خوشه بندی سلسله مراتبی
495
00:16:25,199 –> 00:16:26,800
زمانی که دو خوشه دارای
496
00:16:26,800 –> 00:16:29,920
یک رابطه فرزند والد یا
497
00:16:29,920 –> 00:16:32,079
ساختار درختی هستند، پس این یک
498
00:16:32,079 –> 00:16:34,480
خوشه سلسله مراتبی است، بنابراین اساساً
499
00:16:34,480 –> 00:16:36,320
در خوشه بندی سلسله مراتبی است. ما یک دندروگرام ایجاد می کنیم،
500
00:16:36,320 –> 00:16:37,839
بنابراین یک مفهوم
501
00:16:37,839 –> 00:16:39,440
دندروگرام وجود دارد که ساختاری شبیه به درخت ایجاد می کند
502
00:16:39,440 –> 00:16:40,240
503
00:16:40,240 –> 00:16:41,600
و من می توانم یک خوشه اصلی داشته
504
00:16:41,600 –> 00:16:43,759
باشم، سپس چند زیر خوشه و غیره، به
505
00:16:43,759 –> 00:16:44,639
همین دلیل است که به عنوان
506
00:16:44,639 –> 00:16:47,040
ساختار درختی و خوشه بندی سلسله مراتبی شناخته می
507
00:16:47,040 –> 00:16:48,720
شود.
508
00:16:48,720 –> 00:16:50,639
حال اجازه دهید در مورد k صحبت کنیم. -به معنی خوشه بندی
509
00:16:50,639 –> 00:16:53,199
نحوه عملکرد واقعی آن است،
510
00:16:53,199 –> 00:16:55,519
بنابراین خوشه بندی k-means یکی از
511
00:16:55,519 –> 00:16:56,240
ساده ترین
512
00:16:56,240 –> 00:16:58,720
الگوریتم هایی است که از unsupe استفاده می کند.
513
00:16:58,720 –> 00:16:59,920
روش یادگیری اصلاحشده
514
00:16:59,920 –> 00:17:04,400
برای حل مسائل شناختهشده خوشهبندی،
515
00:17:04,400 –> 00:17:07,839
کل مجموعه دادهها را به k خوشه تقسیم میکند.
516
00:17:07,839 –> 00:17:10,480
k به این معنی است که خوشهبندی نیاز به دنبال کردن دارد تا
517
00:17:10,480 –> 00:17:10,880
518
00:17:10,880 –> 00:17:13,359
تعداد خوشهها و مجموعه آموزشی وارد شود،
519
00:17:13,359 –> 00:17:15,119
بنابراین اساساً من به مجموعه دادهها نیاز دارم
520
00:17:15,119 –> 00:17:18,799
و تعداد خوشهای را که
521
00:17:18,799 –> 00:17:20,959
میخواهید میتوانید ببینید، این کل جمعیت را دارم.
522
00:17:20,959 –> 00:17:22,640
و سپس من
523
00:17:22,640 –> 00:17:24,079
گروه یک گروه دو گروه سه گروه
524
00:17:24,079 –> 00:17:25,839
چهار دارم که در واقع آن را به خوشه ها تقسیم می کنم
525
00:17:25,839 –> 00:17:27,520
526
00:17:27,520 –> 00:17:29,280
اینها نمونه هایی از
527
00:17:29,280 –> 00:17:32,000
آدرس های اینترنتی اخبار مختلف مربوط به ترامپ و مدی هستند
528
00:17:32,000 –> 00:17:35,200
که در یک بخش به سمت راست گروه بندی شده اند،
529
00:17:35,200 –> 00:17:36,480
مثل این است که شاید یک
530
00:17:36,480 –> 00:17:38,799
سخنرانی رئیس جمهور یا نخست وزیر باشد.
531
00:17:38,799 –> 00:17:40,480
میخواهید در یک خوشه بسازید که
532
00:17:40,480 –> 00:17:42,160
شاید گفتار کریکت خوشه دیگری باشد
533
00:17:42,160 –> 00:17:43,360
، چیزی شبیه به آن، به طوری
534
00:17:43,360 –> 00:17:44,880
که یکی از مثالهای
535
00:17:44,880 –> 00:17:46,400
k k-means خوشهبندی بهطور خودکار
536
00:17:46,400 –> 00:17:48,160
داستانهای جدید در مورد همان
537
00:17:48,160 –> 00:17:51,840
موضوع را در خوشههای از پیش تعریفشده خوشهبندی میکند
538
00:17:52,000 –> 00:17:54,080
تا دانشآموزان را در یک منطقه ترسیم کند. در
539
00:17:54,080 –> 00:17:55,840
زیر می توانید ببینید که من یک مدرسه
540