در این مطلب، ویدئو تجزیه و تحلیل داده های اکتشافی (EDA) با استفاده از پایتون (نوت بوک ژوپیتر) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:44:24
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,170 –> 00:00:03,030
سلام، در این ویدیو من به شما نشان می دهم
2
00:00:03,030 –> 00:00:05,819
که چگونه با استفاده از پایتون تجزیه و تحلیل داده های اکتشافی انجام دهید،
3
00:00:05,819 –> 00:00:09,269
ما به یک مجموعه داده نیاز داریم،
4
00:00:09,269 –> 00:00:11,280
من از مجموعه داده های هزینه استفاده می
5
00:00:11,280 –> 00:00:14,730
کنم که در ویدیوهای دیگرم استفاده کرده ام، بنابراین می
6
00:00:14,730 –> 00:00:17,240
خواهم وارد کنم آن مجموعه داده و
7
00:00:17,240 –> 00:00:20,460
ما تجزیه و تحلیل اکتشافی را به
8
00:00:20,460 –> 00:00:23,490
طور خلاصه به نام EDA در این مجموعه داده انجام
9
00:00:23,490 –> 00:00:26,189
خواهیم داد،
10
00:00:26,189 –> 00:00:29,490
برای اجرای EDM به تعداد زیادی کتابخانه پایتون نیاز خواهیم داشت، بنابراین
11
00:00:29,490 –> 00:00:30,630
کتابخانه هایی که همیشه به آنها نیاز خواهیم داشت چه هستند.
12
00:00:30,630 –> 00:00:33,200
13
00:00:33,200 –> 00:00:37,469
pandas numpy matplotlib و si bon خوب است، بنابراین
14
00:00:37,469 –> 00:00:39,510
ابتدا این کتابخانه ها را وارد می کنیم، بنابراین
15
00:00:39,510 –> 00:00:42,469
این اولین گام است و سپس
16
00:00:42,469 –> 00:00:45,840
مجموعه داده های خود را وارد می کنیم مجموعه داده های ما
17
00:00:45,840 –> 00:00:48,420
در این مسیر خاص نگه داشته شده است، بنابراین
18
00:00:48,420 –> 00:00:51,930
ما آن را به عنوان یک فهرست کار تعریف می
19
00:00:51,930 –> 00:00:54,360
کنیم تا می دانید که ما نیز می توانیم
20
00:00:54,360 –> 00:00:57,000
خروجی خود را در این مسیر خاص ذخیره کنیم، خوب است
21
00:00:57,000 –> 00:00:58,590
و اکنون مجموعه داده ها از قبل در مسیر درست وجود دارد،
22
00:00:58,590 –> 00:01:00,870
بنابراین در جایی که
23
00:01:00,870 –> 00:01:04,799
داده های ورودی خود را دارید، بهتر است آن را به عنوان
24
00:01:04,799 –> 00:01:06,720
یک کتابخانه فعال تعریف کنید تا در همان
25
00:01:06,720 –> 00:01:09,450
پوشه همیشه بتوانید خروجی خود را نیز حفظ کنید
26
00:01:09,450 –> 00:01:15,689
تا CH dir و wi به سادگی به
27
00:01:15,689 –> 00:01:18,630
کتابخانه سیستم عامل نیاز خواهد داشت، خوب این
28
00:01:18,630 –> 00:01:21,540
روشی است که ما کتابخانه کار را تعریف می کنیم و
29
00:01:21,540 –> 00:01:25,830
آن را اجرا می کنیم، بنابراین چه کتابخانه ای در حال حاضر
30
00:01:25,830 –> 00:01:28,860
تعریف شده است، بنابراین پس از تعریف کتابخانه فعال،
31
00:01:28,860 –> 00:01:31,579
لازم نیست در
32
00:01:31,579 –> 00:01:34,770
هنگام وارد کردن مجموعه داده، مسیر را به صراحت ذکر
33
00:01:34,770 –> 00:01:37,680
کنید. زیرا اکنون ما
34
00:01:37,680 –> 00:01:40,049
قبلاً در آن پوشه خاص در آن
35
00:01:40,049 –> 00:01:42,540
پوشه خاص بودیم، بنابراین ما به سادگی
36
00:01:42,540 –> 00:01:45,630
مجموعه داده را از آن پوشه وارد می کنیم
37
00:01:45,630 –> 00:01:47,399
و مجموعه داده از قبل در آن پوشه وجود دارد،
38
00:01:47,399 –> 00:01:48,509
39
00:01:48,509 –> 00:01:52,470
بنابراین ما از پانداها برای وارد
40
00:01:52,470 –> 00:01:55,890
کردن CSV استفاده خواهیم کرد. فایل داده ها در فایل CSV است شما
41
00:01:55,890 –> 00:01:59,610
همچنین می توانید اشکال دیگر آن را وارد کنید
42
00:01:59,610 –> 00:02:03,840
مانند فایل های مسطح یا در فایل های اکسل و به همین ترتیب
43
00:02:03,840 –> 00:02:04,520
44
00:02:04,520 –> 00:02:07,890
ما از روش elite underscore CSP استفاده
45
00:02:07,890 –> 00:02:12,330
می کنیم تا فایل CSV را وارد کنیم فقط
46
00:02:12,330 –> 00:02:13,180
زمانی که می بینیم
47
00:02:13,180 –> 00:02:17,140
شده است به عنوان PD به درستی وارد شده است، بنابراین
48
00:02:17,140 –> 00:02:19,209
به جای پانداها به سادگی
49
00:02:19,209 –> 00:02:22,090
از لایه برداری به جای عدد
50
00:02:22,090 –> 00:02:26,200
استفاده می شود
51
00:02:26,200 –> 00:02:32,430
52
00:02:32,519 –> 00:02:35,680
53
00:02:35,680 –> 00:02:39,370
. سپس با دست
54
00:02:39,370 –> 00:02:41,920
انجام محاسبات عددی اولیه
55
00:02:41,920 –> 00:02:45,519
و سپس matplotlib و Seabourn هر دو
56
00:02:45,519 –> 00:02:49,720
برای انجام نمودارهای مختلف
57
00:02:49,720 –> 00:02:51,579
به درستی برای تجسم داده ها استفاده می کنند، از ترک نمودار عقب استفاده می
58
00:02:51,579 –> 00:02:53,939
کنند و نوار C
59
00:02:53,939 –> 00:02:58,419
کاملاً درست است، بنابراین ما اکنون
60
00:02:58,419 –> 00:03:01,810
داده ها را وارد می کنیم و کد را تبدیل می کنیم. دادهها
61
00:03:01,810 –> 00:03:05,169
وارد شدهاند و اجازه دهید ببینیم، بنابراین ما
62
00:03:05,169 –> 00:03:07,359
در چارچوب دادهای
63
00:03:07,359 –> 00:03:10,060
به نام scoffs okay وارد میکنیم و ذخیره میکنیم، بنابراین چارچوب دادهها
64
00:03:10,060 –> 00:03:12,939
اساساً فقط یک شکل دو بعدی از
65
00:03:12,939 –> 00:03:15,250
داده است، درست همان دادههایی که در
66
00:03:15,250 –> 00:03:18,340
برگه یا صفحه گسترده اکسل میبینید، این روشی است
67
00:03:18,340 –> 00:03:20,769
که ما نگه میداریم. درست است، این فقط یک داده دو
68
00:03:20,769 –> 00:03:22,959
بعدی است، ما یک نام فانتزی به
69
00:03:22,959 –> 00:03:25,090
نام داده درست داریم، بنابراین این روشی است
70
00:03:25,090 –> 00:03:26,760
که شما آن را
71
00:03:26,760 –> 00:03:29,680
خوب می نامید، بنابراین آنچه در کارت ها یا
72
00:03:29,680 –> 00:03:31,689
قاب داده ای وجود دارد که با
73
00:03:31,689 –> 00:03:36,489
وارد کردن فایل CSV ایجاد کردیم، بنابراین از سر استفاده می کنیم.
74
00:03:36,489 –> 00:03:38,729
روش برای دیدن پنج
75
00:03:38,729 –> 00:03:42,810
مشاهدات برتر و اجازه دهید این را اجرا کنیم و شما
76
00:03:42,810 –> 00:03:46,479
می توانید مشاهده ارزش بالا
77
00:03:46,479 –> 00:03:50,979
را برای تنظیم این بیابان مشاهده کنید که به آن
78
00:03:50,979 –> 00:03:53,709
وضعیت ماشین می گویند درست است اطلاعات
79
00:03:53,709 –> 00:03:56,349
مربوط به ماشین های مختلف را دارد. e
80
00:03:56,349 –> 00:04:03,209
ماشین مدل نوع مبدا قیمت
81
00:04:03,209 –> 00:04:05,639
اندازه موتور تعداد سیلندرها
82
00:04:05,639 –> 00:04:12,220
اسب بخار مسافت پیموده شده وزن مسافت پیموده شده ما بر اساس و
83
00:04:12,220 –> 00:04:14,970
و طول، بنابراین آنها تعداد زیادی از
84
00:04:14,970 –> 00:04:18,728
ویژگی هایی هستند که ما در این مجموعه داده
85
00:04:18,728 –> 00:04:21,370
داریم و می توانیم از این مجموعه داده ها به
86
00:04:21,370 –> 00:04:22,570
دلایل مختلف استفاده کنیم.
87
00:04:22,570 –> 00:04:24,520
ما میتوانیم با استفاده از این یک مدلسازی تقسیمبندی برای شما انجام دهیم،
88
00:04:24,520 –> 00:04:27,250
همانطور که در ویدیوی دیگری به شما نشان داده شده است که
89
00:04:27,250 –> 00:04:30,610
چگونه
90
00:04:30,610 –> 00:04:33,280
با استفاده از این مجموعه داده خاص، اما با استفاده از
91
00:04:33,280 –> 00:04:37,750
ما، تجزیه و تحلیل تقسیمبندی انجام دهید، بنابراین ما به سادگی بین
92
00:04:37,750 –> 00:04:40,720
تجزیه و تحلیل صریح و بدون نیاز به ساخت
93
00:04:40,720 –> 00:04:43,300
هیچ مدلی در این ویدیو، اما میتوانیم البته
94
00:04:43,300 –> 00:04:45,400
95
00:04:45,400 –> 00:04:48,610
قبل از انواع تجزیه و تحلیل دادهها از این دیالیز صریح استفاده کنید یا
96
00:04:48,610 –> 00:04:50,650
مدلسازی آماری را
97
00:04:50,650 –> 00:04:54,250
میشناسید که میدانید زندگی روزمره درست است، بنابراین
98
00:04:54,250 –> 00:04:56,050
اینها برخی از مراحل اساسی هستند که
99
00:04:56,050 –> 00:04:58,740
قبل از ساختن هر
100
00:04:58,740 –> 00:05:01,930
مدلی در حال حاضر باید دنبال کنیم. اینکه ما دادهها را داریم و
101
00:05:01,930 –> 00:05:05,800
میتوانیم دادهها را به
102
00:05:05,800 –> 00:05:08,050
تنهایی ببینیم، اما فقط میتوانیم پنج مشاهده برتر را به درستی
103
00:05:08,050 –> 00:05:10,570
ببینیم، البته میتوانیم کل
104
00:05:10,570 –> 00:05:12,970
مجموعه مشاهدات را ببینیم، اما
105
00:05:12,970 –> 00:05:16,090
طبقهبندی زیر دشوار است. و صرفاً
106
00:05:16,090 –> 00:05:19,030
با نگاه کردن به برگه بیمار سنگ سنگ ها،
107
00:05:19,030 –> 00:05:21,280
باید آنها
108
00:05:21,280 –> 00:05:23,980
را به شکلی خلاصه کنیم تا بتوانیم
109
00:05:23,980 –> 00:05:25,990
بینش اساسی از این داده ها بدست آوریم،
110
00:05:25,990 –> 00:05:29,020
جایی که EDA به ما کمک می کند
111
00:05:29,020 –> 00:05:34,090
تا مسیر را یکپارچه کنیم، بنابراین اطلاعات مربوط به آن را نیز خواهیم دید.
112
00:05:34,090 –> 00:05:36,010
مجموعه دادهها مانند انواع دادهها
113
00:05:36,010 –> 00:05:39,490
و غیره، بنابراین از روش اطلاعات
114
00:05:39,490 –> 00:05:44,830
استفاده میکنیم تا ببینیم، بنابراین این را اجرا میکنیم تا
115
00:05:44,830 –> 00:05:48,100
اطلاعات نقطهای ماشینها به شما اطلاع دهید،
116
00:05:48,100 –> 00:05:52,810
مانند انواع، انواع دادههای هر
117
00:05:52,810 –> 00:05:55,300
متغیر و و بنابراین خوب است،
118
00:05:55,300 –> 00:05:59,470
بنابراین ما باید بگوییم در اینجا سمت موتور آن
119
00:05:59,470 –> 00:06:03,220
فقط یک اسب بخار جریان دارد یک عدد صحیح است، بنابراین
120
00:06:03,220 –> 00:06:04,990
اینها برخی از مشاهدات اساسی هستند اگر
121
00:06:04,990 –> 00:06:07,090
ناهماهنگی وجود داشته باشد، البته می توانیم
122
00:06:07,090 –> 00:06:10,480
نوع داده را تغییر دهیم، اگر شما بخواهیم نوع داده را تغییر دهیم، بسیار خوب است.
123
00:06:10,480 –> 00:06:12,160
124
00:06:12,160 –> 00:06:14,020
ما می توانیم انجام دهیم، اما قبل از آن ما همچنین باید
125
00:06:14,020 –> 00:06:16,540
بدانیم که به طور پیش فرض نوع داده چیست
126
00:06:16,540 –> 00:06:22,180
که پایتون یک علامت ok است، به عنوان مثال،
127
00:06:22,180 –> 00:06:24,670
ما تعداد خاصی از
128
00:06:24,670 –> 00:06:27,280
متغیرها را نمی خواهیم به عنوان مثال در اینجا ما قیمت را نمی
129
00:06:27,280 –> 00:06:29,910
خواهیم و قیمت معکوس
130
00:06:29,910 –> 00:06:34,680
قیمت خرده فروشی را نمی خواهیم. و قیمت معکوس ما
131
00:06:34,680 –> 00:06:37,680
به سادگی wa برای خلاص شدن از شر شما، به سادگی
132
00:06:37,680 –> 00:06:39,660
می خواهید آنها را از متغیر حذف کنید که چگونه
133
00:06:39,660 –> 00:06:42,680
این کار را انجام می دهیم، بنابراین ما به سادگی ابتدا
134
00:06:42,680 –> 00:06:46,050
یک لیست را تعریف می کنیم، بنابراین در اینجا یک لیست از
135
00:06:46,050 –> 00:06:49,080
شکلی از آرایه است که در آن
136
00:06:49,080 –> 00:06:52,680
لامپ های متغیر MSRP را تعریف می کنیم و فاکتور خوبی را ارائه می کنیم و
137
00:06:52,680 –> 00:06:56,280
سپس ما از روش
138
00:06:56,280 –> 00:07:00,090
drop استفاده میکنیم، بنابراین از روش drop
139
00:07:00,090 –> 00:07:03,600
برای حذف این دو متغیر استفاده میکنیم یا این دو
140
00:07:03,600 –> 00:07:07,410
متغیر را رها میکنیم، بنابراین در اینجا لیستی
141
00:07:07,410 –> 00:07:08,759
که ستونهای زیر خط را رها میکند
142
00:07:08,759 –> 00:07:11,400
، آن دو نام متغیر را دارد و
143
00:07:11,400 –> 00:07:14,030
این دقیقاً همان چیزی است که به عنوان پارامتر استفاده میکنیم.
144
00:07:14,030 –> 00:07:18,509
در این روش اگر کاری که
145
00:07:18,509 –> 00:07:20,370
قرار است انجام شود این است که به سادگی
146
00:07:20,370 –> 00:07:23,370
این دو متغیر را حذف یا رها کنیم، خوب حالا ما آن را
147
00:07:23,370 –> 00:07:27,599
اجرا کردیم، میتوانید ببینید که آیا
148
00:07:27,599 –> 00:07:33,229
واقعاً مشکلی داریم، بنابراین اجازه دهید
149
00:07:33,229 –> 00:07:36,300
اپیکورد را دوباره اجرا کنیم، مثل اینکه فعلاً سریعتر میدانید.
150
00:07:36,300 –> 00:07:40,289
مطمئن باشید که خواهید دید که دو
151
00:07:40,289 –> 00:07:44,190
متغیر دیگر در قاب داده وجود ندارد
152
00:07:44,190 –> 00:07:48,120
و این همان چیزی است که میتوانید به درستی ببینید،
153
00:07:48,120 –> 00:07:51,840
ما MSRP نداریم یا
154
00:07:51,840 –> 00:07:55,440
فاکتور داریم، بنابراین میتوانیم آن را
155
00:07:55,440 –> 00:08:02,120
از هر دو متغیر به خوبی دریافت کنیم، شما همچنین میتوانید
156
00:08:02,120 –> 00:08:05,430
رسم کنید. ردیف ها و اغلب اوقات اتفاقی که می افتد این
157
00:08:05,430 –> 00:08:10,050
است ما با ردیفهای تکراری و
158
00:08:10,050 –> 00:08:12,240
ردیفهای تکراری مواجه میشویم و برای تجزیه و تحلیل خوب نیست،
159
00:08:12,240 –> 00:08:14,550
باید از شر این ردیفهای تکراری خلاص شویم،
160
00:08:14,550 –> 00:08:17,190
بنابراین برای ایجاد قوانین اساساً
161
00:08:17,190 –> 00:08:20,610
ردیفهایی هستند که فقط پرچین کردن، هیچ
162
00:08:20,610 –> 00:08:22,110
اطلاعات اضافی وجود ندارد، همان اطلاعاتی است
163
00:08:22,110 –> 00:08:24,419
که میدانی به تکرار
164
00:08:24,419 –> 00:08:26,970
میدانی بیشتر از یک بار چگونه انجام دهیم که بتوانیم یکباره
165
00:08:26,970 –> 00:08:30,690
از شر ردیف های تکراری برای
166
00:08:30,690 –> 00:08:36,690
همه ستون ها خلاص شویم، فکر می کنیم که نیازی
167
00:08:36,690 –> 00:08:39,000
به انجام هیچ گونه دارایی تکراری نداریم، پس چگونه
168
00:08:39,000 –> 00:08:41,099
انجام دهیم که از روش drop
169
00:08:41,099 –> 00:08:44,550
underscore دو تیکت استفاده کنیم.
170
00:08:44,550 –> 00:08:47,050
باید انجام دهیم این است که ابتدا باید به سادگی
171
00:08:47,050 –> 00:08:49,910
خط زیر را حفظ کنیم، به این معنی که شما
172
00:08:49,910 –> 00:08:51,860
به سادگی اولین مشاهده را انتخاب کنید و
173
00:08:51,860 –> 00:08:54,500
بقیه مشاهده ها را درست حذف کنید، با توجه به اینکه می
174
00:08:54,500 –> 00:08:57,410
دانید ردیف تکراری است،
175
00:08:57,410 –> 00:09:00,470
در واقع برای آن مهم نیست که کدام
176
00:09:00,470 –> 00:09:03,259
ردیف را انتخاب یا نگه می دارد. و
177
00:09:03,259 –> 00:09:06,470
کدام ردیفهای دیگر را رقم میزند، اما میدانید که
178
00:09:06,470 –> 00:09:11,389
ما به سادگی این را تعریف میکنیم تا
179
00:09:11,389 –> 00:09:13,040
اولین مورد را حفظ کنیم،
180
00:09:13,040 –> 00:09:16,310
در غیر این صورت بهطور پیشفرض
181
00:09:16,310 –> 00:09:17,959
، اولین را نیز نگه میدارد و
182
00:09:17,959 –> 00:09:24,380
بقیه را بهخوبی حذف میکند و مجموعه داده ما
183
00:09:24,380 –> 00:09:27,920
دارای du نیست. موارد تکراری همان چیزی است که من قبلاً
184
00:09:27,920 –> 00:09:30,019
میدانم، اما اگر موارد تکراری داشته
185
00:09:30,019 –> 00:09:32,810
باشید، میدانید که این متن بسیار مفیدی است،
186
00:09:32,810 –> 00:09:36,380
من تمام ردیفهای تکراری از این
187
00:09:36,380 –> 00:09:40,220
مجموعه داده را درست میکنم، اکنون خواهیم دید که
188
00:09:40,220 –> 00:09:43,370
اندازه یک مجموعه داده چقدر است، مثلاً چند ردیف و
189
00:09:43,370 –> 00:09:45,139
چند آیا ستون هایی در
190
00:09:45,139 –> 00:09:48,560
مجموعه حالت دارید، ما چهار ردیف 32 تنی
191
00:09:48,560 –> 00:09:51,230
و دوازده ستونی داریم،
192
00:09:51,230 –> 00:09:54,019
بنابراین این اندازه مجموعه داده ها است و
193
00:09:54,019 –> 00:09:56,360
چگونه می توانید بفهمید که می گویید
194
00:09:56,360 –> 00:09:58,399
زیر تمسخر یک صندلی ماشین یا یک صندلی دیگر را حک
195
00:09:58,399 –> 00:10:05,630
کنید، فقط از شکل استفاده کنید و ما
196
00:10:05,630 –> 00:10:07,730
تعداد سطرها و تعداد ستونها را
197
00:10:07,730 –> 00:10:13,970
خوب دریافت میکنیم و سپس کاری که انجام میدهیم این است که
198
00:10:13,970 –> 00:10:16,250
برخی از آمارهای خلاصه اولیه را
199
00:10:16,250 –> 00:10:18,740
انجام میدهیم و چگونه آمار خلاصه اولیه را به دست میآوریم
200
00:10:18,740 –> 00:10:21,560
از
201
00:10:21,560 –> 00:10:25,040
روشی استفاده میکنیم که توضیح داده شده است.
202
00:10:25,040 –> 00:10:26,389
که شما آمار خلاصه اولیه
203
00:10:26,389 –> 00:10:29,389
مانند میانگین میانگین
204
00:10:29,389 –> 00:10:34,910
انحراف استاندارد و غیره را به درستی دریافت خواهید کرد و این
205
00:10:34,910 –> 00:10:37,610
چیزی است که می توانید در اینجا توجه کنید
206
00:10:37,610 –> 00:10:40,399
این است که نمی توانید میانگین انحراف استاندارد را بدست
207
00:10:40,399 –> 00:10:43,880
آورید یا حداکثر و
208
00:10:43,880 –> 00:10:46,399
حداقل یا متغیرهای طبقه بندی را می شناسید. شما
209
00:10:46,399 –> 00:10:49,069
فقط می توانید برای متغیرهای عددی پیوسته نرخ متغیر عددی و پیوسته به دست آورید،
210
00:10:49,069 –> 00:10:50,750
211
00:10:50,750 –> 00:10:55,480
بنابراین در این می
212
00:10:55,480 –> 00:11:00,610
توانید تعداد میانگین انحراف استاندارد را
213
00:11:00,680 –> 00:11:02,960
به حداقل برسانید و 25
214
00:11:02,960 –> 00:11:05,930
صدک 50 صدک 70 صدک
215
00:11:05,930 –> 00:11:09,530
و تاکسی valiums خوب است اکنون
216
00:11:09,530 –> 00:11:12,650
آمار خلاصه اولیه به ما کمک می کند. به شما کمک می کند تا
217
00:11:12,650 –> 00:11:14,900
به
218
00:11:14,900 –> 00:11:16,910
خوبی توزیع داده ها را درک کنید، برای
219
00:11:16,910 –> 00:11:21,260
مدل سازی مطمئن شوید که انحراف استاندارد
220
00:11:21,260 –> 00:11:23,990
صفر نیست اگر انحراف استاندارد
221
00:11:23,990 –> 00:11:27,050
یک متغیر صفر باشد و سپس
222
00:11:27,050 –> 00:11:30,410
آن متغیر هیچ تغییری به ما نمی دهد
223
00:11:30,410 –> 00:11:32,120
، هیچ گونه تغییری در داده ها وجود ندارد و
224
00:11:32,120 –> 00:11:35,180
برای مدل آماری خیلی مفید
225
00:11:35,180 –> 00:11:37,580
نیست، بنابراین ما فقط باید از شر
226
00:11:37,580 –> 00:11:39,590
آن مقدار خلاص شویم یا آن متغیر را از
227
00:11:39,590 –> 00:11:42,700
تجزیه و تحلیل
228
00:11:42,700 –> 00:11:47,120
229
00:11:47,120 –> 00:11:48,980
230
00:11:48,980 –> 00:11:50,180
231
00:11:50,180 –> 00:11:52,760
حذف کنیم.
232
00:11:52,760 –> 00:11:57,050
داده ها دارای مقادیر دورافتاده یا
233
00:11:57,050 –> 00:12:01,940
مقادیر بسیار زیاد هستند و به همین ترتیب گاهی اوقات ما
234
00:12:01,940 –> 00:12:04,970
مقادیر افراطی را می شناسیم که
235
00:12:04,970 –> 00:12:07,160
تصادفی هستند، یعنی آنها دیوانه هستند.
236
00:12:07,160 –> 00:12:08,330
مشکل بزرگی
237
00:12:08,330 –> 00:12:12,890
در ساخت مدل ایجاد می کنیم، بنابراین ما باید فقط از
238
00:12:12,890 –> 00:12:16,940
شر این خلاص شویم.
239
00:12:16,940 –> 00:12:19,400
240
00:12:19,400 –> 00:12:22,970
241
00:12:22,970 –> 00:12:28,450
242
00:12:28,450 –> 00:12:31,880
243
00:12:31,880 –> 00:12:33,620
دادهها با توجه به متغیر
244
00:12:33,620 –> 00:12:38,180
فقط برای اینکه ببینیم مقادیر افراطی را با
245
00:12:38,180 –> 00:12:41,180
جزئیات بیشتری میدانید، زیرا در اینجا وقتی
246
00:12:41,180 –> 00:12:44,930
خلاصه میکنیم احتمالاً R را نمیگیریم تا
247
00:12:44,930 –> 00:12:47,570
مقادیر شدید را خیلی نزدیک ببینیم، خوب است، ما
248
00:12:47,570 –> 00:12:50,240
میخواهیم کمی بیشتر در
249
00:12:50,240 –> 00:12:53,480
تابش سطح دانهای بیشتر ببینیم. برای
250
00:12:53,480 –> 00:12:58,400
انجام این کار، گاهی اوقات باید مرتب سازی
251
00:12:58,400 –> 00:12:59,930
این داده ها را با توجه
252
00:12:59,930 –> 00:13:02,570
به این که روش های مقادیر زیر خط کوتاه هستند
253
00:13:02,570 –> 00:13:05,570
انجام دهیم، بنابراین از این روش می توانیم
254
00:13:05,570 –> 00:13:08,420
به ترتیب برای مرتب سازی موجود با
255
00:13:08,420 –> 00:13:10,970
توجه به مرتب سازی داده شده، داده ها با توجه به
256
00:13:10,970 –> 00:13:11,380
داده شده استفاده
257
00:13:11,380 –> 00:13:14,350
کنیم و ما با توجه به
258
00:13:14,350 –> 00:13:18,490
مسافت پیموده شده مرتب سازی کنید خوب است، به عنوان مثال فکر می کنم که
259
00:13:18,490 –> 00:13:21,070
این متغیر مورد علاقه
260
00:13:21,070 –> 00:13:24,370
است، احتمالاً شما می دانید که
261
00:13:24,370 –> 00:13:27,730
متغیر هدف در تمرین مدل سازی ما خواهد بود
262
00:13:27,730 –> 00:13:31,200
که می گوید شما در آن درصورتیکه ما به
263
00:13:31,200 –> 00:13:34,420
سادگی مجموعهای از این مجموعه دادهها را
264
00:13:34,420 –> 00:13:37,210
با توجه به مسافت پیموده شده مرتبسازی میکنیم و به
265
00:13:37,210 –> 00:13:39,490
ترتیب نزولی مرتب میکنیم،
266
00:13:39,490 –> 00:13:42,300
البته میتوانیم به ترتیب صعودی مرتب کنیم، اما این کار را
267
00:13:42,300 –> 00:13:46,630
به ترتیب نزولی انجام خواهیم داد تا حداکثر
268
00:13:46,630 –> 00:13:48,520
یا شما بزرگتر را بدانید. مقادیر
269
00:13:48,520 –> 00:13:53,800
در بالای صفحه هستند بسیار خوب و بیایید این را اجرا کنیم،
270
00:13:53,800 –> 00:13:56,230
بنابراین همانطور که انتظار میرود خطا میدهد
271
00:13:56,230 –> 00:13:59,670
و چرا این اتفاق میافتد به این دلیل
272
00:13:59,670 –> 00:14:04,360
است که فضایی وجود دارد که فضای خالی آن
273
00:14:04,360 –> 00:14:09,430
در نام
274
00:14:09,430 –> 00:14:14,500
ستون است که نام ستون mpz فضای اضافی دارد.
275
00:14:14,500 –> 00:14:17,290
بسیار خوب، بنابراین ما اکنون یک عبارت
276
00:14:17,290 –> 00:14:20,410
فضای اضافی داریم و باید اکنون چگونه
277
00:14:20,410 –> 00:14:23,140
کار می کند، اما ما نمی خواهیم که
278
00:14:23,140 –> 00:14:26,140
این فضا در اشغال باقی بماند،
279
00:14:26,140 –> 00:14:28,930
اما داشتن یک
280
00:14:28,930 –> 00:14:33,400
فاصله به عنوان بخشی از نام ستون واقعاً عجیب به نظر می رسد. درست است،
281
00:14:33,400 –> 00:14:36,670
ما باید از شر این فضای خاص خلاص شویم،
282
00:14:36,670 –> 00:14:41,190
چگونه انجام دهیم که باید
283
00:14:41,190 –> 00:14:45,940
از جایگزینی نقطه رشته استفاده کنیم
284
00:14:45,940 –> 00:14:50,710
تا فضای ناخواسته را از هر ستون جایگزین کنیم.
285
00:14:50,710 –> 00:14:54,030
286
00:14:54,030 –> 00:14:57,310
287
00:14:57,310 –> 00:14:59,950
ستونهای cos dot برابر است با Castr o دو
288
00:14:59,950 –> 00:15:03,910
ستون نقطه st r نقطه جایگزین می شود و ما
289
00:15:03,910 –> 00:15:11,200
فضای ناخواسته را جایگزین می کنیم بسیار خوب اکنون
290
00:15:11,200 –> 00:15:16,570
فضای ناخواسته را حذف کرده ایم، بنابراین اجازه دهید
291
00:15:16,570 –> 00:15:20,710
هسته اصلی را اجرا کنیم و امیدواریم
292
00:15:20,710 –> 00:15:24,730
که کار کند بله درست است، می توانید ببینید که
293
00:15:24,730 –> 00:15:27,339
می دانید داده ها با احترام مرتب شده اند
294
00:15:27,339 –> 00:15:30,940
مسافت پیموده شده و اعداد بزرگتر
295
00:15:30,940 –> 00:15:33,190
در بالا هستند، بنابراین به ترتیب نزولی مرتب
296
00:15:33,190 –> 00:15:37,209
297
00:15:37,209 –> 00:15:39,339
298
00:15:39,339 –> 00:15:41,019
299
00:15:41,019 –> 00:15:44,260
300
00:15:44,260 –> 00:15:46,600
شده است. بنابراین ما آن
301
00:15:46,600 –> 00:15:48,760
را نخواهیم داشت، اما در دنیای واقعی
302
00:15:48,760 –> 00:15:51,600
میتوانیم بگوییم که میدانید
303
00:15:51,600 –> 00:15:55,899
مقادیر شدید را میدانید و میدانید که میتوانیم
304
00:15:55,899 –> 00:16:00,940
به سادگی آنها را پس از شناسایی حذف کنیم، کار
305
00:16:00,940 –> 00:16:04,630
بعدی این است که اگر
306
00:16:04,630 –> 00:16:07,720
بخواهیم انجام دهیم این به صورت پویا به این معنی است که به
307
00:16:07,720 –> 00:16:11,459
جای اینکه بدانید به دنبال آن باشید، می دانید که
308
00:16:11,459 –> 00:16:15,399
ما به جای مرتب کردن ساده داده ها
309
00:16:15,399 –> 00:16:17,170
با توجه به ترتیب صعودی و
310
00:16:17,170 –> 00:16:19,540
نزولی و آنها این کار را
311
00:16:19,540 –> 00:16:21,699
برای هر یک از موارد موجود
312
00:16:21,699 –> 00:16:23,579
انجام می دهند که می دانید ما انجام می دهیم یا ما. دوباره در حال اجرا به نقل قول
313
00:16:23,579 –> 00:16:26,440
چندین بار، بنابراین آیا میتوانیم
314
00:16:26,440 –> 00:16:29,529
تابعی بنویسیم که این کار را انجام میدهد، این
315
00:16:29,529 –> 00:16:32,079
تابع به منظور خودکار کردن چیزی
316
00:16:32,079 –> 00:16:35,620
درست به منظور انجام مکرر کاری استفاده میشود،
317
00:16:35,620 –> 00:16:38,139
اما ما نیازی به
318
00:16:38,139 –> 00:16:40,540
نوشتن کد نداریم، فقط باید تابع را فراخوانی
319
00:16:40,540 –> 00:16:42,670
کنیم، بنابراین تابع اینجاست. در جایی که
320
00:16:42,670 –> 00:16:45,160
می بینیم مقادیر حداقل و حداکثر
321
00:16:45,160 –> 00:16:49,029
متغیر داده شده را دریافت می کنیم و به سادگی
322
00:16:49,029 –> 00:16:50,709
نام آن متغیر
323
00:16:50,709 –> 00:16:53,110
را منتقل می کنیم و حداقل و
324
00:16:53,110 –> 00:16:55,990
حداکثر مقادیری را که می توانیم بدست آوریم به ما می دهد البته
325
00:16:55,990 –> 00:16:59,079
5 مقدار بالا و پنج مقدار پایین و همچنین چگونه انجام دهیم.
326
00:16:59,079 –> 00:17:03,430
ما این کار را انجام میدهیم که ابتدا شاخص را تعریف میکنیم و اجازه میدهیم
327
00:17:03,430 –> 00:17:06,939
ایندکس بالا باشد و روش ID x max
328
00:17:06,939 –> 00:17:08,949
به ما شاخص بالایی
329
00:17:08,949 –> 00:17:12,280
قاب داده را میدهد تا بدیهی
330
00:17:12,280 –> 00:17:13,270
است همه آنها را بگیریم
331
00:17:13,270 –> 00:17:16,780
و به طور مشابه I D X و O’s I disk
332
00:17:16,780 –> 00:17:20,199
mean به ما میدهد. ایندکس پایین خوب است
333
00:17:20,199 –> 00:17:23,339
و ما از آن با کمک
334
00:17:23,339 –> 00:17:26,290
تابع LOC استفاده می کنیم تا حداقل
335
00:17:26,290 –> 00:17:28,419
و حداکثر را از داده ها برای آن دوره معین استخراج کنیم
336
00:17:28,419 –> 00:17:31,360
و سپس آنها را با هم ترکیب می کنیم،
337
00:17:31,360 –> 00:17:34,590
آنها را با استفاده از روش الحاق پانداها به هم متصل می
338
00:17:34,590 –> 00:17:37,270
کنیم و سپس این
339
00:17:37,270 –> 00:17:38,200
چیزی است که که
340
00:17:38,200 –> 00:17:44,440
توسط تابع خوانده می شود، بنابراین اجازه دهید
341
00:17:44,440 –> 00:17:48,249
این تابع را اجرا کنیم و سپس از آن
342
00:17:48,249 –> 00:17:51,489
برای مسافت پیموده شده استفاده کنیم بسیار خوب، از این تابع
343
00:17:51,489 –> 00:17:54,519
برای مسافت پیموده شده استفاده می کنیم و در اینجا می توانیم
344
00:17:54,519 –> 00:17:57,309
حداقل و حداکثر و مقادیر مرتبط را مشاهده
345
00:17:57,309 –> 00:18:00,129
کنیم، مانند اینکه فقط حداقل نیست
346
00:18:00,129 –> 00:18:05,769
و حداکثر شما از مسافت پیموده شده می دانید، آن
347
00:18:05,769 –> 00:18:07,960
نیز مقادیر مرتبط
348
00:18:07,960 –> 00:18:10,929
سایر متغیرها برای ستون های دیگر است و
349
00:18:10,929 –> 00:18:14,739
این همان چیزی است که در اینجا می توانید ببینید ما
350
00:18:14,739 –> 00:18:17,769
نوع مدل یا زنجیره و و غیره
351
00:18:17,769 –> 00:18:21,519
را داریم، بنابراین در آمار خلاصه
352
00:18:21,519 –> 00:18:23,529
این کار را نمی کنیم. not pain
353
00:18:23,529 –> 00:18:25,929
بر حداقل و حداکثری که ما
354
00:18:25,929 –> 00:18:27,970
مقادیر مرتبط یا
355
00:18:27,970 –> 00:18:32,590
مقادیر مرتبط دیگر متغیرها را برای
356
00:18:32,590 –> 00:18:35,950
آن مقدار حداقل و حداکثر دریافت نمی کنیم، می توانیم این کار را
357
00:18:35,950 –> 00:18:39,429
برای طول انجام دهیم که می توانیم برای هر نوع
358
00:18:39,429 –> 00:18:44,799
متغیر عددی پیوسته انجام دهیم، بنابراین در
359
00:18:44,799 –> 00:18:46,899
اینجا برای طول um شما می دانید حداقل 87
360
00:18:46,899 –> 00:18:54,730
حداکثر 238 است و ما
361
00:18:54,730 –> 00:18:58,600
منشاء نوع مدل و اندازه هندی را داریم و به همین
362
00:18:58,600 –> 00:19:02,529
ترتیب خوب است فقط برای تأیید صحت یا نه،
363
00:19:02,529 –> 00:19:03,159
364
00:19:03,159 –> 00:19:06,179
ما به آمار خلاصه می رویم
365
00:19:06,179 –> 00:19:10,570
تا تأیید کنیم که آیا آن را تأیید کنیم. آیا می دانید که
366
00:19:10,570 –> 00:19:13,419
این شاخص یا هیستوگرام است در یک لحظه
367
00:19:13,419 –> 00:19:18,399
ما به عقب برمی گردیم زیرا حداکثر طول 238 و
368
00:19:18,399 –> 00:19:26,559
حداقل 143 است، بنابراین
369
00:19:26,559 –> 00:19:30,070
این مقادیر نیست، این شاخص است که به این معنی است که
370
00:19:30,070 –> 00:19:36,100
در ردیف شماره 87 شما
371
00:19:36,100 –> 00:19:40,679
حداکثر را دارید. و 238 ما حداقل را داریم خوب است،
372
00:19:40,679 –> 00:19:44,549
فقط برای تأیید اینکه ما از
373
00:19:44,549 –> 00:19:47,679
حداکثر اول و حداقل ثانیه استفاده کرده ایم
374
00:19:47,679 –> 00:19:51,309
درست است، بنابراین ماکزیمم در ابتدا و
375
00:19:51,309 –> 00:19:51,580
سپس
376
00:19:51,580 –> 00:19:53,950
حداقل دوم اکنون سفارش می تواند تفاوت ایجاد کند
377
00:19:53,950 –> 00:19:56,200
، بنابراین باید اطمینان حاصل کنیم
378
00:19:56,200 –> 00:19:59,320
که حداکثر اتفاق می افتد در شاخص
379
00:19:59,320 –> 00:20:01,960
87 و حداقل در شاخص 238 اتفاق می افتد
380
00:20:01,960 –> 00:20:06,850
و مقادیر به سادگی در
381
00:20:06,850 –> 00:20:10,810
مقابل ما هستند و پس از انجام یک بتا، یک
382
00:20:10,810 –> 00:20:13,870
شکل تصویری از تجزیه و تحلیل داده ها را مشاهده
383
00:20:13,870 –> 00:20:18,970
خواهیم کرد، هیستوگرام متغیرهای عددی پیوسته را ترسیم خواهیم کرد
384
00:20:18,970 –> 00:20:21,400
و چگونه
385
00:20:21,400 –> 00:20:24,450
آیا این کار را انجام می دهیم که از matplotlib استفاده می کنیم
386
00:20:24,450 –> 00:20:29,230
بنابراین هیستوگرام نقطه ای PLT بنابراین از روش هیستوگرام از
387
00:20:29,230 –> 00:20:33,670
پیوند نمودار پشتی استفاده
388
00:20:33,670 –> 00:20:35,440
می شود تا این stubrag هیستوگرام ایجاد شود.
389
00:20:35,440 –> 00:20:38,440
390
00:20:38,440 –> 00:20:40,990
391
00:20:40,990 –> 00:20:44,650
و ما ده ضربه خواهیم داشت که می توانید
392
00:20:44,650 –> 00:20:49,420
هر تعداد ضربان را که می خواهید داشته باشید، بنابراین ما این
393
00:20:49,420 –> 00:20:53,890
کار را برای مسافت پیموده شده انجام می دهیم و سپس دو
394
00:20:53,890 –> 00:20:56,530
پارامتر اول متغیری است
395
00:20:56,530 –> 00:20:58,420
که می خواهیم برای آن هیستوگرام ایجاد کنیم
396
00:20:58,420 –> 00:21:01,450
و دومی تعداد ضربات اوکی است.
397
00:21:01,450 –> 00:21:03,730
شما می توانید آن را با فقط شما می
398
00:21:03,730 –> 00:21:06,340
دانید با ده سمت راست جایگزین کنید به جای ارائه
399
00:21:06,340 –> 00:21:12,280
به عنوان متغیر، ما به سادگی می توانیم
400
00:21:12,280 –> 00:21:15,610
مقدار اسکالر را نیز سخت کنیم، بنابراین این را اجرا می کنیم
401
00:21:15,610 –> 00:21:20,080
و در اینجا هیستوگرام آن ده
402
00:21:20,080 –> 00:21:23,410
bin دارد و این توزیع
403
00:21:23,410 –> 00:21:28,780
مسافت پیموده شده خوب است. می تواند چندین
404
00:21:28,780 –> 00:21:31,960
توزیع درست در
405
00:21:31,960 –> 00:21:33,970
قالب هیستوگرام وجود داشته باشد که فقط یک
406
00:21:33,970 –> 00:21:36,340
توزیع داده است و ما به سادگی
407
00:21:36,340 –> 00:21:39,910
داده ها را با هر پرتو
408
00:21:39,910 –> 00:21:42,070
خلاصه می کنیم، در آمار خلاصه ما به سادگی این
409
00:21:42,070 –> 00:21:46,650
یک پرتو را داریم که حول
410
00:21:46,650 –> 00:21:49,750
میانگین یا حول میانه یا شما متمرکز است.
411
00:21:49,750 –> 00:21:53,500
حداکثر یا حداقل را بدانید،
412
00:21:53,500 –> 00:21:58,030
اما در اینجا ده وسیله داریم، بنابراین شما
413
00:21:58,030 –> 00:22:02,170
توزیع در
414
00:22:02,170 –> 00:22:03,900
بخش های مختلف داده را دارید و
415
00:22:03,900 –> 00:22:06,590
درک آن بسیار بهتر
416
00:22:06,590 –> 00:22:09,210
از دانستن اصول آمار
417
00:22:09,210 –> 00:22:11,970
y است. اگر به فرهنگ نگاه کنید، می توانید سمت راستی را که دارید ببینید،
418
00:22:11,970 –> 00:22:14,750
419
00:22:14,750 –> 00:22:18,540
حتی در 50 و 60 مشاهداتی وجود دارد، بسیار خوب و
420
00:22:18,540 –> 00:22:22,530
اینها هستند.
421
00:22:22,530 –> 00:22:25,050
422
00:22:25,050 –> 00:22:28,140
423
00:22:28,140 –> 00:22:31,140
خیلی
424
00:22:31,140 –> 00:22:33,510
از مشاهدات دیگر فاصله داریم، بنابراین میتوانید مکاننمای من را ببینید
425
00:22:33,510 –> 00:22:35,580
این مجموعه کوچک مشاهدات،
426
00:22:35,580 –> 00:22:38,220
شاید فقط تعداد کمی باشد، اما آنها کاملاً
427
00:22:38,220 –> 00:22:39,450
با مجموعه
428
00:22:39,450 –> 00:22:41,790
مشاهدات دیگر متفاوت هستند، بنابراین
429
00:22:41,790 –> 00:22:46,080
در آمار به سمت راست هستند، ما آنه