فیلم آموزشی: تجزیه و تحلیل داده های اکتشافی (EDA) با استفاده از پایتون (نوت بوک ژوپیتر) با زیرنویس فارسی

در این مطلب، ویدئو تجزیه و تحلیل داده های اکتشافی (EDA) با استفاده از پایتون (نوت بوک ژوپیتر) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:44:24

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:00,170 –> 00:00:03,030
سلام، در این ویدیو من به شما نشان می دهم

2
00:00:03,030 –> 00:00:05,819
که چگونه با استفاده از پایتون تجزیه و تحلیل داده های اکتشافی انجام دهید،

3
00:00:05,819 –> 00:00:09,269
ما به یک مجموعه داده نیاز داریم،

4
00:00:09,269 –> 00:00:11,280
من از مجموعه داده های هزینه استفاده می

5
00:00:11,280 –> 00:00:14,730
کنم که در ویدیوهای دیگرم استفاده کرده ام، بنابراین می

6
00:00:14,730 –> 00:00:17,240
خواهم وارد کنم آن مجموعه داده و

7
00:00:17,240 –> 00:00:20,460
ما تجزیه و تحلیل اکتشافی را به

8
00:00:20,460 –> 00:00:23,490
طور خلاصه به نام EDA در این مجموعه داده انجام

9
00:00:23,490 –> 00:00:26,189
خواهیم داد،

10
00:00:26,189 –> 00:00:29,490
برای اجرای EDM به تعداد زیادی کتابخانه پایتون نیاز خواهیم داشت، بنابراین

11
00:00:29,490 –> 00:00:30,630
کتابخانه هایی که همیشه به آنها نیاز خواهیم داشت چه هستند.

12
00:00:30,630 –> 00:00:33,200

13
00:00:33,200 –> 00:00:37,469
pandas numpy matplotlib و si bon خوب است، بنابراین

14
00:00:37,469 –> 00:00:39,510
ابتدا این کتابخانه ها را وارد می کنیم، بنابراین

15
00:00:39,510 –> 00:00:42,469
این اولین گام است و سپس

16
00:00:42,469 –> 00:00:45,840
مجموعه داده های خود را وارد می کنیم مجموعه داده های ما

17
00:00:45,840 –> 00:00:48,420
در این مسیر خاص نگه داشته شده است، بنابراین

18
00:00:48,420 –> 00:00:51,930
ما آن را به عنوان یک فهرست کار تعریف می

19
00:00:51,930 –> 00:00:54,360
کنیم تا می دانید که ما نیز می توانیم

20
00:00:54,360 –> 00:00:57,000
خروجی خود را در این مسیر خاص ذخیره کنیم، خوب است

21
00:00:57,000 –> 00:00:58,590
و اکنون مجموعه داده ها از قبل در مسیر درست وجود دارد،

22
00:00:58,590 –> 00:01:00,870
بنابراین در جایی که

23
00:01:00,870 –> 00:01:04,799
داده های ورودی خود را دارید، بهتر است آن را به عنوان

24
00:01:04,799 –> 00:01:06,720
یک کتابخانه فعال تعریف کنید تا در همان

25
00:01:06,720 –> 00:01:09,450
پوشه همیشه بتوانید خروجی خود را نیز حفظ کنید

26
00:01:09,450 –> 00:01:15,689
تا CH dir و wi به سادگی به

27
00:01:15,689 –> 00:01:18,630
کتابخانه سیستم عامل نیاز خواهد داشت، خوب این

28
00:01:18,630 –> 00:01:21,540
روشی است که ما کتابخانه کار را تعریف می کنیم و

29
00:01:21,540 –> 00:01:25,830
آن را اجرا می کنیم، بنابراین چه کتابخانه ای در حال حاضر

30
00:01:25,830 –> 00:01:28,860
تعریف شده است، بنابراین پس از تعریف کتابخانه فعال،

31
00:01:28,860 –> 00:01:31,579
لازم نیست در

32
00:01:31,579 –> 00:01:34,770
هنگام وارد کردن مجموعه داده، مسیر را به صراحت ذکر

33
00:01:34,770 –> 00:01:37,680
کنید. زیرا اکنون ما

34
00:01:37,680 –> 00:01:40,049
قبلاً در آن پوشه خاص در آن

35
00:01:40,049 –> 00:01:42,540
پوشه خاص بودیم، بنابراین ما به سادگی

36
00:01:42,540 –> 00:01:45,630
مجموعه داده را از آن پوشه وارد می کنیم

37
00:01:45,630 –> 00:01:47,399
و مجموعه داده از قبل در آن پوشه وجود دارد،

38
00:01:47,399 –> 00:01:48,509

39
00:01:48,509 –> 00:01:52,470
بنابراین ما از پانداها برای وارد

40
00:01:52,470 –> 00:01:55,890
کردن CSV استفاده خواهیم کرد. فایل داده ها در فایل CSV است شما

41
00:01:55,890 –> 00:01:59,610
همچنین می توانید اشکال دیگر آن را وارد کنید

42
00:01:59,610 –> 00:02:03,840
مانند فایل های مسطح یا در فایل های اکسل و به همین ترتیب

43
00:02:03,840 –> 00:02:04,520

44
00:02:04,520 –> 00:02:07,890
ما از روش elite underscore CSP استفاده

45
00:02:07,890 –> 00:02:12,330
می کنیم تا فایل CSV را وارد کنیم فقط

46
00:02:12,330 –> 00:02:13,180
زمانی که می بینیم

47
00:02:13,180 –> 00:02:17,140
شده است به عنوان PD به درستی وارد شده است، بنابراین

48
00:02:17,140 –> 00:02:19,209
به جای پانداها به سادگی

49
00:02:19,209 –> 00:02:22,090
از لایه برداری به جای عدد

50
00:02:22,090 –> 00:02:26,200
استفاده می شود

51
00:02:26,200 –> 00:02:32,430

52
00:02:32,519 –> 00:02:35,680

53
00:02:35,680 –> 00:02:39,370
. سپس با دست

54
00:02:39,370 –> 00:02:41,920
انجام محاسبات عددی اولیه

55
00:02:41,920 –> 00:02:45,519
و سپس matplotlib و Seabourn هر دو

56
00:02:45,519 –> 00:02:49,720
برای انجام نمودارهای مختلف

57
00:02:49,720 –> 00:02:51,579
به درستی برای تجسم داده ها استفاده می کنند، از ترک نمودار عقب استفاده می

58
00:02:51,579 –> 00:02:53,939
کنند و نوار C

59
00:02:53,939 –> 00:02:58,419
کاملاً درست است، بنابراین ما اکنون

60
00:02:58,419 –> 00:03:01,810
داده ها را وارد می کنیم و کد را تبدیل می کنیم. داده‌ها

61
00:03:01,810 –> 00:03:05,169
وارد شده‌اند و اجازه دهید ببینیم، بنابراین ما

62
00:03:05,169 –> 00:03:07,359
در چارچوب داده‌ای

63
00:03:07,359 –> 00:03:10,060
به نام scoffs okay وارد می‌کنیم و ذخیره می‌کنیم، بنابراین چارچوب داده‌ها

64
00:03:10,060 –> 00:03:12,939
اساساً فقط یک شکل دو بعدی از

65
00:03:12,939 –> 00:03:15,250
داده است، درست همان داده‌هایی که در

66
00:03:15,250 –> 00:03:18,340
برگه یا صفحه گسترده اکسل می‌بینید، این روشی است

67
00:03:18,340 –> 00:03:20,769
که ما نگه می‌داریم. درست است، این فقط یک داده دو

68
00:03:20,769 –> 00:03:22,959
بعدی است، ما یک نام فانتزی به

69
00:03:22,959 –> 00:03:25,090
نام داده درست داریم، بنابراین این روشی است

70
00:03:25,090 –> 00:03:26,760
که شما آن را

71
00:03:26,760 –> 00:03:29,680
خوب می نامید، بنابراین آنچه در کارت ها یا

72
00:03:29,680 –> 00:03:31,689
قاب داده ای وجود دارد که با

73
00:03:31,689 –> 00:03:36,489
وارد کردن فایل CSV ایجاد کردیم، بنابراین از سر استفاده می کنیم.

74
00:03:36,489 –> 00:03:38,729
روش برای دیدن پنج

75
00:03:38,729 –> 00:03:42,810
مشاهدات برتر و اجازه دهید این را اجرا کنیم و شما

76
00:03:42,810 –> 00:03:46,479
می توانید مشاهده ارزش بالا

77
00:03:46,479 –> 00:03:50,979
را برای تنظیم این بیابان مشاهده کنید که به آن

78
00:03:50,979 –> 00:03:53,709
وضعیت ماشین می گویند درست است اطلاعات

79
00:03:53,709 –> 00:03:56,349
مربوط به ماشین های مختلف را دارد. e

80
00:03:56,349 –> 00:04:03,209
ماشین مدل نوع مبدا قیمت

81
00:04:03,209 –> 00:04:05,639
اندازه موتور تعداد سیلندرها

82
00:04:05,639 –> 00:04:12,220
اسب بخار مسافت پیموده شده وزن مسافت پیموده شده ما بر اساس و

83
00:04:12,220 –> 00:04:14,970
و طول، بنابراین آنها تعداد زیادی از

84
00:04:14,970 –> 00:04:18,728
ویژگی هایی هستند که ما در این مجموعه داده

85
00:04:18,728 –> 00:04:21,370
داریم و می توانیم از این مجموعه داده ها به

86
00:04:21,370 –> 00:04:22,570
دلایل مختلف استفاده کنیم.

87
00:04:22,570 –> 00:04:24,520
ما می‌توانیم با استفاده از این یک مدل‌سازی تقسیم‌بندی برای شما انجام دهیم،

88
00:04:24,520 –> 00:04:27,250
همانطور که در ویدیوی دیگری به شما نشان داده شده است که

89
00:04:27,250 –> 00:04:30,610
چگونه

90
00:04:30,610 –> 00:04:33,280
با استفاده از این مجموعه داده خاص، اما با استفاده از

91
00:04:33,280 –> 00:04:37,750
ما، تجزیه و تحلیل تقسیم‌بندی انجام دهید، بنابراین ما به سادگی بین

92
00:04:37,750 –> 00:04:40,720
تجزیه و تحلیل صریح و بدون نیاز به ساخت

93
00:04:40,720 –> 00:04:43,300
هیچ مدلی در این ویدیو، اما می‌توانیم البته

94
00:04:43,300 –> 00:04:45,400

95
00:04:45,400 –> 00:04:48,610
قبل از انواع تجزیه و تحلیل داده‌ها از این دیالیز صریح استفاده کنید یا

96
00:04:48,610 –> 00:04:50,650
مدل‌سازی آماری را

97
00:04:50,650 –> 00:04:54,250
می‌شناسید که می‌دانید زندگی روزمره درست است، بنابراین

98
00:04:54,250 –> 00:04:56,050
اینها برخی از مراحل اساسی هستند که

99
00:04:56,050 –> 00:04:58,740
قبل از ساختن هر

100
00:04:58,740 –> 00:05:01,930
مدلی در حال حاضر باید دنبال کنیم. اینکه ما داده‌ها را داریم و

101
00:05:01,930 –> 00:05:05,800
می‌توانیم داده‌ها را به

102
00:05:05,800 –> 00:05:08,050
تنهایی ببینیم، اما فقط می‌توانیم پنج مشاهده برتر را به درستی

103
00:05:08,050 –> 00:05:10,570
ببینیم، البته می‌توانیم کل

104
00:05:10,570 –> 00:05:12,970
مجموعه مشاهدات را ببینیم، اما

105
00:05:12,970 –> 00:05:16,090
طبقه‌بندی زیر دشوار است. و صرفاً

106
00:05:16,090 –> 00:05:19,030
با نگاه کردن به برگه بیمار سنگ سنگ ها،

107
00:05:19,030 –> 00:05:21,280
باید آنها

108
00:05:21,280 –> 00:05:23,980
را به شکلی خلاصه کنیم تا بتوانیم

109
00:05:23,980 –> 00:05:25,990
بینش اساسی از این داده ها بدست آوریم،

110
00:05:25,990 –> 00:05:29,020
جایی که EDA به ما کمک می کند

111
00:05:29,020 –> 00:05:34,090
تا مسیر را یکپارچه کنیم، بنابراین اطلاعات مربوط به آن را نیز خواهیم دید.

112
00:05:34,090 –> 00:05:36,010
مجموعه داده‌ها مانند انواع داده‌ها

113
00:05:36,010 –> 00:05:39,490
و غیره، بنابراین از روش اطلاعات

114
00:05:39,490 –> 00:05:44,830
استفاده می‌کنیم تا ببینیم، بنابراین این را اجرا می‌کنیم تا

115
00:05:44,830 –> 00:05:48,100
اطلاعات نقطه‌ای ماشین‌ها به شما اطلاع دهید،

116
00:05:48,100 –> 00:05:52,810
مانند انواع، انواع داده‌های هر

117
00:05:52,810 –> 00:05:55,300
متغیر و و بنابراین خوب است،

118
00:05:55,300 –> 00:05:59,470
بنابراین ما باید بگوییم در اینجا سمت موتور آن

119
00:05:59,470 –> 00:06:03,220
فقط یک اسب بخار جریان دارد یک عدد صحیح است، بنابراین

120
00:06:03,220 –> 00:06:04,990
اینها برخی از مشاهدات اساسی هستند اگر

121
00:06:04,990 –> 00:06:07,090
ناهماهنگی وجود داشته باشد، البته می توانیم

122
00:06:07,090 –> 00:06:10,480
نوع داده را تغییر دهیم، اگر شما بخواهیم نوع داده را تغییر دهیم، بسیار خوب است.

123
00:06:10,480 –> 00:06:12,160

124
00:06:12,160 –> 00:06:14,020
ما می توانیم انجام دهیم، اما قبل از آن ما همچنین باید

125
00:06:14,020 –> 00:06:16,540
بدانیم که به طور پیش فرض نوع داده چیست

126
00:06:16,540 –> 00:06:22,180
که پایتون یک علامت ok است، به عنوان مثال،

127
00:06:22,180 –> 00:06:24,670
ما تعداد خاصی از

128
00:06:24,670 –> 00:06:27,280
متغیرها را نمی خواهیم به عنوان مثال در اینجا ما قیمت را نمی

129
00:06:27,280 –> 00:06:29,910
خواهیم و قیمت معکوس

130
00:06:29,910 –> 00:06:34,680
قیمت خرده فروشی را نمی خواهیم. و قیمت معکوس ما

131
00:06:34,680 –> 00:06:37,680
به سادگی wa برای خلاص شدن از شر شما، به سادگی

132
00:06:37,680 –> 00:06:39,660
می خواهید آنها را از متغیر حذف کنید که چگونه

133
00:06:39,660 –> 00:06:42,680
این کار را انجام می دهیم، بنابراین ما به سادگی ابتدا

134
00:06:42,680 –> 00:06:46,050
یک لیست را تعریف می کنیم، بنابراین در اینجا یک لیست از

135
00:06:46,050 –> 00:06:49,080
شکلی از آرایه است که در آن

136
00:06:49,080 –> 00:06:52,680
لامپ های متغیر MSRP را تعریف می کنیم و فاکتور خوبی را ارائه می کنیم و

137
00:06:52,680 –> 00:06:56,280
سپس ما از روش

138
00:06:56,280 –> 00:07:00,090
drop استفاده می‌کنیم، بنابراین از روش drop

139
00:07:00,090 –> 00:07:03,600
برای حذف این دو متغیر استفاده می‌کنیم یا این دو

140
00:07:03,600 –> 00:07:07,410
متغیر را رها می‌کنیم، بنابراین در اینجا لیستی

141
00:07:07,410 –> 00:07:08,759
که ستون‌های زیر خط را رها می‌کند

142
00:07:08,759 –> 00:07:11,400
، آن دو نام متغیر را دارد و

143
00:07:11,400 –> 00:07:14,030
این دقیقاً همان چیزی است که به عنوان پارامتر استفاده می‌کنیم.

144
00:07:14,030 –> 00:07:18,509
در این روش اگر کاری که

145
00:07:18,509 –> 00:07:20,370
قرار است انجام شود این است که به سادگی

146
00:07:20,370 –> 00:07:23,370
این دو متغیر را حذف یا رها کنیم، خوب حالا ما آن را

147
00:07:23,370 –> 00:07:27,599
اجرا کردیم، می‌توانید ببینید که آیا

148
00:07:27,599 –> 00:07:33,229
واقعاً مشکلی داریم، بنابراین اجازه دهید

149
00:07:33,229 –> 00:07:36,300
اپیکورد را دوباره اجرا کنیم، مثل اینکه فعلاً سریع‌تر می‌دانید.

150
00:07:36,300 –> 00:07:40,289
مطمئن باشید که خواهید دید که دو

151
00:07:40,289 –> 00:07:44,190
متغیر دیگر در قاب داده وجود ندارد

152
00:07:44,190 –> 00:07:48,120
و این همان چیزی است که می‌توانید به درستی ببینید،

153
00:07:48,120 –> 00:07:51,840
ما MSRP نداریم یا

154
00:07:51,840 –> 00:07:55,440
فاکتور داریم، بنابراین می‌توانیم آن را

155
00:07:55,440 –> 00:08:02,120
از هر دو متغیر به خوبی دریافت کنیم، شما همچنین می‌توانید

156
00:08:02,120 –> 00:08:05,430
رسم کنید. ردیف ها و اغلب اوقات اتفاقی که می افتد این

157
00:08:05,430 –> 00:08:10,050
است ما با ردیف‌های تکراری و

158
00:08:10,050 –> 00:08:12,240
ردیف‌های تکراری مواجه می‌شویم و برای تجزیه و تحلیل خوب نیست،

159
00:08:12,240 –> 00:08:14,550
باید از شر این ردیف‌های تکراری خلاص شویم،

160
00:08:14,550 –> 00:08:17,190
بنابراین برای ایجاد قوانین اساساً

161
00:08:17,190 –> 00:08:20,610
ردیف‌هایی هستند که فقط پرچین کردن، هیچ

162
00:08:20,610 –> 00:08:22,110
اطلاعات اضافی وجود ندارد، همان اطلاعاتی است

163
00:08:22,110 –> 00:08:24,419
که می‌دانی به تکرار

164
00:08:24,419 –> 00:08:26,970
می‌دانی بیشتر از یک بار چگونه انجام دهیم که بتوانیم یکباره

165
00:08:26,970 –> 00:08:30,690
از شر ردیف های تکراری برای

166
00:08:30,690 –> 00:08:36,690
همه ستون ها خلاص شویم، فکر می کنیم که نیازی

167
00:08:36,690 –> 00:08:39,000
به انجام هیچ گونه دارایی تکراری نداریم، پس چگونه

168
00:08:39,000 –> 00:08:41,099
انجام دهیم که از روش drop

169
00:08:41,099 –> 00:08:44,550
underscore دو تیکت استفاده کنیم.

170
00:08:44,550 –> 00:08:47,050
باید انجام دهیم این است که ابتدا باید به سادگی

171
00:08:47,050 –> 00:08:49,910
خط زیر را حفظ کنیم، به این معنی که شما

172
00:08:49,910 –> 00:08:51,860
به سادگی اولین مشاهده را انتخاب کنید و

173
00:08:51,860 –> 00:08:54,500
بقیه مشاهده ها را درست حذف کنید، با توجه به اینکه می

174
00:08:54,500 –> 00:08:57,410
دانید ردیف تکراری است،

175
00:08:57,410 –> 00:09:00,470
در واقع برای آن مهم نیست که کدام

176
00:09:00,470 –> 00:09:03,259
ردیف را انتخاب یا نگه می دارد. و

177
00:09:03,259 –> 00:09:06,470
کدام ردیف‌های دیگر را رقم می‌زند، اما می‌دانید که

178
00:09:06,470 –> 00:09:11,389
ما به سادگی این را تعریف می‌کنیم تا

179
00:09:11,389 –> 00:09:13,040
اولین مورد را حفظ کنیم،

180
00:09:13,040 –> 00:09:16,310
در غیر این صورت به‌طور پیش‌فرض

181
00:09:16,310 –> 00:09:17,959
، اولین را نیز نگه می‌دارد و

182
00:09:17,959 –> 00:09:24,380
بقیه را به‌خوبی حذف می‌کند و مجموعه داده ما

183
00:09:24,380 –> 00:09:27,920
دارای du نیست. موارد تکراری همان چیزی است که من قبلاً

184
00:09:27,920 –> 00:09:30,019
می‌دانم، اما اگر موارد تکراری داشته

185
00:09:30,019 –> 00:09:32,810
باشید، می‌دانید که این متن بسیار مفیدی است،

186
00:09:32,810 –> 00:09:36,380
من تمام ردیف‌های تکراری از این

187
00:09:36,380 –> 00:09:40,220
مجموعه داده را درست می‌کنم، اکنون خواهیم دید که

188
00:09:40,220 –> 00:09:43,370
اندازه یک مجموعه داده چقدر است، مثلاً چند ردیف و

189
00:09:43,370 –> 00:09:45,139
چند آیا ستون هایی در

190
00:09:45,139 –> 00:09:48,560
مجموعه حالت دارید، ما چهار ردیف 32 تنی

191
00:09:48,560 –> 00:09:51,230
و دوازده ستونی داریم،

192
00:09:51,230 –> 00:09:54,019
بنابراین این اندازه مجموعه داده ها است و

193
00:09:54,019 –> 00:09:56,360
چگونه می توانید بفهمید که می گویید

194
00:09:56,360 –> 00:09:58,399
زیر تمسخر یک صندلی ماشین یا یک صندلی دیگر را حک

195
00:09:58,399 –> 00:10:05,630
کنید، فقط از شکل استفاده کنید و ما

196
00:10:05,630 –> 00:10:07,730
تعداد سطرها و تعداد ستون‌ها را

197
00:10:07,730 –> 00:10:13,970
خوب دریافت می‌کنیم و سپس کاری که انجام می‌دهیم این است که

198
00:10:13,970 –> 00:10:16,250
برخی از آمارهای خلاصه اولیه را

199
00:10:16,250 –> 00:10:18,740
انجام می‌دهیم و چگونه آمار خلاصه اولیه را به دست می‌آوریم

200
00:10:18,740 –> 00:10:21,560
از

201
00:10:21,560 –> 00:10:25,040
روشی استفاده می‌کنیم که توضیح داده شده است.

202
00:10:25,040 –> 00:10:26,389
که شما آمار خلاصه اولیه

203
00:10:26,389 –> 00:10:29,389
مانند میانگین میانگین

204
00:10:29,389 –> 00:10:34,910
انحراف استاندارد و غیره را به درستی دریافت خواهید کرد و این

205
00:10:34,910 –> 00:10:37,610
چیزی است که می توانید در اینجا توجه کنید

206
00:10:37,610 –> 00:10:40,399
این است که نمی توانید میانگین انحراف استاندارد را بدست

207
00:10:40,399 –> 00:10:43,880
آورید یا حداکثر و

208
00:10:43,880 –> 00:10:46,399
حداقل یا متغیرهای طبقه بندی را می شناسید. شما

209
00:10:46,399 –> 00:10:49,069
فقط می توانید برای متغیرهای عددی پیوسته نرخ متغیر عددی و پیوسته به دست آورید،

210
00:10:49,069 –> 00:10:50,750

211
00:10:50,750 –> 00:10:55,480
بنابراین در این می

212
00:10:55,480 –> 00:11:00,610
توانید تعداد میانگین انحراف استاندارد را

213
00:11:00,680 –> 00:11:02,960
به حداقل برسانید و 25

214
00:11:02,960 –> 00:11:05,930
صدک 50 صدک 70 صدک

215
00:11:05,930 –> 00:11:09,530
و تاکسی valiums خوب است اکنون

216
00:11:09,530 –> 00:11:12,650
آمار خلاصه اولیه به ما کمک می کند. به شما کمک می کند تا

217
00:11:12,650 –> 00:11:14,900
به

218
00:11:14,900 –> 00:11:16,910
خوبی توزیع داده ها را درک کنید، برای

219
00:11:16,910 –> 00:11:21,260
مدل سازی مطمئن شوید که انحراف استاندارد

220
00:11:21,260 –> 00:11:23,990
صفر نیست اگر انحراف استاندارد

221
00:11:23,990 –> 00:11:27,050
یک متغیر صفر باشد و سپس

222
00:11:27,050 –> 00:11:30,410
آن متغیر هیچ تغییری به ما نمی دهد

223
00:11:30,410 –> 00:11:32,120
، هیچ گونه تغییری در داده ها وجود ندارد و

224
00:11:32,120 –> 00:11:35,180
برای مدل آماری خیلی مفید

225
00:11:35,180 –> 00:11:37,580
نیست، بنابراین ما فقط باید از شر

226
00:11:37,580 –> 00:11:39,590
آن مقدار خلاص شویم یا آن متغیر را از

227
00:11:39,590 –> 00:11:42,700
تجزیه و تحلیل

228
00:11:42,700 –> 00:11:47,120

229
00:11:47,120 –> 00:11:48,980

230
00:11:48,980 –> 00:11:50,180

231
00:11:50,180 –> 00:11:52,760
حذف کنیم.

232
00:11:52,760 –> 00:11:57,050
داده ها دارای مقادیر دورافتاده یا

233
00:11:57,050 –> 00:12:01,940
مقادیر بسیار زیاد هستند و به همین ترتیب گاهی اوقات ما

234
00:12:01,940 –> 00:12:04,970
مقادیر افراطی را می شناسیم که

235
00:12:04,970 –> 00:12:07,160
تصادفی هستند، یعنی آنها دیوانه هستند.

236
00:12:07,160 –> 00:12:08,330
مشکل بزرگی

237
00:12:08,330 –> 00:12:12,890
در ساخت مدل ایجاد می کنیم، بنابراین ما باید فقط از

238
00:12:12,890 –> 00:12:16,940
شر این خلاص شویم.

239
00:12:16,940 –> 00:12:19,400

240
00:12:19,400 –> 00:12:22,970

241
00:12:22,970 –> 00:12:28,450

242
00:12:28,450 –> 00:12:31,880

243
00:12:31,880 –> 00:12:33,620
داده‌ها با توجه به متغیر

244
00:12:33,620 –> 00:12:38,180
فقط برای اینکه ببینیم مقادیر افراطی را با

245
00:12:38,180 –> 00:12:41,180
جزئیات بیشتری می‌دانید، زیرا در اینجا وقتی

246
00:12:41,180 –> 00:12:44,930
خلاصه می‌کنیم احتمالاً R را نمی‌گیریم تا

247
00:12:44,930 –> 00:12:47,570
مقادیر شدید را خیلی نزدیک ببینیم، خوب است، ما

248
00:12:47,570 –> 00:12:50,240
می‌خواهیم کمی بیشتر در

249
00:12:50,240 –> 00:12:53,480
تابش سطح دانه‌ای بیشتر ببینیم. برای

250
00:12:53,480 –> 00:12:58,400
انجام این کار، گاهی اوقات باید مرتب سازی

251
00:12:58,400 –> 00:12:59,930
این داده ها را با توجه

252
00:12:59,930 –> 00:13:02,570
به این که روش های مقادیر زیر خط کوتاه هستند

253
00:13:02,570 –> 00:13:05,570
انجام دهیم، بنابراین از این روش می توانیم

254
00:13:05,570 –> 00:13:08,420
به ترتیب برای مرتب سازی موجود با

255
00:13:08,420 –> 00:13:10,970
توجه به مرتب سازی داده شده، داده ها با توجه به

256
00:13:10,970 –> 00:13:11,380
داده شده استفاده

257
00:13:11,380 –> 00:13:14,350
کنیم و ما با توجه به

258
00:13:14,350 –> 00:13:18,490
مسافت پیموده شده مرتب سازی کنید خوب است، به عنوان مثال فکر می کنم که

259
00:13:18,490 –> 00:13:21,070
این متغیر مورد علاقه

260
00:13:21,070 –> 00:13:24,370
است، احتمالاً شما می دانید که

261
00:13:24,370 –> 00:13:27,730
متغیر هدف در تمرین مدل سازی ما خواهد بود

262
00:13:27,730 –> 00:13:31,200
که می گوید شما در آن درصورتی‌که ما به

263
00:13:31,200 –> 00:13:34,420
سادگی مجموعه‌ای از این مجموعه داده‌ها را

264
00:13:34,420 –> 00:13:37,210
با توجه به مسافت پیموده شده مرتب‌سازی می‌کنیم و به

265
00:13:37,210 –> 00:13:39,490
ترتیب نزولی مرتب می‌کنیم،

266
00:13:39,490 –> 00:13:42,300
البته می‌توانیم به ترتیب صعودی مرتب کنیم، اما این کار را

267
00:13:42,300 –> 00:13:46,630
به ترتیب نزولی انجام خواهیم داد تا حداکثر

268
00:13:46,630 –> 00:13:48,520
یا شما بزرگ‌تر را بدانید. مقادیر

269
00:13:48,520 –> 00:13:53,800
در بالای صفحه هستند بسیار خوب و بیایید این را اجرا کنیم،

270
00:13:53,800 –> 00:13:56,230
بنابراین همانطور که انتظار می‌رود خطا می‌دهد

271
00:13:56,230 –> 00:13:59,670
و چرا این اتفاق می‌افتد به این دلیل

272
00:13:59,670 –> 00:14:04,360
است که فضایی وجود دارد که فضای خالی آن

273
00:14:04,360 –> 00:14:09,430
در نام

274
00:14:09,430 –> 00:14:14,500
ستون است که نام ستون mpz فضای اضافی دارد.

275
00:14:14,500 –> 00:14:17,290
بسیار خوب، بنابراین ما اکنون یک عبارت

276
00:14:17,290 –> 00:14:20,410
فضای اضافی داریم و باید اکنون چگونه

277
00:14:20,410 –> 00:14:23,140
کار می کند، اما ما نمی خواهیم که

278
00:14:23,140 –> 00:14:26,140
این فضا در اشغال باقی بماند،

279
00:14:26,140 –> 00:14:28,930
اما داشتن یک

280
00:14:28,930 –> 00:14:33,400
فاصله به عنوان بخشی از نام ستون واقعاً عجیب به نظر می رسد. درست است،

281
00:14:33,400 –> 00:14:36,670
ما باید از شر این فضای خاص خلاص شویم،

282
00:14:36,670 –> 00:14:41,190
چگونه انجام دهیم که باید

283
00:14:41,190 –> 00:14:45,940
از جایگزینی نقطه رشته استفاده کنیم

284
00:14:45,940 –> 00:14:50,710
تا فضای ناخواسته را از هر ستون جایگزین کنیم.

285
00:14:50,710 –> 00:14:54,030

286
00:14:54,030 –> 00:14:57,310

287
00:14:57,310 –> 00:14:59,950
ستون‌های cos dot برابر است با Castr o دو

288
00:14:59,950 –> 00:15:03,910
ستون نقطه st r نقطه جایگزین می شود و ما

289
00:15:03,910 –> 00:15:11,200
فضای ناخواسته را جایگزین می کنیم بسیار خوب اکنون

290
00:15:11,200 –> 00:15:16,570
فضای ناخواسته را حذف کرده ایم، بنابراین اجازه دهید

291
00:15:16,570 –> 00:15:20,710
هسته اصلی را اجرا کنیم و امیدواریم

292
00:15:20,710 –> 00:15:24,730
که کار کند بله درست است، می توانید ببینید که

293
00:15:24,730 –> 00:15:27,339
می دانید داده ها با احترام مرتب شده اند

294
00:15:27,339 –> 00:15:30,940
مسافت پیموده شده و اعداد بزرگتر

295
00:15:30,940 –> 00:15:33,190
در بالا هستند، بنابراین به ترتیب نزولی مرتب

296
00:15:33,190 –> 00:15:37,209

297
00:15:37,209 –> 00:15:39,339

298
00:15:39,339 –> 00:15:41,019

299
00:15:41,019 –> 00:15:44,260

300
00:15:44,260 –> 00:15:46,600
شده است. بنابراین ما آن

301
00:15:46,600 –> 00:15:48,760
را نخواهیم داشت، اما در دنیای واقعی

302
00:15:48,760 –> 00:15:51,600
می‌توانیم بگوییم که می‌دانید

303
00:15:51,600 –> 00:15:55,899
مقادیر شدید را می‌دانید و می‌دانید که می‌توانیم

304
00:15:55,899 –> 00:16:00,940
به سادگی آنها را پس از شناسایی حذف کنیم، کار

305
00:16:00,940 –> 00:16:04,630
بعدی این است که اگر

306
00:16:04,630 –> 00:16:07,720
بخواهیم انجام دهیم این به صورت پویا به این معنی است که به

307
00:16:07,720 –> 00:16:11,459
جای اینکه بدانید به دنبال آن باشید، می دانید که

308
00:16:11,459 –> 00:16:15,399
ما به جای مرتب کردن ساده داده ها

309
00:16:15,399 –> 00:16:17,170
با توجه به ترتیب صعودی و

310
00:16:17,170 –> 00:16:19,540
نزولی و آنها این کار را

311
00:16:19,540 –> 00:16:21,699
برای هر یک از موارد موجود

312
00:16:21,699 –> 00:16:23,579
انجام می دهند که می دانید ما انجام می دهیم یا ما. دوباره در حال اجرا به نقل قول

313
00:16:23,579 –> 00:16:26,440
چندین بار، بنابراین آیا می‌توانیم

314
00:16:26,440 –> 00:16:29,529
تابعی بنویسیم که این کار را انجام می‌دهد، این

315
00:16:29,529 –> 00:16:32,079
تابع به منظور خودکار کردن چیزی

316
00:16:32,079 –> 00:16:35,620
درست به منظور انجام مکرر کاری استفاده می‌شود،

317
00:16:35,620 –> 00:16:38,139
اما ما نیازی به

318
00:16:38,139 –> 00:16:40,540
نوشتن کد نداریم، فقط باید تابع را فراخوانی

319
00:16:40,540 –> 00:16:42,670
کنیم، بنابراین تابع اینجاست. در جایی که

320
00:16:42,670 –> 00:16:45,160
می بینیم مقادیر حداقل و حداکثر

321
00:16:45,160 –> 00:16:49,029
متغیر داده شده را دریافت می کنیم و به سادگی

322
00:16:49,029 –> 00:16:50,709
نام آن متغیر

323
00:16:50,709 –> 00:16:53,110
را منتقل می کنیم و حداقل و

324
00:16:53,110 –> 00:16:55,990
حداکثر مقادیری را که می توانیم بدست آوریم به ما می دهد البته

325
00:16:55,990 –> 00:16:59,079
5 مقدار بالا و پنج مقدار پایین و همچنین چگونه انجام دهیم.

326
00:16:59,079 –> 00:17:03,430
ما این کار را انجام می‌دهیم که ابتدا شاخص را تعریف می‌کنیم و اجازه می‌دهیم

327
00:17:03,430 –> 00:17:06,939
ایندکس بالا باشد و روش ID x max

328
00:17:06,939 –> 00:17:08,949
به ما شاخص بالایی

329
00:17:08,949 –> 00:17:12,280
قاب داده را می‌دهد تا بدیهی

330
00:17:12,280 –> 00:17:13,270
است همه آنها را بگیریم

331
00:17:13,270 –> 00:17:16,780
و به طور مشابه I D X و O’s I disk

332
00:17:16,780 –> 00:17:20,199
mean به ما می‌دهد. ایندکس پایین خوب است

333
00:17:20,199 –> 00:17:23,339
و ما از آن با کمک

334
00:17:23,339 –> 00:17:26,290
تابع LOC استفاده می کنیم تا حداقل

335
00:17:26,290 –> 00:17:28,419
و حداکثر را از داده ها برای آن دوره معین استخراج کنیم

336
00:17:28,419 –> 00:17:31,360
و سپس آنها را با هم ترکیب می کنیم،

337
00:17:31,360 –> 00:17:34,590
آنها را با استفاده از روش الحاق پانداها به هم متصل می

338
00:17:34,590 –> 00:17:37,270
کنیم و سپس این

339
00:17:37,270 –> 00:17:38,200
چیزی است که که

340
00:17:38,200 –> 00:17:44,440
توسط تابع خوانده می شود، بنابراین اجازه دهید

341
00:17:44,440 –> 00:17:48,249
این تابع را اجرا کنیم و سپس از آن

342
00:17:48,249 –> 00:17:51,489
برای مسافت پیموده شده استفاده کنیم بسیار خوب، از این تابع

343
00:17:51,489 –> 00:17:54,519
برای مسافت پیموده شده استفاده می کنیم و در اینجا می توانیم

344
00:17:54,519 –> 00:17:57,309
حداقل و حداکثر و مقادیر مرتبط را مشاهده

345
00:17:57,309 –> 00:18:00,129
کنیم، مانند اینکه فقط حداقل نیست

346
00:18:00,129 –> 00:18:05,769
و حداکثر شما از مسافت پیموده شده می دانید، آن

347
00:18:05,769 –> 00:18:07,960
نیز مقادیر مرتبط

348
00:18:07,960 –> 00:18:10,929
سایر متغیرها برای ستون های دیگر است و

349
00:18:10,929 –> 00:18:14,739
این همان چیزی است که در اینجا می توانید ببینید ما

350
00:18:14,739 –> 00:18:17,769
نوع مدل یا زنجیره و و غیره

351
00:18:17,769 –> 00:18:21,519
را داریم، بنابراین در آمار خلاصه

352
00:18:21,519 –> 00:18:23,529
این کار را نمی کنیم. not pain

353
00:18:23,529 –> 00:18:25,929
بر حداقل و حداکثری که ما

354
00:18:25,929 –> 00:18:27,970
مقادیر مرتبط یا

355
00:18:27,970 –> 00:18:32,590
مقادیر مرتبط دیگر متغیرها را برای

356
00:18:32,590 –> 00:18:35,950
آن مقدار حداقل و حداکثر دریافت نمی کنیم، می توانیم این کار را

357
00:18:35,950 –> 00:18:39,429
برای طول انجام دهیم که می توانیم برای هر نوع

358
00:18:39,429 –> 00:18:44,799
متغیر عددی پیوسته انجام دهیم، بنابراین در

359
00:18:44,799 –> 00:18:46,899
اینجا برای طول um شما می دانید حداقل 87

360
00:18:46,899 –> 00:18:54,730
حداکثر 238 است و ما

361
00:18:54,730 –> 00:18:58,600
منشاء نوع مدل و اندازه هندی را داریم و به همین

362
00:18:58,600 –> 00:19:02,529
ترتیب خوب است فقط برای تأیید صحت یا نه،

363
00:19:02,529 –> 00:19:03,159

364
00:19:03,159 –> 00:19:06,179
ما به آمار خلاصه می رویم

365
00:19:06,179 –> 00:19:10,570
تا تأیید کنیم که آیا آن را تأیید کنیم. آیا می دانید که

366
00:19:10,570 –> 00:19:13,419
این شاخص یا هیستوگرام است در یک لحظه

367
00:19:13,419 –> 00:19:18,399
ما به عقب برمی گردیم زیرا حداکثر طول 238 و

368
00:19:18,399 –> 00:19:26,559
حداقل 143 است، بنابراین

369
00:19:26,559 –> 00:19:30,070
این مقادیر نیست، این شاخص است که به این معنی است که

370
00:19:30,070 –> 00:19:36,100
در ردیف شماره 87 شما

371
00:19:36,100 –> 00:19:40,679
حداکثر را دارید. و 238 ما حداقل را داریم خوب است،

372
00:19:40,679 –> 00:19:44,549
فقط برای تأیید اینکه ما از

373
00:19:44,549 –> 00:19:47,679
حداکثر اول و حداقل ثانیه استفاده کرده ایم

374
00:19:47,679 –> 00:19:51,309
درست است، بنابراین ماکزیمم در ابتدا و

375
00:19:51,309 –> 00:19:51,580
سپس

376
00:19:51,580 –> 00:19:53,950
حداقل دوم اکنون سفارش می تواند تفاوت ایجاد کند

377
00:19:53,950 –> 00:19:56,200
، بنابراین باید اطمینان حاصل کنیم

378
00:19:56,200 –> 00:19:59,320
که حداکثر اتفاق می افتد در شاخص

379
00:19:59,320 –> 00:20:01,960
87 و حداقل در شاخص 238 اتفاق می افتد

380
00:20:01,960 –> 00:20:06,850
و مقادیر به سادگی در

381
00:20:06,850 –> 00:20:10,810
مقابل ما هستند و پس از انجام یک بتا، یک

382
00:20:10,810 –> 00:20:13,870
شکل تصویری از تجزیه و تحلیل داده ها را مشاهده

383
00:20:13,870 –> 00:20:18,970
خواهیم کرد، هیستوگرام متغیرهای عددی پیوسته را ترسیم خواهیم کرد

384
00:20:18,970 –> 00:20:21,400
و چگونه

385
00:20:21,400 –> 00:20:24,450
آیا این کار را انجام می دهیم که از matplotlib استفاده می کنیم

386
00:20:24,450 –> 00:20:29,230
بنابراین هیستوگرام نقطه ای PLT بنابراین از روش هیستوگرام از

387
00:20:29,230 –> 00:20:33,670
پیوند نمودار پشتی استفاده

388
00:20:33,670 –> 00:20:35,440
می شود تا این stubrag هیستوگرام ایجاد شود.

389
00:20:35,440 –> 00:20:38,440

390
00:20:38,440 –> 00:20:40,990

391
00:20:40,990 –> 00:20:44,650
و ما ده ضربه خواهیم داشت که می توانید

392
00:20:44,650 –> 00:20:49,420
هر تعداد ضربان را که می خواهید داشته باشید، بنابراین ما این

393
00:20:49,420 –> 00:20:53,890
کار را برای مسافت پیموده شده انجام می دهیم و سپس دو

394
00:20:53,890 –> 00:20:56,530
پارامتر اول متغیری است

395
00:20:56,530 –> 00:20:58,420
که می خواهیم برای آن هیستوگرام ایجاد کنیم

396
00:20:58,420 –> 00:21:01,450
و دومی تعداد ضربات اوکی است.

397
00:21:01,450 –> 00:21:03,730
شما می توانید آن را با فقط شما می

398
00:21:03,730 –> 00:21:06,340
دانید با ده سمت راست جایگزین کنید به جای ارائه

399
00:21:06,340 –> 00:21:12,280
به عنوان متغیر، ما به سادگی می توانیم

400
00:21:12,280 –> 00:21:15,610
مقدار اسکالر را نیز سخت کنیم، بنابراین این را اجرا می کنیم

401
00:21:15,610 –> 00:21:20,080
و در اینجا هیستوگرام آن ده

402
00:21:20,080 –> 00:21:23,410
bin دارد و این توزیع

403
00:21:23,410 –> 00:21:28,780
مسافت پیموده شده خوب است. می تواند چندین

404
00:21:28,780 –> 00:21:31,960
توزیع درست در

405
00:21:31,960 –> 00:21:33,970
قالب هیستوگرام وجود داشته باشد که فقط یک

406
00:21:33,970 –> 00:21:36,340
توزیع داده است و ما به سادگی

407
00:21:36,340 –> 00:21:39,910
داده ها را با هر پرتو

408
00:21:39,910 –> 00:21:42,070
خلاصه می کنیم، در آمار خلاصه ما به سادگی این

409
00:21:42,070 –> 00:21:46,650
یک پرتو را داریم که حول

410
00:21:46,650 –> 00:21:49,750
میانگین یا حول میانه یا شما متمرکز است.

411
00:21:49,750 –> 00:21:53,500
حداکثر یا حداقل را بدانید،

412
00:21:53,500 –> 00:21:58,030
اما در اینجا ده وسیله داریم، بنابراین شما

413
00:21:58,030 –> 00:22:02,170
توزیع در

414
00:22:02,170 –> 00:22:03,900
بخش های مختلف داده را دارید و

415
00:22:03,900 –> 00:22:06,590
درک آن بسیار بهتر

416
00:22:06,590 –> 00:22:09,210
از دانستن اصول آمار

417
00:22:09,210 –> 00:22:11,970
y است. اگر به فرهنگ نگاه کنید، می توانید سمت راستی را که دارید ببینید،

418
00:22:11,970 –> 00:22:14,750

419
00:22:14,750 –> 00:22:18,540
حتی در 50 و 60 مشاهداتی وجود دارد، بسیار خوب و

420
00:22:18,540 –> 00:22:22,530
اینها هستند.

421
00:22:22,530 –> 00:22:25,050

422
00:22:25,050 –> 00:22:28,140

423
00:22:28,140 –> 00:22:31,140
خیلی

424
00:22:31,140 –> 00:22:33,510
از مشاهدات دیگر فاصله داریم، بنابراین می‌توانید مکان‌نمای من را ببینید

425
00:22:33,510 –> 00:22:35,580
این مجموعه کوچک مشاهدات،

426
00:22:35,580 –> 00:22:38,220
شاید فقط تعداد کمی باشد، اما آنها کاملاً

427
00:22:38,220 –> 00:22:39,450
با مجموعه

428
00:22:39,450 –> 00:22:41,790
مشاهدات دیگر متفاوت هستند، بنابراین

429
00:22:41,790 –> 00:22:46,080
در آمار به سمت راست هستند، ما آنه

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: python: استثنا گرفتن و نمونه گوچا (مبتدی – متوسط) آنتونی #247 توضیح می دهد با زیرنویس فارسی

فیلم آموزشی: مشکل حمل و نقل LP با استفاده از Python PuLP (به انگلیسی) با زیرنویس فارسی

فیلم آموزشی: اصول پایتون – ماژول ها در پایتون با زیرنویس فارسی

فیلم آموزشی: آموزش تقویتی در پایتون: شروع به کار با زیرنویس فارسی

فیلم آموزشی: GNS3 Talks: Python برای مهندسان شبکه با GNS3 (قسمت 1). برنامه نویسی شبکه آسان شده است.

فیلم آموزشی: 23 آموزش زنده #پایتون

فیلم آموزشی: تصاویر آنلاین ArcGIS: تجزیه و تحلیل با استفاده از پایتون با زیرنویس فارسی

فیلم آموزشی: Python Numpy Shape of Array با زیرنویس فارسی

فیلم آموزشی: پیش‌بینی قیمت مسکن بوستون در پایتون با استفاده از کتابخانه‌های sklearn، statmodels با زیرنویس فارسی

فیلم آموزشی: آموزش بازگشت و یادآوری پایتون با زیرنویس فارسی

فیلم آموزشی: چگونه برنامه پایتون را در Notepad++ اجرا کنیم؟

فیلم آموزشی: ربات چت پایتون با هوش مصنوعی (تحلیل احساسات) با زیرنویس فارسی

فیلم آموزشی: شروع به نوشتن یک برنامه وب با Flask در پایتون با زیرنویس فارسی

فیلم آموزشی: شروع کار با وب سرویس آمازون با Python Boto3 #1

فیلم آموزشی: مقدمه ای بر پایتون در هودینی || کاوش هودینی با زیرنویس فارسی

فیلم آموزشی: 7.9. (قسمت 1) داده های جمعیت – پایتون با زیرنویس فارسی

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: