در این مطلب، ویدئو آمار رگرسیون در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:02,310
این یک آموزش در مورد نحوه انجام
2
00:00:02,310 –> 00:00:04,230
آمار رگرسیون به خصوص با
3
00:00:04,230 –> 00:00:06,420
پایتون است، بنابراین کاری که ما
4
00:00:06,420 –> 00:00:09,150
با این آموزش انجام خواهیم داد این است که ما این داده ها را داریم
5
00:00:09,150 –> 00:00:11,550
که می توانید از نقاط آبی
6
00:00:11,550 –> 00:00:14,849
در آنجا حدود 99 نقطه داده را ببینید و ما می خواهیم
7
00:00:14,849 –> 00:00:18,539
بتوانیم پیش بینی کنیم. یک رگرسیون خطی خوب است،
8
00:00:18,539 –> 00:00:20,789
بنابراین این خط در اینجا با یک شیب A
9
00:00:20,789 –> 00:00:23,880
و یک قطع B و
10
00:00:23,880 –> 00:00:26,640
این همان یکی در اینجا خواهد بود، بسیار خوب، بنابراین
11
00:00:26,640 –> 00:00:30,330
همبستگی مورد انتظار ما وجود دارد که در آنجا y برابر است با
12
00:00:30,330 –> 00:00:35,070
تبر به اضافه B و سپس آنچه ما داریم یک
13
00:00:35,070 –> 00:00:38,340
فاصله اطمینان در اطراف است. بنابراین این
14
00:00:38,340 –> 00:00:41,250
خط نارنجی در همانجا می توانید ببینید که
15
00:00:41,250 –> 00:00:43,890
این یک منطقه اطمینان را تعریف می کند که
16
00:00:43,890 –> 00:00:47,190
در آن ما انتظار داریم خط
17
00:00:47,190 –> 00:00:49,379
فاصله اطمینان 95٪ باشد و سپس
18
00:00:49,379 –> 00:00:51,270
چیزی به نام نوار پیش بینی
19
00:00:51,270 –> 00:00:55,230
نیز داریم، بنابراین باند پیش بینی با این خطوط شکسته تعریف می شود
20
00:00:55,230 –> 00:00:58,469
و یعنی
21
00:00:58,469 –> 00:01:00,920
اگر نقطه داده دیگری را در نظر بگیریم، انتظار میرود
22
00:01:00,920 –> 00:01:03,870
که نقطه داده در آن
23
00:01:03,870 –> 00:01:07,860
باند پیشبینی قرار بگیرد، بنابراین میتوانیم اینجا را
24
00:01:07,860 –> 00:01:12,240
از 95 ببینیم که یک دو سه چهار
25
00:01:12,240 –> 00:01:15,030
پنج داریم، بنابراین تقریباً درست است که ما پنج
26
00:01:15,030 –> 00:01:18,180
p داریم. از 99 موردی که خارج از محدوده
27
00:01:18,180 –> 00:01:21,840
پیشبینی هستند و بنابراین ما میدانیم
28
00:01:21,840 –> 00:01:25,619
که این اطمینان 95 درصدی ماست
29
00:01:25,619 –> 00:01:27,119
، اگر اندازهگیری دیگری انجام
30
00:01:27,119 –> 00:01:30,180
دهیم، در آن
31
00:01:30,180 –> 00:01:33,240
منطقه خواهد بود، همچنین میتوانید ببینید که خطاها
32
00:01:33,240 –> 00:01:35,610
معمولاً در اینجا توزیع نمیشوند. به
33
00:01:35,610 –> 00:01:37,799
نظر می رسد که در واقع ممکن است
34
00:01:37,799 –> 00:01:39,869
چیزی شبیه یک تابع نمایی در
35
00:01:39,869 –> 00:01:41,700
آنجا باشد، بنابراین ما در
36
00:01:41,700 –> 00:01:44,479
قسمت دوم آن را پوشش می دهیم که آن را به یک همبستگی غیرخطی برازش می دهیم،
37
00:01:44,479 –> 00:01:48,329
خوب است و برخی
38
00:01:48,329 –> 00:01:51,360
آمارهای غیر خطی آمار خطی
39
00:01:51,360 –> 00:01:54,869
اعمال شده برای این رگرسیون غیرخطی را انجام می
40
00:01:54,869 –> 00:01:58,920
دهیم. اطمینان را در منطقه
41
00:01:58,920 –> 00:02:00,450
درست در همان فاصله اطمینان انجام خواهیم داد و
42
00:02:00,450 –> 00:02:04,850
سپس باند پیش بینی ما خوب است و
43
00:02:04,850 –> 00:02:07,890
می بینید که منطقه اطمینان
44
00:02:07,890 –> 00:02:11,430
در مناطقی که می دانند اطلاعات نزدیک به کجاست گسترش می یابد و
45
00:02:11,430 –> 00:02:13,980
ما
46
00:02:13,980 –> 00:02:16,230
اعتماد به نفس کمتری خواهیم داشت. در آن مناطق
47
00:02:16,230 –> 00:02:18,390
بدیهی است که خوب است، اجازه دهید از طریق
48
00:02:18,390 –> 00:02:21,390
Python در مورد نحوه انجام
49
00:02:21,390 –> 00:02:24,450
50
00:02:24,450 –> 00:02:27,060
51
00:02:27,060 –> 00:02:28,920
این کار بپردازیم. دوباره این را مرور
52
00:02:28,920 –> 00:02:31,680
میکنم، فقط کمی بیشتر توضیح میدهم
53
00:02:31,680 –> 00:02:37,739
و اجازه دهید این آمار را
54
00:02:37,739 –> 00:02:41,459
درست کنم، بنابراین من به بسته عدم قطعیتها
55
00:02:41,459 –> 00:02:43,889
به عنوان بخشی از این نیاز دارم، اگر
56
00:02:43,889 –> 00:02:46,980
بلاتکلیفی ندارید، ممکن است نیاز به
57
00:02:46,980 –> 00:02:50,159
نصب پیپ داشته باشید. من فقط به
58
00:02:50,159 –> 00:02:53,810
خط فرمان شما می روم و شما می دانید که برای مثال
59
00:02:53,810 –> 00:02:56,400
می خواهم یک خط فرمان جدید را
60
00:02:56,400 –> 00:03:01,200
در اینجا باز کنم، خط فرمان بسیار خوب و شما می توانید
61
00:03:01,200 –> 00:03:07,049
عدم قطعیت های نصب پیپ را انجام دهید و
62
00:03:07,049 –> 00:03:08,760
مطمئن شوید که آن را نصب کرده اید،
63
00:03:08,760 –> 00:03:10,829
ما به یک جفت نیاز داریم. بسته های دیگر
64
00:03:10,829 –> 00:03:12,930
نیز مانند پانداس می توانید
65
00:03:12,930 –> 00:03:15,840
نصب پیپ را از اسکریپت خود نیز انجام دهید، بنابراین اگر
66
00:03:15,840 –> 00:03:17,340
ابهاماتی ندارید، می توانید
67
00:03:17,340 –> 00:03:19,620
فقط بلوک بعدی را که در
68
00:03:19,620 –> 00:03:22,349
آنجا است وارد کنید، می توانید سعی کنید
69
00:03:22,349 –> 00:03:25,319
عدم قطعیت ها را وارد کنید و اگر آن
70
00:03:25,319 –> 00:03:28,739
را ندارید، می توانید به جای آن pip را وارد کنید و
71
00:03:28,739 –> 00:03:30,510
از خط فرمان
72
00:03:30,510 –> 00:03:32,159
این کار را انجام دهید و می توانید آن را مستقیماً از اسکریپت پایتون خود انجام دهید و
73
00:03:32,159 –> 00:03:35,419
سپس می توانید pip main را انجام دهید و
74
00:03:35,419 –> 00:03:38,370
عدم قطعیت
75
00:03:38,370 –> 00:03:40,470
های نصب را انجام دهید تا اگر مشکلی ندارید نصب آن را نیز انجام دهید.
76
00:03:40,470 –> 00:03:42,989
عدم قطعیت به نوعی یک
77
00:03:42,989 –> 00:03:45,359
پیش فرض نیست بسته ای که با
78
00:03:45,359 –> 00:03:47,189
توزیع ها ارائه می شود، اما ما آن را
79
00:03:47,189 –> 00:03:52,919
به عنوان U و P وارد
80
00:03:52,919 –> 00:03:56,430
81
00:03:56,430 –> 00:03:59,250
82
00:03:59,250 –> 00:04:02,849
83
00:04:02,849 –> 00:04:05,280
می کنیم. به همین دلیل من فقط آن را به شما نشان می
84
00:04:05,280 –> 00:04:07,829
دهم همانطور که این چیز ادامه دارد، ما فقط می
85
00:04:07,829 –> 00:04:10,169
خواهیم آن را وارد کنیم که با پانداسیی که
86
00:04:10,169 –> 00:04:13,500
CSV را می خوانند، فقط یک منبع داده URL به
87
00:04:13,500 –> 00:04:15,750
آن می دهیم و آن را دانلود می کند و داده ها را تجزیه می کند تا داده ها
88
00:04:15,750 –> 00:04:18,358
وجود داشته باشد. همانجا فایلی را
89
00:04:18,358 –> 00:04:18,810
90
00:04:18,810 –> 00:04:21,238
که در حال وارد کردن آن هستیم و سپس
91
00:04:21,238 –> 00:04:22,889
فقط مقادیر X را تجزیه می
92
00:04:22,889 –> 00:04:23,639
93
00:04:23,639 –> 00:04:26,669
کنیم و سپس طول مقادیر Y را نیز دریافت می
94
00:04:26,669 –> 00:04:30,030
کنیم، 99 مقدار داریم که در
95
00:04:30,030 –> 00:04:32,219
مرحله بعدی به آنها نیاز داریم وارد می کنیم. برای پیدا کردن
96
00:04:32,219 –> 00:04:34,499
تابع ما و این همبستگی ما خواهد بود
97
00:04:34,499 –> 00:04:36,090
که از آن استفاده می کنیم، می
98
00:04:36,090 –> 00:04:37,949
توانید هر همبستگی را در آنجا قرار دهید، می تواند
99
00:04:37,949 –> 00:04:40,560
خطی یا غیر خطی باشد، در این مورد من
100
00:04:40,560 –> 00:04:42,930
فقط یک شیب و یک شیب قطع دارم
101
00:04:42,930 –> 00:04:45,360
که a و رهگیری است. B بودن و
102
00:04:45,360 –> 00:04:47,430
سپس وقتی از منحنی فیت استفاده می کنم و
103
00:04:47,430 –> 00:04:49,650
پارامتر بهینه را برمی گرداند s a و B
104
00:04:49,650 –> 00:04:52,620
و P انتخاب کنید و سپس ماتریس کوواریانس
105
00:04:52,620 –> 00:04:56,189
یک ماتریس 2 در 2 از کوواریانس و
106
00:04:56,189 –> 00:04:58,919
من فقط آن مقادیر را از P
107
00:04:58,919 –> 00:05:01,620
opt بازیابی می کنم و سپس مقادیر را
108
00:05:01,620 –> 00:05:04,289
به عنوان مرحله بعدی چاپ می کنم تا مطمئن شوم
109
00:05:04,289 –> 00:05:06,750
که ما را می شناسید. دریافت این حداقلی است که ما
110
00:05:06,750 –> 00:05:08,729
به آن نیاز داریم فقط برای اینکه بتوانیم رگرسیون را انجام دهیم
111
00:05:08,729 –> 00:05:11,069
خوب فقط بتوانیم
112
00:05:11,069 –> 00:05:16,379
مقادیر a و B را خوب به دست آوریم و سپس
113
00:05:16,379 –> 00:05:18,389
کاری که میخواهیم انجام دهیم این است که مقدار
114
00:05:18,389 –> 00:05:24,509
r-squared را محاسبه کنیم خوب است. مقدار استاندارد
115
00:05:24,509 –> 00:05:28,650
r-squared در اینجا اگر نزدیکتر به 1
116
00:05:28,650 –> 00:05:30,839
باشد، به این معنی است که اگر نزدیکتر به 0 باشد مناسبتر است،
117
00:05:30,839 –> 00:05:34,620
به این معنی است که وجود ندارد، میدانید
118
00:05:34,620 –> 00:05:38,039
که واریانس در Y با واریانس X توضیح داده نمیشود
119
00:05:38,039 –> 00:05:40,589
، اما اگر وجود دارد
120
00:05:40,589 –> 00:05:42,719
به 1 نزدیکتر است، پس فقط به این معنی است که
121
00:05:42,719 –> 00:05:45,659
واریانس در Y با واریانس توضیح داده می شود،
122
00:05:45,659 –> 00:05:48,149
شاخص بعدی خوب است، حالا ما می
123
00:05:48,149 –> 00:05:49,620
خواهیم فاصله اطمینان پارامتر را محاسبه
124
00:05:49,620 –> 00:05:52,409
کنیم، این کار را با
125
00:05:52,409 –> 00:05:54,199
126
00:05:54,199 –> 00:05:57,419
بسته UNC خود بسته عدم قطعیت
127
00:05:57,419 –> 00:06:02,430
انجام می دهیم و سپس آنچه را که باید انجام دهیم به دست خواهیم آورد.
128
00:06:02,430 –> 00:06:05,210
مقادیر a و B ما را نشان می دهد و این
129
00:06:05,210 –> 00:06:08,099
نه تنها مقدار a را چاپ می کند، بلکه یک
130
00:06:08,099 –> 00:06:11,490
یا مثبت خواهد بود منهای یک مقدار مشخص، بنابراین
131
00:06:11,490 –> 00:06:13,589
فاصله اطمینان ما را در مورد
132
00:06:13,589 –> 00:06:17,490
خود پارامتر به ما میدهد بعد که میخواهیم دادههایمان را رسم
133
00:06:17,490 –> 00:06:21,029
کنیم و سپس به سراغ شما میرویم،
134
00:06:21,029 –> 00:06:22,080
بنابراین این اولین کاری است که
135
00:06:22,080 –> 00:06:27,449
انجام میدهیم فقط به آن برچسب داده و سپس
136
00:06:27,449 –> 00:06:31,409
کار بعدی که میخواهیم انجام دهیم این است که
137
00:06:31,409 –> 00:06:32,870
138
00:06:32,870 –> 00:06:35,849
فاصله اطمینان رگرسیون خود را خوب محاسبه میکنیم، بنابراین این
139
00:06:35,849 –> 00:06:36,810
140
00:06:36,810 –> 00:06:38,670
فاصله اطمینان ما،
141
00:06:38,670 –> 00:06:41,970
منطقه اطمینان است که در آن انتظار داریم مقادیر خطی ما
142
00:06:41,970 –> 00:06:43,500
در آن منطقه باشد، بنابراین من
143
00:06:43,500 –> 00:06:46,980
فقط نقاط بین را نمونهبرداری میکنم. 14 و 2400
144
00:06:46,980 –> 00:06:51,450
امتیاز و ما py را محاسبه خواهیم کرد بسیار خوب
145
00:06:51,450 –> 00:06:55,290
این است که px فقط بردار
146
00:06:55,290 –> 00:06:58,440
100 مقدار خواهد بود و سپس py
147
00:06:58,440 –> 00:07:02,010
برابر با px بعلاوه B خواهد بود و
148
00:07:02,010 –> 00:07:05,610
آن کمیت های عدم قطعیت را نیز شامل می شود و
149
00:07:05,610 –> 00:07:07,710
سپس باید مقدار را بدست آوریم. مقدار اسمی
150
00:07:07,710 –> 00:07:10,440
برای یک همبستگی که Nam است و سپس
151
00:07:10,440 –> 00:07:13,650
انحراف استاندارد که انحرافات استاندارد ما است،
152
00:07:13,650 –> 00:07:17,280
ما از آن ها استفاده می کنیم
153
00:07:17,280 –> 00:07:20,669
تا بتوانیم منطقه عدم قطعیت را رسم کنیم،
154
00:07:20,669 –> 00:07:24,510
بنابراین کاری که در حال حاضر انجام می دهیم
155
00:07:24,510 –> 00:07:26,790
این است که نوار پیش بینی را درست انجام دهیم، بنابراین ما انجام نمی دهیم.
156
00:07:26,790 –> 00:07:28,770
خیابان ندارم بسته andard این کار را
157
00:07:28,770 –> 00:07:31,110
برای ما انجام میدهد، بنابراین ما فقط میخواهیم
158
00:07:31,110 –> 00:07:33,120
آخرین قسمتی را که در
159
00:07:33,120 –> 00:07:36,680
آنجا دیدید از اسمی، برنامهریزی کنیم، این همان
160
00:07:36,680 –> 00:07:39,870
اسمی ما است در اینجا و سپس
161
00:07:39,870 –> 00:07:41,250
از آن انحراف استاندارد استفاده
162
00:07:41,250 –> 00:07:44,690
میکنیم که میدانید مثبت یا منهای 1.96 برابر
163
00:07:44,690 –> 00:07:48,090
انحراف معیار ما و این
164
00:07:48,090 –> 00:07:53,250
به ما خواهد رسید که
165
00:07:53,250 –> 00:07:56,340
باند اطمینان ما را همانجا به
166
00:07:56,340 –> 00:07:58,860
ما می دهد، بسیار خوب این باند پیش بینی ما بسیار شبیه است، اما
167
00:07:58,860 –> 00:08:01,590
ما از آلفای خوب خود استفاده خواهیم کرد و
168
00:08:01,590 –> 00:08:05,250
آن نقطه صفر پنج خواهد بود، بنابراین
169
00:08:05,250 –> 00:08:08,750
اطمینان 95 درصد و سپس ما
170
00:08:08,750 –> 00:08:11,640
تعداد نقاط خود را داریم تعداد نمونه هایمان بسیار
171
00:08:11,640 –> 00:08:13,260
خوب یکی از چیزهایی که
172
00:08:13,260 –> 00:08:17,100
با این موارد متوجه خواهید شد این است که
173
00:08:17,100 –> 00:08:21,470
با افزایش تعداد نمونه ها
174
00:08:21,470 –> 00:08:24,120
این فاصله اطمینان در
175
00:08:24,120 –> 00:08:26,539
اینجا کاهش می یابد و بسیار
176
00:08:26,539 –> 00:08:30,720
دقیق می شود. بسیار خوب، اما با
177
00:08:30,720 –> 00:08:32,729
افزایش تعداد نمونه ها، ما همچنان
178
00:08:32,729 –> 00:08:36,539
نویز خواهیم داشت و این یکی قرار
179
00:08:36,539 –> 00:08:38,190
نیست خیلی تغییر کند، باند پیش بینی
180
00:08:38,190 –> 00:08:41,130
تغییر نمی کند، بلکه
181
00:08:41,130 –> 00:08:42,870
به نوعی تا حد مشخصی تثبیت می شود.
182
00:08:42,870 –> 00:08:46,560
باندی که حدود 95 درصد از
183
00:08:46,560 –> 00:08:49,680
نقاط داده را شامل می شود بسیار خوب است، بنابراین
184
00:08:49,680 –> 00:08:50,279
تفاوتی
185
00:08:50,279 –> 00:08:52,560
که مشاهده خواهید کرد این است که نقاط داده بیشتر
186
00:08:52,560 –> 00:08:54,990
منطقه اطمینان یا
187
00:08:54,990 –> 00:08:57,180
فاصله اطمینان را محدود می کند، اما باند پیش بینی
188
00:08:57,180 –> 00:09:01,560
در هر چیزی
189
00:09:01,560 –> 00:09:04,589
که نویز یا نویز را می دانید باقی می ماند. واریانس
190
00:09:04,589 –> 00:09:08,040
اندازهگیریها خوب است و سپس
191
00:09:08,040 –> 00:09:10,379
به شما اطلاع میدهیم که از دانشآموز T استفاده میکنیم،
192
00:09:10,379 –> 00:09:15,300
آنها مقداری هستند با
193
00:09:15,300 –> 00:09:18,930
تعداد نمونههای داده شده و تعدادی
194
00:09:18,930 –> 00:09:22,559
پارامتر خوب و مقدار آلفای
195
00:09:22,559 –> 00:09:24,689
درخواستی ما و سپس در اینجا فقط برخی از
196
00:09:24,689 –> 00:09:26,519
محاسبات به من اجازه می دهد فقط این
197
00:09:26,519 –> 00:09:27,839
معادلات را به شما نشان دهم زیرا تجسم آنها کمی
198
00:09:27,839 –> 00:09:31,620
سخت است، بنابراین در اینجا
199
00:09:31,620 –> 00:09:33,809
معادلاتی هستند که ما در حال حاضر از آن ها
200
00:09:33,809 –> 00:09:35,999
عبور می کنیم، نوار پیش بینی
201
00:09:35,999 –> 00:09:38,759
خوب است و ما سعی می کنیم به این سوال پاسخ دهیم
202
00:09:38,759 –> 00:09:40,860
که کجاست. آیا Y یافت نمی شود
203
00:09:40,860 –> 00:09:45,899
اگر ما در X اندازه گیری نشده باشیم و
204
00:09:45,899 –> 00:09:48,240
این فرمول دقیقاً برای
205
00:09:48,240 –> 00:09:50,399
باند پیش بینی است، خوب این همان چیزی است
206
00:09:50,399 –> 00:09:52,519
که ما در حال حاضر از آن عبور می کنیم و
207
00:09:52,519 –> 00:09:54,990
می توانید فاصله اطمینان را ببینید،
208
00:09:54,990 –> 00:09:57,059
این یکمین است. at
209
00:09:57,059 –> 00:10:00,000
توسط بسته عدم قطعیت ها توجه شده است که
210
00:10:00,000 –> 00:10:04,709
مقدا