در این مطلب، ویدئو آزمون فرضیه، p-value و فواصل اطمینان، تجزیه و تحلیل داده های اکتشافی در آمار پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:14:53
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,399
اکنون در مورد
2
00:00:02,399 –> 00:00:05,400
موضوعات مختلف در مورد آمار و panthan
3
00:00:05,400 –> 00:00:07,799
صحبت کرده ایم و در مورد
4
00:00:07,799 –> 00:00:10,200
بوت استرپ فواصل اطمینان
5
00:00:10,200 –> 00:00:14,450
و بسیاری از موضوعات دیگر مانند ترسیم و
6
00:00:14,450 –> 00:00:17,630
بحث در مورد نحوه انجام تجزیه و تحلیل ایمیل صحبت کرده ایم اکنون
7
00:00:17,630 –> 00:00:21,270
در این بخش قصد داریم
8
00:00:21,270 –> 00:00:23,880
چند آزمایش فرضیه انجام دهیم و آزمایش فرضیه برای چیست.
9
00:00:23,880 –> 00:00:26,670
این
10
00:00:26,670 –> 00:00:30,179
ویدیوی خاص را از راحتی محلی رها می کنیم و
11
00:00:30,179 –> 00:00:33,989
به سال 1854 در لندن بازمی گردیم، زمانی بسیار سخت
12
00:00:33,989 –> 00:00:36,809
به دلیل اپیدمی های مکرر و کشنده
13
00:00:36,809 –> 00:00:40,739
وبا موقعیت جولز مو
14
00:00:40,739 –> 00:00:44,010
از آمار ساده و
15
00:00:44,010 –> 00:00:46,770
نقشه های زیبا برای مشخص کردن منشاء یکی از این همه گیری ها
16
00:00:46,770 –> 00:00:49,800
به پمپ آب آلوده استفاده کرد.
17
00:00:49,800 –> 00:00:53,129
در برود استریت این یک
18
00:00:53,129 –> 00:00:57,930
داستان جذاب است و بروید
19
00:00:57,930 –> 00:01:01,050
دنبالش کنید. ما می خواهیم ردپای جان اسنوز را دنبال کنیم تا در
20
00:01:01,050 –> 00:01:04,290
مورد آزمایش فرضیه ها بیاموزیم، بنابراین در اینجا دو مجموعه داده ما وجود دارد،
21
00:01:04,290 –> 00:01:06,049
22
00:01:06,049 –> 00:01:13,950
اجازه دهید ابتدا بسته ها را وارد کنم، اولین
23
00:01:13,950 –> 00:01:16,409
مجموعه داده حاوی موقعیت های هشت
24
00:01:16,409 –> 00:01:21,330
پمپ آب است. مرکز
25
00:01:21,330 –> 00:01:25,590
لندن طول و عرض جغرافیایی و همچنین
26
00:01:25,590 –> 00:01:29,070
فواصل از یک نقطه مرجع شماره پمپ داده شده است
27
00:01:29,070 –> 00:01:34,650
بر صفر برحسب کیلومتر مجموعه داده های دیگر
28
00:01:34,650 –> 00:01:37,229
شامل تعداد مرگ و میرها در
29
00:01:37,229 –> 00:01:40,079
مکان های مختلف و همچنین
30
00:01:40,079 –> 00:01:43,770
نزدیک ترین پمپ به مکان تاریخ است، بیایید
31
00:01:43,770 –> 00:01:47,960
به یک مورد یادآوری هر 20 نگاه
32
00:01:50,960 –> 00:01:54,630
کنیم که می توانیم این سرعت را ترسیم کنیم
33
00:01:54,630 –> 00:01:57,990
و ارقام مربع و نمودار پراکندگی
34
00:01:57,990 –> 00:02:01,920
پمپ ها را می خواهیم و یک نمودار پراکنده از پمپ ها
35
00:02:01,920 –> 00:02:12,180
و مرگ و میرها و ما آنها را
36
00:02:12,180 –> 00:02:18,780
کمی کوچکتر خواهیم کرد در واقع اورکلاک کردن این نقشه بر روی نقشه لندن بسیار سرگرم کننده است.
37
00:02:18,780 –> 00:02:21,420
38
00:02:21,420 –> 00:02:25,050
من چنین بیت مپ را از Google
39
00:02:25,050 –> 00:02:29,040
Maps با استفاده از مختصات مرکزی به دست آورده ام، بنابراین من
40
00:02:29,040 –> 00:02:36,780
آن را با ریاضیات ارباب اغوا کردم. اکنون می
41
00:02:36,780 –> 00:02:40,230
توانم تصویر را با استفاده از نمایش زمان نشان دهم، اما
42
00:02:40,230 –> 00:02:44,430
همچنین باید اندازه آن را بدانم، بنابراین Google
43
00:02:44,430 –> 00:02:48,060
Maps متوجه شدم که حدود هفت نقطه
44
00:02:48,060 –> 00:02:51,890
شش کیلومتر در ارتفاع و عرض است،
45
00:02:51,890 –> 00:02:56,400
اکنون می توانم پمپ ها و آدرس های بدشانس خود را ترسیم کنم
46
00:02:56,400 –> 00:03:04,260
و این نقشه بسیار زیبا است.
47
00:03:04,260 –> 00:03:07,410
با
48
00:03:07,410 –> 00:03:11,340
قوانین جونز در اصل، نقشه کاملاً خوب به
49
00:03:11,340 –> 00:03:13,980
نظر می رسد برای پمپ
50
00:03:13,980 –> 00:03:18,060
در مرکز که عدد پمپ صفر است، بسیار بد به نظر می رسد، بنابراین
51
00:03:18,060 –> 00:03:21,270
بیایید این
52
00:03:21,270 –> 00:03:27,480
آدرس را پیدا کنیم، اما ما واقعاً به آن نیاز داریم.
53
00:03:27,480 –> 00:03:31,230
تعداد کل مرگ و میرهای نزدیک به هر پمپ، بنابراین
54
00:03:31,230 –> 00:03:35,630
دادهها را بر اساس نزدیکترین ستون گروهبندی میکنیم
55
00:03:36,200 –> 00:03:42,180
و سپس مرگها را جمعبندی میکنیم، بنابراین
56
00:03:42,180 –> 00:03:44,910
شکی نیست که اگر مرگها به طور تصادفی
57
00:03:44,910 –> 00:03:48,480
در هر منطقه اتفاق افتاده باشد، هیچ راهی وجود ندارد که
58
00:03:48,480 –> 00:03:53,459
بتوانیم 340 را در منطقه 0 به دست آوریم. تعداد کمی از
59
00:03:53,459 –> 00:03:56,340
بقیه، بنابراین برای جالبتر کردن بازی از نظر
60
00:03:56,340 –> 00:03:59,340
آماری، فرض میکنیم
61
00:03:59,340 –> 00:04:01,920
که جمعیت هر منطقه
62
00:04:01,920 –> 00:04:03,090
بسیار متفاوت است
63
00:04:03,090 –> 00:04:05,840
و افراد بیشتری در
64
00:04:05,840 –> 00:04:11,459
نزدیکترین منطقه به حوض صفر زندگی میکنند، بنابراین ما انتظار داریم در
65
00:04:11,459 –> 00:04:14,520
آنجا مرگ و میر بیشتری داشته باشیم، بنابراین بیایید
66
00:04:14,520 –> 00:04:17,700
شبیهسازی کنیم. فقط از مناطق صفر
67
00:04:17,700 –> 00:04:21,149
یک چهار و پنج استفاده خواهد کرد که به اکثر
68
00:04:21,149 –> 00:04:24,810
موارد وبا کمک می کند و هر مرگ را به
69
00:04:24,810 –> 00:04:27,780
طور تصادفی متناسب با
70
00:04:27,780 –> 00:04:31,080
جمعیت هر منطقه شبیه سازی می کند.
71
00:04:31,080 –> 00:04:34,860
تابع را برای این کار می نویسم که نتایج را در
72
00:04:34,860 –> 00:04:40,800
یک چارچوب داده محصور می کند و از انتخاب نقطه تصادفی numpy
73
00:04:40,800 –> 00:04:44,550
برای انتخاب یک مورد استفاده می کند. عدد بین 0 1 4
74
00:04:44,550 –> 00:04:48,300
و 5 n بار با احتمالات
75
00:04:48,300 –> 00:04:51,080
متناسب با جمعیت در مناطق،
76
00:04:51,080 –> 00:04:56,910
بنابراین 65 درصد از مردم منطقه 0 15 در
77
00:04:56,910 –> 00:05:00,870
منطقه 1 و 10 درصد هر کدام در مناطق 4
78
00:05:00,870 –> 00:05:05,250
و 5، بنابراین بیایید این یکی را امتحان کنیم. s برای
79
00:05:05,250 –> 00:05:08,510
تعداد کل مرگ و میرها که 489
80
00:05:08,510 –> 00:05:11,510
نزدیکترین است،
81
00:05:17,280 –> 00:05:20,020
بنابراین چیزی نزدیک به چیزی که
82
00:05:20,020 –> 00:05:22,960
در واقع در بتای خدمه مشاهده
83
00:05:22,960 –> 00:05:24,729
کردیم به دست می آوریم آنچه اکنون به آن نیاز داریم توزیع نمونه
84
00:05:24,729 –> 00:05:29,580
تعداد مرگ و میر در منطقه صفر است.
85
00:05:30,449 –> 00:05:33,569
86
00:05:33,569 –> 00:05:38,400
ده هزار بار عملیات را انجام دهید
87
00:05:38,400 –> 00:05:44,610
و نتیجه را در یک قاب داده محصور کنید
88
00:05:46,740 –> 00:05:52,509
این چند ثانیه طول می کشد و
89
00:05:52,509 –> 00:06:01,539
من به هیستوگرامی که ما این توزیع را ایجاد کرده ایم
90
00:06:01,539 –> 00:06:03,669
با این فرضیه صفر نگاه خواهم کرد
91
00:06:03,669 –> 00:06:06,460
که شرکت هیچ
92
00:06:06,460 –> 00:06:10,479
ربطی به رنگ ندارد و مرگ و میرها
93
00:06:10,479 –> 00:06:13,089
صرفاً متناسب با آن اتفاق می افتد. جمعیت ما
94
00:06:13,089 –> 00:06:15,279
اکنون میتوانیم این توزیع را
95
00:06:15,279 –> 00:06:17,949
با تعداد مشاهدهشده 340 مرگ در
96
00:06:17,949 –> 00:06:21,610
منطقه صفر مقایسه کنیم، دقیقاً آن را ارزیابی میکنیم
97
00:06:21,610 –> 00:06:24,759
که در این فرضیه صفر
98
00:06:24,759 –> 00:06:27,000
توزیع
99
00:06:27,000 –> 00:06:29,110
100
00:06:29,110 –> 00:06:31,599
نمونهگیری 3:40
101
00:06:31,599 –> 00:06:33,990
102
00:06:39,210 –> 00:06:43,000
است. مقدار بسیار شدیدی که ما
103
00:06:43,000 –> 00:06:45,490
از سناریوی صفر انتظار نداریم
104
00:06:45,490 –> 00:06:49,060
در واقع ما فقط یک امتیاز را انتظار داریم،
105
00:06:49,060 –> 00:06:51,850
86 درصد از مواقع به
106
00:06:51,850 –> 00:06:54,460
این عنوان شناخته می شود. PV هر چه
107
00:06:54,460 –> 00:06:57,100
مقدار p کوچکتر باشد، قویتر می توانیم فرضیه صفر را رد
108
00:06:57,100 –> 00:06:59,770
کنیم. من همین
109
00:06:59,770 –> 00:07:01,660
الان یک مثال ساده از
110
00:07:01,660 –> 00:07:04,180
آزمایش فرضیه ارائه دادم،
111
00:07:04,180 –> 00:07:07,750
مشاهده کردیم بسیاری از مرگ ها با نام مستعار صفر
112
00:07:07,750 –> 00:07:10,540
، فرضیه ای ایجاد کرده ایم که پمپ است و
113
00:07:10,540 –> 00:07:12,940
ما تخمین زده ایم. توزیع
114
00:07:12,940 –> 00:07:15,870
مرگ و میرهای مورد انتظار تحت یک فرضیه صفر
115
00:07:15,870 –> 00: