در این مطلب، ویدئو طبقه بندی درخت تصمیم در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:07:21
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,320 –> 00:00:04,319
هدف امروز ساختن یک
2
00:00:04,319 –> 00:00:06,560
طبقهبندی درخت تصمیم است که پیشبینی کند
3
00:00:06,560 –> 00:00:08,320
آیا فردی به بیماری قلبی مبتلا است یا خیر
4
00:00:08,320 –> 00:00:09,599
5
00:00:09,599 –> 00:00:10,800
، اولین قدم این است که کتابخانههای ما را وارد کنیم
6
00:00:10,800 –> 00:00:13,200
و در اینجا من از
7
00:00:13,200 –> 00:00:16,640
pandas matplotlib seaborn numpy و هشدارها استفاده میکنم
8
00:00:16,640 –> 00:00:18,320
و در اینجا هشدارهایی را برای
9
00:00:18,320 –> 00:00:20,480
نادیده گرفتن وارد کردهام. هر هشداری که می آید، بنابراین
10
00:00:20,480 –> 00:00:22,960
اولین قدم این است که داده های خود را وارد کنیم
11
00:00:22,960 –> 00:00:24,640
و در اینجا من داده ها را تحت
12
00:00:24,640 –> 00:00:26,880
نام فایل داده های پروژه ذخیره کرده و
13
00:00:26,880 –> 00:00:29,279
چارچوب داده را در زیر متغیر df ذخیره کرده ام،
14
00:00:29,279 –> 00:00:31,599
سپس می توانیم از تابع head
15
00:00:31,599 –> 00:00:33,280
برای نمایش چند ردیف اول استفاده کنیم. از
16
00:00:33,280 –> 00:00:34,880
داده ها،
17
00:00:34,880 –> 00:00:37,840
بنابراین در اینجا ما سن فرد را داریم، جنس،
18
00:00:37,840 –> 00:00:40,160
نوع درد قفسه سینه در حال استراحت فشار خون
19
00:00:40,160 –> 00:00:41,360
کلسترول
20
00:00:41,360 –> 00:00:44,320
ناشتا، محرک خون استراحت ECG حداکثر
21
00:00:44,320 –> 00:00:45,440
ضربان قلب
22
00:00:45,440 –> 00:00:48,640
ورزش آنژین اوج قدیمی شیب SC و
23
00:00:48,640 –> 00:00:50,079
بیماری
24
00:00:50,079 –> 00:00:51,760
قلبی، بنابراین بیماری قلبی در اینجا متغیر هدف ما
25
00:00:51,760 –> 00:00:53,440
است و ما قصد نداریم از
26
00:00:53,440 –> 00:00:56,640
همه اینها برای پیشبینی تعداد کمی استفاده کنید
27
00:00:56,640 –> 00:00:58,239
تا بتوانیم
28
00:00:58,239 –> 00:01:00,960
با استفاده از روش شکل به شکل قاب دادههای خود
29
00:01:00,960 –> 00:01:04,239
نگاه کنیم، ببینید ما 918 ردیف در یک نوع ستون
30
00:01:04,239 –> 00:01:05,760
داریم، همچنین مهم است که هر m را بررسی کنیم
31
00:01:05,760 –> 00:01:08,000
. مقادیری را صادر می کنیم که در اینجا با
32
00:01:08,000 –> 00:01:09,920
یافتن مقادیر تهی و سپس جمع کردن
33
00:01:09,920 –> 00:01:12,080
آنها انجام می دهیم، بنابراین در اینجا هر ستون
34
00:01:12,080 –> 00:01:14,000
هیچ مقدار گمشده ای ندارد،
35
00:01:14,000 –> 00:01:16,000
همچنین می توانیم
36
00:01:16,000 –> 00:01:17,680
با استفاده از تابع describe
37
00:01:17,680 –> 00:01:19,040
38
00:01:19,040 –> 00:01:20,479
این را در اینجا اجرا کنیم،
39
00:01:20,479 –> 00:01:22,560
بنابراین در اینجا آمار را به ما می دهد. از
40
00:01:22,560 –> 00:01:25,439
دادههای عددی ما در چارچوب دادههای ما
41
00:01:25,439 –> 00:01:26,960
جالب است که میبینیم میانگین
42
00:01:26,960 –> 00:01:29,119
سنی افراد در این چارچوب دادهها
43
00:01:29,119 –> 00:01:31,040
حدود 53 سال است.
44
00:01:31,040 –> 00:01:33,360
همچنین میتوانیم
45
00:01:33,360 –> 00:01:35,040
با مشاهده توزیع برخی
46
00:01:35,040 –> 00:01:36,240
از متغیرها
47
00:01:36,240 –> 00:01:38,240
به عنوان مثال سن من کاوش بیشتری انجام دهیم. با استفاده از
48
00:01:38,240 –> 00:01:40,880
طرح توزیع از کتابخانه seabourn،
49
00:01:40,880 –> 00:01:41,920
50
00:01:41,920 –> 00:01:44,720
می توانید این را در اینجا اجرا
51
00:01:44,720 –> 00:01:46,880
کنید، توزیع سن ما را مشاهده می کنید،
52
00:01:46,880 –> 00:01:48,960
نه بسیاری از افراد جوان، نه
53
00:01:48,960 –> 00:01:52,000
خیلی بالا و نه افراد بسیار مسن تر،
54
00:01:52,000 –> 00:01:54,079
ما همچنین به توزیع جنسیت خود نیز نگاه می کنیم
55
00:01:54,079 –> 00:01:55,840
و این بار من هستم با استفاده از
56
00:01:55,840 –> 00:01:59,600
نمودار شمارش از کتابخانه seabourn،
57
00:01:59,680 –> 00:02:01,360
بنابراین ما می توانیم در اینجا ببینیم که چارچوب داده ما
58
00:02:01,360 –> 00:02:04,880
از اکثریت مردان تشکیل شده است،
59
00:02:05,280 –> 00:02:07,680
همچنین می توانید به توزیع
60
00:02:07,680 –> 00:02:09,840
متغیر هدف ما که در این مورد
61
00:02:09,840 –> 00:02:11,440
بیماری های قلبی است نگاه کنید.
62
00:02:11,440 –> 00:02:12,959
این را در اینجا اجرا کنید،
63
00:02:12,959 –> 00:02:14,640
می بینیم که اکثر بیماران
64
00:02:14,640 –> 00:02:17,360
در اینجا بیماری قلبی دارند یا داشتند،
65
00:02:17,360 –> 00:02:19,040
بنابراین اکنون به پیش پردازش داده ها می پردازیم
66
00:02:19,040 –> 00:02:20,959
و اینجا اولین کاری
67
00:02:20,959 –> 00:02:22,720
که در اینجا انجام می دهم این است
68
00:02:22,720 –> 00:02:25,440
که حروف m و f را با صفر و یک تا صف
69
00:02:25,440 –> 00:02:27,520
جایگزین کنم. نشاندهنده mel و یک نشاندهنده
70
00:02:27,520 –> 00:02:28,480
زن
71
00:02:28,480 –> 00:02:31,040
و همچنین برای آنژین ورزشی،
72
00:02:31,040 –> 00:02:35,040
n را با صفر و y را با یک جایگزین
73
00:02:35,040 –> 00:02:37,200
میکنم، بنابراین میتوانیم این را در اینجا اجرا کنیم
74
00:02:37,200 –> 00:02:39,599
، دادهها را به دادههای تمرین و
75
00:02:39,599 –> 00:02:42,000
آزمایش تقسیم میکنم برای این کار از
76
00:02:42,000 –> 00:02:43,599
تابع تقسیم تست قطار از
77
00:02:43,599 –> 00:02:46,080
scikit استفاده میکنم. کتابخانه را یاد بگیرید تا
78
00:02:46,080 –> 00:02:48,239
متغیرهای ورودی و متغیر هدف خود را بیابید، بنابراین
79
00:02:48,239 –> 00:02:49,840
در اینجا برای متغیرهای ورودی ما
80
00:02:49,840 –> 00:02:52,160
فقط به سن، جنس، فشار خون
81
00:02:52,160 –> 00:02:53,120
82
00:02:53,120 –> 00:02:55,680
سرم کلسترول خون ناشتا،
83
00:02:55,680 –> 00:02:58,480
حداکثر ضربان قلب و آنژین ورزشی را تحریک
84
00:02:58,480 –> 00:02:59,920
میکنیم و از این متغیرها برای پیشبینی استفاده میکنیم.
85
00:02:59,920 –> 00:03:02,000
اگر فرد بیماری قلبی داشته باشد یا
86
00:03:02,000 –> 00:03:03,120
مبتلا
87
00:03:03,120 –> 00:03:04,800
باشد، در اینجا ما اکنون دادههای خود را
88
00:03:04,800 –> 00:03:07,599
به یک تقسیم آزمایشی و قطاری تقسیم
89
00:03:07,599 –> 00:03:10,159
میکنیم و از اندازه آزمایش 20 استفاده
90
00:03:10,159 –> 00:03:12,480
میکنیم، بنابراین میتوانیم این را در اینجا اجرا کنیم تا
91
00:03:12,480 –> 00:03:15,760
درخت تصمیم خود را بر روی دادههای آموزشی خود قرار دهیم.
92
00:03:15,760 –> 00:03:18,080
و در اینجا من درخت را از کتابخانه یادگیری روانی وارد
93
00:03:18,080 –> 00:03:19,440
94
00:03:19,440 –> 00:03:20,879
95
00:03:20,879 –> 00:03:22,720
96
00:03:22,720 –> 00:03:24,799
میکنم و به تابع طبقهبندی درخت تصمیم نگاه میکنم و حداکثر عمق را برابر دو تعریف میکنیم
97
00:03:24,799 –> 00:03:25,760
98
00:03:25,760 –> 00:03:27,519
، درخت از دو سطح فراتر نمیرود
99
00:03:27,519 –> 00:03:30,159
، در اینجا معیار را
100
00:03:30,159 –> 00:03:32,319
برابر با آنتروپی قرار میدهم. این همان چیزی است
101
00:03:32,319 –> 00:03:34,640
که