در این مطلب، ویدئو پروژه علم داده- تشخیص تقلب در کارت اعتباری با استفاده از یادگیری ماشین | آموزش پایتون |Edureka با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:20:42
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:03,560 –> 00:00:05,480
سلام به همه این versine از
2
00:00:05,480 –> 00:00:07,430
آریکا است و من به همه شما در این جلسه زنده خوش آمد می گویم
3
00:00:07,430 –> 00:00:09,110
که در آن قصد دارم در مورد
4
00:00:09,110 –> 00:00:10,940
پروژه سومی که قرار
5
00:00:10,940 –> 00:00:14,179
است در این قسمت 3 انجام دهیم صحبت کنم، اما قبل از آن اجازه
6
00:00:14,179 –> 00:00:16,250
دهید یک تایید سریع دریافت کنم اگر شما بچه ها می توانید
7
00:00:16,250 –> 00:00:17,330
صدای من را بشنوید یا نه
8
00:00:17,330 –> 00:00:19,610
پس اگر من برای شما قابل شنیدن هستم
9
00:00:19,610 –> 00:00:22,810
لطفاً es را در کادر چت
10
00:00:28,440 –> 00:00:30,500
you تایپ کنید
11
00:00:33,480 –> 00:00:35,070
و اکنون که تأییدیه زیادی دریافت می کنم
12
00:00:35,070 –> 00:00:37,079
اجازه دهید به
13
00:00:37,079 –> 00:00:39,660
دستور کار این جلسه نگاهی بیندازیم، بنابراین اکنون بسیاری از
14
00:00:39,660 –> 00:00:41,520
افراد حتماً درباره
15
00:00:41,520 –> 00:00:44,280
پروژه علم داده برای تشخیص ناهنجاری کارت اعتباری
16
00:00:44,280 –> 00:00:45,420
با استفاده از طبقهبندیکنندههای یادگیری ماشین شنیدهاید
17
00:00:45,420 –> 00:00:47,910
و این یکی از بهترین
18
00:00:47,910 –> 00:00:49,440
پروژههایی است که میتوانید به عنوان
19
00:00:49,440 –> 00:00:52,080
مبتدی با آن شروع کنید و مجموعه دادهای بزرگ است و
20
00:00:52,080 –> 00:00:54,449
پایهای را برای هر یادگیرنده تازهواردی میسازد.
21
00:00:54,449 –> 00:00:57,420
به عنوان یک دانشمند داده، بنابراین در این
22
00:00:57,420 –> 00:00:59,400
جلسه یک
23
00:00:59,400 –> 00:01:01,739
طبقهبندی کننده شناسایی تقلب در کارت اعتباری را با استفاده از پایتون میسازیم،
24
00:01:01,739 –> 00:01:04,409
بنابراین بدون هیچ مقدمهای اجازه دهید
25
00:01:04,409 –> 00:01:07,229
جلسه خود را شروع کنیم، بنابراین قبل از هر چیز باید
26
00:01:07,229 –> 00:01:08,670
نیاز کار روی این پروژه را درک کنیم،
27
00:01:08,670 –> 00:01:11,190
منظورم این است که در واقع به آن نیاز داریم. آی تی
28
00:01:11,190 –> 00:01:13,530
بنابراین باید مطمئن شوید که شرکتها
29
00:01:13,530 –> 00:01:16,229
از نظر
30
00:01:16,229 –> 00:01:18,180
شناسایی همه این ناهنجاریها در
31
00:01:18,180 –> 00:01:19,830
کشف تقلب بسیار هوشیار هستند، زیرا آنها نمیخواهند
32
00:01:19,830 –> 00:01:21,720
مشتری برای هر گونه
33
00:01:21,720 –> 00:01:23,580
تراکنش غیرقانونی که فقط
34
00:01:23,580 –> 00:01:25,830
به این دلیل که شخص دیگری میتواند از آن فرار
35
00:01:25,830 –> 00:01:27,509
کند، متضرر شود. برای اطمینان از اینکه
36
00:01:27,509 –> 00:01:29,250
آنها تمام دادهها را ردیابی
37
00:01:29,250 –> 00:01:31,200
میکنند و میتوانند تراکنشهای غیرقانونی را شناسایی کنند
38
00:01:31,200 –> 00:01:33,390
یا
39
00:01:33,390 –> 00:01:35,910
میتوانید آن را به عنوان تراکنشهای تقلبی نام ببرید، بنابراین
40
00:01:35,910 –> 00:01:37,229
مجموعه دادهای که ما روی آن کار میکنیم
41
00:01:37,229 –> 00:01:39,030
شامل تراکنشهای انجامشده توسط
42
00:01:39,030 –> 00:01:41,280
کارتهای اعتباری باشد. دادههای دارندگان کارت اروپایی آن
43
00:01:41,280 –> 00:01:43,410
اساساً و مجموعه دادهها
44
00:01:43,410 –> 00:01:45,179
تراکنشهایی را نشان میدهد که در دو روز رخ داده است،
45
00:01:45,179 –> 00:01:48,869
بنابراین ما تقریباً 492
46
00:01:48,869 –> 00:01:51,660
کلاهبرداری از همه این تراکنشها
47
00:01:51,660 –> 00:01:54,179
داریم که وقتی
48
00:01:54,179 –> 00:01:56,640
مجموعه دادهها را در مجموعه داده بررسی میکنیم، مشاهده خواهیم کرد که کاملا
49
00:01:56,640 –> 00:01:58,560
نامتعادل است و
50
00:01:58,560 –> 00:02:00,869
کلاس مثبت تنها چند درصد از
51
00:02:00,869 –> 00:02:02,340
تراکنش ها را تشکیل می دهد و بیشتر آنها
52
00:02:02,340 –> 00:02:04,229
تراکنش های غیرعادی هستند، بنابراین باید
53
00:02:04,229 –> 00:02:06,239
آن تراکنش های تقلبی را که بسیار هستند شناسایی کنیم.
54
00:02:06,239 –> 00:02:08,880
از نظر اعداد کمتر است و
55
00:02:08,880 –> 00:02:10,830
فقط شامل متغیرهای ورودی عددی است
56
00:02:10,830 –> 00:02:12,900
که چیز خوبی است، بنابراین به دلیل مسائل محرمانگی نیازی
57
00:02:12,900 –> 00:02:14,819
نیست نگران تغییر نوع شی
58
00:02:14,819 –> 00:02:17,010
یا نوع داده برخی از متغیرها به
59
00:02:17,010 –> 00:02:19,410
دیگری
60
00:02:19,410 –> 00:02:21,480
باشید، البته شما مبدا را ارائه نکرده اید.
61
00:02:21,480 –> 00:02:24,270
ویژگیها و
62
00:02:24,270 –> 00:02:26,520
اطلاعات پسزمینه در مورد دادهها، بنابراین دادهها
63
00:02:26,520 –> 00:02:29,730
اساساً دارای ویژگیهای v1 v2 و غیره هستند تا اینکه
64
00:02:29,730 –> 00:02:32,640
ما 28 که اجزای اصلی
65
00:02:32,640 –> 00:02:34,650
بهدستآمده هستیم و تنها ویژگیهایی
66
00:02:34,650 –> 00:02:36,660
که تبدیل نشدهاند زمان و
67
00:02:36,660 –> 00:02:39,180
مقدار هستند، بنابراین زمان ویژگی شامل
68
00:02:39,180 –> 00:02:41,129
ثانیههای سپری شده یا بین هر کدام است.
69
00:02:41,129 –> 00:02:43,950
تراکنش و اولین تراکنش در
70
00:02:43,950 –> 00:02:45,989
مجموعه داده، مقدار ویژگی
71
00:02:45,989 –> 00:02:46,920
اساسا
72
00:02:46,920 –> 00:02:49,170
مقدار عمل است، بنابراین ویژگی مبلغ تراکنش را
73
00:02:49,170 –> 00:02:50,760
می توان به عنوان مثال
74
00:02:50,760 –> 00:02:52,709
یادگیری وابسته به هزینه استفاده کرد و
75
00:02:52,709 –> 00:02:55,050
کلاس ویژگی
76
00:02:55,050 –> 00:02:57,780
متغیر پاسخ است و در صورت
77
00:02:57,780 –> 00:03:01,319
تقلب، مقدار 1 و 0 را می گیرد. در غیر این صورت، ما جلسه خود را شروع می
78
00:03:01,319 –> 00:03:03,510
کنیم، بچه ها، مستقیماً به
79
00:03:03,510 –> 00:03:05,790
دفترچه یادداشت مشتری می پریم و
80
00:03:05,790 –> 00:03:07,800
جلسه خود را از آنجا شروع می کنیم. امیدوارم
81
00:03:07,800 –> 00:03:09,660
هدف این جلسه را روشن کرده باشید
82
00:03:09,660 –> 00:03:12,630
بله، ما روی مجموعه داده ها کار می
83
00:03:12,630 –> 00:03:14,670
کنیم و می خواهیم یک
84
00:03:14,670 –> 00:03:17,160
طبقه بندی کننده بسازیم تا تشخیص تقلب
85
00:03:17,160 –> 00:03:18,989
یا ناهنجاری در مجموعه داده ها را بررسی کنیم،
86
00:03:18,989 –> 00:03:21,180
بنابراین قبل از هر چیز ما چه می کنیم. باید انجام دهیم این است که
87
00:03:21,180 –> 00:03:23,280
اول از همه باید چند وابستگی را نصب کنیم،
88
00:03:23,280 –> 00:03:26,970
بنابراین برای وارد کردن یک مجموعه داده،
89
00:03:26,970 –> 00:03:30,150
فکر می کنم شما بچه ها باید در این مورد مطمئن باشید،
90
00:03:30,150 –> 00:03:35,069
ما باید پانداها را به عنوان PD
91
00:03:35,069 –> 00:03:39,780
وارد کنیم و Seabourn را به عنوان SNS برای
92
00:03:39,780 –> 00:03:43,580
تجسم وارد خواهیم کرد. numpy برای
93
00:03:43,580 –> 00:03:46,560
محاسبات معادلات عددی است
94
00:03:46,560 –> 00:03:48,209
و فعلاً این کتابخانه ها
95
00:03:48,209 –> 00:03:50,489
را وارد می کند و ما وابستگی ها را در زمانی که
96
00:03:50,489 –> 00:03:52,530
به آنها نیاز داشتیم بعداً در جلسه وارد می کنیم،
97
00:03:52,530 –> 00:03:55,109
بنابراین دوستان مریم، اولین کاری که
98
00:03:55,109 –> 00:03:58,280
باید انجام دهید این است که داده ها را با استفاده از PD وارد کنید
99
00:03:58,280 –> 00:04:02,850
CSV را بخوانید و I’ مطمئنم که بیشتر شما
100
00:04:02,850 –> 00:04:04,799
باید تعجب کنید که چه نوع داده ای
101
00:04:04,799 –> 00:04:07,109
از این پیدا کردم، اساساً این
102
00:04:07,109 –> 00:04:09,630
داده ها را در Kaggle comm پیدا کردم و شما فقط می توانید
103
00:04:09,630 –> 00:04:10,950
تشخیص تقلب کارت اعتباری آنها را تایپ کنید
104
00:04:10,950 –> 00:04:12,600
زیرا این یک مثال بسیار رایج یا
105
00:04:12,600 –> 00:04:15,090
عمومی است که مردم در آن کار می کنند. من
106
00:04:15,090 –> 00:04:16,950
در مورد این مثال می گویم زیرا
107
00:04:16,950 –> 00:04:18,779
پایه و اساس را ایجاد می کند و در واقع
108
00:04:18,779 –> 00:04:21,450
به شما می گوید که چگونه می توانید داده ها را تفکیک کنید
109
00:04:21,450 –> 00:04:24,090
و آنها را درک کنید تا
110
00:04:24,090 –> 00:04:27,810
محاسبات انجام دهید یا نتایج را پیش بینی کنید، بنابراین
111
00:04:27,810 –> 00:04:29,669
اول از همه ما با
112
00:04:29,669 –> 00:04:32,039
وارد کردن یا بارگذاری شروع می کنیم. دادهها را در
113
00:04:32,039 –> 00:04:34,260
برنامه ما تنظیم میکنم، بنابراین من مسیر را کپی
114
00:04:34,260 –> 00:04:38,850
میکنم و فکر میکنم ما خوب هستیم که برویم بله و اکنون
115
00:04:38,850 –> 00:04:41,360
اولین نگاهی به افزایش
116
00:04:41,360 –> 00:04:45,780
دادههایم میاندازم، بنابراین زمان داریم V 1 V 2 V 3 و
117
00:04:45,780 –> 00:04:48,240
همه این ستونها مانند من 5 ردیف و
118
00:04:48,240 –> 00:04:52,560
31 ستون که در پایان مقدار n
119
00:04:52,560 –> 00:04:55,200
به اضافه کلاس 0 دارد، اساساً به این معنی است که
120
00:04:55,200 –> 00:04:57,180
یک تراکنش عادی است، منظورم این است که اگر 1
121
00:04:57,180 –> 00:04:59,760
باشد تقلبی است، دنباله
122
00:04:59,760 –> 00:05:00,500
را نیز بررسی می کنیم
123
00:05:00,500 –> 00:05:03,260
و فقط تعداد بسیار کمی از تراکنش
124
00:05:03,260 –> 00:05:05,090
ها در واقع هستند. متقلبانه این چیزی است که ما
125
00:05:05,090 –> 00:05:07,370
داریم مطمئن شویم که شما درست انجام میدهید،
126
00:05:07,370 –> 00:05:10,190
بنابراین اول از همه میخواهم
127
00:05:10,190 –> 00:05:12,710
تراکنشهای تقلبی را از معمولی
128
00:05:12,710 –> 00:05:14,360
جدا کنم، بنابراین یک متغیر
129
00:05:14,360 –> 00:05:19,510
مثلاً تقلب را انتخاب میکنم و از data dot
130
00:05:19,510 –> 00:05:23,270
loc استفاده میکنم. باید بداند که LOC
131
00:05:23,270 –> 00:05:26,020
در واقع چه کاری را به درستی انجام می دهد در اینجا
132
00:05:26,020 –> 00:05:30,070
مقادیری را که قرار است
133
00:05:30,070 –> 00:05:36,310
در اینجا ارائه کنم با استفاده از کلاس ستون
134
00:05:36,310 –> 00:05:41,720
برای همه مقادیری که برابر با 1 هستند، تعیین می کند
135
00:05:41,720 –> 00:05:46,130
و برای موارد غیر تقلبی یا معمولی
136
00:05:46,130 –> 00:05:49,330
، یک متغیر را به صورت عادی در نظر می گیریم و
137
00:05:49,330 –> 00:05:51,280
این کار را انجام می دهیم. همان چیزی
138
00:05:51,280 –> 00:05:59,510
که معلوم شد سلام کلاس تتا
139
00:05:59,510 –> 00:06:02,919
برابر با صفر است، بنابراین ما پایگاه داده خود را داریم،
140
00:06:02,919 –> 00:06:10,070
حالا بیایید تقلب را بیاوریم یک دقیقه صبر کنید
141
00:06:10,070 –> 00:06:12,979
تا 492 تراکنش خط تولید داشته باشیم، بنابراین ما
142
00:06:12,979 –> 00:06:17,770
فقط تعداد
143
00:06:21,789 –> 00:06:24,410
آن را دریافت می کنیم یا می توانیم آهنگ را نیز دریافت کنیم
144
00:06:24,410 –> 00:06:31,069
و برای کلاهبرداری های وام. ما فقط میتوانیم
145
00:06:31,069 –> 00:06:33,050
طول میله را نیز بدست آوریم،
146
00:06:33,050 –> 00:06:40,970
بنابراین این 492 و طول معمولی خیلی دیر است.
147
00:06:40,970 –> 00:06:44,930
148
00:06:44,930 –> 00:06:47,449
149
00:06:47,449 –> 00:06:49,699
150
00:06:49,699 –> 00:06:51,229
رابطه بین
151
00:06:51,229 –> 00:06:53,449
همه این متغیرها و من مطمئن هستم که اکثر
152
00:06:53,449 –> 00:06:54,710
شما باید یک چیزی باشید که ما از
153
00:06:54,710 –> 00:06:56,300
آن استفاده می کنیم و آنها
154
00:06:56,300 –> 00:06:58,880
دوباره از نمودار رابطه Seabourn استفاده می کنند و در داخل
155
00:06:58,880 –> 00:07:03,620
آن من مقدار ویژگی ها و کلاس را دریافت خواهم کرد.
156
00:07:03,620 –> 00:07:08,389
برای X می
157
00:07:08,389 –> 00:07:13,699
خواهم مبلغ را ارائه کنم و برای y
158
00:07:13,699 –> 00:07:19,389
c را ارائه می کنم داده lass برابر است با داده
159
00:07:19,389 –> 00:07:26,120
درست است، بنابراین ما طرح خود را در اینجا داریم، بسیار خوب،
160
00:07:26,120 –> 00:07:29,060
بنابراین ما باید کلاس را در hue بگذرانیم،
161
00:07:29,060 –> 00:07:33,469
بنابراین برای y زمان را می نویسم و چه کس
162
00:07:33,469 –> 00:07:39,800
مساوی به اضافه o است باید خوب باشد، حا
163
00:07:39,800 –> 00:07:43,009
ا شما داده ها را دریافت خواهید کر
164
00:07:43,009 –> 00:07:45,610
. به تقلب و معمولی تفکیک شده
165
00:07:45,610 –> 00:07:48,070
و مدتی طول می کشد زیرا داده ها
166
00:07:48,070 –> 00:07:50,530
قبلاً در جلسات قبلی بسیار بزرگ بودند
167
00:07:50,530 –> 00:07:54,220
داده هایی که ما استفاده کردیم آنقدر بزرگ نبودند
168
00:07:54,220 –> 00:07:56,470
، اما مقدار ورودی هایی که در
169
00:07:56,470 –> 00:07:57,910
داخل این مجموعه داده داریم، می توانید
170
00:07:57,910 –> 00:08:00,070
تصور کنید که مجموعه داده های بسیار بزرگی است.
171
00:08:00,070 –> 00:08:02,770
و همانطور که در طرح مشاهده می کنید، از آنجایی
172
00:08:02,770 –> 00:08:04,620
که تراکنش های تقلبی تنها
173
00:08:04,620 –> 00:08:08,560
492 مورد است، به سختی می توانید آن نقاط زرد را
174
00:08:08,560 –> 00:08:10,660
در اینجا مشاهده کنید، زیرا تعداد
175
00:08:10,660 –> 00:08:12,430
تراکنش های عادی در
176
00:08:12,430 –> 00:08:16,690
اینجا وجود دارد و پس از آن می توانیم چند تراکنش بصری دیگر دریافت کنیم.
177
00:08:16,690 –> 00:08:21,520
نمودارها برای درک
178
00:08:21,520 –> 00:08:23,670
رابطه بین این متغیرها، بنابراین
179
00:08:23,670 –> 00:08:26,470
به جای مقدار، او مقدار را نگه می دارد
180
00:08:26,470 –> 00:08:30,760
و بیایید فقط تقلب را حفظ کنیم، بنابراین اینجا
181
00:08:30,760 –> 00:08:35,409
و رنگ باید قبل از آن چیزی نباشد، حالا
182
00:08:35,409 –> 00:08:37,630
ببینیم آیا خطا داریم، خوب ما
183
00:08:37,630 –> 00:08:39,400
خطا داریم مورد Kunal interp Reter
184
00:08:39,400 –> 00:08:47,500
چون تقلب است فکر می کنم خیلی خوب است بنابراین
185
00:08:47,500 –> 00:08:50,140
سعی می کنیم آن را جالب
186
00:08:50,140 –> 00:08:51,610
کنیم بچه ها می خواهیم از نمودار دسته بندی استفاده کنیم
187
00:08:51,610 –> 00:08:54,460
و ببینیم خروجی چیست زیرا
188
00:08:54,460 –> 00:08:55,780
نمودار را به دو
189
00:08:55,780 –> 00:08:58,390
دسته می گیریم که در آن
190
00:08:58,390 –> 00:09:02,590
کلاس را دریافت می کنیم به عنوان تقلب و غیر تقلبی
191
00:09:02,590 –> 00:09:05,680
، ورودیهایی برای مقدار
192
00:09:05,680 –> 00:09:08,060
و زمان وجود دارد که مدتی طول میکشد
193
00:09:08,060 –> 00:09:10,880
، بنابراین
194
00:09:10,880 –> 00:09:12,830
من فقط برای
195
00:09:12,830 –> 00:09:14,960
این برنامه خاص که
196
00:09:14,960 –> 00:09:17,000
در اینجا به شما نشان میدهم به شما نمیگویم که ما از رگرسیون لجستیک استفاده میکنیم.
197
00:09:17,000 –> 00:09:19,070
و داده ها کاملاً
198
00:09:19,070 –> 00:09:21,620
نامتعادل هستند، بنابراین ما سعی خواهیم کرد که
199
00:09:21,620 –> 00:09:24,740
میزان دقت را در بالاترین حد نگه داریم، بنابراین
200
00:09:2