در این مطلب، ویدئو پروژه – 8 | تجزیه و تحلیل داده ها با پایتون | #DataScience | مجموعه داده نتفلیکس با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:12:27
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:02,041
به دوستداران علم داده خوش آمدید.
2
00:00:02,041 –> 00:00:06,042
در این پروژه مجموعه داده نتفلیکس را تحلیل خواهیم کرد.
3
00:00:06,042 –> 00:00:09,042
و ما از این دستورات و توابع استفاده خواهیم کرد.
4
00:00:09,042 –> 00:00:15,459
تابع head، تابع دم، شکل، اندازه، ستونها، dtypes،
5
00:00:16,042 –> 00:00:21,042
تابع اطلاعات، تابع شمارش ارزش، تابع منحصر به فرد، تابع nunique.
6
00:00:21,042 –> 00:00:24,667
برای حذف موارد تکراری، از تابع تکراری استفاده می کنیم.
7
00:00:25,042 –> 00:00:28,215
برای یافتن مقادیر null از تابع isnull استفاده می کنیم.
8
00:00:28,215 –> 00:00:32,777
برای حذف مقادیر تهی (رکوردها)، از تابع dropna استفاده می کنیم.
9
00:00:32,777 –> 00:00:38,611
ما از تابع isin، تابع str.contains، str.split، تابع to_datetime
10
00:00:38,611 –> 00:00:43,667
، تابع dt.year.value_counts
11
00:00:43,667 –> 00:00:46,042
برای ساختن گروه ها – تابع groupby
12
00:00:46,042 –> 00:00:49,037
، رسم نمودار میله ای – نمودار تعداد
13
00:00:49,037 –> 00:00:51,837
، حداقل، حداکثر و تابع میانگین استفاده خواهیم کرد. .
14
00:00:51,837 –> 00:00:56,297
و همچنین یاد خواهیم گرفت که چگونه ستون های جدید، فریم های داده جدید ایجاد کنیم.
15
00:00:56,297 –> 00:00:59,485
و ما فیلتر را بر روی ستون های تک ستونی
16
00:00:59,485 –> 00:01:02,102
و همچنین چندین ستون اعمال خواهیم کرد.
17
00:01:02,102 –> 00:01:04,834
و ما از عملگر ‘AND’
18
00:01:04,834 –> 00:01:07,334
و همچنین عملگر ‘OR’ در فیلتر کردن استفاده خواهیم کرد.
19
00:01:07,417 –> 00:01:10,042
ما همچنین با استفاده از کتابخانه Seaborn نمودار میله ای را ترسیم خواهیم کرد
20
00:01:10,042 –> 00:01:11,878
.
21
00:01:11,878 –> 00:01:14,111
پس بیایید شروع کنیم.
22
00:01:14,111 –> 00:01:17,921
از آنجایی که ما 5000 مشترک در این کانال داریم،
23
00:01:17,921 –> 00:01:20,336
اکنون یک جایزه برای شما دارم،
24
00:01:20,336 –> 00:01:23,496
می توانید یک هدیه رایگان بگویید که
25
00:01:23,496 –> 00:01:25,001
در وسط این ویدیو اعلام خواهم کرد.
26
00:01:25,001 –> 00:01:30,299
و پاداش بعدی پس از تکمیل 10000 مشترک خواهد بود.
27
00:01:30,299 –> 00:01:32,034
پس با ما همراه باشید.
28
00:01:36,042 –> 00:01:38,525
این مجموعه داده نتفلیکس دارای اطلاعاتی
29
00:01:38,525 –> 00:01:40,707
درباره نمایشهای تلویزیونی و فیلمهایی است
30
00:01:40,707 –> 00:01:43,923
که تا سال 2021 در نتفلیکس در دسترس هستند.
31
00:01:43,923 –> 00:01:47,475
این مجموعه داده از Flixable
32
00:01:47,475 –> 00:01:49,475
که یک موتور جستجوی شخص ثالث Netflix است جمعآوری شده است،
33
00:01:49,475 –> 00:01:53,630
و این مجموعه داده در Kaggle نیز به صورت رایگان در دسترس است.
34
00:01:53,630 –> 00:01:56,434
اول از همه، ما مجموعه داده های خود را
35
00:01:56,434 –> 00:01:57,947
در این نوت بوک jupyter وارد می کنیم.
36
00:01:57,947 –> 00:02:00,032
و برای وارد کردن مجموعه داده،
37
00:02:00,032 –> 00:02:02,169
باید از کتابخانه Pandas استفاده کنیم.
38
00:02:02,169 –> 00:02:05,668
بنابراین، اول از همه، کتابخانه پانداها را وارد خواهیم کرد.
39
00:02:05,668 –> 00:02:08,526
پانداها را به صورت PD وارد کنید.
40
00:02:08,526 –> 00:02:11,310
آن را اجرا کنید.
41
00:02:11,310 –> 00:02:13,159
کتابخانه با موفقیت وارد شد.
42
00:02:13,159 –> 00:02:15,334
اکنون مجموعه داده خود را وارد می کنیم.
43
00:02:15,334 –> 00:02:18,379
و برای وارد کردن مجموعه داده
44
00:02:18,379 –> 00:02:23,848
، دستور pd.read_ است و در اینجا باید
45
00:02:23,848 –> 00:02:26,556
نوع فایل یا پسوند فایل را بنویسیم.
46
00:02:26,556 –> 00:02:28,760
فایل من با فرمت csv است.
47
00:02:28,760 –> 00:02:32,652
بنابراین من pd.read_csv را خواهم نوشت.
48
00:02:32,652 –> 00:02:36,877
و اکنون مسیر فایل خود را
49
00:02:36,877 –> 00:02:40,775
در جایی که در سیستم من قرار دارد عبور خواهم داد.
50
00:02:42,042 –> 00:02:44,539
اینجا فایل اکسل (csv) من است.
51
00:02:44,539 –> 00:02:47,648
مسیر آن را از Properties کپی می کنم
52
00:02:52,042 –> 00:02:54,225
و در آنجا پیست می کنم.
53
00:02:55,209 –> 00:02:56,875
خوب.
54
00:02:56,875 –> 00:02:59,001
حالا برای حذف خطای یونیکد،
55
00:02:59,001 –> 00:03:00,957
r small را در اینجا بنویسیم.
56
0