در این مطلب، ویدئو داده های توییتر یا توییت ها را در پایتون با استفاده از ماژول snscrape خراش دهید با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:10:59
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,160 –> 00:00:02,959
[موسیقی]
2
00:00:05,359 –> 00:00:06,799
سلام به
3
00:00:06,799 –> 00:00:09,599
همه، امیدوارم وقتی به پردازش زبان طبیعی فکر میکنید، کار خوبی داشته
4
00:00:09,599 –> 00:00:11,920
باشید
5
00:00:11,920 –> 00:00:14,639
، تنها منبع دادهای که به طور گسترده استفاده
6
00:00:14,639 –> 00:00:15,120
میشود،
7
00:00:15,120 –> 00:00:17,920
دادههای توییتر است، بنابراین دادههایی که
8
00:00:17,920 –> 00:00:20,240
از توییتهای مختلف جمعآوری میشوند،
9
00:00:20,240 –> 00:00:22,080
بتوانید وظایف مختلفی را
10
00:00:22,080 –> 00:00:24,000
برای درک انجام دهید. احساسات برای یک محصول خاص
11
00:00:24,000 –> 00:00:24,960
12
00:00:24,960 –> 00:00:27,039
یا به دست آوردن بینش در رابطه با
13
00:00:27,039 –> 00:00:28,560
نحوه حرکت بازار برای یک
14
00:00:28,560 –> 00:00:30,400
دسته خاص،
15
00:00:30,400 –> 00:00:32,000
همه بینش ها را می توان مستقیماً از توییتر تولید کرد،
16
00:00:32,000 –> 00:00:33,920
17
00:00:33,920 –> 00:00:36,480
بنابراین توییتر به عنوان یک کل یک منبع داده عالی
18
00:00:36,480 –> 00:00:38,160
برای وظایف پردازش زبان طبیعی است.
19
00:00:38,160 –> 00:00:40,399
20
00:00:40,399 –> 00:00:42,559
استخراج داده های توییتر می تواند ساده
21
00:00:42,559 –> 00:00:44,800
و پیچیده باشید
22
00:00:44,800 –> 00:00:47,280
وقتی می گویم پیچیده منظورم این است که
23
00:00:47,280 –> 00:00:49,200
شما یک مدل اشتراک خواهید داشت که
24
00:00:49,200 –> 00:00:50,800
برای آن ممکن است مجبور باشید مقداری بپردازید
25
00:00:50,800 –> 00:00:53,840
استخراج داده ها از api
26
00:00:53,840 –> 00:00:55,360
نیز می تواند پیچیده باشد،
27
00:00:55,360 –> 00:00:57,680
بنابراین اینجا بود که با یک مدل
28
00:00:57,680 –> 00:00:59,359
بسیار ساده مواجه شدم.
29
00:00:59,359 –> 00:01:01,920
فرآیند استخراج دادههای توییتر را انجام دهید و من
30
00:01:01,920 –> 00:01:04,400
با این کتابخانه شگفتانگیز پایتون
31
00:01:04,400 –> 00:01:08,080
به نام essence creep مواجه شدم، بنابراین در این
32
00:01:08,080 –> 00:01:09,520
ویدیو به شما نشان خواهم داد که چگونه استخراج
33
00:01:09,520 –> 00:01:11,119
دادههای توییتر بدون
34
00:01:11,119 –> 00:01:14,320
هیچ API بدون هیچ گونه اعتبارنامه ورود
35
00:01:14,320 –> 00:01:17,759
، تنها چیزی که نیاز دارید این است که این کتابخانه
36
00:01:17,759 –> 00:01:20,479
اینقدر شگفتانگیز نیست، بنابراین بدون اتلاف
37
00:01:20,479 –> 00:01:21,680
وقت بیشتر،
38
00:01:21,680 –> 00:01:24,000
بیایید ویدیو را با وارد کردن
39
00:01:24,000 –> 00:01:25,439
essence creep شروع کنیم
40
00:01:25,439 –> 00:01:27,840
تا روشی که من sn scrape را
41
00:01:27,840 –> 00:01:28,799
نصب کنم نصب pip
42
00:01:28,799 –> 00:01:32,479
منهای باشد. q essence scrape
43
00:01:34,479 –> 00:01:36,720
با توجه به اینکه نصب اکنون انجام شده است
44
00:01:36,720 –> 00:01:38,880
، به جلو می روم و ماژول های لازم را وارد می کنم،
45
00:01:38,880 –> 00:01:40,079
46
00:01:40,079 –> 00:01:42,560
بنابراین برای این فعالیت به ماژول os،
47
00:01:42,560 –> 00:01:43,360
48
00:01:43,360 –> 00:01:46,560
ماژول pandas و همچنین
49
00:01:46,560 –> 00:01:48,079
ماژول datetime نیاز دارم،
50
00:01:48,079 –> 00:01:51,680
بنابراین این همان چیزی است که من در اینجا وارد کرده ام.
51
00:01:52,960 –> 00:01:55,200
یکی از ویژگیهای بسیار مفید این
52
00:01:55,200 –> 00:01:57,920
کتابخانه شگفتانگیز این است که میتوانید توییتها را
53
00:01:57,920 –> 00:02:00,479
بر اساس تاریخ شروع و تاریخ پایان انتخاب کنید، بنابراین
54
00:02:00,479 –> 00:02:02,240
این همان کاری است که من قصد دارم
55
00:02:02,240 –> 00:02:05,360
در قسمت بعدی ویدیو انجام دهم، بنابراین
56
00:02:05,360 –> 00:02:08,080
اساساً از دو تاریخ استفاده خواهم
57
00:02:08,080 –> 00:02:10,080
کرد. تاریخ پایان که تاریخ فعلی است
58
00:02:10,080 –> 00:02:12,560
که در حال ضبط ویدیو هستم
59
00:02:12,560 –> 00:02:14,800
و تاریخ شروع، بنابراین تاریخ شروع را
60
00:02:14,800 –> 00:02:16,319
فرض میکنم اول
61
00:02:16,319 –> 00:02:19,920
ژانویه 2019 است، بنابراین ابتدا اجازه دهید
62
00:02:19,920 –> 00:02:23,840
متغیر تاریخ پایان خط را تعریف
63
00:02:23,840 –> 00:02:25,599
کنم تا در حال ضبط آن باشم. ویدیوی 7
64
00:02:25,599 –> 00:02:27,680
ژوئیه ممکن است بعد از مدتی ویدیو را ببینید،
65
00:02:27,680 –> 00:02:29,760
اما بله، من
66
00:02:29,760 –> 00:02:32,959
ویدیو را در 7
67
00:02:32,959 –> 00:02:34,959
ژوئیه ضبط می کنم، همچنین تاریخ شروع را
68
00:02:34,959 –> 00:02:38,080
که اول ژانویه 2019 است تعریف می کنم، بنابراین این همان چیزی است که من دارم
69
00:02:38,080 –> 00:02:40,319
70
00:02:40,400 –> 00:02:42,000
و عبارت جستجویی که من دارم قصد
71
00:02:42,000 –> 00:02:44,879
جستجو برای خود من است که
72
00:02:44,879 –> 00:02:48,239
بخشی از دانشمند داده است، بنابراین من هر دو متغیر را تعریف
73
00:02:48,239 –> 00:02:51,840
می کنم و سلول را اجرا می کنم
74
00:02:52,480 –> 00:02:55,120
اکنون تمام کارهای پس زمینه انجام شده است،
75
00:02:55,120 –> 00:02:57,040
اکنون قدرت این کتابخانه شگفت انگیز به نام essence را به شما نشان خواهم داد.
76
00:02:57,040 –> 00:02:58,080
77
00:02:58,080 –> 00:03:02,000
اسکریپت پس بیایید جلو برویم
78
00:03:02,640 –> 00:03:04,560
اجازه دهید این منطقه از کد را برجسته
79
00:03:04,560 –> 00:03:07,760
کنم تا خواناتر باشد.
80
00:03:09,200 –> 00:03:10,959
اسکرپ اساساً یک
81
00:03:10,959 –> 00:03:13,040
کتابخانه خط فرمان است بنابراین می توانید
82
00:03:13,040 –> 00:03:15,040
تمام کدها را با توجه به
83
00:03:15,040 –> 00:03:17,440
استخراج توییت ها در رابط خط فرمان خود
84
00:03:17,440 –> 00:03:18,640
85
00:03:18,640 –> 00:03:21,040
مستقیماً بنویسید تا sn را اجرا کنید. scrape من از
86
00:03:21,040 –> 00:03:22,080
سیستم os dot استفاده می
87
00:03:22,080 –> 00:03:24,080
کنم و دستورات را از طریق سیستم os
88
00:03:24,080 –> 00:03:25,360
dot منتقل می کنم،
89
00:03:25,360 –> 00:03:27,440
بنابراین اولین دستور این است که اگر یک
90
00:03:27,440 –> 00:03:29,280
عبارت جستجو داشته باشم، بنابراین من قبلاً
91
00:03:29,280 –> 00:03:30,720
عبارت جستجو را مشخص کرده ام که
92
00:03:30,720 –> 00:03:33,599
pawes pavespot data scientist است و می
93
00:03:33,599 –> 00:03:34,560
خواهم استخراج
94
00:03:34,560 –> 00:03:36,400
توییت هایی که حاوی در این
95
00:03:36,400 –> 00:03:38,879
عبارت جستجوی خاص، بنابراین کاری که من انجام میدهم اساساً این است
96
00:03:38,879 –> 00:03:39,840
که دستور
97
00:03:39,840 –> 00:03:43,280
sn اسکریپت را صدا میزنم زیرا اولین آرگومان
98
00:03:43,280 –> 00:03:43,760
99
00:03:43,760 –> 00:03:46,640
است که میدهم، بنابراین اینجا از تاریخ است که
100
00:03:46,640 –> 00:03:48,319
تاریخ شروع
101
00:03:48,319 –> 00:03:50,239
من است، ورودی بعدی را وارد میکنم که
102
00:03:50,239 –> 00:03:51,599
جستجوی خط تیره توییتر است
103
00:03:51,599 –> 00:03:54,319
و به آن پاس میدهم. عبارت جستجو شده است، بنابراین اینجا
104
00:03:54,319 –> 00:03:57,200
جایی است که عبارت جستجوی من پر می شود، در
105
00:03:57,200 –> 00:04:00,080
نهایت من گزینه ی تا زمانی را
106
00:04:00,080 –> 00:04:01,040
خواهم داشت که حاوی
107
00:04:01,040 –> 00:04:03,760
تاریخ پایان است، بنابراین می خواهم توییت ها را
108
00:04:03,760 –> 00:04:06,879
از ابتدا تا انتها استخراج
109
00:04:07,120 –> 00:04:09,040
کنم و اساساً می خواهم تمام
110
00:04:09,040 –> 00:04:10,239
نتایج را در
111
00:04:10,239 –> 00:04:14,959
یک متن ذخیره کنم. فایلی که به عنوان نتیجه tweets.txt نامیده می شود،
112
00:04:14,959 –> 00:04:17,040
هنگامی که خط اول کد را اجرا
113
00:04:17,040 –> 00:04:19,040
می کنم، تمام توییت هایی که حاوی
114
00:04:19,040 –> 00:04:20,560
این عبارت جستجوی خاص در
115
00:04:20,560 –> 00:04:22,560
محدوده بین این تاریخ شروع و این
116
00:04:22,560 –> 00:04:24,720
تاریخ پایان هستند را در فایلی به نام
117
00:04:24,720 –> 00:04:26,240
توییت های خط فاصله
118
00:04:26,240 –> 00:04:30,320
نقطه txt بعدی ذخیره می کنم. قطعه
119
00:04:30,320 –> 00:04:33,360
کد جایی است که اندازه فایل را بررسی می
120
00:04:33,360 –> 00:04:35,520
کنم اگر اساساً توییتی در
121
00:04:35,520 –> 00:04:37,040
آن محدوده تاریخ برای این
122
00:04:37,040 –> 00:04:38,160
عبارت جستجوی خاص پیدا نکردم،
123
00:04:38,160 –> 00:04:40,840
متغیر شمارنده صفر خواهد ماند، در
124
00:04:40,840 –> 00:04:42,240
125
00:04:42,240 –> 00:04:44,720
غیر این صورت اگر
126
00:04:44,720 –> 00:04:46,479
توییتی برای t وجود داشته باشد. عبارت جستجوی خاص او
127
00:04:46,479 –> 00:04:47,840
و این محدوده تاریخ،
128
00:04:47,840 –> 00:04:49,919
سپس همه آن ها در یک قاب داده df خوانده می
129
00:04:49,919 –> 00:04:52,080
شود
130
00:04:52,080 –> 00:04:53,759
و من به جلو می روم و
131
00:04:53,759 –> 00:04:55,680
تعداد کل ردیف های آن قاب داده را
132
00:04:55,680 –> 00:04:57,680
df می شمارم
133
00:04:57,680 –> 00:04:59,840
و در نهایت این همان چیزی است که به
134
00:04:59,840 –> 00:05:02,800
عنوان تعداد توییت ها چاپ می
135
00:05:03,039 –> 00:05:05,039
کنم. اکنون اجازه دهید به عقب برگردیم و ببینیم که چگونه
136
00:05:05,039 –> 00:05:11,280
کل این اجرا به نظر می رسد،
137
00:05:11,280 –> 00:05:14,560
بنابراین من به سرعت سلول را اجرا می کنم
138
00:05:17,199 –> 00:05:19,039
تا همانطور که می توانید به وضوح برای این
139
00:05:19,039 –> 00:05:20,320
محدوده تاریخ خاص ببینید
140
00:05:20,320 –> 00:05:22,400
و برای این عبارت جستجوی خاص
141
00:05:22,400 –> 00:05:24,639
در مجموع سه توییت وجود دارد که
142
00:05:24,639 –> 00:05:26,960
اکنون من از یک توئیت استفاده می کنم.