در این مطلب، ویدئو پردازش مخازن بزرگ XML ویکیپدیا که بدون Spark در رم در پایتون جا نمیشوند با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:23
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,159
سلام، این جف هیتون است، میدانید که
2
00:00:02,159 –> 00:00:04,950
ویکیپدیا حجم عظیمی از متن است
3
00:00:04,950 –> 00:00:08,189
که تا حدودی شامل کل
4
00:00:08,189 –> 00:00:10,110
دانش بشر است یا حداقل در یک
5
00:00:10,110 –> 00:00:13,559
سطح بسیار کلی، ما میخواهیم ببینیم که چگونه میتوان
6
00:00:13,559 –> 00:00:16,289
7
00:00:16,289 –> 00:00:19,050
دادههای ویکیپدیا را با سرعت بسیار زیاد دانلود و پردازش کرد. سطح پایین
8
00:00:19,050 –> 00:00:22,109
به معنای واقعی کلمه فایل XML را بکشید و ببینید
9
00:00:22,109 –> 00:00:24,570
ساختار به چه شکل است و این
10
00:00:24,570 –> 00:00:26,490
به ما
11
00:00:26,490 –> 00:00:28,769
امکان میدهد بدون استفاده از هر
12
00:00:28,769 –> 00:00:30,750
نوع محیط محاسباتی با ظرفیت بالا، کل چیز را تکرار
13
00:00:30,750 –> 00:00:33,690
کنیم و به سادگی از طریق
14
00:00:33,690 –> 00:00:35,550
کل چیز پخش کنیم و کل آن را بارگذاری نکنیم.
15
00:00:35,550 –> 00:00:37,800
چیزی در حافظه این می تواند
16
00:00:37,800 –> 00:00:39,780
برای چند عملیات مختلف مفید باشد،
17
00:00:39,780 –> 00:00:41,399
البته شما می توانید آن را در SPARC بارگذاری کنید و
18
00:00:41,399 –> 00:00:44,489
این نوع کارها را در چند ثانیه انجام دهید،
19
00:00:44,489 –> 00:00:46,920
اما هنوز زمان پردازش نسبتاً کوتاهی خواهد
20
00:00:46,920 –> 00:00:49,289
داشت، من به شما نشان خواهم داد که چگونه
21
00:00:49,289 –> 00:00:51,149
برخی کارها را انجام دهید. ما
22
00:00:51,149 –> 00:00:54,360
کل ویکیپدیا را در حدود 20 دقیقه پردازش میکنیم
23
00:00:54,360 –> 00:00:57,090
و مجبور نیستیم کل چیز را در RAM بارگذاری کنیم،
24
00:00:57,090 –> 00:00:59,460
این پایه و اساس
25
00:00:59,460 –> 00:01:00,480
برخی از موضوعات پردازش زبان طبیعی را فراهم میکند.
26
00:01:00,480 –> 00:01:03,570
من میخواهم وارد این
27
00:01:03,570 –> 00:01:07,080
سری شوم و با پردازش زبان طبیعی و هوش مصنوعی بیشتر آشنا شوم،
28
00:01:07,080 –> 00:01:08,700
29
00:01:08,700 –> 00:01:11,250
این ویدیو فقط در مورد
30
00:01:11,250 –> 00:01:13,140
نحوه بارگذاری آن برای جدیدترین دورهها و پروژههای هوش مصنوعی من است،
31
00:01:13,140 –> 00:01:15,450
روی Subscribe
32
00:01:15,450 –> 00:01:16,979
در کمربند کنار آن کلیک کنید تا از
33
00:01:16,979 –> 00:01:19,320
همه موارد مطلع شوید. ویدیوی جدید، بنابراین ما یک
34
00:01:19,320 –> 00:01:22,439
پست وبلاگی را که
35
00:01:22,439 –> 00:01:24,299
مدتی قبل در وبسایت خود انجام دادم دنبال میکنیم، پیوند
36
00:01:24,299 –> 00:01:26,670
آن را در توضیحات این ویدیوی YouTube
37
00:01:26,670 –> 00:01:30,170
38
00:01:30,170 –> 00:01:32,670
39
00:01:32,670 –> 00:01:35,850
قرار میدهم. در ابتداییترین سطح
40
00:01:35,850 –> 00:01:38,250
است، نشان میدهد که چگونه میتوان با فایلهای بسیار بزرگی
41
00:01:38,250 –> 00:01:42,540
که در اکثر رایانهها جا نمیشود، برخورد کرد،
42
00:01:42,540 –> 00:01:46,860
حداقل در سال 2019، Ram وجود دارد، بنابراین چگونه میتوان
43
00:01:46,860 –> 00:01:49,860
این XML را از طریق Python استریم کرد و
44
00:01:49,860 –> 00:01:51,210
با چیزی که مناسب نیست مقابله
45
00:01:51,210 –> 00:01:54,060
کرد. 16 گیگابایت فشرده شده فراموش می کنم
46
00:01:54,060 –> 00:01:55,680
فشرده نشده است، خواهیم دید که در یک لحظه
47
00:01:55,680 –> 00:01:57,570
و نحوه پردازش از طریق این
48
00:01:57,570 –> 00:02:01,079
فایل XML غول پیکر نکته دیگر این است که
49
00:02:01,079 –> 00:02:02,640
من قصد دارم چند فیلم پردازش زبان طبیعی را انجام دهم
50
00:02:02,640 –> 00:02:05,700
که
51
00:02:05,700 –> 00:02:09,090
از داده های ویکی پدیا استفاده می کند. به عنوان یک سرگرمی خوب عمل می کند
52
00:02:09,090 –> 00:02:10,169
53
00:02:10,169 –> 00:02:12,750
تا به شما نشان دهد چگونه می توانید این
54
00:02:12,750 –> 00:02:15,000
نوع داده ها را در پایتون به دست آورید و بتوانید
55
00:02:15,000 –> 00:02:17,610
با آن ها کنار بیایید اکنون کتابخانه هایی در
56
00:02:17,610 –> 00:02:19,020
پایتون و پردازش زبان طبیعی وجود دارد
57
00:02:19,020 –> 00:02:21,569
که بخشی را می کشد که من می خواهم واقعاً نشان دهم
58
00:02:21,569 –> 00:02:23,910
که چگونه می توان آن را انجام داد. با ویکی
59
00:02:23,910 –> 00:02:27,480
پدیا در شکل خام آن، dumps از ویکیپدیا از
60
00:02:27,480 –> 00:02:29,700
رسانه ویکی که نرمافزاری است که
61
00:02:29,700 –> 00:02:32,790
در واقع روی آن اجرا میشود
62
00:02:32,790 –> 00:02:34,920
، در این فایل بزرگ XML موجود است، این
63
00:02:34,920 –> 00:02:37,680
فقط متن است و فقط
64
00:02:37,680 –> 00:02:39,959
متن آخرین نسخه شما میخواهید که
65
00:02:39,959 –> 00:02:42,150
متن تاریخی که واقعاً تبدیل به یک
66
00:02:42,150 –> 00:02:44,190
فایل بزرگ میشود، پیش از آن که بتوانید
67
00:02:44,190 –> 00:02:46,140
68
00:02:46,140 –> 00:02:48,150
تحلیل روند بسیار جالبی را انجام دهید، اگر به
69
00:02:48,150 –> 00:02:52,320
تاریخچه یک شخص مشهور نگاه کنید، پس از اینکه یک
70
00:02:52,320 –> 00:02:54,030
سیاستمدار را پس از اینکه رهبر شد، دوست داشته باشید، به آن پرداختم
71
00:02:54,030 –> 00:02:56,790
. یک کشور در مقابل قبل از تماشای
72
00:02:56,790 –> 00:02:59,610
چگونگی تکامل متن برای نشان دادن برخی
73
00:02:59,610 –> 00:03:01,200
از
74
00:03:01,200 –> 00:03:03,690
75
00:03:03,690 –> 00:03:05,760
76
00:03:05,760 –> 00:03:08,220
77
00:03:08,220 –> 00:03:09,870
قابلیتهای جالب پیشبینی
78
00:03:09,870 –> 00:03:12,000
دانلود غول پیکری باشد من با
79
00:03:12,000 –> 00:03:14,160
دانلود همه تصاویر در
80
00:03:14,160 –> 00:03:16,170
ویکی پدیا کار نکرده ام، مطمئناً
81
00:03:16,170 –> 00:03:17,760
می توان کارهای جالبی را در آنجا انجام داد، شما می خواهید این
82
00:03:17,760 –> 00:03:18,360
83
00:03:18,360 –> 00:03:21,780
فایل آخرین مقالات صفحات است، بنابراین فقط
84
00:03:21,780 –> 00:03:24,299
برای دانلود آن پیشنهاد می کنم آن را کپی کنید
85
00:03:24,299 –> 00:03:26,880
و سپس روی پیوند کلیک کنید. که من
86
00:03:26,880 –> 00:03:28,140
اینجا دارم و لینکی به کل این
87
00:03:28,140 –> 00:03:30,810
پست وبلاگ دارم در توضیحات اینجا
88
00:03:30,810 –> 00:03:33,030
همه فایل ها هستند، بنابراین این فقط برداشتی از
89
00:03:33,030 –> 00:03:36,180
آخرین آخرین اطلاعات ویکی پدیا است
90
00:03:36,180 –> 00:03:40,079
و به هر حال از HTTP استفاده نکنید و
91
00:03:40,079 –> 00:03:42,450
اساسا سعی کنید دانلود کنید ویکیپدیا
92
00:03:42,450 –> 00:03:46,019
از طریق www که پیتر کانولی IP
93
00:03:46,019 –> 00:03:47,070
حداقل باید داشته باشند من در
94
00:03:47,070 –> 00:03:49,260
واقع هرگز آن را امتحان نکردهام،
95
00:03:49,260 –> 00:03:52,290
به هر حال میخواهید رسانهای روی
96
00:03:52,290 –> 00:03:54,000
هارد دیسک خود داشته باشید تا بتوانید مستقیماً به آن دسترسی داشته باشید
97
00:03:54,000 –> 00:03:56,100
و هی اگر کل اینترنت
98
00:03:56,100 –> 00:03:58,260
پایین می رود شما دانش
99
00:03:58,260 –> 00:04:01,140
بشر را بر روی هارد دیسک خود دارید شما
100
00:04:01,140 –> 00:04:03,630
برای آخرالزمان زامبی آماده هستید، بنابراین ما روی این کلیک می
101
00:04:03,630 –> 00:04:06,540
کنیم و آن را دانلود می کنیم، می توانید ببینید که
102
00:04:06,540 –> 00:04:08,700
می گوید حدود دو تا سه
103
00:04:08,700 –> 00:04:11,459
ساعت اتصالات بسیار سریع در t نظر او
104
00:04:11,459 –> 00:04:13,410
با استفاده از سیستم دانشگاه است، اما
105
00:04:13,410 –> 00:04:15,780
این می تواند بسیار بیشتر طول بکشد، این
106
00:04:15,780 –> 00:04:18,149
می تواند تمام شب طول بکشد، بنابراین اصولاً برای مدتی برنامه ریزی کنید
107
00:04:18,149 –> 00:04:20,459
که من
108
00:04:20,459 –> 00:04:21,380
109
00:04:21,380 –> 00:04:22,850
این کار را ادامه می دهم تا مجبور نباشید
110
00:04:22,850 –> 00:04:25,850
کل دانلود را اینجا ببینید.
111
00:04:25,850 –> 00:04:26,840
این
112
00:04:26,840 –> 00:04:29,480
فایل یک فایل bz2 است اکنون من روی مک هستم
113
00:04:29,480 –> 00:04:31,670
که اکثر این موارد را می شناسد و لینوکس
114
00:04:31,670 –> 00:04:33,290
نیز اگر ویندوز دارید، ممکن است
115
00:04:33,290 –> 00:04:36,230
116
00:04:36,230 –> 00:04:38,660
برای دریافت این فایل به یک unzipper خاص مانند 7-zip یا چیزی نیاز داشته باشید.
117
00:04:38,660 –> 00:04:40,460
من فقط می خواهم روی آن دوبار کلیک کنم این یک
118
00:04:40,460 –> 00:04:42,680
فایل بزرگ است شانزده نقطه چهار گیگابایت
119
00:04:42,680 –> 00:04:44,960
تقریباً هفده، بنابراین کمی طول
120
00:04:44,960 –> 00:04:48,530
می کشد تا این را از حالت فشرده خارج کنیم و
121
00:04:48,530 –> 00:04:51,320
این به طور قابل توجهی گسترش می یابد، من دقیقاً فراموش می کنم
122
00:04:51,320 –> 00:04:53,840
که در واقع چقدر بزرگ است وقتی از حالت
123
00:04:53,840 –> 00:04:55,820
فشرده خارج می شود، اما ما این کار را انجام خواهیم داد. ادامه دهید و
124
00:04:55,820 –> 00:04:58,760
دوباره سریع به جلو بروید زیرا نمیخواهم
125
00:04:58,760 –> 00:05:02,120
شما را مجبور کنم این مشکل را انجام دهید که
126
00:05:02,120 –> 00:05:06,230
مدتی طول کشید، بنابراین فایل فشردهشده
127
00:05:06,230 –> 00:05:10,970
در اینجا 73 تقریباً 74 گیگابایت در
128
00:05:10,970 –> 00:05:13,220
هارد دیسک شما است، بنابراین اگر
129
00:05:13,220 –> 00:05:15,350
هارد دیسک شما کم است فضا در حال حاضر
130
00:05:15,350 –> 00:05:17,240
ممکن است بخواهید برای حذف فایل زیپ شده،
131
00:05:17,240 –> 00:05:18,950
زیرا واقعاً به آن نیاز ندارید،
132
00:05:18,950 –> 00:05:21,470
بیایید ببینیم چگونه با
133
00:05:21,470 –> 00:05:24,410
فایلی به اندازه بزرگی که به احتمال زیاد
134
00:05:24,410 –> 00:05:27,200
در رم رایانه شما جا نمی شود، کنار بیاییم،
135
00:05:27,200 –> 00:05:28,610
اگرچه این روزها مطمئناً می
136
00:05:28,610 –> 00:05:30,680
توانید این کار را به اندازه کافی آسان کنید. میتوانید
137
00:05:30,680 –> 00:05:32,780
نمونههای آمازون را که
138
00:05:32,780 –> 00:05:35,900
واقعاً فضای زیادی دارند، بچرخانید، بنابراین اگر نگاهی بیندازیم میتوانیم
139
00:05:35,900 –> 00:05:37,130
فایلهای اینجا را ببینیم،
140
00:05:37,130 –> 00:05:40,760
یکی از کارهایی که قطعاً میتواند مفید
141
00:05:40,760 –> 00:05:43,460
باشد این است که فقط به بالای آن نگاه کنیم
142
00:05:43,460 –> 00:05:45,380
، دستور head برای آن عالی است.
143
00:05:45,380 –> 00:05:48,710
میتوانید سر و نام فایل را انجام دهید و
144
00:05:48,710 –> 00:05:50,570
قسمت بالای آن را به شما نشان میدهد، این
145
00:05:50,570 –> 00:05:53,750
کافی است تا تصور کنید
146
00:05:53,750 –> 00:05:55,550
که ساختار این فایل در واقع
147
00:05:55,550 –> 00:05:58,190
چگونه به نظر میرسد.
148
00:05:58,190 –> 00:06:00,650
149
00:06:00,650 –> 00:06:04,010
که میتواند
150
00:06:04,010 –> 00:06:06,170
کمی آزاردهنده باشد، خواهیم دید که چگونه با
151
00:06:06,170 –> 00:06:08,990
آنها در یک لحظه در کدی که باید
152
00:06:08,990 –> 00:06:11,120
آنها را حذف کنید، وقتی از طریق این استریم پخش میکنید
153
00:06:11,120 –> 00:06:12,800
و پردازش آن
154
00:06:12,800 –> 00:06:16,160
را انجام میدهید، خواهیم دید. ما چیزهای بسیار سطح بالایی داریم.
155
00:06:16,160 –> 00:06:19,160
واقعاً هنوز این همه چیز را اینجا نمی بینم
156
00:06:19,160 –> 00:06:22,310
بنابراین کاری که میتواند مفید باشد این است که head را انجام دهید
157
00:06:22,310 –> 00:06:26,330
، اما با دستور دیگری به آن بگویید که
158
00:06:26,330 –> 00:06:29,180
واقعاً چند خط میخواهید،
159
00:06:29,180 –> 00:06:31,460
نمیدانم شاید 300 خط اول را انجام دهید و اکنون اگر با آن آشنا هستید میتوانید
160
00:06:31,460 –> 00:06:33,290
اطلاعات کمی بیشتر ببینید.
161
00:06:33,290 –> 00:06:34,520
162
00:06:34,520 –> 00:06:38,210
نشانه گذاری رسانه ویکی درست
163
00:06:38,210 –> 00:06:40,430
در اینجا است که کمی متفاوت از
164
00:06:40,430 –> 00:06:42,830
نشانه گذاری نوع HTML است، اما هنوز هم ما
165
00:06:42,830 –> 00:06:44,479
بیشتر از آنچه احتمالاً می خواهیم فایل را حذف کرده ایم،
166
00:06:44,479 –> 00:06:47,389
بنابراین کاری که می خواهم انجام دهم این است که فقط این کار را انجام دهم و
167
00:06:47,389 –> 00:06:51,770
آن را به یک فایل کوچکتر صادر کنیم.
168
00:06:51,770 –> 00:06:54,379
شما همچنین می توانید از ویرایشگرهای مختلفی استفاده کنید
169
00:06:54,379 –> 00:06:57,229
که برای رسیدگی به این فایل بزرگ طراحی شده اند،
170
00:06:57,229 –> 00:06:59,120
اما اکنون من این
171
00:06:59,120 –> 00:07:00,560
فایل txt نقطه آزمایش کوچک را دارم
172
00:07:00,560 –> 00:07:02,840
و این در اصل نمونه ای است که می
173
00:07:02,840 –> 00:07:05,840
توانم همان ابتدای آن را ببینم و شروع
174
00:07:05,840 –> 00:07:07,490
به پیمایش در این فایل کنم.
175
00:07:07,490 –> 00:07:09,440
به فضاهای نام اهمیت
176
00:07:09,440 –> 00:07:10,849
میدهیم که ما به ساختار اهمیت میدهیم، زیرا
177
00:07:10,849 –> 00:07:12,740
باید از آن عبور کنیم
178
00:07:12,740 –> 00:07:16,159
، فضاهای نام را طی میکنیم و اینجاست که
179
00:07:16,159 –> 00:07:18,860
واقعاً از کجا شروع میشود، این
180
00:07:18,860 –> 00:07:21,789
آغاز جهان است، بهطوریکه این صفحه در مورد
181
00:07:21,789 –> 00:07:24,830
محاسبات در دسترس است. اولین باری است که رها شد
182
00:07:24,830 –> 00:07:25,340
183
00:07:25,340 –> 00:07:27,259
من انجام نمی دهم بر اساس حروف الفبا بدانید
184
00:07:27,259 –> 00:07:28,969
اولین مقاله در ویکیپدیا چیست، ممکن
185
00:07:28,969 –> 00:07:32,030
است aardvark باشد که بسیار معمولی
186
00:07:32,030 –> 00:07:33,860
نوع حیوان آن است که با دو حرف A در
187
00:07:33,860 –> 00:07:35,389
نامش شروع میشود، احتمالاً چیزی حتی
188
00:07:35,389 –> 00:07:37,729
قبل از اینکه شاید شرکت بیمه Triple A
189
00:07:37,729 –> 00:07:41,180
در ایالات متحده باشد، به هر حال این
190
00:07:41,180 –> 00:07:43,340
آغاز آن است. بنابراین
191
00:07:43,340 –> 00:07:46,250
میخواهیم صفحات و سپس عناوین را جستجو کنیم،
192
00:07:46,250 –> 00:07:48,889
سپس شناسههای دیگری وجود دارند که در اینجا هستند
193
00:07:48,889 –> 00:07:51,529
تا آنها را از هم جدا
194
00:07:51,529 –> 00:07:53,750
195
00:07:53,750 –> 00:07:55,759
196
00:07:55,759 –> 00:07:57,590
کنند. متن واقعی
197
00:07:57,590 –> 00:08:00,440
وارد میشود و من
198
00:08:00,440 –> 00:08:03,740
انواع کارها را با استخراج ویکیپدیا انجام دادهام
199
00:08:03,740 –> 00:08:06,409
تا آن را مرور کنم، به عنوان مثال، فقط
200
00:08:06,409 –> 00:08:09,139
یک مورد استفاده سریع واقعی به شما میدهم که من از
201
00:08:09,139 –> 00:08:10,490
آن برای کار در صنعت بیمه استفاده میکنم،
202
00:08:10,490 –> 00:08:13,190
بنابراین ما کارهای زیادی انجام میدهیم. از متن کاوی
203
00:08:13,190 –> 00:08:15,319
در سوابق پزشکی، اگر به
204
00:08:15,319 –> 00:08:16,909
چیزی مانند دیابت
205
00:08:16,909 –> 00:08:19,219
دیابت نگاه کنید، خواهید دید که در
206
00:08:19,219 –> 00:08:22,909
واقع کدهای پزشکی برای این موضوع وجود دارد،
207
00:08:22,909 –> 00:08:25,219
به عنوان مثال در اینجا کد icd-10 e
208
00:08:25,219 –> 00:08:26,930
12 است که در واقع یک خانواده کامل از
209
00:08:26,930 –> 00:08:30,319
IC است. کدهای d-10 اغلب ما این را استخراج می کنیم و
210
00:08:30,319 –> 00:08:33,140
سپس به متن مربوط به آن نگاه
211
00:08:33,140 –> 00:08:36,078
می کنیم، فقط می توانید بگویید که یک
212
00:08:36,078 –> 00:08:39,589
وضعیت خاص چقدر می تواند شدید باشد، بنابراین اکنون
213
00:08:39,589 –> 00:08:41,690
که این فایل را در دسترس داریم، بیایید به
214
00:08:41,690 –> 00:08:43,260
کدهای پایتون نگاه کنیم.
215
00:08:43,260 –> 00:08:45,570
من ا