در این مطلب، ویدئو آیا می توانم یک برنامه دیکشنری را در 10 دقیقه کدنویسی کنم؟ | Web Scraping | پایتون | چالش با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:14:38
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:01,860
سلام امروز چه خبر است من
2
00:00:01,860 –> 00:00:04,170
خودم را به چالش کشیدم تا ببینم آیا می توانم
3
00:00:04,170 –> 00:00:06,210
یک برنامه دیکشنری از
4
00:00:06,210 –> 00:00:09,000
ابتدا در عرض 10 دقیقه بسازم و وقتی
5
00:00:09,000 –> 00:00:10,860
از ابتدا می گویم منظورم این است که
6
00:00:10,860 –> 00:00:12,780
از هیچ دیکشنری api از قبل موجود
7
00:00:12,780 –> 00:00:15,030
استفاده نخواهم کرد و از کمی استفاده خواهم کرد. کمی
8
00:00:15,030 –> 00:00:16,800
خراش دادن وب برای بیرون کشیدن چیزها از
9
00:00:16,800 –> 00:00:19,050
اینترنت و ساختن خودم به نوعی
10
00:00:19,050 –> 00:00:20,939
ابزار خط فرمان برای تعریف کلمات و
11
00:00:20,939 –> 00:00:23,189
همه اینها امیدوارم
12
00:00:23,189 –> 00:00:24,600
در عرض 10 دقیقه تکمیل کنم و از پایتون استفاده خواهم کرد،
13
00:00:24,600 –> 00:00:27,029
پس بیایید به این برنامه بپردازیم.
14
00:00:27,029 –> 00:00:29,310
همه چیز خوب است، بنابراین تایمر شروع می شود
15
00:00:29,310 –> 00:00:30,929
و اولین کاری که ما باید انجام دهیم این
16
00:00:30,929 –> 00:00:32,610
است که یک وب سایت پیدا کنیم تا تعاریف خود را حذف کنیم
17
00:00:32,610 –> 00:00:35,100
، بنابراین من این وب سایت
18
00:00:35,100 –> 00:00:37,620
به نام دیکشنری.com را پیدا کردم و به نظر می
19
00:00:37,620 –> 00:00:39,329
رسد کار بسیار خوبی است، بنابراین بیایید برای
20
00:00:39,329 –> 00:00:44,160
یک جستجو کنیم. word و
21
00:00:44,160 –> 00:00:45,930
تعریف کلمه apples را به ما می دهد و همچنین قسمت گفتار را به ما می دهد،
22
00:00:45,930 –> 00:00:47,640
بنابراین در این مورد یک
23
00:00:47,640 –> 00:00:48,780
اسم است و تقریباً هشت
24
00:00:48,780 –> 00:00:50,940
تعریف موجود است، بنابراین بسیار
25
00:00:50,940 –> 00:00:53,969
جالب است و اجازه دهید نگاهی به URL نیز بیندازیم
26
00:00:53,969 –> 00:00:55,829
تا دی ctionary.com اسلش
27
00:00:55,829 –> 00:00:58,410
مرور اسلش اپل است، بنابراین خوب است
28
00:00:58,410 –> 00:01:00,359
که کلمه پرس و جو در واقع
29
00:01:00,359 –> 00:01:02,579
در URL باشد، بنابراین ما می توانیم آن را مستقیماً تغییر دهیم
30
00:01:02,579 –> 00:01:05,840
تا چیزی مانند انجماد
31
00:01:05,840 –> 00:01:08,790
بگوییم و باید معنای
32
00:01:08,790 –> 00:01:10,320
کلمه انجماد را نیز به ما بدهد، بنابراین در این مورد.
33
00:01:10,320 –> 00:01:12,030
و من سه تعریف را دوست دارم، بنابراین خیلی
34
00:01:12,030 –> 00:01:12,450
خوب است،
35
00:01:12,450 –> 00:01:16,500
بنابراین بیایید این پیوند را بگیریم
36
00:01:16,500 –> 00:01:19,560
و من می خواهم پایتون را خیلی سریع باز کنم و
37
00:01:19,560 –> 00:01:21,290
فعلاً از پوسته استفاده می کنم تا
38
00:01:21,290 –> 00:01:23,189
نحوه استخراج
39
00:01:23,189 –> 00:01:25,320
اطلاعات را آزمایش کنم و زمانی که روشی داشته باشیم.
40
00:01:25,320 –> 00:01:26,909
برای استخراج اطلاعاتی کار میکند که
41
00:01:26,909 –> 00:01:30,659
میتوانیم آن را به کد تبدیل کنیم، بنابراین من
42
00:01:30,659 –> 00:01:32,490
میخواهم یک سری چیزها را در اینجا
43
00:01:32,490 –> 00:01:34,229
وارد کنم، درخواستها را وارد میکنم و همچنین سوپ
44
00:01:34,229 –> 00:01:43,140
زیبا را وارد میکنم به اندازه
45
00:01:43,140 –> 00:01:44,939
سوپ بسیار زیبا که یک تجزیهکننده پخته شده
46
00:01:44,939 –> 00:01:48,000
برای پایتون است. و من همچنین
47
00:01:48,000 –> 00:01:51,420
URL را در این مورد مشخص میکنم که همان باشد و
48
00:01:51,420 –> 00:01:56,100
میتوانیم درخواستهای مساوی خود را انجام دهیم تا مرگ نقطه
49
00:01:56,100 –> 00:01:59,909
URL را انجام دهیم، بنابراین باید URL را بیاوریم و
50
00:01:59,909 –> 00:02:02,610
تمام محتوای HTML را برای ما دریافت کنیم و اکنون
51
00:02:02,610 –> 00:02:05,250
میتوانیم یک شی سوپ ایجاد کنیم و فراخوانی کنیم.
52
00:02:05,250 –> 00:02:06,719
سوپ زیبا پس من می خواهم به این
53
00:02:06,719 –> 00:02:08,520
دلیل که سوپ زیبایی از محتوای درب ما
54
00:02:08,520 –> 00:02:11,520
است و شاید حتی بتوانیم یک
55
00:02:11,520 –> 00:02:12,890
منبع تغذیه
56
00:02:12,890 –> 00:02:15,920
آماده الکس و بسته را مشخص کنیم، بنابراین این یک
57
00:02:15,920 –> 00:02:18,830
شی بسته برای کد منبع HTML ما ایجاد می کند
58
00:02:18,830 –> 00:02:23,360
و اکنون باید به
59
00:02:23,360 –> 00:02:27,440
کد منبع وب سایت نگاه کنیم، بنابراین بیایید بررسی کنیم
60
00:02:27,440 –> 00:02:31,880
عنصری که روی آن می خواهیم به عنصری
61
00:02:31,880 –> 00:02:34,900
که می خواهیم به دست آوریم، در این
62
00:02:34,900 –> 00:02:39,100
مورد صفت قسمت گفتار
63
00:02:39,100 –> 00:02:42,650
ظاهراً داخل تگ span است
64
00:02:42,650 –> 00:02:46,580
و کلاس Luna – POS دارد و متن
65
00:02:46,580 –> 00:02:51,890
آن تگ HTML عینی است، پس بیایید سعی
66
00:02:51,890 –> 00:02:54,440
کنیم اطلاعات را از شی سوپ ما دریافت کنید
67
00:02:54,440 –> 00:02:57,140
تا بتوانم بگویم بخش POS از
68
00:02:57,140 –> 00:03:01,640
گفتار برابر است با نقطه سوپ همه چیز را که میخواهم
69
00:03:01,640 –> 00:03:05,930
پیدا کنم همه تگها را با همه تگهای span
70
00:03:05,930 –> 00:03:11,530
و همچنین که دارای کلاس Luna
71
00:03:11,530 –> 00:03:15,709
POS هستند همانطور که در کد منبع یافت میشود. ما می توانیم این
72
00:03:15,709 –> 00:03:18,650
را بگوییم و اجازه دهید همچنان
73
00:03:18,650 –> 00:03:20,989
به عنصر اول و نمایه آن نگاهی بیندازیم
74
00:03:20,989 –> 00:03:23,150
و همچنین بیایید
75
00:03:23,150 –> 00:03:26,600
ویژگی متن بیرونی آن HTML را پیدا کنیم تا
76
00:03:26,600 –> 00:03:28,190
هدف باشد بنابراین جالب است، بنابراین اکنون که
77
00:03:28,190 –> 00:03:30,799
بخش هدف را داریم اکنون می توانیم اکنون
78
00:03:30,799 –> 00:03:33,709
باید قطعی را پیدا کنید بنابراین
79
00:03:33,709 –> 00:03:37,160
من احتمالاً همه اینها را انتخاب می کنم و
80
00:03:37,160 –> 00:03:40,850
عنصر را بررسی می کنم و بیایید نگاهی بیندازیم
81
00:03:40,850 –> 00:03:45,680
تا یک لیست مرتب شده داشته باشیم که ظاهراً
82
00:03:45,680 –> 00:03:49,220
شامل همه تعاریف و
83
00:03:49,220 –> 00:03:52,820
هر تعریفی است که فکر می کنم خوب است بنابراین
84
00:03:52,820 –> 00:03:54,680
فکر می کنم این را فهمیدم بنابراین مرتب شده است.
85
00:03:54,680 –> 00:03:57,830
کلاس لیست تگ لیست مرتب شده دارای یک
86
00:03:57,830 –> 00:03:59,450
دسته از Phyllis telemon در داخل
87
00:03:59,450 –> 00:04:02,120
آنها است و هر عنصر لیست مربوط
88
00:04:02,120 –> 00:04:06,350
به هر تعریف است، بنابراین می توانیم تگ AL را دریافت
89
00:04:06,350 –> 00:04:09,200
کنیم، اما فکر نمی کنم بتوانم کلاس را مشخص
90
00:04:09,200 –> 00:04:10,430
کنم زیرا فکر می کنم این
91
00:04:10,430 –> 00:04:13,549
کلاس ها به طور تصادفی تولید می شوند. ما
92
00:04:13,549 –> 00:04:15,950
میتوانیم، احتمالاً باید
93
00:04:15,950 –> 00:04:19,459
فقط برچسبها را مستقیماً دریافت کنیم، بنابراین بیایید سعی کنیم
94
00:04:19,459 –> 00:04:22,789
دوباره آن را به کد تبدیل کنیم، بنابراین این
95
00:04:22,789 –> 00:04:25,220
بار چیزی که من نیاز دارم این است که
96
00:04:25,220 –> 00:04:30,810
تعریف برابر با نقطه سوپ باشد، همهچیز را که میخواهم برای
97
00:04:30,810 –> 00:04:34,920
پیدا کردن روغنها پیدا کنم و ببینیم چند مورد از
98
00:04:34,920 –> 00:04:39,750
آنها است. ما 13 داریم، پس بیایید نگاهی به اولی بیندازیم،
99
00:04:39,750 –> 00:04:42,600
بنابراین
100
00:04:42,600 –> 00:04:50,160
تعاریفی از صفر وجود دارد.
101
00:04:50,160 –> 00:04:52,500
102
00:04:52,500 –> 00:04:52,860
103
00:04:52,860 –> 00:04:56,610
104
00:04:56,610 –> 00:04:58,860
105
00:04:58,860 –> 00:05:00,300
این متنی است که ما
106
00:05:00,300 –> 00:05:06,990
به آن نیاز داریم، اما من فکر میکنم هر دو
107
00:05:06,990 –> 00:05:10,830
تعاریف را با هم ضمیمه کرده باشد یا همه
108
00:05:10,830 –> 00:05:13,080
یا هر سه تعاریف را با هم ضمیمه کرده است،
109
00:05:13,080 –> 00:05:19,260
بنابراین بیایید سعی کنیم این کار را انجام دهیم، اجازه دهید سعی
110
00:05:19,260 –> 00:05:22,410
کنیم فرزندان این عنصر HTML را دریافت
111
00:05:22,410 –> 00:05:24,830
کنیم. میخواهم بگویم معانی برابر است با
112
00:05:24,830 –> 00:05:28,440
تعاریف 0.8 هیچ نقطهای را پیدا نمیکند،
113
00:05:28,440 –> 00:05:31,380
بنابراین این روشی برای
114
00:05:31,380 –> 00:05:33,360
یافتن فرزندان یک تاریخ خاص است.
115
00:05:33,360 –> 00:05:35,220
116
00:05:35,220 –> 00:05:38,730
117
00:05:38,730 –> 00:05:44,070
118
00:05:44,070 –> 00:05:48,450
نادرست است زیرا اگر
119
00:05:48,450 –> 00:05:50,700
مشخص نکنیم که این در واقع
120
00:05:50,700 –> 00:05:52,200
فرزندان کودکان را
121
00:05:52,200 –> 00:05:55,350
نیز پیدا می کند و اکنون بیایید ببینیم که
122
00:05:55,350 –> 00:06:00,120
معنی متن صفر نقطه
123
00:06:00,120 –> 00:06:04,170
چیست، بنابراین این اولین تعریف است و
124
00:06:04,170 –> 00:06:07,830
آن تعریف دوم و
125
00:06:07,830 –> 00:06:15,740
متاسفم و این خوب صفر یک صفر
126
00:06:15,740 –> 00:06:21,270
یک و خیلی خوب، بنابراین ما هر
127
00:06:21,270 –> 00:06:23,610
سه تعریف را در اینجا داریم، بنابراین اکنون
128
00:06:23,610 –> 00:06:24,930
تمام اطلاعات را داریم که میتوانیم آن را
129
00:06:24,930 –> 00:06:28,440
مستقیماً در کد قرار دهیم، بنابراین اجازه دهید ابتدا
130
00:06:28,440 –> 00:06:31,770
درخواستهای واردات را انجام دهیم. و سپس باید
131
00:06:31,770 –> 00:06:36,090
سوپ وظیفهای را برای سوپ زیبا
132
00:06:36,090 –> 00:06:38,520
بهعنوان BS وارد کنیم و سپس
133
00:06:38,520 –> 00:06:42,539
با URL مشخص کنیم، URL در این
134
00:06:42,539 –> 00:06:45,180
مورد کلمهای نیست که ما فقط URL اصلی را انجام میدهیم و
135
00:06:45,180 –> 00:06:47,610
سپس احتمالاً میتوانیم کلمهای