در این مطلب، ویدئو خلاصه سازی متن در NLP با استفاده از spaCy | بررسی پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:25:58
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,719 –> 00:00:02,639
سلام مردم به کانال من خوش آمدید،
2
00:00:02,639 –> 00:00:04,319
پس امیدوارم از
3
00:00:04,319 –> 00:00:07,440
سری مهارت های پایتون و همچنین در nlp که
4
00:00:07,440 –> 00:00:07,680
به
5
00:00:07,680 –> 00:00:10,719
زبان طبیعی پردازش می شود لذت ببرید، بنابراین در
6
00:00:10,719 –> 00:00:11,519
ویدیوی امروز
7
00:00:11,519 –> 00:00:14,000
ما معرفی خواهیم کرد یا
8
00:00:14,000 –> 00:00:16,640
یک کتابخانه بسیار جدید خواهیم دید.
9
00:00:16,640 –> 00:00:17,440
کتابخانه جدید اما
10
00:00:17,440 –> 00:00:19,920
من برای اولین بار آن را معرفی خواهم کرد
11
00:00:19,920 –> 00:00:21,920
که این کتابخانه کامپیوتری است،
12
00:00:21,920 –> 00:00:24,800
بنابراین این کتابخانه فضایی
13
00:00:24,800 –> 00:00:26,080
به دلیل عملکرد بالای خود بسیار شناخته شده است،
14
00:00:26,080 –> 00:00:29,599
بنابراین هر زمان که
15
00:00:29,599 –> 00:00:31,519
مجبور باشید با پروژه های زبان طبیعی سر
16
00:00:31,519 –> 00:00:33,920
و کار داشته باشید یا هر زمان
17
00:00:33,920 –> 00:00:37,520
که هر برنامه nlp بنویسید، دو برنامه بیشتر وجود دارد.
18
00:00:37,520 –> 00:00:38,800
19
00:00:38,800 –> 00:00:41,920
زبانها
20
00:00:41,920 –> 00:00:45,680
یا بستههای پرکاربرد که nltk و همچنین
21
00:00:45,680 –> 00:00:48,559
کتابخانههای فضایی هستند، در ویدیوی امروز
22
00:00:48,559 –> 00:00:49,200
بیایید ببینیم
23
00:00:49,200 –> 00:00:51,760
چگونه میتوانیم از این کتابخانه رایانه شخصی
24
00:00:51,760 –> 00:00:52,719
برای انجام
25
00:00:52,719 –> 00:00:54,559
خلاصهنویسی متن یا خلاصهسازی اسناد استفاده کنیم،
26
00:00:54,559 –> 00:00:56,160
27
00:00:56,160 –> 00:00:59,440
بنابراین اساساً هر زمان که
28
00:00:59,440 –> 00:01:01,760
کتابهایی را میخوانید یا مثلاً وقتی میخواهید بگویید.
29
00:01:01,760 –> 00:01:04,159
برای آماده شدن برای هر امتحانی
30
00:01:04,159 –> 00:01:08,000
یا هر زمان که تعدادی تبلوید
31
00:01:08,000 –> 00:01:11,200
یا مقاله ای را از جایی می خوانید، چه
32
00:01:11,200 –> 00:01:11,520
از
33
00:01:11,520 –> 00:01:14,479
اینترنت یا از برخی کتاب ها یا از
34
00:01:14,479 –> 00:01:15,119
35
00:01:15,119 –> 00:01:18,479
مجلات رمان در هر نقطه در
36
00:01:18,479 –> 00:01:21,280
پایان موضوع، باید آن را با
37
00:01:21,280 –> 00:01:22,320
حفظ تمام
38
00:01:22,320 –> 00:01:26,000
نکات کلیدی که باید در نظر داشته باشید، خلاصه کنید، به
39
00:01:26,000 –> 00:01:28,720
طوری که هر زمان که
40
00:01:28,720 –> 00:01:30,479
می خواهید آن را به کسی منتقل کنید،
41
00:01:30,479 –> 00:01:34,320
واضح است که اگر 50 صفحه باشد، نتوانید
42
00:01:34,320 –> 00:01:35,200
43
00:01:35,200 –> 00:01:38,320
آن را بازگو کنید. تمام 50 صفحه را به یک
44
00:01:38,320 –> 00:01:40,320
نفر میدهید، بنابراین باید خلاصهسازی یا بازنویسی را انجام دهید،
45
00:01:40,320 –> 00:01:43,360
بنابراین،
46
00:01:43,360 –> 00:01:46,479
به لطف nlp، کاربرد بسیار
47
00:01:46,479 –> 00:01:48,640
خوبی در انجام این کارها
48
00:01:48,640 –> 00:01:50,479
بسیار آسان دارد، بنابراین
49
00:01:50,479 –> 00:01:52,479
خلاصهسازی متن یا خلاصهسازی سند است،
50
00:01:52,479 –> 00:01:53,680
51
00:01:53,680 –> 00:01:57,200
بنابراین بیایید ببینیم چگونه میتوانیم این کار را انجام دهیم. بنابراین،
52
00:01:57,200 –> 00:02:00,880
من اساساً از این کتابخانه فضایی استفاده خواهم کرد،
53
00:02:00,880 –> 00:02:04,079
بنابراین در فضایی
54
00:02:04,079 –> 00:02:06,399
شما چیزی به نام en
55
00:02:06,399 –> 00:02:07,680
stopwords خواهید داشت،
56
00:02:07,680 –> 00:02:10,160
بنابراین کلمات توقف چیزی جز
57
00:02:10,160 –> 00:02:11,760
کلمات بیاهمیت نیستند
58
00:02:11,760 –> 00:02:14,959
که برای شما ضروری نیست
59
00:02:14,959 –> 00:02:17,280
زیرا در ادبیات انگلیسی
60
00:02:17,280 –> 00:02:19,360
هر زمان که صحبت میکنید یا در
61
00:02:19,360 –> 00:02:20,239
مکالمه صحبتی
62
00:02:20,239 –> 00:02:23,040
چیزی به نام پرکننده دارید، بنابراین
63
00:02:23,040 –> 00:02:24,239
پرکننده ها چیزی
64
00:02:24,239 –> 00:02:28,640
شبیه به امم هستند یا زمانی که
65
00:02:28,640 –> 00:02:32,239
توقف می کنید تا تداومی را انجام دهید که
66
00:02:32,239 –> 00:02:33,680
پرکننده های طبیعی است،
67
00:02:33,680 –> 00:02:35,840
خوب است که قدردانی می شود، اما هر زمان که
68
00:02:35,840 –> 00:02:37,680
طبقه بندی سند
69
00:02:37,680 –> 00:02:39,440
که در آن باید ماتریس ایجاد کنید و
70
00:02:39,440 –> 00:02:40,959
همه اینها
71
00:02:40,959 –> 00:02:42,720
در تصویر ظاهر نمی شود یا باید موارد
72
00:02:42,720 –> 00:02:44,879
را حذف
73
00:02:44,879 –> 00:02:47,360
کنید تا غیرضروری باشد، بنابراین آنها
74
00:02:47,360 –> 00:02:48,000
چیزی جز
75
00:02:48,000 –> 00:02:51,840
کلمات موجود نیستند و از رشته،
76
00:02:51,840 –> 00:02:53,760
علائم نگارشی وارد می کنند، بنابراین علائم نگارشی
77
00:02:53,760 –> 00:02:55,680
نیز چیزی است که ما
78
00:02:55,680 –> 00:02:58,720
در واقع برای خلاصه کردن متن نیازی نداریم
79
00:02:58,720 –> 00:03:01,040
زیرا در متن
80
00:03:01,040 –> 00:03:04,159
فقط متن خواهد بود چیزی بیشتر از
81
00:03:04,159 –> 00:03:05,519
آن
82
00:03:05,519 –> 00:03:08,800
و سپس اخطارهای واردات خواهیم داشت
83
00:03:08,800 –> 00:03:12,560
و این همان
84
00:03:12,560 –> 00:03:15,920
چیزی است که فایل من است بنابراین فایل من در مورد
85
00:03:15,920 –> 00:03:19,360
فناوری 5g است بنابراین نسل پنجم
86
00:03:19,360 –> 00:03:20,159
87
00:03:20,159 –> 00:03:22,560
فناوری بی سیم است. راستش من
88
00:03:22,560 –> 00:03:23,840
این مطلب را نخواندهام
89
00:03:23,840 –> 00:03:25,920
و میخواهم nlp این مورد را خلاصه کند
90
00:03:25,920 –> 00:03:27,760
و به من بدهد تا بتوانم در وقتم صرفهجویی کنم،
91
00:03:27,760 –> 00:03:29,120
92
00:03:29,120 –> 00:03:32,640
بنابراین این را از
93
00:03:32,640 –> 00:03:35,120
ویکیپدیا دریافت کردهام، بنابراین طرح کلی
94
00:03:35,120 –> 00:03:37,440
فناوری 5g چیست
95
00:03:37,440 –> 00:03:40,480
و فقط چند پاراگراف وجود دارد
96
00:03:40,480 –> 00:03:43,200
و من فقط میخواهم خلاصهسازی سند را انجام دهم،
97
00:03:43,200 –> 00:03:44,640
بنابراین
98
00:03:44,640 –> 00:03:47,680
این فقط یک فایل 4 کیلوبایتی یا 2 کیلوبایتی است،
99
00:03:47,680 –> 00:03:51,360
بنابراین من آن را میدهم
100
00:03:51,360 –> 00:03:54,959
تا باز شود و آن را روی f قرار دهم
101
00:03:54,959 –> 00:03:58,640
و فقط آن را بخوانم و من یک
102
00:03:58,640 –> 00:04:00,000
شی ایجاد می کنم که به عنوان متن نامیده می شود،
103
00:04:00,000 –> 00:04:03,200
متن حاوی تمام
104
00:04:03,200 –> 00:04:05,200
اطلاعات است که اطلاعات خام است،
105
00:04:05,200 –> 00:04:06,560
همه چیز از جمله
106
00:04:06,560 –> 00:04:09,280
علائم نگارشی و توقف کلمات خوب است و اگر
107
00:04:09,280 –> 00:04:11,040
می خواهید ببینید این کلمات برتر
108
00:04:11,040 –> 00:04:12,239
که در زبان انگلیسی وجود دارد چیست،
109
00:04:12,239 –> 00:04:15,599
بنابراین من من
110
00:04:15,599 –> 00:04:18,399
در یک لیست چاپ می کنم و اگر فقط
111
00:04:18,399 –> 00:04:20,638
این را اجرا
112
00:04:24,160 –> 00:04:27,280
کنم، می توانید ببینید که این
113
00:04:27,280 –> 00:04:30,000
کلمات موجود است و شما
114
00:04:30,000 –> 00:04:32,240
می توانید ببینید که متغیرها نیز به صورت
115
00:04:32,240 –> 00:04:35,360
جهانی ایجاد شده اند و متغیرهای محلی بسیار خوب است،
116
00:04:35,360 –> 00:04:39,040
پس توجه داشته باشید که این از
117
00:04:39,040 –> 00:04:42,560
5g dot txt نیست. اینکه فایل ورودی
118
00:04:42,560 –> 00:04:45,600
اما داخل است یا
119
00:04:45,600 –> 00:04:49,360
به طور پیشفرض از این کتابخانه رایانه شخصی در داخل قرار دارد، خوب است،
120
00:04:49,360 –> 00:04:51,919
بنابراین اینها کارهای رایج
121
00:04:51,919 –> 00:04:53,600
پیش پردازش هستند که
122
00:04:53,600 –> 00:04:55,759
باید هر زمان که خلاصهسازی متن را انجام
123
00:04:55,759 –> 00:04:59,600
میدهید، باید کلمات توقف را حذف کنید، اوکی
124
00:04:59,600 –> 00:05:03,440
و سپس اوه هنگامی که این کلمات برتر را دریافت کردید
125
00:05:03,440 –> 00:05:05,680
یا هنگامی که تشخیص دادید یا متوجه شدید
126
00:05:05,680 –> 00:05:07,120
کلمات توقف چیست و
127
00:05:07,120 –> 00:05:10,160
چرا برای خلاصه سازی متن مهم نیست،
128
00:05:10,160 –> 00:05:13,039
آنچه می خواهید انجام دهید این
129
00:05:13,039 –> 00:05:14,400
است که می خواهید
130
00:05:14,400 –> 00:05:18,080
از وب اصلی بارگیری کنید. مجموعه ای که در
131
00:05:18,080 –> 00:05:20,320
واقع این است از کتابخانه انگلیسی
132
00:05:20,320 –> 00:05:21,759
133
00:05:21,759 –> 00:05:24,800
برای محدودیت های اساسی و پردازش
134
00:05:24,800 –> 00:05:26,479
به منظور ساختن
135
00:05:26,479 –> 00:05:28,400
دستور زبان های معنی دار از آن، بنابراین
136
00:05:28,400 –> 00:05:33,520
شما اساساً می توانید این را بنویسید، بنابراین
137
00:05:33,520 –> 00:05:35,680
در واقع زمانی که سعی می کنید این
138
00:05:35,680 –> 00:05:36,880
اولین
139
00:05:36,880 –> 00:05:38,400
بار را پیاده سازی کنید، با برخی از خطاها مواجه خواهید شد، زیرا وجود
140
00:05:38,400 –> 00:05:40,400
دارد نسخههای مختلف
141
00:05:40,400 –> 00:05:43,280
قبل از آن که منسوخ شدهاند و یکی
142
00:05:43,280 –> 00:05:45,520
از راههای رایجی که برای رفع این مشکل پیدا
143
00:05:45,520 –> 00:05:48,479
کردم استفاده از spacey.cli دانلود است
144
00:05:48,479 –> 00:05:50,320
و ابتدا باید این را بنویسید و
145
00:05:50,320 –> 00:05:52,160
دانلود یک فعالیت یکباره است که من
146
00:05:52,160 –> 00:05:54,000
قبلاً برای شما انجام
147
00:05:54,000 –> 00:05:56,000
دادهام اگر این کار را نکردهاید. این کار را قبلاً
148
00:05:56,000 –> 00:05:58,400
برای شما انجام دادید، سپس ممکن است مجبور شوید این کار
149
00:05:58,400 –> 00:05:59,600
را برای اولین بار انجام دهید
150
00:05:59,600 –> 00:06:02,240
و پس از انجام این کار باید
151
00:06:02,240 –> 00:06:04,319
با این pc.load تماس بگیرید
152
00:06:04,319 –> 00:06:07,280
تا تمام core web sn از این مورد خاص بارگیری شود
153
00:06:07,280 –> 00:06:08,560
154
00:06:08,560 –> 00:06:12,479
و به nlp منتقل شود.
155
00:06:12,479 –> 00:06:16,240
بنابراین nlp یک شی است، بنابراین
156
00:06:16,240 –> 00:06:19,600
من یک Wrapper از این
157
00:06:19,600 –> 00:06:20,080
158
00:06:20,080 –> 00:06:24,639
میسازم یا تابع nlp را فراخوانی میکنم و سپس متن را
159
00:06:24,639 –> 00:06:27,120
به متن خام منتقل میکنم و این سند من خواهد بود،
160
00:06:27,120 –> 00:06:27,759
161
00:06:27,759 –> 00:06:31,360
من در ورودی هستم خوب، بنابراین
162
00:06:31,360 –> 00:06:33,919
اکنون میخواهم چاپ کنم نشانه ها پس
163
00:06:33,919 –> 00:06:36,240
توک چیست ens هنگامی که ما چت بات را میسازیم
164
00:06:36,240 –> 00:06:38,479
، با تک تک چیزهایی آشنا
165
00:06:38,479 –> 00:06:41,199
شدیم که همه چیز هستند،
166
00:06:41,199 –> 00:06:42,639
167
00:06:42,639 –> 00:06:45,680
کلمات کلیدی نشانهگذاری همه چیز را با ویرگول میبندند،
168
00:06:45,680 –> 00:06:48,319
بنابراین میخواهم اکنون همه نشانههایی را
169
00:06:48,319 –> 00:06:50,160
که در آنجا وجود دارد از این داک خاص دریافت
170
00:06:50,160 –> 00:06:50,880
171
00:06:50,880 –> 00:06:53,919
کنم تا کاملاً مستقیم
172
00:06:53,919 –> 00:06:54,800
باشد.
173
00:06:54,800 –> 00:06:56,800
این را در یک لیست قرار می دهم، بنابراین این
174
00:06:56,800 –> 00:06:59,720
چیزی نیست جز درک لیست، بنابراین
175
00:06:59,720 –> 00:07:00,800
[موسیقی]
176
00:07:00,800 –> 00:07:02,960
بسیاری از مکان ها از درک لیست استفاده می کنند،
177
00:07:02,960 –> 00:07:05,120
به خصوص
178
00:07:05,120 –> 00:07:08,319
هر زمان که با برنامه های nlp سر و کار داشته باشیم، خوب است،
179
00:07:08,319 –> 00:07:08,960
بنابراین
180
00:07:08,960 –> 00:07:12,400
اگر من فقط این را اجرا
181
00:07:12,400 –> 00:07:15,520
کنم، می توانید ببینید که اینها هستند.
182
00:07:15,520 –> 00:07:18,000
توکن های مختلف در واقع کلیدواژه هایی
183
00:07:18,000 –> 00:07:19,599
هستند که در داخل آن وجود دارند،
184
00:07:19,599 –> 00:07:22,639
بنابراین اکنون از میان این کلمات کلیدی، آنچه
185
00:07:22,639 –> 00:07:24,080
برای شما ضروری است
186
00:07:24,080 –> 00:07:25,680
که به مورد استفاده شما بستگی دارد،
187
00:07:25,680 –> 00:07:27,440
بنابراین من یک
188
00:07:27,440 –> 00:07:28,080
فعالیت تصادفی را
189
00:07:28,080 –> 00:07:31,280
فقط به خاطر خودم انجام خواهم داد، مجموعه ای از آن ها را خواهم داشت.
190
00:07:31,280 –> 00:07:34,319
کلمات کلیدی من آستانه ای قرار می دهم که
191
00:07:34,319 –> 00:07:36,400
192
00:07:36,400 –> 00:07:37,520
برای
193
00:07:37,520 –> 00:07:40,080
خلاصه کردن متن فقط به این درصد از کلمات نیاز دارم، خوب است، بنابراین طبق نظر
194
00:07:40,080 –> 00:07:42,000
شما آنچه برای شما مناسب است،
195
00:07:42,000 –> 00:07:44,319
باید آن را شناسایی کنید زیرا
196
00:07:44,319 –> 00:07:45,360
کلماتی وجود دارد
197
00:07:45,360 –> 00:07:48,479
همانطور که در اینجا می بینید،
198
00:07:48,479 –> 00:07:52,879
سالی که 2019
199
00:07:52,879 –> 00:07:56,960
است، یک سال است و 2025، بنابراین
200
00:07:56,960 –> 00:07:57,680
201
00:07:57,680 –> 00:08:01,360
اگر در مورد تاریخچه اطلاعات داشته باشید و همه چیز
202
00:08:01,360 –> 00:08:03,840
مانند رویدادهای قبلی رخ داده باشد یا زمانی
203
00:08:03,840 –> 00:08:05,440
که یک بازه
204
00:08:05,440 –> 00:08:07,919
زمانی 10 ساله یا 5 ساله را در نظر بگیرید، سال ها بسیار مهم هستند. این
205
00:08:07,919 –> 00:08:10,160
مهم ضروری است، بنابراین
206
00:08:10,160 –> 00:08:13,280
این کارها باید با دقت انجام شود
207
00:08:13,280 –> 00:08:15,919
زیرا در پایان باید خلاصه سازی را خوب انجام دهید،
208
00:08:15,919 –> 00:08:18,080
209
00:08:18,080 –> 00:08:21,759
بنابراین این نشانه ها تا اینجا هستند و اگر من
210
00:08:21,759 –> 00:08:22,800
فقط این را نظر
211
00:08:22,800 –> 00:08:24,160
دهم و همچنین می توانید ببینید
212
00:08:24,160 –> 00:08:26,160
که چه علائم نگارشی در
213
00:08:26,160 –> 00:08:28,000
این وجود دارد.
214
00:08:28,000 –> 00:08:31,120
بنابراین علائم نقطهگذاری چیزی نیست جز
215
00:08:31,120 –> 00:08:33,440
چیزی که من در مورد آن صحبت میکردم.
216
00:08:33,440 –> 00:08:34,240
217
00:08:34,240 –> 00:08:37,519
218
00:08:37,519 –> 00:08:39,760
219
00:08:39,760 –> 00:08:41,200
220
00:08:41,200 –> 00:08:43,679
221
00:08:43,679 –> 00:08:45,279
222
00:08:45,279 –> 00:08:47,120
223
00:08:47,120 –> 00:08:48,480
خوب است این چیز را دور بریزید،
224
00:08:48,480 –> 00:08:51,680
بنابراین به این ترتیب کار می کند
225
00:08:52,320 –> 00:08:54,720
و سپس کاری که ما باید انجام دهیم این است که از آنجایی
226
00:08:54,720 –> 00:08:56,000
که این نشانه ها را
227
00:08:56,000 –> 00:08:58,720
داریم، حالا می خواهیم این را بشماریم که چند
228
00:08:58,720 –> 00:09:00,240
بار تکرار می شود
229
00:09:00,240 –> 00:09:03,040
یا یک کلمه نادر است یا اگر
230
00:09:03,040 –> 00:09:04,480
بیش از یک بار اتفاق بیفتد،
231
00:09:04,480 –> 00:09:06,839
بنابراین من یک فرهنگ لغت را حفظ می کنم،
232
00:09:06,839 –> 00:09:08,399
233
00:09:08,399 –> 00:09:10,080
یک ساختار داده پایه است
234
00:09:10,080 –> 00:09:12,560
که برای جفت های مقادیر کلیدی
235
00:09:12,560 –> 00:09:16,399
در صفحه کلیدها است، کلمه را قرار می دهم
236
00:09:16,399 –> 00:09:18,720
و در مقدار i’ll حفظ
237
00:09:18,720 –> 00:09:21,279
فراوانی که چند بار اتفاق می افتد،
238
00:09:21,279 –> 00:09:24,160
بنابراین این فرهنگ لغت من است و در داخل این
239
00:09:24,160 –> 00:09:26,320
فرهنگ لغت که برای هر کلمه ای در
240
00:09:26,320 –> 00:09:27,440
سند
241
00:09:27,440 –> 00:09:30,320
من است که از بالا دریافت کردم، ابتدا
242
00:09:30,320 –> 00:09:33,360
همه چیز را
243
00:09:33,680 –> 00:09:37,279
به حروف کوچک تبدیل می کنم و نه به کلمات موجودی، بنابراین کلمات را
244
00:09:37,279 –> 00:09:39,040
متوقف کنید، من لمس نمی کنم. من نگران کلمات توقف نیستم،
245
00:09:39,040 –> 00:09:41,279
246
00:09:41,279 –> 00:09:43,440
بنابراین باید به این ترتیب بنویسم به جز
247
00:09:43,440 –> 00:09:44,959
از کلمات توقف هر چیزی
248
00:09:44,959 –> 00:09:46,870
که در سند
249
00:09:46,870 –> 00:09:49,440
[Music]
250
00:09:49,440 –> 00:09:52,080
وجود دارد، باید آن را با حروف کوچک نگه دارم،
251
00:09:52,080 –> 00:09:53,600
خوب کلمات
252
00:09:53,600 –> 00:09:56,800
توقف به طور کلی هستند، منظورم این است
253
00:09:56,800 –> 00:09:58,959
که با آن خاص مشترک هستند. کتابخانه فضایی
254
00:09:58,959 –> 00:10:00,000
از آنجایی که
255
00:10:00,000 –> 00:10:01,839
ما از اینجا دریافت کرده ایم، بنابراین به طور خودکار
256
00:10:01,839 –> 00:10:03,839
257
00:10:03,839 –> 00:10:06,720
مقایسه را شناسایی می کند که شباهت بین
258
00:10:06,720 –> 00:10:08,560
کلمات توقفی که دارد
259
00:10:08,560 –> 00:10:10,079
و کلمات توقفی که در
260
00:10:10,079 –> 00:10:13,680
داخل این 5 گرم نقطه txt خاص وجود دارد را شناسایی می کند،
261
00:10:13,680 –> 00:10:16,959
سپس دوباره تمام متن را تبدیل می کنیم. برای پایین آوردن
262
00:10:16,959 –> 00:10:17,680
263
00:10:17,680 –> 00:10:19,200
که نباید در علائم نگارشی باشد،
264
00:10:19,200 –> 00:10:21,440
بنابراین ما نیز علاقه ای به درست
265
00:10:21,440 –> 00:10:22,959
کردن علائم نگارشی نداریم
266
00:10:22,959 –> 00:10:26,880
و اگر آن
267
00:10:26,880 –> 00:10:28,800
متن کلمه نقطه در فرکانس ها وجود نداشته باشد،
268
00:10:28,800 –> 00:10:30,480
کلیدهای نقطه ای وجود ندارد،
269
00:10:30,480 –> 00:10:33,120
بنابراین اگر به خاطر داشته باشید کلیدها چیزی
270
00:10:33,120 –> 00:10:34,880
جز کلمات ما نیستند در واقع
271
00:10:34,880 –> 00:10:37,839
این موارد هستند. بنابراین اگر
272
00:10:37,839 –> 00:10:38,880
اینطور نیست،
273
00:10:38,880 –> 00:10:40,640
برای اولین بار که
274
00:10:40,640 –> 00:10:42,640
اضافه می شود بسیار خوب است،
275
00:10:42,640 –> 00:10:45,600
بنابراین فرکانس های نقطه ای کلمه در داخل
276
00:10:45,600 –> 00:10:47,760
این شمارنده را یک عدد نگه می دارد، بنابراین
277
00:10:47,760 –> 00:10:50,240
اگر آن کلمه برای اولین بار است یا اگر
278
00:10:50,240 –> 00:10:50,880
279
00:10:50,880 –> 00:10:53,920
کلمه بسیار نادری در کل سند باشد، ما
280
00:10:53,920 –> 00:10:55,360
آن مقدار را به عنوان یک نگه میداریم
281
00:10:55,360 –> 00:10:57,839
و اگر اینطور نیست اگر
282
00:10:57,839 –> 00:11:00,000
بیش از یک بار تکرار شود، فقط
283
00:11:00,000 –> 00:11:02,560
شمارنده را افزایش میدهیم، بنابراین هر بار
284
00:11:02,560 –> 00:11:04,240
که اساساً آن کلمه را میشماریم،
285
00:11:04,240 –> 00:11:05,680
286
00:11:05,680 –> 00:11:09,600
مثلاً کلمه سلولی است، بنابراین
287
00:11:09,600 –> 00:11:12,320
i را میشماریم. به معنی شمارش اولیه انسان یا
288
00:11:12,320 –> 00:11:12,959
289
00:11:12,959 –> 00:11:15,920
روش معمولی که ما فقط شمارش می کنیم،
290
00:11:15,920 –> 00:11:18,000
فقط با مداد
291
00:11:18,000 –> 00:11:19,920
در آن تبلوید یا مقاله خاص زیر آن خط می زنیم
292
00:11:19,920 –> 00:11:21,120
که چند بار
293
00:11:21,120 –> 00:11:23,360
آن کلمه سلولی خاص
294
00:11:23,360 –> 00:11:24,959
ظاهر می شود، فقط آن را
295
00:11:24,959 –> 00:11:28,160
می شماریم تا همان منطق. c آیا
296
00:11:28,160 –> 00:11:31,200
رفتن به اینجا زیاد جالب نیست، خوب است،
297
00:11:31,200 –> 00:11:34,079
بنابراین اگر اینطور باشد، من فقط
298
00:11:34,079 –> 00:11:34,720
این را اجرا می کنم
299
00:11:34,720 –> 00:11:37,760
و می
300
00:11:37,760 –> 00:11:40,399
بینید که یک فرهنگ لغت حاوی
301
00:11:40,399 –> 00:11:42,000
جفت های ارزش کلیدی برای همه
302
00:11:42,000 –> 00:11:43,920
کلمات موجود و فرکانس آنها ارائه
303
00:11:43,920 –> 00:11:45,200
می دهد، بنابراین
304
00:11:45,200 –> 00:11:46,200
ابتدا چیزی که شما می توانید
305
00:11:46,200 –> 00:11:48,720
ارتباطات راه دور را ببینید فقط یک
306
00:11:48,720 –> 00:11:51,920
کلمه به این معنی است که یک کلمه بسیار نادر است، سپس
307
00:11:51,920 –> 00:11:56,240
5 از 5g آن 16 برابر
308
00:11:56,240 –> 00:11:59,440
g ظاهر می شود که 21 بار ظاهر می شود
309
00:11:59,440 –> 00:12:02,000
و احتمالاً من معتقدم که می توانم شرط ببندم این
310
00:12:02,000 –> 00:12:03,760
311
00:12:03,760 –> 00:12:05,920
کلمه بالاترین فرکانس است زیرا این
312
00:12:05,920 –> 00:12:07,760
یک الفبای فردی است
313
00:12:07,760 –> 00:12:11,360
بسیار خوب پس شانس بیشتری وجود دارد یا
314
00:12:11,360 –> 00:12:13,200
احتمال اینکه یک
315
00:12:13,200 –> 00:12:15,200
الفبای فردی بتواند فرکانس بیشتری
316
00:12:15,200 –> 00:12:16,639
نسبت به کل دنیا داشته باشد
317
00:12:16,639 –> 00:12:19,600
بسیار خوب است، بنابراین این فقط یک
318
00:12:19,600 –> 00:12:20,880
تجزیه و تحلیل آماری است
319
00:12:20,880 –> 00:12:23,600
که می توانیم انجام دهیم اما اوه اینجا هیچ آماری انجام نمی دهیم
320
00:12:23,600 –> 00:12:25,200
فقط
321
00:12:25,200 –> 00:12:29,120
خلاصه اسناد کوچک است.
322
00:12:29,120 –> 00:12:32,320
بنابراین هنگامی که این کار را انجام دادید،
323
00:12:32,320 –> 00:12:34,560
بنابراین ما می خواهیم حداکثر فرکانس را از این بدست آوریم،
324
00:12:34,560 –> 00:12:35,680
325
00:12:35,680 –> 00:12:39,519
بنابراین من معتقدم که این
326
00:12:39,519