در این مطلب، ویدئو تشخیص گفتار در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:07:32
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:04,240 –> 00:00:09,280
[موسیقی]
2
00:00:09,280 –> 00:00:10,880
بچهها به چه اتفاقی میافتد خوش آمدید در
3
00:00:10,880 –> 00:00:12,320
ویدیوی امروز ما یاد میگیریم که
4
00:00:12,320 –> 00:00:14,559
چگونه از تشخیص گفتار در پایتون استفاده کنیم، بنابراین بیایید همین
5
00:00:14,559 –> 00:00:16,239
6
00:00:16,239 –> 00:00:17,520
الان به همه چیز
7
00:00:17,520 –> 00:00:19,199
بپردازیم تا بتوانیم از تشخیص گفتار در پایتون استفاده کنیم، باید
8
00:00:19,199 –> 00:00:20,720
دو کتابخانه نصب کنیم و اولی دارای
9
00:00:20,720 –> 00:00:21,600
نام خلاقانه
10
00:00:21,600 –> 00:00:23,359
تشخیص گفتار است، بنابراین باید بگوییم که پیپ
11
00:00:23,359 –> 00:00:24,960
3
12
00:00:24,960 –> 00:00:27,920
تشخیص گفتار را به این صورت نصب کند و
13
00:00:27,920 –> 00:00:29,679
دومی کمی
14
00:00:29,679 –> 00:00:30,320
رمزآلودتر است،
15
00:00:30,320 –> 00:00:33,600
p y t t s x سه است و من حتی نمی
16
00:00:33,600 –> 00:00:34,960
دانم که مخفف آن چیست،
17
00:00:34,960 –> 00:00:38,079
اما این ماژول این ماژول p y t t
18
00:00:38,079 –> 00:00:40,960
s x three مبتنی بر صدای pi است
19
00:00:40,960 –> 00:00:41,440
و فقط
20
00:00:41,440 –> 00:00:44,800
یک هشدار کوچک در اینجا نصب صدای pi
21
00:00:44,800 –> 00:00:47,039
همیشه ساده نیست، بنابراین گاهی اوقات
22
00:00:47,039 –> 00:00:48,719
شما با خطاهایی
23
00:00:48,719 –> 00:00:52,399
مواجه می شوید که نصب صدای pi ممکن است دشوار باشد،
24
00:00:52,399 –> 00:00:53,600
بگذارید اینطور
25
00:00:53,600 –> 00:00:56,239
بگوییم معمولاً تنها کاری که باید انجام دهید این است یا
26
00:00:56,239 –> 00:00:57,920
در واقع اگر با نصب این کتابخانه اشتباهی نداشته باشید، به طور خودکار نصب
27
00:00:57,920 –> 00:00:59,520
می شود،
28
00:00:59,520 –> 00:01:00,879
29
00:01:00,879 –> 00:01:03,039
اما معمولاً فقط می گویید pip install و
30
00:01:03,039 –> 00:01:04,640
سپس pi audio
31
00:01:04,640 –> 00:01:07,840
um یا pip3 نصب pi audio در لینوکس را
32
00:01:07,840 –> 00:01:09,840
انجام دهید. گاهی اوقات باید
33
00:01:09,840 –> 00:01:13,280
sudo apt را حداقل در
34
00:01:13,280 –> 00:01:16,080
نسخه مبتنی بر دبیان انجام دهید sudo apt install
35
00:01:16,080 –> 00:01:16,640
و سپس
36
00:01:16,640 –> 00:01:19,680
37
00:01:19,680 –> 00:01:22,400
صدای پایتون 3 dash pi را انجام دهید و گاهی اوقات
38
00:01:22,400 –> 00:01:24,560
در ویندوز یا لینوکس با خطاهایی روبرو
39
00:01:24,560 –> 00:01:26,080
می شوید و ممکن است مجبور شوید
40
00:01:26,080 –> 00:01:27,360
فایل های چرخ را به صورت دستی
41
00:01:27,360 –> 00:01:30,720
نصب کنید. برای استفاده از فناوری کاربر داش dash و
42
00:01:30,720 –> 00:01:31,439
غیره،
43
00:01:31,439 –> 00:01:33,200
اما فکر میکنم این در
44
00:01:33,200 –> 00:01:35,119
دسته گوگل قرار میگیرد، بنابراین
45
00:01:35,119 –> 00:01:36,960
ویدیویی را که
46
00:01:36,960 –> 00:01:38,479
چند
47
00:01:38,479 –> 00:01:41,119
هفته یا چند روز پیش آپلود کردم، تماشا کنید، که هنر
48
00:01:41,119 –> 00:01:42,880
گوگلکردن بهعنوان برنامهنویس یا گوگلکردن به عنوان یک برنامهنویس است.
49
00:01:42,880 –> 00:01:44,640
superpower من نمی
50
00:01:44,640 –> 00:01:46,720
توانم عنوان دقیق آن را به خاطر بسپارم
51
00:01:46,720 –> 00:01:48,079
شما می توانید یاد بگیرید که چگونه به
52
00:01:48,079 –> 00:01:49,759
درستی در گوگل جستجو کنید و فقط
53
00:01:49,759 –> 00:01:51,439
اگر در هنگام
54
00:01:51,439 –> 00:01:53,759
نصب این کتابخانه ها با اشتباهاتی مواجه شدید فقط در گوگل جستجو کنید
55
00:01:53,759 –> 00:01:55,920
و راه حل خود را پیدا کنید
56
00:01:55,920 –> 00:01:58,000
57
00:01:58,000 –> 00:01:59,520
پس ما فقط یک فایل پایتون جدید ایجاد می کنیم
58
00:01:59,520 –> 00:02:01,439
و در اینجا
59
00:02:01,439 –> 00:02:02,799
60
00:02:02,799 –> 00:02:04,560
ابتدا تشخیص گفتار
61
00:02:04,560 –> 00:02:06,159
را وارد می کنیم، اما از زیرخط در اینجا استفاده می کنیم
62
00:02:06,159 –> 00:02:07,600
زیرا حتی اگر
63
00:02:07,600 –> 00:02:09,679
تشخیص گفتار را بدون هیچ گونه خالی یا
64
00:02:09,679 –> 00:02:10,878
زیرخط نصب کنیم، به h می رویم. باید
65
00:02:10,878 –> 00:02:13,440
تشخیص زیرخط گفتار را وارد
66
00:02:13,440 –> 00:02:17,040
کنیم و سپس pytt sx3 را نیز وارد
67
00:02:17,200 –> 00:02:21,440
میکنیم،
68
00:02:21,440 –> 00:02:22,800
بنابراین این دو کتابخانهای
69
00:02:22,800 –> 00:02:24,480
هستند که در اینجا وارد میکنیم
70
00:02:24,480 –> 00:02:26,160
و سپس یک شناساگر
71
00:02:26,160 –> 00:02:27,840
میسازیم، بنابراین این
72
00:02:27,840 –> 00:02:30,879
هدف ما خواهد بود. میخواهیم بگوییم
73
00:02:30,879 –> 00:02:33,120
شناساگر برابر است و این بخشی از تشخیص گفتار است،
74
00:02:33,120 –> 00:02:35,120
بنابراین تشخیصدهنده نقطه تشخیص گفتار
75
00:02:35,120 –> 00:02:36,480
76
00:02:36,480 –> 00:02:38,720
با r بزرگ و این فقط
77
00:02:38,720 –> 00:02:41,120
هدف ما خواهد بود که به سمت ما
78
00:02:41,120 –> 00:02:43,760
میرویم تا مطمئن شویم آنچه را که
79
00:02:43,760 –> 00:02:45,360
ما میگوییم متوجه میشود. میکروفون
80
00:02:45,360 –> 00:02:47,120
پس ما یک حلقه بی پایان خواهیم داشت
81
00:02:47,120 –> 00:02:48,800
، در حالی که درست است و سپس
82
00:02:48,800 –> 00:02:51,280
چیزی را امتحان می کنیم و اگر این
83
00:02:51,280 –> 00:02:54,800
کار نکرد، یک بلوک پذیرش در اینجا خواهیم داشت
84
00:02:54,800 –> 00:02:57,360
و برخی خطاها را مدیریت می کنیم یا فقط
85
00:02:57,360 –> 00:02:59,120
تکرار فعلی را رد می کنیم در اینجا
86
00:02:59,120 –> 00:03:01,440
اوم و اکنون کاری که ما در
87
00:03:01,440 –> 00:03:02,560
اینجا انجام می دهیم این است که
88
00:03:02,560 –> 00:03:05,599
با میکروفون نقطه تشخیص گفتار می
89
00:03:05,599 –> 00:03:07,040
گوییم بنابراین از یک
90
00:03:07,040 –> 00:03:08,879
میکروفون به عنوان ورودی در اینجا استفاده
91
00:03:08,879 –> 00:03:12,159
می کنیم و به عنوان میکروفون
92
00:03:12,159 –> 00:03:15,200
می گوییم
93
00:03:15,200 –> 00:03:18,480
تنظیم نقطه تشخیص برای نویز
94
00:03:18,480 –> 00:03:20,480
محیط منبع این است میکروفون و
95
00:03:20,480 –> 00:03:23,120
مدت زمان ما این را روی 0.2
96
00:03:23,120 –> 00:03:25,120
قرار می دهیم تا تشخیص دهد که چه زمانی شروع به
97
00:03:25,120 –> 00:03:27,040
صحبت می کنیم و صحبت را متوقف می کنیم
98
00:03:27,040 –> 00:03:28,799
و سپس فقط می خواهیم بگوییم صدا
99
00:03:28,799 –> 00:03:31,519
برابر است با شناساگر
100
00:03:31,519 –> 00:03:33,200
. گوش کنید من اینجا به میکروفون گوش می
101
00:03:33,200 –> 00:03:34,959
دهم و
102
00:03:34,959 –> 00:03:36,239
سپس ما فقط متن را استخراج
103
00:03:36,239 –> 00:03:39,120
می کنیم تا متن را برابر می گوییم
104
00:03:39,120 –> 00:03:41,120
و سپس می گوییم شناساگر
105
00:03:41,120 –> 00:03:43,519
نقطه تشخیص و در اینجا می توانیم از
106
00:03:43,519 –> 00:03:45,760
منبع استفاده کنیم تا بتوانیم از bing استفاده کنیم و از ibm
107
00:03:45,760 –> 00:03:46,000
و
108
00:03:46,000 –> 00:03:48,080
غیره استفاده کنیم. google چیزی است که
109
00:03:48,080 –> 00:03:49,680
ما در اینجا از آن استفاده خواهیم کرد، بنابراین شما فقط باید
110
00:03:49,680 –> 00:03:51,040
منبع
111
00:03:51,040 –> 00:03:52,879