در این مطلب، ویدئو پردازش داده های صوتی در پایتون 2022 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:19:52
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,399 –> 00:00:02,240
سلام یوتیوب نام من rob است و من یک
2
00:00:02,240 –> 00:00:04,560
دانشمند داده هستم، ویدیوهایی در مورد
3
00:00:04,560 –> 00:00:07,200
یادگیری ماشینی و کدنویسی در پایتون در
4
00:00:07,200 –> 00:00:08,880
ویدیوی امروزی که قرار است
5
00:00:08,880 –> 00:00:12,000
در مورد کار با داده های صوتی در پایتون یاد
6
00:00:12,000 –> 00:00:13,920
بگیریم، چیزهای جالب زیادی وجود دارد که می توانید با صدا انجام دهید.
7
00:00:13,920 –> 00:00:16,320
و پایتون اما در ابتدا می تواند
8
00:00:16,320 –> 00:00:18,720
بسیار زیاد باشد زیرا لزوماً نمی توانید
9
00:00:18,720 –> 00:00:21,199
داده ها را به
10
00:00:21,199 –> 00:00:24,800
همان روشی که می توانید داده های جدولی یا تصویری را تجسم کنید
11
00:00:24,800 –> 00:00:26,560
تا پایان این ویدیو باید
12
00:00:26,560 –> 00:00:28,800
بتوانید در یک فایل صوتی بارگذاری کنید و
13
00:00:28,800 –> 00:00:31,279
برخی از ویژگی ها را بررسی کنید. از آن و
14
00:00:31,279 –> 00:00:33,200
آن را برای الگوریتم یادگیری ماشینی آماده کنید،
15
00:00:33,200 –> 00:00:35,440
اما قبل از اینکه خیلی دور شویم، اگر
16
00:00:35,440 –> 00:00:38,239
از این ویدیوها لذت می برید، لطفاً
17
00:00:38,239 –> 00:00:40,640
لایک کنید و کانال من را مشترک کنید، من
18
00:00:40,640 –> 00:00:42,640
واقعاً ممنون می شوم اکنون هر کاری
19
00:00:42,640 –> 00:00:44,480
را که امروز انجام خواهم داد، با یک کگل انجام دهم.
20
00:00:44,480 –> 00:00:46,320
نوت بوک را در
21
00:00:46,320 –> 00:00:48,399
توضیحات زیر پیوند می دهم تا بتوانید روی آن لینک کلیک کنید
22
00:00:48,399 –> 00:00:49,200
23
00:00:49,200 –> 00:00:51,920
و خودتان کد را کاوش
24
00:00:51,920 –> 00:00:54,000
کنید، بیایید شروع کنیم،
25
00:00:54,000 –> 00:00:55,920
بنابراین در اینجا ما در حال کار با نوت بوک صوتی
26
00:00:55,920 –> 00:00:57,120
و پایتون هستیم
27
00:00:57,120 –> 00:00:59,440
که من قبل از شروع کار ایجاد کرده ام.
28
00:00:59,440 –> 00:01:00,879
با این حال، میخواهم
29
00:01:00,879 –> 00:01:03,039
مجموعه دادههای صوتی را که با آن کار خواهیم کرد به شما نشان دهم
30
00:01:03,039 –> 00:01:04,720
31
00:01:04,720 –> 00:01:06,799
و به شما نشان میدهم که در
32
00:01:06,799 –> 00:01:10,159
اینجا آن را در قسمت add data
33
00:01:10,159 –> 00:01:12,640
سمت راست نوتبوک وارد کردهام، مجموعه دادهای
34
00:01:12,640 –> 00:01:14,640
که ما خواهیم بود کار با
35
00:01:14,640 –> 00:01:18,159
مجموعه دادههای صوتی گفتار احساسی ravness نامیده
36
00:01:18,159 –> 00:01:20,000
میشود و شامل مجموعهای از صداپیشههای مختلف است
37
00:01:20,000 –> 00:01:21,520
38
00:01:21,520 –> 00:01:24,000
که عبارات مشابه و
39
00:01:24,000 –> 00:01:26,880
لحنهای احساسی متفاوتی را میگویند، بنابراین بیایید به اینجا برویم
40
00:01:26,880 –> 00:01:29,200
و نمونهای از
41
00:01:29,200 –> 00:01:31,040
سگهایی را نشان دهیم که خوب و متفاوت کنار در نشستهاند.
42
00:01:31,040 –> 00:01:32,479
43
00:01:32,479 –> 00:01:34,799
44
00:01:34,799 –> 00:01:37,680
سگهای نسخه در کنار در نشستهاند
45
00:01:37,680 –> 00:01:39,680
جالب است، بنابراین این مجموعه دادههای صوتی است
46
00:01:39,680 –> 00:01:41,439
که ما با آن کار خواهیم کرد،
47
00:01:41,439 –> 00:01:43,439
بنابراین قبل از اینکه خیلی دور شویم
48
00:01:43,439 –> 00:01:46,000
باید مقداری واردات
49
00:01:46,000 –> 00:01:47,920
انجام دهیم و واردات استاندارد را انجام میدهیم،
50
00:01:47,920 –> 00:01:50,479
بنابراین پانداها را به صورت pd وارد کنید
51
00:01:50,479 –> 00:01:51,520
import
52
00:01:51,520 –> 00:01:53,600
numpy
53
00:01:53,600 –> 00:01:55,360
که به ما امکان میدهد از
54
00:01:55,360 –> 00:01:57,360
کار با آرایههای برداری استفاده کنیم،
55
00:01:57,360 –> 00:01:59,280
56
00:01:59,280 –> 00:02:01,040
57
00:02:01,040 –> 00:02:02,960
برخی از بستههای [Music] را برای ترسیم نمودار مانند
58
00:02:02,960 –> 00:02:05,360
matplotlib وارد میکنیم و
59
00:02:05,360 –> 00:02:07,200
seaborn را
60
00:02:07,200 –> 00:02:09,758
بهعنوان sns وارد
61
00:02:09,758 –> 00:02:13,760
میکنیم، همچنین از بستهای
62
00:02:14,239 –> 00:02:16,160
به نام glob
63
00:02:16,160 –> 00:02:18,959
و glob allow استفاده میکنیم. ما
64
00:02:18,959 –> 00:02:20,879
تمام f را فهرست کنیم iles در یک دایرکتوری
65
00:02:20,879 –> 00:02:23,360
که زمانی مفید خواهد بود که
66
00:02:23,360 –> 00:02:25,440
بخواهیم دستهای از فایلهای wav را از
67
00:02:25,440 –> 00:02:27,920
این مجموعه داده بخوانیم
68
00:02:27,920 –> 00:02:29,440
و سپس بسته اصلی را
69
00:02:29,440 –> 00:02:31,599
که برای کار با دادههای صوتی وارد
70
00:02:31,599 –> 00:02:33,920
میکنیم، librosa نام دارد، بنابراین ما میخواهیم
71
00:02:33,920 –> 00:02:34,840
72
00:02:34,840 –> 00:02:36,720
librosa را وارد کنید
73
00:02:36,720 –> 00:02:40,560
و ما نمایشگر libros را نیز وارد کنیم،
74
00:02:40,560 –> 00:02:43,280
75
00:02:43,360 –> 00:02:44,720
من
76
00:02:44,720 –> 00:02:47,120
میخواهم بتوانم برخی از این فایلهای صوتی خودکار
77
00:02:47,120 –> 00:02:49,519
را در نوتبوک پخش کنم
78
00:02:49,519 –> 00:02:50,959
79
00:02:50,959 –> 00:02:52,000
80
00:02:52,000 –> 00:02:54,720
، بنابراین ماژول نمایش ipython را وارد میکنم، بنابراین
81
00:02:54,720 –> 00:02:57,840
82
00:02:57,840 –> 00:02:59,120
صفحه نمایش پایتون را
83
00:02:59,120 –> 00:03:01,200
به عنوان ipd وارد کنم
84
00:03:01,200 –> 00:03:03,599
و سپس من در واقع می خواهم
85
00:03:03,599 –> 00:03:05,680
چند واردات دیگر را بچسبانم و اینها عمدتاً
86
00:03:05,680 –> 00:03:07,519
فقط برای
87
00:03:07,519 –> 00:03:10,319
رنگ ها هستند و باعث می شوند نقشه های من کمی زیباتر به نظر برسند،
88
00:03:10,319 –> 00:03:13,440
بنابراین بیایید جلوتر برویم و
89
00:03:13,440 –> 00:03:16,400
آنها را در
90
00:03:16,720 –> 00:03:19,120
اینجا بچسبانیم و آن سلول را
91
00:03:19,120 –> 00:03:21,760
کاملاً درست کنیم تا ما همه واردات را دریافت
92
00:03:21,760 –> 00:03:23,599
کنیم. فقط به طور خلاصه در
93
00:03:23,599 –> 00:03:25,440
مورد برخی از اصطلاحات صحبت می
94
00:03:25,440 –> 00:03:27,760
کنیم که برای کار با
95
00:03:27,760 –> 00:03:29,440
فایل های صوتی در پایتون
96
00:03:29,440 –> 00:03:30,560
باید
97
00:03:30,560 –> 00:03:33,360
آنها را درک کنید تا در جزئیات زیاد نباشید، اما
98
00:03:33,360 –> 00:03:36,000
ما باید در مورد
99
00:03:36,000 –> 00:03:38,959
فرکانس یک فایل صوتی بیاموزیم تا فرکانس فقط
100
00:03:38,959 –> 00:03:41,680
در مورد آن به عنوان آنچه توصیف می کند فکر کنید
101
00:03:41,680 –> 00:03:45,040
تفاوت ها و طول موج ها در فایل،
102
00:03:45,040 –> 00:03:46,720
بنابراین هر صوتی
103
00:03:46,720 –> 00:03:49,599
دارای نوعی فرکانس یا فرکانس های متعدد
104
00:03:49,599 –> 00:03:51,519
در درون خود است
105
00:03:51,519 –> 00:03:53,760
و این تصویر به نوعی
106
00:03:53,760 –> 00:03:57,519
تفاوت بین صدای فرکانس پایین
107
00:03:57,519 –> 00:04:01,040
و فرکانس بالا یا طول موج کوتاه را به شما نشان می دهد و
108
00:04:01,040 –> 00:04:02,879
اکنون دومین چیزی است که باید در آن نگه داریم.
109
00:04:02,879 –> 00:04:06,560
ذهن، شدت خود فایل صوتی
110
00:04:06,560 –> 00:04:09,439
است، بنابراین نه تنها
111
00:04:09,439 –> 00:04:12,000
طول موج که فرکانس است، بلکه
112
00:04:12,000 –> 00:04:14,400
میزان بلندی هر یک از این
113
00:04:14,400 –> 00:04:17,199
امواج برای هر فرکانس است
114
00:04:17,199 –> 00:04:18,079
115
00:04:18,079 –> 00:04:20,399
، تغییر در زیر و بمی
116
00:04:20,399 –> 00:04:22,079
فرکانس اینجا در سمت چپ است، اما
117
00:04:22,079 –> 00:04:23,919
تغییر در شدت آن است.
118
00:04:23,919 –> 00:04:26,160
میزان بلندی صدا و روش اندازه گیری
119
00:04:26,160 –> 00:04:28,400
ما در توان یا دسی بل است و
120
00:04:28,400 –> 00:04:30,160
سپس آخرین چیزی که باید بدانیم این است
121
00:04:30,160 –> 00:04:33,120
که وقتی کامپیوتر با صدا سروکار دارد،
122
00:04:33,120 –> 00:04:36,479
در واقع مشاهدات گسسته ای از
123
00:04:36,479 –> 00:04:38,000
فایل صوتی دارد
124
00:04:38,000 –> 00:04:41,199
و مانند صدای واقعی
125
00:04:41,199 –> 00:04:43,360
که از آن خارج می شود، پیوسته نیست.
126
00:04:43,360 –> 00:04:45,360
چیزی که ممکن است بشنوید
127
00:04:45,360 –> 00:04:47,759
و روشی که ما
128
00:04:47,759 –> 00:04:50,560
تعداد دفعات نمونه برداری از
129
00:04:50,560 –> 00:04:54,160
فایل صوتی را اندازه گیری می کنیم با استفاده از
130
00:04:54,160 –> 00:04:56,960
چیزی به نام نرخ نمونه است.
131
00:04:56,960 –> 00:05:00,560
در مورد نرخ نمونه به عنوان کیفیت
132
00:05:00,560 –> 00:05:03,039
یا جزئیات
133
00:05:03,039 –> 00:05:04,880
مربوط به فایل صوتی که می گیریم
134
00:05:04,880 –> 00:05:05,600
135
00:05:05,600 –> 00:05:08,000
یا وضوح صدا و این
136
00:05:08,000 –> 00:05:10,240
تصویر به نظر من عالی است زیرا به
137
00:05:10,240 –> 00:05:12,960
نوعی نشان می دهد که چگونه نرخ نمونه بالا
138
00:05:12,960 –> 00:05:16,000
جزئیات بیشتری را وارد می کند. هر موج از
139
00:05:16,000 –> 00:05:19,280
فایل صوتی و بیشتر از نرخ نمونه پایین است
140
00:05:19,280 –> 00:05:21,360
و نرخ نمونه خاصی
141
00:05:21,360 –> 00:05:23,759
وجود دارد که معمولا استفاده می شود زیرا در آن
142
00:05:23,759 –> 00:05:25,039
نرخ نمونه
143
00:05:25,039 –> 00:05:28,720
گوش ما می تواند بیشتر صدا را
144
00:05:28,720 –> 00:05:29,919
با
145
00:05:29,919 –> 00:05:32,639
سرعت نمونه یا بالاتر از آن بشنود، بنابراین این مجموعه داده
146
00:05:32,639 –> 00:05:35,440
از یک دسته تشکیل شده است. پوشه هایی که هر کدام
147
00:05:35,440 –> 00:05:36,240
دارای
148
00:05:36,240 –> 00:05:38,800
فایل های wav هستند و ما می توانیم
149
00:05:38,800 –> 00:05:40,400
از بسته glob
150
00:05:40,400 –> 00:05:43,840
برای یافتن لیست تمام آن فایل ها استفاده کنیم، بنابراین من
151
00:05:43,840 –> 00:05:45,440
فقط به این دایرکتوری می روم و
152
00:05:45,440 –> 00:05:47,199
می توانید ببینید که برای
153
00:05:47,199 –> 00:05:50,720
هر بازیگر و هر یک از آنها پوشه هایی وجود دارد. در
154
00:05:50,720 –> 00:05:53,600
واقع یک فایل برای هر ضبطی
155
00:05:53,600 –> 00:05:55,520
که از آن بازیگر داریم وجود دارد
156
00:05:55,520 –> 00:05:58,319
و من فقط میخواهم فهرستی
157
00:05:58,319 –> 00:06:01,120
از تمام فایلهای wav در کل
158
00:06:01,120 –> 00:06:03,919
مجموعه داده را با قرار دادن ستارهها در اینجا،
159
00:06:03,919 –> 00:06:05,600
جایی که میخواهم glob
160
00:06:05,600 –> 00:06:08,960
را با هر فایلی که وجود دارد جایگزین کند، تهیه کنم،
161
00:06:08,960 –> 00:06:10,960
162
00:06:10,960 –> 00:06:12,560
بنابراین اگر من اجرا می کنم
163
00:06:12,560 –> 00:06:14,639
من در اینجا لیستی از همه
164
00:06:14,639 –> 00:06:17,680
فایلهای مختلف در محل
165
00:06:17,680 –> 00:06:21,759
166
00:06:21,759 –> 00:06:24,800
167
00:06:24,800 –> 00:06:26,720
168
00:06:26,720 –> 00:06:28,560
169
00:06:28,560 –> 00:06:32,800
فایلشان خواهم داشت، بنابراین میخواهم این فایلهای صوتی را صدا کنم و بیایید جلوتر برویم و سعی کنیم به یکی از این فایلهای صوتی گوش دهیم، بنابراین اگر به خاطر دارید ماژول نمایش ipython را وارد کردیم. و من می توانم انجام دهم که
170
00:06:32,800 –> 00:06:35,440
نمایش مسیر
171
00:06:35,440 –> 00:06:37,759
به یکی از این فایل های صوتی را انجام دهم، اجازه دهید
172
00:06:37,759 –> 00:06:40,319
اولین مورد در لیست را انجام
173
00:06:40,319 –> 00:06:42,240
دهیم و اینجا در نوت بوک به نوعی خوب است،
174
00:06:42,240 –> 00:06:43,759
175
00:06:43,759 –> 00:06:48,919
اجازه دهید این فایل صوتی پخش
176
00:06:49,199 –> 00:06:50,960
را بنامیم، خوب است زیرا در نوت بوک ما
177
00:06:50,960 –> 00:06:52,639
در واقع یک پخش کننده را در اینجا دریافت می کنیم. ما
178
00:06:52,639 –> 00:06:54,319
میتوانیم به آن گوش دهیم بچهها در حال صحبت کردن در
179
00:06:54,319 –> 00:06:55,280
کنار در هستند،
180
00:06:55,280 –> 00:06:57,759
بنابراین ما میتوانیم آن را خوب بشنویم،
181
00:06:57,759 –> 00:07:01,360
اما در واقع فایل را نخواندهایم
182
00:07:01,360 –> 00:07:03,039
و دادهای برای دستکاری
183
00:07:03,039 –> 00:07:04,800
نداریم وقتی این کار را انجام میدهیم، این خوب است، زیرا
184
00:07:04,800 –> 00:07:06,319
میتوانیم به آن گوش دهیم.
185
00:07:06,319 –> 00:07:08,160
اما ما میخواهیم در واقع با
186
00:07:08,160 –> 00:07:11,199
دادههای خام و نحوه بارگذاری آن
187
00:07:11,199 –> 00:07:14,479
با librosa سروکار داشته باشیم، بنابراین librosa
188
00:07:14,479 –> 00:07:18,720
dot read به ما اجازه میدهد در یک فایل بخوانیم
189
00:07:18,720 –> 00:07:21,199
و همین فایل صوتی
190
00:07:21,199 –> 00:07:23,440
191
00:07:23,440 –> 00:07:26,160
را به تابع خواندن منتقل میکنیم
192
00:07:26,160 –> 00:07:28,720
و آن را
193
00:07:28,720 –> 00:07:30,560
آنچه را که به صورت y و sr برای نرخ نمونه ذخیره می کنیم را خروجی می دهد
194
00:07:30,560 –> 00:07:34,319
195
00:07:34,319 –> 00:07:37,919
اکنون y داده خام
196
00:07:37,919 –> 00:07:40,800
فایل صوتی خواهد بود و sr یک
197
00:07:40,800 –> 00:07:42,400
مقدار صحیح
198
00:07:42,400 –> 00:07:44,240
از نرخ نمونه است که قبلاً در مورد آن صحبت می کردیم،
199
00:07:44,240 –> 00:07:46,879
200
00:07:47,120 –> 00:07:50,560
بنابراین بیایید ادامه دهیم و این را اجرا کنیم
201
00:07:51,840 –> 00:07:55,599
و این بار خوانده نمی شود
202
00:07:55,599 –> 00:07:58,639
و اکنون می توانیم ببینیم ما یک آرایه numpy
203
00:07:58,639 –> 00:07:59,919
مانند این داریم
204
00:07:59,919 –> 00:08:00,800
که
205
00:08:00,800 –> 00:08:03,919
تمام داده های صوتی است، واقعاً یک آرایه numpy طولانی است
206
00:08:03,919 –> 00:08:06,240
207
00:08:06,240 –> 00:08:09,199
و ما همچنین نرخ نمونه را در اینجا داریم، بنابراین
208
00:08:09,199 –> 00:08:10,800
من این را چاپ می
209
00:08:10,800 –> 00:08:14,560
کنم و 22050 است،
210
00:08:14,560 –> 00:08:16,240
چرا ما ادامه نمی دهیم و این را چاپ نمی کنیم، پس
211
00:08:16,240 –> 00:08:18,879
بیایید چاپ کنیم
212
00:08:18,960 –> 00:08:21,520
y به این شکل است،
213
00:08:21,520 –> 00:08:25,199
اجازه دهید فقط 10 مقدار اول را چاپ کنیم
214
00:08:25,199 –> 00:08:26,800
و
215
00:08:26,800 –> 00:08:31,039
شکل y را
216
00:08:31,039 –> 00:08:34,159
چاپ کنیم که و print
217
00:08:34,159 –> 00:08:38,320
sr sr است،
218
00:08:38,320 –> 00:08:41,039
بنابراین در اینجا می بینیم که چند مقدار اول
219
00:08:41,039 –> 00:08:43,360
این آرایه فقط
220
00:08:43,360 –> 00:08:45,920
صفر هستند، شکل
221
00:08:45,920 –> 00:08:48,560
فایل صوتی را داریم که وارد کردیم و ما
222
00:08:48,560 –> 00:08:52,640
همچنین نرخ نمونه بسیار خوبی داریم،
223
00:08:52,640 –> 00:08:55,839
بیایید از اینجا ادامه دهیم
224
00:08:55,839 –> 00:08:58,240
و در واقع این داده ها را ترسیم کنیم تا
225
00:08:58,240 –> 00:09:00,320
ایده ای از شکل ظاهری آن
226
00:09:00,320 –> 00:09:03,440
بدست آوریم، بنابراین
227
00:09:03,440 –> 00:09:05,200
اگر ما
228
00:09:05,200 –> 00:09:07,279
آن را به یک سری پاندا تبدیل کنیم، ترسیم آرایه ناقص um کمی آسان تر است. پس
229
00:09:07,279 –> 00:09:08,800
230
00:09:08,800 –> 00:09:11,839
بیایید پانداها را بگیریم و این آرایه را به صورت یک
231
00:09:11,839 –> 00:09:15,040
سری در حال حاضر بپیچیم یک سری پاندا
232
00:09:15,040 –> 00:09:17,600
از دادههای صوتی
233
00:09:17,600 –> 00:09:19,920
و سپس میتوانیم از روش نمودار
234
00:09:19,920 –> 00:09:23,200
خارج از آرایه پانداها استفاده کنیم،
235
00:09:23,200 –> 00:09:27,040
پس بیایید جلوتر برویم و به آن اندازه انجیر
236
00:09:27,040 –> 00:09:30,959
بدهیم که آن را زیبا و گسترده
237
00:09:30,959 –>