در این مطلب، ویدئو استخراج ویژگی های صوتی با استفاده از پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:13:57
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:01,199 –> 00:00:04,960
سلام، در این مجموعه ویدیویی ما می خواهیم
یاد بگیریم که چگونه می توانیم سیگنال های صوتی را
2
00:00:04,960 –> 00:00:07,919
برای آموزش مدل های یادگیری ماشینی یا یادگیری عمیق پردازش کنیم،
3
00:00:07,919 –> 00:00:11,120
ممکن است با برنامه های بینایی
4
00:00:11,120 –> 00:00:15,920
کامپیوتری که از تصاویر به عنوان ورودی استفاده می کنند
و سپس ویژگی هایی را از آن
5
00:00:15,920 –> 00:00:21,600
ورودی ها برای آموزش مدل های یادگیری عمیق استخراج می کنند آشنا باشید. و
در نهایت برای انجام برخی کارها مانند
6
00:00:21,600 –> 00:00:25,039
طبقه بندی تصویر یا
تقسیم بندی تصویر
7
00:00:25,039 –> 00:00:30,640
، خط لوله کلی هنوز
برای پردازش صدا یکسان است، بنابراین ما صدا را به عنوان
8
00:00:30,640 –> 00:00:35,280
ورودی داریم و ویژگی ها را استخراج می کنیم،
بدیهی است که ویژگی های اینجا
9
00:00:35,280 –> 00:00:39,600
با ویژگی هایی که برای استخراج می کنیم متفاوت خواهد بود. تصاویر
تصویر
10
00:00:39,600 –> 00:00:42,480
و سپس ما از آن
11
00:00:42,480 –> 00:00:46,559
ویژگیها برای آموزش مدل یادگیری عمیق استفاده میکنیم
و سپس از آن مدلها برای هر
12
00:00:46,559 –> 00:00:51,440
هدفی که میخواهیم استفاده میکنیم
13
00:00:51,440 –> 00:00:57,920
. بنابراین من
14
00:00:57,920 –> 00:01:02,399
کمی تئوری را مرور خواهم کرد،
اما بیشتر روی این تمرکز می کنم که چگونه
15
00:01:02,399 –> 00:01:08,080
می توانیم آن ویژگی ها را در پایتون استخراج کنیم، بنابراین
بیایید وارد آن شویم
16
00:01:08,880 –> 00:01:14,000
، دستور کار
عمدتا متمرکز است در مورد استخراج ویژگی
17
00:01:14,000 –> 00:01:19,439
با استفاده از پایتون و سپس
من برخی از اصطلاحات را در اینجا دارم،
18
00:01:19,439 –> 00:01:23,680
با اصطلاحاتی اشتباه نگیرید که با
مرور کدها به تفصیل آنها را بررسی می کنیم،
19
00:01:23,680 –> 00:01:26,680
20
00:01:27,280 –> 00:01:31,600
اینها دوباره برخی از اصطلاحاتی هستند که
در مورد آنها صحبت خواهیم کرد، بنابراین ما به آنها خواهیم پرداخت. در
21
00:01:31,600 –> 00:01:36,159
مورد sdft هنگام انجام اسپکتروگرام اسپکتروگرام نر
22
00:01:36,159 –> 00:01:41,759
مقیاس دسی بل صحبت کنید و همه این موارد
نگران نباشید اگر با اینها آشنا نیستید
23
00:01:41,759 –> 00:01:46,399
زیرا من به آنها اشاره
می کنم و سعی می کنم تا حدودی توضیح دهم
24
00:01:46,399 –> 00:01:50,479
و به برخی از منابع مراجعه کنید که
واقعاً در توضیح عمیق آنها کار خوبی انجام دهید،
25
00:01:50,479 –> 00:01:55,200
خوب قبل از اینکه وارد جزئیات شویم،
26
00:01:55,200 –> 00:01:59,520
بیایید چند چیز بسیار ساده و بسیار
ساده
27
00:01:59,520 –> 00:02:03,600
در مورد
سیگنال ها یا به طور کلی چیزهای اساسی در مورد سیگنال ها را درک کنیم،
28
00:02:03,600 –> 00:02:09,679
بنابراین سیگنال هر سیگنالی را می توان در حوزه زمانی یا حوزه فرکانس مورد تجزیه و تحلیل قرار داد.
29
00:02:09,679 –> 00:02:14,239
به این معنی که
اگر مثالی از تصویر
30
00:02:14,239 –> 00:02:19,680
سمت چپ بگیریم، بنابراین یک موج سینوسی داریم که
فقط از یک فرکانس تشکیل شده است
31
00:02:19,680 –> 00:02:23,280
، نمودار در
بالا فقط سیگنال زمانی
32
00:02:23,280 –> 00:02:28,160
است که در حوزه زمان نشان داده شده است، بنابراین در
هر زمان محور x است زمان، بنابراین در هر
33
00:02:28,160 –> 00:02:32,160
زمان به ما می گوید که دامنه آن سیگنال چقدر است،
34
00:02:32,160 –> 00:02:36,480
سپس سیگنال زیر نمودار
زیر نمایش فرکانس
35
00:02:36,480 –> 00:02:40,000
همان سیگنال است
زیرا این سیگنال فقط از
36
00:02:40,000 –> 00:02:44,959
یک
فرکانس در نمودار فرکانس تشکیل شده است که
37
00:02:44,959 –> 00:02:48,640
ما فقط یک خط می بینیم.
38
00:02:48,640 –> 00:02:51,519
فقط یک فرکانس است که
در سیگنال وجود دارد،
39
00:02:51,519 –> 00:02:56,400
بنابراین این حوزه زمان است و این
حوزه فرکانس همان سیگنال است،
40
00:02:56,400 –> 00:03:00,800
حالا بیایید به
سیگنال های کمی پیچیده تر در سمت راست برویم،
41
00:03:00,800 –> 00:03:04,400
یک سیگنال داریم که از سه سیگنال تشکیل شده است.
سیگنال های جداگانه ای دارند بنابراین سه
42
00:03:04,400 –> 00:03:07,680
سیگنال مجزا از سه
فرکانس و دامنه متفاوت دارند و
43
00:03:07,680 –> 00:03:12,720
روی هم قرار می گیرند و
سیگنال حاصل نمودار وسط است
44
00:03:12,720 –> 00:03:16,720
و سپس اگر می خواهید
بدانید سیگنال
45
00:03:16,720 –> 00:03:21,680
در حوزه فرکانس چگونه است.
ما سه خط مختلف دریافت میکنیم، بنابراین در
46
00:03:21,680 –> 00:03:25,440
محور x فرکانس است و سپس
سه خط مختلف دریافت میکنیم که
47
00:03:25,440 –> 00:03:30,799
اساساً به ما
میگویند فرکانس در سیگنال وجود دارد،
48
00:03:30,799 –> 00:03:34,959
بنابراین این تا اینجا ساده به نظر میرسد. راهی را که
فقط میخواهم ذکر کنم برای رفتن از
49
00:03:34,959 –> 00:03:39,120
حوزه زمان به حوزه فرکانس
،
50
00:03:39,120 –> 00:03:43,280
فرمولی داریم و سپس
به ما کمک میکند تا حوزه زمان را
51
00:03:43,280 –> 00:03:49,360
به حوزه فرکانس تبدیل کنیم و این
فرآیند تبدیل فوریه نامیده میشود،
52
00:03:49,360 –> 00:03:53,680
حالا همه چیز خیلی بد نیست. برای
سیگنال هایی که به این شکل ساده به
53
00:03:53,680 –> 00:03:58,000
نظر می رسند، فرمول هایی برای تبدیل از
یک دامنه به دامنه دیگر داریم، اما وقتی
54
00:03:58,000 –> 00:04:03,200
سیگنال های پیچیده ای مانند
این داریم، این یک سیگنال صوتی
55
00:04:03,200 –> 00:04:07,840
است و دوره ای نیست و دارای
فرکانس های مختلف است.
56
00:04:07,840 –> 00:04:12,159
بنابراین فرکانسهای مختلف موجود
57
00:04:12,159 –> 00:04:16,238
در زمانهای مختلف متفاوت هستند،
بنابراین برای اینها فقط اعمال
58
00:04:16,238 –> 00:04:20,638
فرمول و گرفتن تبدیل فوریه
به اندازه
59
00:04:20,639 –> 00:04:23,919
سیگنالهای سادهای که در اسلاید قبلی دیدیم ساده
60
00:04:23,919 –> 00:04:29,360
نیست، بنابراین ما تکنیک
دیگری داریم نه تکنیک دیگری. ما
61
00:04:29,360 –> 00:04:32,479
تبدیل فوریه را
در قطعات انجام می دهیم
62
00:04:32,479 –> 00:04:37,360
و به آن تبدیل فوریه کوتاه مدت می گویند که کمی
به تفصیل در مورد آن بحث خواهیم کرد
63
00:04:37,360 –> 00:04:39,680
اما
64
00:04:39,680 –> 00:04:43,280
در این اسلاید فقط می خواهیم
برای یک علامت
65
00:04:43,280 –> 00:04:48,000
پیچیده تاکید کنیم. nal که دورهای نیست
و فرکانسهای زیادی دارد
66
00:04:48,000 –> 00:04:53,280
، حوزه
فرکانس، تجزیه و تحلیل دامنه فرکانس یا
67
00:04:53,280 –> 00:04:57,440
فرکانسها
، حدس میزنم فقط بگویم طیفنگار
68
00:04:57,440 –> 00:05:02,560
بسیار شلوغتر از چیزی است که
برای سیگنال ساده به نظر میرسد، بنابراین
69
00:05:02,560 –> 00:05:09,039
این تصویر روی درست فقط
محتوای فرکانس موجود در این سیگنال است،
70
00:05:09,039 –> 00:05:12,960
بنابراین چگونه تبدیل فوریه
این سیگنال را
71
00:05:12,960 –> 00:05:16,320
که دوره ای
نیست بگیریم، بنابراین این
72
00:05:16,320 –> 00:05:21,120
کار را به این صورت
انجام می دهیم تا کل سیگنال را داشته
73
00:05:21,120 –> 00:05:27,600
باشیم، این سیگنال را به بخش های مساوی تقسیم می کنیم
و سپس می گیریم تبدیل فوریه
74
00:05:27,600 –> 00:05:32,080
آن بخش ها
همانطور که احتمالاً در حال حاضر مشاهده
75
00:05:32,080 –> 00:05:37,199
می کنید چیزی به نام طول پنجره وجود دارد، بنابراین
76
00:05:37,199 –> 00:05:41,840
اگر فقط تبدیل فوریه
هر بخش
77
00:05:41,840 –> 00:05:47,520
را بگیریم، به وضعیتی می
78
00:05:47,520 –> 00:05:51,280
رسیم که برای جلوگیری از نشت طیفی داریم.
تکنیکی به نام پنجره
79
00:05:51,280 –> 00:05:56,639
سازی وجود دارد و چندین نوع پنجره
از پیش تعریف شده وجود دارد، بنابراین کاری که ما انجام می دهیم این است که یک
80
00:05:56,639 –> 00:06:01,680
سیگنال می گیریم آن را شکسته و هر
بخش را با پنجره ضرب می کنیم
81
00:06:01,680 –> 00:06:05,120
و سپس سیگنال حاصل هر چه باشد
،
82
00:06:05,120 –> 00:06:09,600
تبدیل فوریه آن را در نظر بگیرید
و سپس هنگامی که
83
00:06:09,600 –> 00:06:13,520
تبدیل فوریه هر کدام را برای هر یک از این
بخشها روی هم قرار میدهیم، این همان چیزی است که طیفگرام را به ما میدهد،
84
00:06:13,520 –> 00:06:18,800
بیایید ببینیم چگونه این کار را انجام دهیم چگونه
85
00:06:18,800 –> 00:06:25,039
همه این کارهایی را که تاکنون در پایتون مطالعه کردهایم
انجام دهیم. برای کد
86
00:06:27,919 –> 00:06:34,400
، کتابخانه مهمی که برای
پردازش سیگنال های صوتی در پایتون به
87
00:06:34,400 –> 00:06:38,240
آن
88
00:06:38,240 –> 00:06:43,440
نیاز داریم، لیبروسا است.
89
00:06:43,440 –> 00:06:48,400
فقط از قانون نقطه لیبروسور از بار نقطه لیبروسا استفاده کنید
90
00:06:48,400 –> 00:06:51,599
91
00:06: