2-3- بلوک دیاگرام چند VAD استاندارد…………………………………………………….33
2-3-1-استاندارد ETSI AMR……………………………………………………………
2-3-2- الگوریتم GSM…………………………………………………………………….
2-4-خلاصه……………………………………………………………………………………….35
فصل سوم: آشکارسازی تغییر گوینده
3-1-مقدمه………………………………………………………………………………………..37
3-2-بخش بندی گوینده………………………………………………………………………..38
3-2-1-بخش بندی بر اساس فاصله……………………………………………………..38
3-2-2-بخش بندی بر اساس مدل……………………………………………………40
3-2-3-بخش بندی هیبرید…………………………………………………………………..40
3-3-مقایسه روشهای بخش بندی………………………………………………………40
3-4-روشهای متداول آشکارسازی گوینده…………………………………………..41
3-4-1- معیار اطلاعات بیزین( (BIC……………………………………………………
3-4-1-2- بخش بندی با استفاده از مدل آماری گوینده…………………………..42
3-4-2- ترکیب آماره T2 و BIC………………………….……………………………….
3-4-2-1- سرعت و بهره بیشتر در بخش بندی T2-BIC……………………...
3-4-3- فاصله نرخ درستنمایی عمومی((GLR…………………………………..
3-4-4-فاصله KL2…………………………………………………………………….
3-4-5- آشکارسازی تغییر گوینده با استفاده از DSD……………………
3-4-6- BIC متقاطع(Cross-BIC (XBIC))………………………………………..52
3-4-7-درستنمایی مدل مخلوط گوسی..(GMM-L) ………………………….53
3-5-خلاصه…………………………………………………………………………….53
فصل چهارم: روشهای دستهبندی
4-1-مقدمه…………………………………………………………………………..55
4-2-اجزا سیستم خوشه بندی………………………………………………….56
4-3-روش های خوشه بندی……………………………………………………57
برای دیدن جزییات بیشتر و دانلود پایان نامه اینجا کلیک کنید
4-3-1-روش های خوشه بندی سلسله مراتبی…………………………58
4-3-1-1-تکنیکهای خوشه بندی بالارونده………………………………….59
4-3-1-2-تکنیکهای خوشه بندی پایین رونده…………………………………..60
4-3-2-روش های خوشه بندی افرازی………………………………………….61
4-4- روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده…..61
4-5- دسته بندی کننده ماشین های بردار پشتیبان……………………………….63
4-5-1- دسته بندی کننده ماشین بردار پشتیبان خطی……………………………63
4-5-1-1- دسته بندی کلاسهای جداپذیر………………………………………………………..63
4-5-1-2- دسته بندی کلاسهای جدا ناپذیر…………………………………………………….68
4-5-1-3- دستهبندی دادههای چند کلاسه با ماشینهای بردار پشتیبان…………………71
4-5-2- ماشینهای بردار پشتیبان غیر خطی………………………………………72
4-6- خلاصه………………………………………………………………………………………74
فصل پنجم: پیاده سازی و مشاهدات سیستم ترکیبی پیشنهادی
5-1-مقدمه…………………………………………………………………………………….76
5-2-ساختار سیستم پیاده سازی شده…………………………………………………….77
5-3-پایگاه داده……………………………………………………………………….80
5-4-استخراج ویژگی………………………………………………………………………82
5-5-معیار ارزیابی سیستم های تشخیص گوینده…………………………….84
5-6-نتایج آزمایشات…………………………………………………………………..88
یک مطلب دیگر :
5-6-1- اثر اعمال VAD بر روی سیگنال گفتار…………………………………….88
5-6-2- اثر تغییر طول پنجره VAD بر روی دقت سیستم………………..89
5-6-3- اثر تغییر طول پنجره BIC بر روی نتایج بخش بندی…………………..89
5-6-4-دقت.حاصل.از.بخش.بندی.بر.دو.نوع.از.دادگان با استفاده از MFCC………..
5-6-5-اثرتغییر.بردار.ویژگی.بر.روی.دقت.مرحله.بخش بندی………………….93
5-6-6-مقایسه.نتایج.مرحله.بخشبندی.با.بکارگیری.بردارهای.ویژگی متفاوت………95
5-6-7-اثرجنسیت،گویندگان.برتشخیص.درست.مرزهای.بخش بندی………………96
5-6-8-دقت مرحله خوشهبندی بکارگیری ماشین بردار پشتیبان(SVM) با بردار ویژگی MFCC…………
5-6-9-دقت مرحله خوشه بندی ماشین بردار پشتیبان با بکارگیری بردار ویژگی root-MFCC …………………
5-6-10- اثر تغییر نوع تابع کرنل ماشین بردار پشتیبان بر روی دقت مرحله خوشه بندی…………98
5-7-خلاصه…………………………………………………………………………………..98
فصل ششم: جمع بندی و پیشنهادات
6-1-جمع بندی و خلاصه نتایج……………………………………………………….100
6-2-پیشنهادات………………………………………………………………………………101
منابع……………………………………………………………………………………………103
چکیده:
شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست.
هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با استفاده از الگوریتم های جدید و همچنین بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد.
در این پایان نامه، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با استفاده از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی MFCC root-MFCC, TDC, و root-TDC و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی 80% بوده است و دقت مرحله خوشه بندی نیز 59% با استفاده از ماشین بردار پشتیبان بدست آمده است.
فصل اول: معرفی سیستم های تشخیص گوینده
امروزه داده های چند رسانه ای بخش قابل توجهی از دانش انسان را در بر می گیرند. حجم پرونده های چند رسانه ای آرشیو شده در موسسه های مختلف در سال های اخیر افزایش چشمگیری داشته است. دسترسی و وضوح بالای این پرونده ها می تواند کمک شایانی به افرادی کند که در جستجوی اطلاعات باشند. بنابراین عملیات جستجو و بازیابی اطلاعات در این حجم بالا کاری است که خود احتیاج به سیستم کامپیوتری دارد. و درنتیجه یکی از حوزه های تحقیقاتی که به تازگی مورد توجه قرار گرفته است، مربوط به ساختاربندی پرونده- های چند رسانه ای است. در میان این داده ها، اطلاعات صوتی اهمیت بالاتری دارد. زیرا بخش اعظم آرشیوها حاوی داده های صوتی از گزارش های تلویزیونی، رادیویی و همچنین مکالمات تلفنی می باشد. در سالهای اخیر تحقیقات وسیعی در این حوزه آغاز شده و نتایج قابل قبولی نیز حاصل شده است. از دیگر کاربردهای این حوزه در تشخیص مجرم، جدا کردن صحبت های مهم یک شاهد یا متهم در دادگاه و … میتوان اشاره نمود.
در کاربرد صوتی، عمده اطلاعات موجود در پرونده ها، صحبت های تعدادی گوینده است و هدف از سیستم نهایی، پاسخ به این سوال است که چه کسی در چه زمانهایی صحبت کرده است؟ بخش های مختلف این حوزه تحقیقاتی به نامهای مختلفی مانند: قطعه بند گوینده ای[1]، تشخیص گوینده[2] ،رونویسی قوی[3]، و اندیس گذاری گوینده ای[4] نامیده شده اند. از چنین سیستم هایی برای جابجایی راحت در داده های صوتی، در فایل های صوتی طولانی (مانند: اخبار و ملاقات ها و جلسات یک شرکت و …) که متعلق به چند گوینده باشند بهره- برداری می شود. مکالمات و محاسبات رادیویی طولانی از محیط هایی هستند که در آنها چند گوینده حضور داشته و با هم صحبت می کنند. هدف نهایی چنین سیستم هایی، پیاده سازی روش هایی مناسب برای افراز پرونده صوتی به نواحی است که در آنها گوینده ای خاص صحبت کرده باشد. دسترسی راحت به بخش هایی از صحبت یک گوینده توسط این سیستم فراهم می گردد. با داشتن حجم بالایی از داده های صوتی اهمیت این سیستم ها بیشتر می گردد.
[پنجشنبه 1399-08-08] [ 10:27:00 ق.ظ ]
|