2-10 جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………37
فصل سوم : روش­های استخراج ناحیه دهان و سیستم­های تشخیص …………………………..39
3-1 مقدمه ……………………………………………………………………………………………………………………40
3-2 آشکارسازی ناحیه لب ……………………………………………………………………………………………..41
3-2-1 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………41
3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ………………………………………………………………42
3-2-3 حذف مؤلفه قرمز ……………………………………………………………………………………………..43
3-2-4 الگوریتم کا- مینز …………………………………………………………………………………………….43
3-2-4-1 پیاده­سازی الگوریتم …………………………………………………………………………………44
3-2-5 شدت روشنایی و باینری کردن ……………………………………………………………………………45
3-2-6 روش­های ترکیبی ………………………………………………………………………………………………45
3-3 روش­های کلاسه­بندی و شناسایی …………………………………………………………………………….47
3-3-1 شبکه عصبی …………………………………………………………………………………………………….47
3-3-1-1 شبکه­های پیش­خور ………………………………………………………………………………….48
3-3-1-2 الگوریتم پس انتشار خطا ……………………………………………………………………………48
3-3-2 مدل مخفی مارکوف …………………………………………………………………………………………..48
فصل چهارم : ویژگی­های استخراجی وپیاده­سازی روش پیشنهادی و معرفی پایگاه داده …………………………………………………………………………………………………………………………………….51
4-1 پایگاه داده ……………………………………………………………………………………………………………..52
4-1-1 جداسازی ویدیوهای ضبط شده ……………………………………………………………………………53
4-2 ویژگی­های استخراج شده ………………………………………………………………………………………..53
4-3 جداسازی ناحیه لب ………………………………………………………………………………………………..54
4-3-1 آستانه­گذاری ……………………………………………………………………………………………………54
4-3-2 استفاده از روش حذف رنگ قرمز ………………………………………………………………………….56
4-3-3 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………..57
4-3-4 برچسب­گذاری اجزا ……………………………………………………………………………………………58
4-3-5 جعبه محاطی …………………………………………………………………………………………………..59
4-4 ضرایب مل فرکانسی ………………………………………………………………………………………………60
4-4-1 فریم بندی ……………………………………………………………………………………………………….61
4-4-2 پنجره­گذاری …………………………………………………………………………………………………….62
4-4-3 تبدیل فوریه گسسته ………………………………………………………………………………………….62
4-4-4 مقیاس مل ………………………………………………………………………………………………………62
4-4-5 تبدیل کسینوسی گسسته …………………………………………………………………………………..64
4-4-5-1 محاسبه ضرایب کسینوسی و ویولت ……………………………………………………………..65
4-4-5-2 محاسبه ضرایب مل فرکانسی ………………………………………………………………………65
4-5 یافتن مرکز لب و استخراج ناحیه­ای حول لب ……………………………………………………………..66
4-5-1 اسکن زیگزاگ …………………………………………………………………………………………………..67
4-5-2 کاهش ویژگی با LSDA ……………………………………………………………………………………68
4-5-2-1 استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش ………………………………..70
4-5-2-2 استفاده از تابع Tansigmoid و الگوریتم ممنتوم …………………………………………70
4-6 استخراج ویژگی از تصاویر مختلف …………………………………………………………………………….72
4-6-1 استخراج ویژگی از تصاویر جدید …………………………………………………………………………..72
4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی ……………………………………………………………….72
4-7 کاهش تعداد فریم­ها و کاهش سایز تصاویر…………………………………………………………………73
4-7-1 محاسبه ضرایب MFCC …………………………………………………………………………………..73
4-7-2 ضرایب DCT , DWT …………………………………………………………………………………….73
4-7-3 کاهش تعداد فریم­ها و کاهش سایز تصاویر با دستور ری­سایز ……………………………………..76
4-8 نتیجه­گیری ……………………………………………………………………………………………………………81
4-9 پیشنهاد ادامه کار ……………………………………………………………………………………………………82
مراجع ………………………………………………………………………………………………………………………………83
فهرست جدول­ها
جدول 1-1 گروه­بندی ویزم­ها در انگلیسی …………………………………………………………………………………………3
جدول 1-2 گروه­بندی ویزم­ها در زبان فارسی ……………………………………………………………………………………3
جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی ……………………………………………………………………………..52
جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی …………………………………………………………………………………… 71
جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی …………………………………………………………………………………….71
جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم …………………………………..74
جدول 4- 5 نتایج حاصل از ویژگی­های استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ….74
جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم …………………………75
جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ………………………….75
جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ……………….76
جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ………………..76
 
 
 
 
 
فهرست شکل­ها
شکل 2- 1 مدل کانتور فعال نمونه­گیری شده ……………………………………………………………………………………..11
شکل 2- 2 علامت گذاری انجام شده بر روی لب ……………………………………………………………………………….13

پایان نامه و مقاله

 

شکل 2- 3 مدل توزیع نقطه­ای، هر حالت با σ2 ± اطراف متوسط رسم شده است ……………………………….14
شکل 2- 4 مدل هندسی لب …………………………………………………………………………………………………………… 16
شکل 2- 5 الگوی لب …………………………………………………………………………………………………………………….. 19
شکل 2- 6 فرآیند تولید منیفولد …………………………………………………………………………………………………….25
شکل 2- 7 (a) نتیجه درون­یابی منیفولد (b) نمونه­گیری دوباره از منیفولد درون­یابی شده با 20 نقطه کلیدی ……………………………………………………………………………………………………………………………………………26
شکل 2- 8 نمودار بلوکی برای استخراج ویژگی­های حرکت مبتنی بر شبکه ……………………………………….28
شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………………………….29
شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی …………………………………………30
شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است……………………………………………………33
شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب …………………………………………………………….36
شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ……………………………………………………..38
شکل 3نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ………………………………………..42
شکل 3-2 الگوریتم جداسازی ناحیه لب ………………………………………………………………………………………….46
شکل 4-1 آستانه گذاری با ترشلد 0.4 ………………………………………………………………………………………………55
شکل 4-2 آستانه گذاری با ترشلد 0.5 …………………………………………………………………………………………….55
شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β ……………………………………………………………….56
شکل 4-4 تصاویر مربوط به گوینده ها ………………………………………………………………………………………….. 57
شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم ……………………………………………………………….58
شکل 4- 6 شکل لب استخراج شده بعد از برچسب­گذاری ……………………………………………………………….. 59
شکل 4-7 مستطیل محاطی لب …………………………………………………………………………………………………….. 60

یک مطلب دیگر :

 

پایان نامه : روابط زناشویی

شکل 4-8 مراحل محاسبه ضرایب مل ……………………………………………………………………………………………. 61

شکل 4-9 فیلتر بانک مثلثی …………………………………………………………………………………………………………. 63
شکل 4-10 ناحیه مورد نظر پیرامون لب ………………………………………………………………………………………….. 66
شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر …………………………………… 67
شکل 4-12 نحوه اسکن زیگزاگ ماتریس ……………………………………………………………………………………….. 68
شکل 4-13 نتایج حاصل از ویژگی­ها + LSDA ………………………………………………………………………………..70
شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم…………………………………. 77
شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم…………………………………. 78
شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ……………………………………………………… 79
شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7………………………………………………………. 80


 
 
 
فصل اول : مقدمه
 
 
 
 
 
 
 
 

1-1 مقدمه

از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.
افرادی زیادی هستند كه دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حركات لب به شكلی كه برای تكلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است [1] , [2].
جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n,l 8 p,b,m 1
R 9 f,v 2
A 10 th,dh 3
E 11 t,d 4
I 12 k,g 5
O 13 sh,zh 6
U 14 s,z 7

جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

 

 

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...