برق الکترونیک-استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی |
2-10 جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………37
فصل سوم : روشهای استخراج ناحیه دهان و سیستمهای تشخیص …………………………..39
3-1 مقدمه ……………………………………………………………………………………………………………………40
3-2 آشکارسازی ناحیه لب ……………………………………………………………………………………………..41
3-2-1 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………41
3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ………………………………………………………………42
3-2-3 حذف مؤلفه قرمز ……………………………………………………………………………………………..43
3-2-4 الگوریتم کا- مینز …………………………………………………………………………………………….43
3-2-4-1 پیادهسازی الگوریتم …………………………………………………………………………………44
3-2-5 شدت روشنایی و باینری کردن ……………………………………………………………………………45
3-2-6 روشهای ترکیبی ………………………………………………………………………………………………45
3-3 روشهای کلاسهبندی و شناسایی …………………………………………………………………………….47
3-3-1 شبکه عصبی …………………………………………………………………………………………………….47
3-3-1-1 شبکههای پیشخور ………………………………………………………………………………….48
3-3-1-2 الگوریتم پس انتشار خطا ……………………………………………………………………………48
3-3-2 مدل مخفی مارکوف …………………………………………………………………………………………..48
فصل چهارم : ویژگیهای استخراجی وپیادهسازی روش پیشنهادی و معرفی پایگاه داده …………………………………………………………………………………………………………………………………….51
4-1 پایگاه داده ……………………………………………………………………………………………………………..52
4-1-1 جداسازی ویدیوهای ضبط شده ……………………………………………………………………………53
4-2 ویژگیهای استخراج شده ………………………………………………………………………………………..53
4-3 جداسازی ناحیه لب ………………………………………………………………………………………………..54
4-3-1 آستانهگذاری ……………………………………………………………………………………………………54
4-3-2 استفاده از روش حذف رنگ قرمز ………………………………………………………………………….56
4-3-3 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………..57
4-3-4 برچسبگذاری اجزا ……………………………………………………………………………………………58
4-3-5 جعبه محاطی …………………………………………………………………………………………………..59
4-4 ضرایب مل فرکانسی ………………………………………………………………………………………………60
4-4-1 فریم بندی ……………………………………………………………………………………………………….61
4-4-2 پنجرهگذاری …………………………………………………………………………………………………….62
4-4-3 تبدیل فوریه گسسته ………………………………………………………………………………………….62
4-4-4 مقیاس مل ………………………………………………………………………………………………………62
4-4-5 تبدیل کسینوسی گسسته …………………………………………………………………………………..64
4-4-5-1 محاسبه ضرایب کسینوسی و ویولت ……………………………………………………………..65
4-4-5-2 محاسبه ضرایب مل فرکانسی ………………………………………………………………………65
4-5 یافتن مرکز لب و استخراج ناحیهای حول لب ……………………………………………………………..66
4-5-1 اسکن زیگزاگ …………………………………………………………………………………………………..67
4-5-2 کاهش ویژگی با LSDA ……………………………………………………………………………………68
4-5-2-1 استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش ………………………………..70
4-5-2-2 استفاده از تابع Tansigmoid و الگوریتم ممنتوم …………………………………………70
4-6 استخراج ویژگی از تصاویر مختلف …………………………………………………………………………….72
4-6-1 استخراج ویژگی از تصاویر جدید …………………………………………………………………………..72
4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی ……………………………………………………………….72
4-7 کاهش تعداد فریمها و کاهش سایز تصاویر…………………………………………………………………73
4-7-1 محاسبه ضرایب MFCC …………………………………………………………………………………..73
4-7-2 ضرایب DCT , DWT …………………………………………………………………………………….73
4-7-3 کاهش تعداد فریمها و کاهش سایز تصاویر با دستور ریسایز ……………………………………..76
4-8 نتیجهگیری ……………………………………………………………………………………………………………81
4-9 پیشنهاد ادامه کار ……………………………………………………………………………………………………82
مراجع ………………………………………………………………………………………………………………………………83
فهرست جدولها
جدول 1-1 گروهبندی ویزمها در انگلیسی …………………………………………………………………………………………3
جدول 1-2 گروهبندی ویزمها در زبان فارسی ……………………………………………………………………………………3
جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی ……………………………………………………………………………..52
جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی …………………………………………………………………………………… 71
جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی …………………………………………………………………………………….71
جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم …………………………………..74
جدول 4- 5 نتایج حاصل از ویژگیهای استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ….74
جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم …………………………75
جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ………………………….75
جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ……………….76
جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ………………..76
فهرست شکلها
شکل 2- 1 مدل کانتور فعال نمونهگیری شده ……………………………………………………………………………………..11
شکل 2- 2 علامت گذاری انجام شده بر روی لب ……………………………………………………………………………….13
شکل 2- 3 مدل توزیع نقطهای، هر حالت با σ2 ± اطراف متوسط رسم شده است ……………………………….14
شکل 2- 4 مدل هندسی لب …………………………………………………………………………………………………………… 16
شکل 2- 5 الگوی لب …………………………………………………………………………………………………………………….. 19
شکل 2- 6 فرآیند تولید منیفولد …………………………………………………………………………………………………….25
شکل 2- 7 (a) نتیجه درونیابی منیفولد (b) نمونهگیری دوباره از منیفولد درونیابی شده با 20 نقطه کلیدی ……………………………………………………………………………………………………………………………………………26
شکل 2- 8 نمودار بلوکی برای استخراج ویژگیهای حرکت مبتنی بر شبکه ……………………………………….28
شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………………………….29
شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی …………………………………………30
شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است……………………………………………………33
شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب …………………………………………………………….36
شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ……………………………………………………..38
شکل 3–1 نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ………………………………………..42
شکل 3-2 الگوریتم جداسازی ناحیه لب ………………………………………………………………………………………….46
شکل 4-1 آستانه گذاری با ترشلد 0.4 ………………………………………………………………………………………………55
شکل 4-2 آستانه گذاری با ترشلد 0.5 …………………………………………………………………………………………….55
شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β ……………………………………………………………….56
شکل 4-4 تصاویر مربوط به گوینده ها ………………………………………………………………………………………….. 57
شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم ……………………………………………………………….58
شکل 4- 6 شکل لب استخراج شده بعد از برچسبگذاری ……………………………………………………………….. 59
شکل 4-7 مستطیل محاطی لب …………………………………………………………………………………………………….. 60
یک مطلب دیگر :
شکل 4-8 مراحل محاسبه ضرایب مل ……………………………………………………………………………………………. 61
شکل 4-9 فیلتر بانک مثلثی …………………………………………………………………………………………………………. 63
شکل 4-10 ناحیه مورد نظر پیرامون لب ………………………………………………………………………………………….. 66
شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر …………………………………… 67
شکل 4-12 نحوه اسکن زیگزاگ ماتریس ……………………………………………………………………………………….. 68
شکل 4-13 نتایج حاصل از ویژگیها + LSDA ………………………………………………………………………………..70
شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم…………………………………. 77
شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم…………………………………. 78
شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ……………………………………………………… 79
شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7………………………………………………………. 80
فصل اول : مقدمه
1-1 مقدمه
از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار میتواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی میشود، به حرکات لب گوینده توجه بیشتری میکنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار میباشد. ضمناً حرکات لب یا سیگنال تصویری گفتار میتواند به طور قابل ملاحظهای دقت سیستمهای تشخیص گفتار صوتی را خصوصاً در محیطهای نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله میباشد.
افرادی زیادی هستند كه دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حركات لب به شكلی كه برای تكلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچههایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده میشود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده میشود که کوچکترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابهای گروهبندی شده که یک ویزم را نشان میدهد. یک نگاشت چند به یک بین واجها و ویزمها هست یعنی میتوان مجموعهای از واجها را در نظر گرفت که تأثیر مشابهای بر روی شکل دهان دارند. در جدولهای زیر گروهبندی ویزمها در زبان انگلیسی و فارسی آورده شده است [1] , [2].
جدول 1- 1 گروهبندی ویزمها در انگلیسی
n,l | 8 | p,b,m | 1 |
R | 9 | f,v | 2 |
A | 10 | th,dh | 3 |
E | 11 | t,d | 4 |
I | 12 | k,g | 5 |
O | 13 | sh,zh | 6 |
U | 14 | s,z | 7 |
جدول 1- 2 گروهبندی ویزمها در زبان فارسی
فرم در حال بارگذاری ...
[جمعه 1399-08-09] [ 12:46:00 ب.ظ ]
|