تشخیص حروف صدا دار از روی تصاویر لب
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:PDF
تعداد صفحه:132
فهرست مطالب :
(به هم ریختگی و نامرتبی متن ها به دلیل فرمت آن ها در سایت میباشد در فایل اصلی مرتب و واضح میباشد)
چکیده . ................................................................ 1
مقدمه . ...................................................................... 2
فصل اول .............................................................. 3
مروری بر روشها ............................................................... 3
مقدمه . ................................................................... 4
-1 مروری بر تحقیقات انجام شده .................................................. 5
-1 استخراج مشخصههای دیداری برای لبخوانی .......................................... 7 -1
-1 روش پایین به بالا . .......................................................... 7 -1 -1
-1-1 کانتور فعال ....................................................... 8 -1 -1
-2-1 لبخوانی با کمک اطلاعات شدت نور . ..................................... 8 -1 -1
-3-1 آنالیز فضای رنگ .................................................................. 9 -1 -1
-2 روش بالا به پایین . ............................................................. 10 -1 -1
-1-2 روش مبتنی برالگوهای انعطاف پذیر......................................... 11 -1 -1
-2-2 مدل سازیهای شکل فعال ..................................................... 11 -1 -1
-3-2 آشکارسازی لب مبتنی بر مدل دگردیسپذیر........................................ 11 -1 -1
-4-2 تکنیکهای مبتنی بر زمینه تصادفی مارکوف ................................... 13 -1 -1
-5-2 روشهای مبتنی بر خوشهبندی فازی ............................................. 14 -1 -1
-2 دستهبندی و تشخیص کلمات ........................................... 16 -1
- تشخیص واکه با کمک شبکههای عصبی .............................................. 16
-3 معرفی سیستم ارائه شده ......................................... 18 -1
فصل دوم . ......................................................................... 20
مکانیابی و بازنمایی ناحیه لب . ..................................................... 20
مقدمه . ....................................................................... 21
-1 مکانیابی لب ............................................... 22
-1 تشخیص چهره .......................................................... 24 -1
-2 مکانیابی لب ................................................ 24 -1
-2 مسائل مرتبط با رنگ . ......................................................... 26
-1 توصیف انواع مدل های رنگ ............................................ 27 -2
27 .................................................................. Huncell - مدل
قرمز، سبز، آبی) ............................................................. 28 ) RGB - مدل
29 ........................................................ RGB - مدل نرمالیزه شده
30 ............................................................................ . CMY - مدل
30 ..................................................................................... . XYZ - مدل
31 ........................................................................................ xyz - مدل
-1 فضای رنگ ادراکی .......................................................... 31 -1 -2
32 .................................................................................. YUV - مدل
32 ....................................................................... HSI - مدل
-2 فضای رنگ یکنواخت ادراکی . ........................................... 34 -1 -2
-3 مراحل پیشپردازش تصویر لب ..................................................... 38
فصل سوم . ............................................................ 41
استخراج ناحیه مربوط به لب . ............................................................. 41
مقدمه . ........................................................................... 42
1 –خوشهبندی . ............................................. 43 -3
46 ............................................. K-Means -1 الگوریتم -1 -3
میانگین فازی . ..................................................... 47 -c -2 الگوریتم -1 -3
48 .............................................FCM و K-Means -3 مقایسه الگوریتم -1 -3
میانگین فازی با ارتباط مکانی ...................... 53 -c -4 الگوریتم -1 -3
-5 پس پردازش ............................................................. 58 -1 -3
-1-5 شکلشناسی ......................................................... 58 -1 -3
-2-5 قرینهسازی . ....................................................................... 60 -1 -3
-3-5 روشنایی ............................................................................ 61 -1 -3
-4-5 شکلدهی . ................................................................ 61 -1 -3
-2 تبدیل موجک .......................................................................... 63 -3
- الگوریتم مبتنی بر تبدیل موجک . ............................................... 65
فصل چهارم ................................................................ 69
استخراج ویژگیهای مناسب و طبقهبندی آنها ................................................. 69
مقدمه . ................................................................................... 70
-1 استخراج مشخصههای دیداری ................................................................ 71 -4
-1 جداسازی ناحیه لب .................................................................... 71 -1 -4
-2 مشخصههای دیداری مورد استفاده ......................................................... 72 -1 -4
-1-2 پارامترهای معمول( پارامترهای طولی) .................................................. 73 -1 -4
-2-2 پارامترهای جدید(پارامترهای زاویهای) ............................................ 74 -1 -4
-2 دستهبندی و تشخیص کلمات ................................................................. 75 -4
-1 پرسپترون . .......................................................................... 75 -2 -4
-2 تصدیق تقاطعی . ............................................................ 77 -2 -4
فصل پنجم . ....................................................................... 82
نتایج و مشاهدات تجربی .................................................................. 82
-1 بانکهای داده . ....................................................................... 83 -5
-2 تعیین خطای بخشبندی . .................................................................... 86 -5
-3 استفاده از پارامترهای طولی . ....................................... 87 -5
-4 وزندهی خروجی شبکهها به منظور افزایش دقت . ............................... 89 -5
فصل ششم . ............................................................ 91
نتیجهگیری و پیشنهادات . .................................................. 91
نتیجهگیری . ....................................................................... 92
منابع و ماخذ ............................................................... 95
فهرست منابع فارسی . ................................................................... 95
فهرست منابع لاتین . ........................................................................... 96
چکیده انگلیسی . ............................................................................... 100
چکیده :
از دیرباز تشخیص و بازشناسی صحبت به عنوان اولین وسیله ارتباطی بین انسان ها از اهمیت بسیاری
برخوردار بوده است. تاکنون تکنیکهای بازشناسی صحبت با استفاده از پردازش صوت با تنوع بسیار و با موفقیت
نسبی بکار گرفته شدهاند. اما وجود نویز در برخی شرایط، عامل اصلی بروز اشتباهات اساسی در تشخیص بوده
است که در این گونه موارد استفاده از پردازش تصویر و به ویژه بررسی شکل لبها و حرکت آنها میتواند ب رای
ارتقاء نتایج مورد استفاده قرار گیرد. فرآیند لبخوانی و به عبارت دیگر تشخیص دیداری گفتار دو مرحله اصلی
قابل بررسی دارد. مرحله اول جداسازی ناحیه دهان و بطور کلی استخراج مشخصه های دیداری و مرحله دوم
دستهبندی و تشخیص کلمات میباشد. در این پروژه برای استخراج مشخصه های دیداری دو روش استفاده
و در روش دوم از روش مبتنی بر تبدیل موجک بهره جسته ایم . در SFCM نمودهایم. در روش اول از الگوریتم
مرحله بعد توسط پارامترهای تعریف شده، یکسری ویژگی مربوط به تصاویر لب را استخراج می نماییم . در آخر
توسط شبکه عصبی به دستهبندی ویژگیها و تشخیص واکهها میپردازیم.
کلمات کلیدی: لبخوانی، بخشبندی، استخراج ویژگی، دستهبندی، تبدیل موجک
مقدمه
کارایی ضعیف سیستمهای تشخیص صوت و سیستمهای تصدیق گوینده در محیطهای نویزی سبب شد تا
محققان به فکر استفاده از اطلاعات دیداری در این سیستمها باشند به همین دلیل آنالیز تصاویر لب، توجه
زیادی را به خود جلب نمود. اولین گام در آنالیز تصاویر لب، استخراج 1 ناحیه مربوط به لب در تصاویر می باشد .
افزایش علاقه در استخراج این اطلاعات توسط بخشبندی تصاویر لب سبب بوجود آمدن روش های گوناگون و
بهبود عملکرد سیستمهای صوتی - تصویری در تشخیص صوت گردید . بزرگترین مشکل در سیستم ه ای
لبخوانی 2 توصیف کمی لب میباشد. معمولاً روشهای توصیف لب را به دو دسته، یکی روشهای سطح پایین
(روشهای مبتنی بر تصویر) و دیگری روشهای سطح بالا (روشهای مبتنی بر مدل) تقسیم مینمایند . دقت و
مقاوم بودن در این فرآیند، مهمترین کلید برای پردازشهای مراحل بعدی میباشد زیرا هر چه این مرحله با
دقت بیشتری انجام شود و بخشبندی ناحیه لب در تصاویر بهتر صورت گیرد مدل نمودن لب راحت تر خواهد
بود و با سهولت بیشتری میتوان ویژگیهای لب را استخراج نمود. گام بعدی بعد از استخراج ویژگی های لب،
دسته بندی و تشخیص ویژگی ها میباشد. در پروژه جاری ما نیز به بررسی تک تک این مراحل و ارائه راهکار
برای بهبود این مراحل میپردازیم.
از دیرباز تشخیص و بازشناسی صحبت به عنوان اولین وسیله ارتباطی بین انسان ها از اهمیت بسیاری
برخوردار بوده است. تاکنون تکنیکهای بازشناسی صحبت با استفاده از پردازش صوت با تنوع بسیار و با موفقیت
نسبی بکار گرفته شدهاند[ 1]. اما وجود نویز در برخی شرایط عامل اصلی بروز اشتباهات اساسی در تشخیص
بوده است که در این گونه موارد استفاده از پردازش تصویر و به ویژه بررسی شکل لبها و حرکت آنها می تواند
برای ارتقاء نتایج مورد استفاده قرار گیرد[ 2]. استخراج اطلاعات دیداری از تصاویر لب کمک شایانی به تشخیص
صوت و تصدیق گوینده بویژه در محیطهای نویزی را فراهم آورده است به همین دلیل توجه زیادی را به خود
جلب نموده است در این فصل یک مرورکلی بر روی روشهای انجام شده تا به حال صورت خواهیم داد و در
مورد دستهبندیهای موجود برای روشها صحبت خواهیم کرد.
مروری بر تحقیقات انجام شده
فرآیند لبخوانی و به عبارت دیگر تشخیص دیداری گفتار دو مرحله اصلی ق اب ل بررسی دارد . مرحله اول
جداسازی ناحیه دهان و بطور کلی استخراج مشخصههای دیداری و مرحله دوم دستهبندی و تشخیص کلمات
میباشد. لذا محققین زیادی نیز در سالهای متمادی و در مراحل مختلف تحقیقات خود به این دو مرحله توجه
داشته و به صورت مستقل و یا همزمان به بررسی در زمینه استخراج مشخصه های دیداری و یا دسته بندی
کلمات پرداختهاند. در این فصل ما به بررسی تحقیقات انجام شده در زمینه لبخوانی میپردازیم.
و...
دانلود پایان نامه تشخیص حروف صدا دار از روی تصاویر لب