استفاده از اطلاعات تصویری برای بازشناسی خودکار گفتار
استفاده از اطلاعات تصویری برای بازشناسی خودکار گفتار تهران- ایرنا- محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق به طراحی سامانه ای برای بکارگیری اطلاعات تصویری در بازشناسی خودکار گفتار صوتی- تصویری شدند.
به گزارش روز چهارشنبه دانشگاه صنعتی امیرکبیر، فاطمه وخشیته، دکترای مهندسی پزشکی - گرایش بیوالکتریک، از دانشگاه صنعتی امیرکبیر درباره طرح خود مبنی بر «طراحی سامانه بازشناسی خودکار گفتار» اظهار کرد: بهکارگیری منابع اطلاعاتی متعدد نقش مهمی در سامانههای بازشناسی گفتار دارد؛ بهطوری که عملکرد مطلوبتر سامانهها میتواند در نتیجۀ استفادۀ صحیح از اطلاعات کمکی مناسب و با روشهای دقیق شود. وی افزود: این موضوع ریشه در طبیعت ادراک در انسان دارد؛ چرا که در مغز انسان و از جمله در فرآیندهای تولید و ادراک گفتار، بهطور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت میپذیرد. محقق امیرکبیر با اشاره به تحقیقات خود در زمینه بازشناسی خودکار گفتار گفت: هدف این رساله بهکارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائۀ سامانه بازشناسی خودکار گفتار صوتی-تصویری است، تا ضمن برآورده شدن طبیعت چندگونهای ادراک در انسان، از خاصیت مقاوم بودن اطلاعات تصویری در برابر نویز صوتی نیز استفاده شود.به گفته این محقق، در بازشناسی گفتار صوتی-تصویری، هر یک از روشهای استخراج ویژگی، مدلسازی، تلفیق گونههای مختلف صوتی و تصویری، و در نهایت بازشناسی دوگونهای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگیهای مستخرج در شرایط ارائۀ یک منبع اطلاعاتی، ویژگیهای تکگونهای نامیده میشوند.
"وی افزود: این موضوع ریشه در طبیعت ادراک در انسان دارد؛ چرا که در مغز انسان و از جمله در فرآیندهای تولید و ادراک گفتار، بهطور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت میپذیرد"وی با بیان اینکه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگیهای مستخرج در شرایط فراهمشدن همزمان دو منبع اطلاعاتی، ویژگیهای دوگونهای نامیده میشوند، بیان کرد: بر این اساس در این رساله ابتدا ویژگیهای مناسب صوتی و تصویری جستجو و استخراج میشوند. وخشیته بیان کرد: در خصوص شاخۀ تصویری، از روشهای کلاسیک و مبتنی بر شبکههای عصبی عمیق استفاده میشود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد میشود که از این میان ویژگیهای تصویری هیبریدی، که در یک فرآیند پیشپردازشی پیچیده استخراج می شوند، بهعنوان ویژگیهای منتخب تصویری درنظر گرفته خواهند شد.وی در خصوص روند کار با این سامانه ادامه داد: شاخۀ صوتی، ویژگیهای کپسترال فرکانس حوزه مل پس از انجام مقایسهها بهعنوان ویژگیهای منتخب صوتی لحاظ می شود. در ادامه، تلفیق کارآمد ویژگیهای منتخب تکگونهای دنبال میشود، بهگونهای که موجب همافزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینۀ موجود در گفتار صوتی شود.وی با بیان اینکه در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد میشود، خاطر نشان کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگیهای حاصل از منابع صوتی و تصویری استفاده میشود و تلفیق اطلاعات در سطح متوسط با انتخاب لایۀ صوتی با آنتروپی بیشینه و لایۀ تصویری با آنتروپی کمینه صورت میپذیرد. در رویکرد دوم، از شبکههای کدگذار خودکار عمیق استفاده میشود و تلفیق اطلاعات در لایۀ گلوگاه شبکه صورت میپذیرد. در این رویکرد یک ساختار دوگونهای پیشنهاد میشود که طیِ چهار مرحله توسعه و تکمیل میشود.وخشیته افزود: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشتدهنده ویژگیهای گلوگاهی نویزی به تمیز و قراردادن لایۀ برچسبها در کنار گلوگاه شبکه، ساختاری بهدست میآید که نسبت به سایر ساختارها از کارآمدی بالاتری برخوردار است.
این دانش آموخته دانشگاه امیرکبیر با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکردها بهطور کلی موفقیت عملکرد آنها را نشان میدهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.وی ادامه داد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸.۵درصد را نشان می دهد که در این شرایط، با تلفیق ویژگیها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰.۹درصد کاهش می یابد که این مقدار با تلفیق ویژگیها توسط شبکۀ کدگذار خودکار عمیق دوگونهای برابر با ۱۰.۳درصد میشود. از این سامانه می توان برای افرادی که مشکل ناشنوایی دارند استفاده کرد.وی با اشاره به کاربرد این سامانه گفت: کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آنها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار این افراد جبران شود از کاربردهای این سامانه است که این کاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است.وخشیته در مورد دیگر کاربردهای این سامانه اظهار کرد: در محیط های شلوغ که اطلاعات صوتی گویندگان مخدوش یا نامفهوم است، از اطلاعات تصویری این افراد کمک گرفته میشود و پیغام صوتی منتقل میشود. این کاربرد در بهبود انتقال پیام برای شنوندگان است.مجری طرح افزود: اینها نمونه کاربردهای رایجی هستند که در آنها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده میشود، اما توجیه بکارگیری شبکه های عصبی عمیق در این راستا ارتقاء دقت بازشناسی گفتار تصویری (لب خوانی) و گفتار صوتی معمولی و همچنین در شرایطی است که از اطلاعات صوتی و تصویری به طور هم زمان استفاده می شود.این پروژه به راهنمایی فرشاد الماس گنج و مشاوره احمد نیک آبادی اساتید دانشگاه امیر کبیر انجام شده است.**9465**1584
انتهای پیام /*
برچسب ها
علمی آموزشی
دانشگاه امیر کبیر
بازشناسی گفتار
شبکه های عصبی
فرستنده
*
پست الکترونیک کد امنیتی ارسال یادداشت ارسال نظر موضوع از شما گزارش از ما
سخن شما با مسئولین
دیدگاه شما با موفقیت ارسال شد.
ارتباط با سردبیر newsroom@irna.ir
تماس بی واسطه با مسئولین گالری تصاویر پربیننده
در پاسخ به حملات ائتلاف سعودی؛
فرودگاه نجران عربستان هدف حمله پهپادی یمن قرار گرفت
بازیکن پیشین پرسپولیس از تیم کره ای به فیفا شکایت کرد
برداشت نمک؛ راهی برای طول عمر دریاچه ارومیه
واکنش سخنگوی وزارت امور خارجه به اظهارات همتای فرانسوی
تنش روابط ترکیه و عربستان به حوزه گردشگری رسید جدیدترین مطالب سایت
زمان ارسال اثر به یازدهمین جشنواره بین المللی فارابی آغاز شد
«سبحان» را تنها نگذارید...
دستاورد محققان دانشگاه امیرکبیر؛
استفاده از اطلاعات تصویری برای بازشناسی خودکار گفتار
فردین خلعتبری: رهبری ارکستر ملی نیازمند شورای تخصصی است
در جلسه هیات دولت به ریاست رییس جمهوری؛
گزارش وزارت اقتصاد و دارایی درباره وضعیت کسب و کار بررسی شد موضوعات مرتبط
- دانشگاه
- پژوهش و دانشگاه
- مراکز آموزش عالی
اخبار مرتبط
دیگر اخبار این روز
حق کپی © ۲۰۰۱-۲۰۲۴ - Sarkhat.com - درباره سرخط - آرشیو اخبار - جدول لیگ برتر ایران