محققان دانشگاه آکسفورد به تازگی با استفاده از هوش مصنوعی، فناوری جدیدی را در قالب یک نرم افزار برای لب خوانی ایجاد کرده اند که عملکرد آن به مراتب بهتر از عملکرد انسان در این زمینه است.
به گزارش بادیجی به نقل از کلیک، علم لب خوانی اصول و قاعده مشخصی ندارد. نگاه دقیق به حرکات دهان افراد و ربط دادن اصوات مختلف به هر یک از حرکات دهان، کار دشواری است. محققان علوم کامپیوتری در دانشگاه آکسفورد با مشارکت اعضای شرکت هوش مصنوعی DeepMind که متعلق به گوگل است، موفق شده اند با استفاده از نرم افزار خود موسوم به Watch، Attend و Spell یا WAS (ببین، دقت کن و هجی کن) هوش مصنوعی را برای لب خوانی به کار گیرند. عملکرد این نرم افزار در آزمایش اولیه، بهتر از یک فرد متخصص لب خوانی بود. این توانایی هوش مصنوعی می تواند به برقراری ارتباط بین افراد ناشنوا و سایر افراد، کمک شایانی کند.
آمار و ارقام مربوط به دقت تشخیص حرکات لب به وسیله هوش مصنوعی، متفاوت است؛ اما چیزی که واضح و مشخص است این است که توانایی هوش مصنوعی در لب خوانی، برای فهم کامل سخنان یک حرف ناشنوا، فاصله بسیار زیادی تا حد ایده آل دارد. طبق اطلاعات ذکر شده در مقاله ای که به تازگی توسط محققان دانشگاه آکسفورد منتشر شده است، میزان متوسط دقت افراد دارای مشکلات شنوایی در زمینه لب خوانی، ۵۲ درصد است. در ضمن محققان موسسه Georgia Tech معتقد هستند که تنها ۳۰ درصد از سخنان فرد از طریق لب خوانی قابل فهم است.
به هر حال هدف محققان دانشگاه آکسفورد طراحی و ساخت نرم افزاری است که بتواند این کار را به صورت خودکار انجام دهد و میزان دقت در لب خوانی را نیز به میزان قابل توجهی افزایش دهد. در صورتی که این نرم افزار ایجاد شود، می تواند تغییر بزرگی در زندگی افراد دچار مشکلات شنوایی ایجاد کند. همان طور که گفتیم محققان دانشگاه آکسفورد برای کسب نتیجه بهتر، با اعضای شرکت DeepMind مشارکت داشته اند.
محققان با بهره گیری از ۵۰۰۰ ساعت فیلم و از طریق فناوری بینایی کامپیوتری و یادگیری ماشینی، اطلاعات لازم را به نرم افزار WAS آموزش داده اند. این فیلم دربردارنده ۱۱۸۰۰۰ جمله و ۱۷۵۰۰ کلمه بود و در آن ۱۰۰۰ نفر صحبت کرده بودند.
محققان با انجام یک آزمایش، عملکرد این نرم افزار را با عملکرد انسان مقایسه کردند. آن ها در این آزمایش یک فیلم بدون صدا پخش کردند و از یک متخصص لب خوانی خواستند تنها با مشاهده حرکت لب افراد در حال صحبت در فیلم، سخنان آن ها را تشخیص دهد. فرد مورد نظر موفق شد ۱۲ درصد از کلمات گفته شده را به درستی تشخیص دهد؛ اما نرم افزار WAS موفق شد ۵۰ درصد کلمات را به درستی تشخیص دهد. البته نرم افزار اشتباهاتی هم در کار خود داشت؛ اما به گفته اعضای تیم تحقیقاتی، این اشتباهات، اشتباهات کوچکی بودند؛ مثلا یک حرف s در پایان یک کلمه تشخیص داده نشد و یا یکی از حرف های یک کلمه به اشتباه هجی شد.
اگرچه این نرم افزار هنوز در ابتدای راه خود قرار دارد و عملکرد آن باید با روش های مختلفی مورد آزمایش قرار بگیرد؛ اما محققان اذعان کرده اند که هدف آن ها این است که این نرم افزار بتواند همزمان با لب خوانی، کلمات را تشخیص دهد و آن ها معتقدند که چنین کاری شدنی است. در ضمن محققان مدعی هستند اطلاعات لازم می تواند از طریق فیلم های بدون صدا و به صورت نامحدود به نرم افزار آموزش داده شود.
فناوری لب خوانی به وسیله هوش مصنوعی می تواند سرعت و دقت فرایند تبدیل صدا به متن را مخصوصا در محیط های شلوغ بهبود ببخشد. در ضمن امکان انجام تحقیقات بیشتر و دستیابی به پیشرفت های بیشتر هم در این زمینه وجود دارد.
نظرات کاربران