پاسخ به پرسش دیداری در تصاویر هنری با استفاده از یادگیری عمیق
Oral Presentation , Page 61-66 (6) Full Text (1007.89 K)
Authors
1Department of Computer Engineering, Faculty of Engineering, College of Farabi, University of Tehran
2استادیار، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران
3Dept. Computer Engineering Faculty of Engineering, College of Farabi, University of Tehran, Iran
Abstract
پاسخ به پرسش دیداری در حوزههای خاص علاوه بر تازگی، از این رو که به کاربردیتر شدن این سیستمها در مسائل روزمره و مسائل تخصصی کمک میکند، اهمیت دارد. در این پژوهش با استفاده از یک مجموعهداده هنری که دارای پرسشهای دیداری و برمبنای دانش میباشد، اقدام به پیادهسازی و بهبود عملکرد یک سیستم پاسخ به پرسش دیداری در تصاویر هنری میکنیم. برای این کار در ابتدا ماهیت پرسشهای مجموعهداده را با استفاده از یک {BERT} پیش آموزش دیده مشخص کرده و سپس در شاخهی دیداری با استفاده از مدل {iQAN} با مکانیسم توجه {MLB} و مکانیسم همجوشی {MUTAN} به پرسشهای دیداری و در شاخهی مبتنی بر دانش با استفاده از یک مدل مبتنی بر {XLNet} به پرسشهایی که از روی تصاویر قادر به پاسخدهی به آنها نیستیم، پاسخ میدهیم. در شاخهی دیداری به دقت $78.92%$ در پرسشهای دیداری رسیدیم. در شاخهی مبتنی بر دانش نیز به دقت $47.71%$ دست پیدا کردیم. در مجموع دو شاخه با توجه به تقسیم آزمایشی مجموعهداده به دقت $55.88%$ رسیدیم. همچنین در این پژوهش تأثیر پارامترهای تعداد نگاه اجمالی و توابع فعالسازی را در عملکرد مدل بررسی شده است.
Keywords
Proceeding Title [Persian]
پاسخ به پرسش دیداری در تصاویر هنری با استفاده از یادگیری عمیق
Authors [Persian]
عرفان ذوالقدریها، پویا اردهخانی
Abstract [Persian]
پاسخ به پرسش دیداری در حوزههای خاص علاوه بر تازگی، از این رو که به کاربردیتر شدن این سیستمها در مسائل روزمره و مسائل تخصصی کمک میکند، اهمیت دارد. در این پژوهش با استفاده از یک مجموعهداده هنری که دارای پرسشهای دیداری و برمبنای دانش میباشد، اقدام به پیادهسازی و بهبود عملکرد یک سیستم پاسخ به پرسش دیداری در تصاویر هنری میکنیم. برای این کار در ابتدا ماهیت پرسشهای مجموعهداده را با استفاده از یک {BERT} پیش آموزش دیده مشخص کرده و سپس در شاخهی دیداری با استفاده از مدل {iQAN} با مکانیسم توجه {MLB} و مکانیسم همجوشی {MUTAN} به پرسشهای دیداری و در شاخهی مبتنی بر دانش با استفاده از یک مدل مبتنی بر {XLNet} به پرسشهایی که از روی تصاویر قادر به پاسخدهی به آنها نیستیم، پاسخ میدهیم. در شاخهی دیداری به دقت $78.92%$ در پرسشهای دیداری رسیدیم. در شاخهی مبتنی بر دانش نیز به دقت $47.71%$ دست پیدا کردیم. در مجموع دو شاخه با توجه به تقسیم آزمایشی مجموعهداده به دقت $55.88%$ رسیدیم. همچنین در این پژوهش تأثیر پارامترهای تعداد نگاه اجمالی و توابع فعالسازی را در عملکرد مدل بررسی شده است.
Keywords [Persian]
بینایی کامپیوتری، پاسخ به پرسش دیداری، پردازش زبان طبیعی، تصاویر هنری