پاسخ به پرسش دیداری در تصاویر هنری با استفاده از یادگیری عمیق
Oral Presentation , Page 61-66 (6) XML Full Text (1007.89 K)
Authors
1Department of Computer Engineering, Faculty of Engineering, College of Farabi, University of Tehran
2استادیار، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران
3Dept. Computer Engineering Faculty of Engineering, College of Farabi, University of Tehran, Iran
Abstract
پاسخ به پرسش دیداری در حوزه‌های خاص علاوه بر تازگی، از این رو که به کاربردی‌تر شدن این سیستم‌ها در مسائل روزمره و مسائل تخصصی کمک می‌کند، اهمیت دارد. در این پژوهش با استفاده از یک مجموعه‌داده هنری که دارای پرسش‌های دیداری و برمبنای دانش می‌باشد، اقدام به پیاده‌سازی و بهبود عملکرد یک سیستم پاسخ به پرسش دیداری در تصاویر هنری می‌کنیم. برای این کار در ابتدا ماهیت پرسش‌های مجموعه‌داده را با استفاده از یک {BERT} پیش آموزش دیده مشخص کرده و سپس در شاخه‌ی دیداری با استفاده از مدل {iQAN} با مکانیسم توجه {MLB} و مکانیسم همجوشی {MUTAN} به پرسش‌های دیداری و در شاخه‌ی مبتنی بر دانش با استفاده از یک مدل مبتنی بر {XLNet} به پرسش‌هایی که از روی تصاویر قادر به پاسخ‌دهی به آن‌ها نیستیم، پاسخ می‌دهیم. در شاخه‌ی دیداری به دقت $78.92%$ در پرسش‌های دیداری رسیدیم. در شاخه‌ی مبتنی بر دانش نیز به دقت $47.71%$ دست پیدا کردیم. در مجموع دو شاخه با توجه به تقسیم آزمایشی مجموعه‌داده به دقت $55.88%$ رسیدیم. همچنین در این پژوهش تأثیر پارامترهای تعداد نگاه اجمالی و توابع فعال‌سازی را در عملکرد مدل بررسی شده است.
Keywords
 
Proceeding Title [Persian]
پاسخ به پرسش دیداری در تصاویر هنری با استفاده از یادگیری عمیق
Authors [Persian]
عرفان ذوالقدری‌ها، پویا ارده‌خانی
Abstract [Persian]
پاسخ به پرسش دیداری در حوزه‌های خاص علاوه بر تازگی، از این رو که به کاربردی‌تر شدن این سیستم‌ها در مسائل روزمره و مسائل تخصصی کمک می‌کند، اهمیت دارد. در این پژوهش با استفاده از یک مجموعه‌داده هنری که دارای پرسش‌های دیداری و برمبنای دانش می‌باشد، اقدام به پیاده‌سازی و بهبود عملکرد یک سیستم پاسخ به پرسش دیداری در تصاویر هنری می‌کنیم. برای این کار در ابتدا ماهیت پرسش‌های مجموعه‌داده را با استفاده از یک {BERT} پیش آموزش دیده مشخص کرده و سپس در شاخه‌ی دیداری با استفاده از مدل {iQAN} با مکانیسم توجه {MLB} و مکانیسم همجوشی {MUTAN} به پرسش‌های دیداری و در شاخه‌ی مبتنی بر دانش با استفاده از یک مدل مبتنی بر {XLNet} به پرسش‌هایی که از روی تصاویر قادر به پاسخ‌دهی به آن‌ها نیستیم، پاسخ می‌دهیم. در شاخه‌ی دیداری به دقت $78.92%$ در پرسش‌های دیداری رسیدیم. در شاخه‌ی مبتنی بر دانش نیز به دقت $47.71%$ دست پیدا کردیم. در مجموع دو شاخه با توجه به تقسیم آزمایشی مجموعه‌داده به دقت $55.88%$ رسیدیم. همچنین در این پژوهش تأثیر پارامترهای تعداد نگاه اجمالی و توابع فعال‌سازی را در عملکرد مدل بررسی شده است.
Keywords [Persian]
بینایی کامپیوتری، پاسخ به پرسش دیداری، پردازش زبان طبیعی، تصاویر هنری