بازشناسی مقاوم به نویز اعداد فارسی با شبکه عصبی عمیق
Oral Presentation , Page 35-40 (6) Full Text (1.22 MB)
Authors
1Communications and Electronics Dept. Qom University of Technology, Qom, Iran
2دانشگاه صنعتی قم، دانشکده مهندسی برق و کامپیوتر، گروه مخابرات و الکترونیک
Abstract
از چالشهای مهم در بازشناسی اعداد در گفتار وجود نویز در صدای دریافتی دستگاههای دیجیتال و تشابهات وجهی اعداد میباشد. برای مقابله با این چالشها در این پژوهش، علاوه بر درنظرگرفتن واحد کلمه بهجای واحد واج، انجام عملیات دادهافزایی بهمنظور بهبود عملکرد سیستم، یک ساختار ترکیبی از دو شبکه عصبی کانولوشنال باقیمانده و شبکه عصبی واحد بازگشتی گیتی دوطرفه برای بازشناسی اعداد فارسی گسسته صفر تا نه از گفتار ارائه شده است. نتایج حاصل نشان میدهند که دقت بازشناسی گفتار روش پیشنهادی برای دادههای آموزش و اعتبارسنجی به ترتیب $98.53%$ و $96.10%$ است. این نتایج نسبت به روشهای مبتنی بر شبکه عصبی {LSTM} دارای عملکرد بهتری است.
Keywords
بازشناسی ارقام مجزا; دادهافزایی; شبکه عصبی کانولوشنال باقیمانده; شبکه عصبی واحد بازگشتی گیتی دوطرفه
Proceeding Title [Persian]
بازشناسی مقاومبه نویز اعداد فارسی با شبکه عصبی عمیق
Authors [Persian]
علی نصر اصفهانی
Abstract [Persian]
از چالشهای مهم در بازشناسی اعداد در گفتار وجود نویز در صدای دریافتی دستگاههای دیجیتال و تشابهات وجهی اعداد میباشد. برای مقابله با این چالشها در این پژوهش، علاوه بر درنظرگرفتن واحد کلمه بهجای واحد واج، انجام عملیات دادهافزایی بهمنظور بهبود عملکرد سیستم، یک ساختار ترکیبی از دو شبکه عصبی کانولوشنال باقیمانده و شبکه عصبی واحد بازگشتی گیتی دوطرفه برای بازشناسی اعداد فارسی گسسته صفر تا نه از گفتار ارائه شده است. نتایج حاصل نشان میدهند که دقت بازشناسی گفتار روش پیشنهادی برای دادههای آموزش و اعتبارسنجی به ترتیب $98.53%$ و $96.10%$ است. این نتایج نسبت به روشهای مبتنی بر شبکه عصبی {LSTM} دارای عملکرد بهتری است.
Keywords [Persian]
بازشناسی ارقام مجزا، دادهافزایی، شبکه عصبی کانولوشنال باقیمانده، شبکه عصبی واحد بازگشتی گیتی دوطرفه