تحلیل موضوعی داده های قرآنی در مقیاس کلمه با استفاده از مدل احتمالی LDA

از شبکه نخبگان و قرآن‌کاوی
پرش به ناوبری پرش به جستجو

چکیده

تحلیل موضوعی مبتنی بر LDA یکی از متداولترین روشهای متنکاوی برای کشف زوایای پنهان ساختاری و یافت روابط بین اجزای اسناد تحت بررسی است. در این مدل هر سند، توزیعی احتمالی از موضوعات پنهان و هر موضوع نیز توزیعی احتمالی از لغات است. در این پژوهش، همبستگی آماری بین لغات آیات سوره بقره شناسایی و موضوعات مجموعه آیات کمّیسازی میشود. پیشپردازشهای صورت گرفته بر روی کلمات شامل حذف نشانهها و اعراب، یکسانسازی صورتهای مختلف کلمه، توکنبندی اسناد و حذف کلمات توقف است که شامل کلمات بدون تأثیر یا کمتأثیر در تفکیک موضوع از جمله حروف اضافه میشود. پردازشها در دو حالت اعمال الگوریتم فرکانس وقوع کلمه و الگوریتم فرکانس وقوع کلمه- معکوس سند روی LDA انجام گردید و میزان احتمال تعلق هر کلمه به هر موضوعِ از پیش تعیین شده مشخص گردید. از پارامتر سرگشتگی برای تعیین تعداد موضوع بهینه استفاده بهعمل آمد و مصورسازی دوبُعدی از طریق کاهش ابعاد با استفاده از الگوریتم های غیرخطی انجام شد. نتایج نشان داد که توزیع به دست آمده برای اجراهای مختلف، متفاوت است که با توجه به ماهیت احتمالی رویکرد، قابل انتظار است ولی فاصله نسبی کلمات در فضای بُرداری نمایش معنایی و انجمنی تغییر نمیکند. تغییر نحوه مرتب سازی یا استفاده ازمجموعه دادهای دیگر نتایج متفاوتی بهدست میدهد، چون حجم داده ها برای نمونه برداری در مدل تولیدی مورد استفاده از اهمیت خاصی برخوردار است و با افزایش اندازه فرهنگنامه، عملکرد روش بهبود مییابد.

واژه های کلیدی

تحلیل موضوعی، متنکاوی قرآنی، LDA ، توزیع آماری، کاهش ابعاد