راهکاری جهت ایجاد شبکه معنایی تداعی برای قرآن کریم (مقاله)

از شبکه نخبگان و قرآن‌کاوی
پرش به ناوبری پرش به جستجو

چکیده

مهندسی و ساخت شبکه‌های معنایی یکی از فناوری‏های زیربنایی در حوزه‏های وب معنایی و هوش مصنوعی (خصوصا در زمینه پردازش‏های مرتبط با معانی مانند پردازش زبان‌طبیعی و محاسبات شناختی است). در بسیاری از سامانه‌ها که به نحوی به زبان‌طبیعی مربوط هستند، حداقل در یکی از قسمت‌ها با شبکه‌های معنایی کار می‌کنند. ازاین‌رو تسلط و خبرگی در طراحی، ساخت، مهندسی، نگهداری، تکامل و بهینه‏سازی هستان‏نگارها نقش مهمی در پیشرفت حوزه فناوری هوشمندی در سال‌های اخیر داشته و برای سال‌های پیش‌رو نیز این روند ادامه‏دار خواهد بود. تاکنون فناوری‏های هوشمند زیادی در زمینه‏های مختلف به خدمت گرفته شده‌اند. یکی از این زمینه‏ها، علوم انسانی و اسلامی است. از دیجیتالی‏سازی کتاب‏ها، تا کتابخانه‏های دیجیتال، تا سامانه‏های وب معنایی کمک‏یار پژوهش، تا سامانه‏های هوشمند‌شناختی و تا دیگر افق‏های پیش‌رو، مسیری بالنده برای کاربردهای رایانش و هوش مصنوعی در حوزه علوم انسانی و اسلامی پیموده‌شده‌ است. قرآن کریم به عنوان کتاب مقدس مسلمانان جهان و منبع اصلی دین، تمدن و فرهنگ اسلامی، همیشه یکی از منابع اصلی در علوم انسانی و اسلامی (و البته کاربردهای خدمات اجتماعی-مذهبی در جوامع مسلمان) بوده‌ است. ترجمه قرآن، یکی از نیازهای اولیه (و البته اصلی) برای جوامع مسلمان بوده‌ است. در پژوهش پیش‌‌رو برای ساخت شبکه معنایی از چندین فناوری ازجمله هستان نگار، تعبیه کلمه، هم‌وقوعی و ریشه‌یابی عربی به صورت ترکیبی استفاده شده‌ است. در نهایت این پژوهش پس از ساخت شبکه معنایی، با استفاده از خوشه‌بندی چندین قاب معنایی را می‌سازد. این قاب‌های معنایی با نام قاب͏های تداعی یاد می‌شوند. برای ارزیابی روش پیشنهادی از پرسشنامه استفاده شد. در این پرسشنامه 1295 نفر به صورت داوطلبانه شرکت کردند. از هر داوطلب مجموعا 6 سوال پرسیده شد. در نهایت معیار دقت 69.47 درصد و معیار اختصاص 85.35 درصد بود.

كلمات كليدي

قرآن کریم، هستان‏نگار، تعبیه کلمه، هم‌وقوعی, قاب معنایی، تداعی.

مقدمه ساخت شبکه معنایی[۱] نیاز به اجزاء مختلفی دارد. رویکرد مورد استفاده در این پژوهش، ساخت شبکه(معنایی) به صورت خودکار[۲] می باشد. پژوهش های مدرن قرآن کاوی رایانشی[۳] ، در نیمه دوم قرن ۲۰ میلادی با پیشرفت تجهیزات پردازشی توسط دانشمندان مسلمان بنیاد نهاده شد. در سالهای ابتدائی قرن ۲۱ با شکوفایی رویکردها و روش های پردازش زبان طبیعی و محاسبات معنایی، این پژوهش ها دارای قوام و تنوع بیشتری شد. در سال های ۲۰۱۰ به بعد با درخشش رویکردهای نوظهور هوش مصنوعی مانند شبکه های عصبی عمیق از روش های مزبور برای توسعه هرچه بیشتر این دامنه تحقیقاتی استفاده صورت گرفت. با معرفی عمومی موفقیت مدل های زبانی بزرگ (LLM) شاهد معرفی روش های مبتنی بر این زیرساخت پردازشی (مانند Prompt Engineering ) در حیطه قرآن کاوی رایانشی هستیم. دانش تفسیر قرآن کریم میراث دار بدنه مهمی از معارف و حکمت های نورانی در قالب متون تفسیری است. پردازش معنایی (و حتی شناختی) این گنجینه ارزشمند، می تواند دستاوردهای مهمی برای فهم بهتر قرآن کریم، از طریق قرآن کاوی رایانشی در اختیار قرار دهد. برای نیل به این هدف لازم است زیرساخت های پردازش معنایی برروی متون موجود تفسیری به شیوه های توسط انسان، نیمه خودکار و خودکار اجرا گردد. از مهم ترین انواع چنین زیرساخت های معنایی، شبکه های معنایی و هستان نگارها هستند. در پژوهش حاضر با استفاده از یک رویکرد مهندسی ترکیبی، اقدام به ارائه یک راه حل چندجنبه برای تولید خودکار یک شبکه معنایی تداعی برای قرآن کریم نمودیم. این راهکار ارائه شده با ترکیب دستاوردهای مهندسی از حیطه های مهندسی اطلاعات، بازیابی اطلاعات، پردازش زبان طبیعی، سامانه تعبیه کلمات و محاسبات معنایی-شناختی ارائه گردیده است. براساس مطالعات موردی انجام شده بر روی هستان نگار و شبکه معنایی حاصل از این راهکار، کاربردپذیری موثر این روش برای استخراج دانش با پردازش متون تفسیری مشاهده شد. در ادامه به معرفی تعاریف مهم پرداخته می شود.

هستان نگار

هستان نگار بیان رسمی و صریح مفاهیم هستند و ابزار مهم شبکه معنایی به کار می روند. هستان نگار شامل چندین جز است. این اجزا شامل مفاهیم[۴] (کلاس)(C)، روابط[۵] (ویژگی)(R) نمونه ها[۶] (I) و اصول موضوعه[۷] (A) انواع داده[۸] (T)، مقادیر[۹] (V) می شود. (GRUBER, 1993) روابط هستان نگار به دو دسته اصلی تقسیم می شوند: روابط طبقه بندی[۱۰] و روابط غیر طبقه بندی[۱۱] . روابط غیر طبقه بندی نیز خود چند دسته دارد: بخشی از[۱۲]  : تضاد[۱۳] ، ترادف[۱۴] ، مالکیت[۱۵] ، علیّت[۱۶] ، ابرمجموعگی[۱۷] و زیر مجموعگی[۱۸] . از مهم ترین و جامع ترین هستان نگارهای ایجاد شده در زبان انگلیسی به WordNet و در زبان فارسی به فارسنت می توان اشاره کرد. در ادامه فهرستی مجمل از پژوهش های صورت گرفته در زمینه ساخت و توسعه هستان نگار ارائه شده است. جدول 1: هستان نگار های ساخته شده در زمینه قرآن کریم

نام و سال هدف اصلی زبان موضوعات حوزه پوشش فرمت ابزار ساخت نوع ارتباطات
Hikmat Ullah Khan (2013) ساخت آنتولوژی موضوعی قرآن انگلیسی حیوانات موضوع خاص OWL Protégé / SPARQL Part-of
مهدی جوانمرد (1393) ساخت آنتولوژی موضوعی قرآن فارسی مومنان خاص OWL Protégé سلسله مراتبی با Data Properties و Object Properties
Rizwan Iqbal (2013) توسعه آنتولوژی جز 30 قرآن کریم انگلیسی و مالایی جز 30 ام بخشی از قرآن RDF Protégé / IDE سلسله مراتبی با Data Properties و Object Properties
Kais Dukes (2012) ساخت آنتولوژی قرآنی با پشتیبانی از مفاهیم مهم عربی و انگلیسی - - Text File - Part-of و is-a
Manual Almaayah (2014) توسعه وردنت قرآنی عربی و انگلیسی - کل قرآن - - Synonymy, Antonymy, A Glossary, Similarity
Mohammad Shoaib (2009) استخراج روابط وردنت انگلیسی سوره بقره بخشی از قرآن - SQL Server 2005, VB.Net Synonymy, Polysemi, Hypernymy, Hyponymy, Holonymy, Meronymy

تداعی

در فرهنگ لغت عمید، سه معنی برای واژه تداعی آورده شده است: (عمید, 1389) اصل یا حالتی که افکار و اندیشه‌ها و عواطف و سرگذشت‌ها چنان به هم مربوط می‌شوند که یکی پس از دیگری در ذهن پدیدار می‌شوند؛ تسلسل افکار؛ تسلسل خواطر. یکدیگر را خواندن و گرد آمدن. به یاد آوردن. همان طور که از معنی واژه تداعی پیداست، مقصود از تداعی در این پژوهش به خاطر آوردن واژه͏ای به علت دیدن و یا شنیدن واژه ای دیگر می باشد. برای واژه تداعی در زبان انگلیسی دو معادل وجود دارد؛ اگر در زمینه منطق باشد، واژه abduction استفاده می͏شود و اگر در زمینه روانشناسی باشد، واژه association.   = پژوهش های پیشین= تا کنون روش های زیادی برای ساخت و یا توسعه هستان نگار، ساخت شبکه معنایی و تداعی به کار رفته است. در این فصل به مرور برخی از پژوهش های انجام شده در این حوزه می پردازیم. محمدی و بدیع در این مقاله روشی را پیشنهاد دادند که زنجیره های مفاهیم را استخراج کرده و امتیاز می داد. ابتدا باید متن، قطعه بندی شده و تجزیه معنایی گردد. سپس باید زنجیره های مفاهیم استخراج شود. زنجیره مفاهیم، دنباله ای از مفاهیم مرتبط موجود در متن اصلی است. در زنجیره مفاهیم، بین مفاهیم سه نوع ارتباط بسیار قوی، قوی و متوسط وجود دارد. در مرحله بعدی به مفاهیم امتیاز داده می شود. در نهایت با استفاده از این امتیازات و اعمال حد آستانه، مفاهیم کلیدی استخراج می͏شود. (محمدی & بدیع, 1396) پیکرگان مورد استفاده در این پژوهش پیکره LU و پیکره ملی آمریکایی می͏باشد. زبان این پیکرگان انگلیسی بوده است. در این سیستم جمعا 525 مفهوم از 10 متن استخراج شد. برای ارزیابی مفاهیم کلیدی استخراج شده توسط سیستم، از خبره استفاده شد. میزان توافق میان این خبرگان در ارزیابی سیستم %47 بود. میانگین معیار فراخوانی در این پژهش برابر %44 و میانگین معیار دقت برابر %27 بود. احمدی و همکاران برای استخراج سلسله مراتب مفاهیم در حوزه علم سنجی از روش هم وقوعی(هم͏رخدادی واژگان) استفاده کردند. پیکره مورد استفاده در این مقاله شامل چکیده ۲۵۸۵ مدرک تولید شده توسط پژوهشگران ایرانی در حوزه علم سنجی از سال ۱۳۶۱ تا سال ۱۳۹5بوده است. (احمدی, عصاره, حسینی بهشتی, & حیدری, 1396) روش مورد استفاده در این مقاله شامل ۷ مرحله اصلی می باشد: استخراج مفاهیم اولیه با استفاده از روش عبارت منظم پیش پردازش متن از طریق روش زبانی c-value تعیین مفاهیم با اهمیت بالاتر از طریق روش آماری c-value ساخت ماتریس وقوع کلمات(آیا کلمه الف در سند شماره i وجود دارد یا نه) خوشه بندی و وزن دهی به مفاهیم از طریق روش TF-IDF ساخت سلسله مراتب مفهومی هستان نگار با استفاده از روش هم وقوعی ساخت گراف هستان نگار با کمک نرم افزار موسوی و همکاران در این مقاله یک روش ساخت هستان نگار فارسی براساس برقراری پیوند میان کلمات فارسی و PWN[۱۹] ارائه کردند. این وردنت حاوی 16000 کلمه و 22000 هم͏نشیم است. در این مقاله صحت برابر91.18% بوده است. (Mousavi, Faili, & Fadaee, Persian wordnet construction using supervised learning, 2017) برای ساخت دادگان که حاوی کلمات فارسی برچسب خورده است، از پیکره بیجن͏خان استفاده شده است. این پیکره حاوی 10 میلیون کلمه برچسب خورده بوده و اسناد موجود در این پیکره در 4300 دسته تقسیم می شوند. پس از استخراج، این کلمات با استفاده از فرهنگ لغت آریانپور به انگلیسی ترجمه شده اند. در مرحله بعدی هم͏نشیم های PWN استخراج شده و میان کلمات فارسی و این هم͏نشیم ها پیوند برقرار می شود. تعداد 7 ویژگی برای هر پیوند در نظر گرفته شده است: اندازه ارتباط، قدرت هم͏نشیم، قدرت ترکیبی، تشابه دامنه، انگلیسی یک نواخت، جامعیت هم͏نشیم و اهمیت در این پژوهش از فارس͏نت نسخه 2 به عنوان یک هستان نگار آماده برچسب خورده برای ساخت مجموعه آموزشی استفاده شده است. در سال 2021 موسوی جهت بهبود مقاله قبلی افعال مرکب زبان فارسی را نیز به هستان نگار قبلی خود اضافه کردند. روش مورد استفاده در این مقاله نیز یادگیری نظارت شده بود. (Mousavi & Faili, Developing the Persian Wordnet of Verbs Using Supervised Learning, 2021) انسان ها معمولا مشاهدات خود را بر اساس دانش زمینه ای خود ارائه می دهند. این فرآیند بیشتر شبیه تداعی است تا استدلال؛ چون نیاز به فرضیاتی دارد که در خود مشاهده نیست. انسان توانایی درک موقعیت های پیچیده را دارد و این مسئله نیز لزوما به مشاهده بر نمی͏گردد.

(Langley & Meadows, 2019)

روش ارائه شده در این مقله بر چند اصل استوار است؛ شناخت سطح بالا، اهمیت بازنمایی های ساختار یافته و دانش، تکیه بر جستجوی مکاشفه ای و محدودیت های رفتار انسانی(پردازش تدریجی مشاهدات). هر نظریه باید به مجموعه ای از پدیده هایی که می خواهد "توضیح" بدهند، را مشخص کنند. این توضیحات با درخت اثبات نمایش داده می شود. درخت اثبات، درختی است که از فرضیات به نتیجه می͏رسد. روش پیشنهادی در این مقاله سیستم تداعی PENUMBRA مي باشد. معماری این سیستم در دو سطح مجزا قرار دارد. در هر عبور از سطح بالا، معماری بر اساس مشاهدات جدید چک می شود، تا اگر ناسازگاری وجود داشت تشخیص داده شود. اول باور کانونی انتخای می شود. این انتخاب براساس الگوریتم های مکاشفه ای که براساس تعدادی پارامتر است، می باشد. در مرحله بعدی به تفصیل می پردازد؛ یعنی همه حالت هایی(قوانین) که با در نظر گرفتن باور کانونی پیش می آید را می͏سازد. در مرحله بعد ناسازگاری در قوانین جدید بررسی می شود. الصلحی و عبدالله در این مقاله روشی بر اساس نقشه برداری[۲۰] دامنه محدود زبانی، برای ساخت خودکار هستان نگار قرآنی معرفی کردند. (Al-Salhi & Abdulla, 2022) جمع آوری داده: در این قسمت اطلاعات مربوط به دسته های مختلف قرآنی از جمله انبیا، حیوانات، کفار و ... از منابع اسلامی جمع آوری شد. این بخش سه مرحله داشت: اول جستجوی مفاهیم، دوم طبقه بندی مفاهیم به مفاهیم اصلی و فرعی و سوم جستجوی روابط مدل سازی هستی شناسی با استفاده از روش ORM[۲۱] هستان نگار به صورت گرافیکی نمایش داده می شود. اجرا و جامع سازی هستان نگار داستان های قرآن کریم: در این مقاله برای توسعه هستان نگار ابتدا به صورت دستی، سپس با تکنیک نقشه برداری به پر کردن خلاء های موجود می پردازد. این هستان نگار شامل 31 کلاس است که 10 کلاس آن اصلی و 21 کلاس آن فرعی می باشند. رویکرد ساخت هستان نگار، از بالا به پایین است. در این هستان نگار برای هر شی 35 ویژگی و برای هر داده 19 ویژگی در نظر گرفته شده است. با استفاده از سیستم پرسمان SPARQL به ارزیابی این روش پرداخته شده است. قیومی در این مقاله روشی برای تعیین خودکار معانی واژگان ارائه کرد که بر اساس بردار تعبیه کلمه بود. در این مقاله به ازای هر واژه هدف، یک بردار برای خود واژه و یک بردار برای متن حاوی واژه ساخته شده است. (قیومی, 1398) برای ساخت بردار برای واژه از یک شبکه عصبی کمک گرفته شده است. برای ساخت بردار برای متن از 2 مفهوم "جمله بنیان" و "بافت بنیان" استفاده شده است. در ادامه برای تعیین معنی واژه از خوشه بندی استفاده شده است. سلیمان و همکاران یک مدل آموزش داده شده برای بردار تعبیه کلمات را ارائه دادند. دادگان مورد استفاده در این مقاله شامل توییتر، داده های وب و ویکی پدیا بود. تکنیک مورد استفاده در این مقاله word2vec است. (Soliman, Eissa, & Samhaa, 2017)   = راهکار پیشنهادی= مقدمه در این فصل به توضیح روش به کار رفته در این پژوهش پرداخته می شود. شکل 1 روش کلی به کار رفته در این پژوهش را نشان می͏دهد. ابتدا متن تفسیر نور تبدیل به دادگان شده و کلمات آن استخراج می گردد. سپس با استفاده از TF-IDF، حدآستانه اعمال شده و کلمات نهایی به این صورت صورت انتخاب می شوند. در مرحله بعدی به طور موازی برای این کلمات ماتریس هم وقوعی، بردار تعبیه کلمه، روابط هستان نگار فارس͏نت و ارتباط با ریشه یابی متن عربی به دست آورده می شود. در نهایت با استفاده روابط قسمت قبل زوج ها و قاب های تداعی به دست می آیند.

شکل 1: روش کلی به کار رفته در این پژوهش اين روند (ماتریس هم وقوعی، بردار تعبیه کلمه، روابط هستان نگار فارس͏نت و ارتباط با ریشه یابی متن عربی و در نهایت خوشه بندی) در سه حالت انجام شد: یافتن کلمات نهایی با استفاده از اعمال حدآستانه TF-IDF یافتن کلمات نهایی با استفاده از اصطلاح نامه یافتن کلمات نهایی با استفاده از به هنجار سازی، تعبیه کلمه و فارس͏نت ساخت دادگان منابع تهیه دادگان برای تهیه دادگان از سایت دانشنامه اسلامی استفاده شده است[۲۲] . این سایت حاوی متن عربی آیه، ترجمه فارسی و انگلیسی وتفسیر می͏باشد. تفسیر نور نویسنده این تفسیر، حجت الاسلام و المسلمین حاج شیخ محسن قرائتی است. این کتاب در سال 1374 توسط انتشارات موسسه در راه حق چاپ شده است. این کتاب در سال 1376 به عنوان کتاب سال جمهوری اسلامی ایران برگزیده شده است. [۲۳] در این کتاب تلاش اصلی مولف بر این بوده است که فهم قرآن را برای عموم مردم ساده و روان سازد تا همگان بتوانند از این کتاب راهنمای زندگی بهره گیرند. (قرائتی, 1374) این تفسیر شامل چهار بخش است: متن و ترجمه آیه: این قسمت شامل متن و ترجمه یک یا چندین آیه(در صورتی که از نظر معنی به هم وابسته باشند) می باشد نکته ها: این قسمت شامل ترجمه و توضیح کلمات مشکل در آیه، شان نزول، آیات مرتبط، برخی روایات ذیل آیه، طرح پرسش و پاسخ به آنها پیام ها: این قسمت شامل مفردات آیه، عبارات مرکب، رابطه ابتدا و انتها آیه و رابطه این آیه با آیات قبل می باشد. پاورقی: نشانی آیات و روایات مورد استفاده در این قسمت آمده است. نحوه ساخت دادگان

شکل 2: نمودار نحوه ساخت دیتاست با کمک فایل های html که برای هر آیه جداگانه توسط سایت دانشنامه اسلامی تهیه شده بود، قسمت تفسیر نور جدا گردید و در یک فایل csv ذخیره شد. این فایل شامل شماره سوره، شماره آیه، متن آیه، ترجمه آیه، نکته͏ها و پیام آیات می باشد. با استفاده از سایت پایگاه جامع قرآن کریم[۲۴] (دسته بندی موضوعی برای آیات ارائه می کند)، آیات مربوط به موئضوع معاد گزینش شد. این دسته حدود 1600 آیه دارد. البته باید به این نکته توجه داشت که برخی از آیات، مانند آیات 6 تا 14 سوره مبارکه تکویر، حالت موقوف͏المعانی دارند؛ یعنی که ذیل هر آیه تفسیر جدا وجود نداشته و تفسیر این چند آیه با هم تعریف شده است.

شکل 3: نمایی از دادگان پیش پردازش پس از ساخت دادگان، نیاز به پیش پردازش بود تا متن پیراسته شده و آماده پردازش بشود.

شکل 4: نمودار نحوه پیراستن متن پیش پردازش شامل 4 مرحله بود: به هنجار سازی[۲۵]  : برای به هنجار سازی از کتابخانه هضم[۲۶] استفاده شده است. به هنجار سازی شامل یکسان سازی کد حروف برای محاسبات ساده تر می باشد. حذف علائم اضافی: علائمی نظیر ویرگول، نقطه، گیومه، اعداد و ... که در این نوع محاسبات نقش خاصی ندارند، حذف شدند. حذف ایست واژه ها: کتابخانه هضم یک لیست شامل ایست واژه ها دارد؛ که در این پژوهش از همین لیست، برای حذف ایست واژه ها استفاده شده است. ریشه͏یابی[۲۷]  : برای کاهش تعداد کلمات مورد محاسبه از ریشه یابی استفاده شده است. برای ریشه͏یابی نیز از کتابخانه هضم استفاده شده است. قبل از ریشه یابی تعداد کلمات حدود 19000 کلمه بود. بعد از ریشه یابی این کلمات به حدود 17000 کلمه رسید.

شکل 5: نمودار پیش پردازش اعمال حدآستانه با استفاده از TF-IDF تعریف TF-IDF معنای TF-IDF، فراوانی عبارت-معکوس فروانی سند است. TFt فراوانی عبارت tدر سند d تقسیم بر تعداد کل عبارات موجود در سند d است. tf(t,d)=f_(t,d)/(∑_(t'∈d)▒f_(t^',d) ) IDFt لگاریتم معکوس تعداد اسنادی است که عبارت t در آنها آمده است. IDFt اولین بار توسط کارن اسپارک جونز (Jones, 1972) معرفی شد. IDF=log N/{■(d∈D&:&t∈d)} اعمال حد آستانه نکات و پیام های هر آیه(به صورت پشت سر هم )، یک سند تعریف شد. ابتدا بردار TF-IDF برای کل تفاسیر آیات محاسبه شد. سپس برای جلوگیری از محاسبات سنگین در مراحل بعد کلمات کم کاربرد حذف شدند. برای حذف کلمات کم کاربرد، از حد آستانه idf استفاده شد؛ به این صورت که اگر کلمه a در کمتر از 0.5 درصد اسناد آمده بود، کلمه کم کاربرد شناخته شده و حذف می شد. پس از حذف کلمات کم کاربرد، تعداد کلمات به حدود 4000 کلمه رسید.

شکل 6: نمودار TF-IDF

هم وقوعی

ماتریس هم وقوعی، یک ماتریس مربعی برای نشان دادن احتمال ظاهر شدن کلمات در کنار هم می باشد. سطر و ستون این ماتریس کلمات داخل متن پردازشی است. ابتدا یک پنجره با طول معین انتخاب می شود و کل متن به وسیله این پنجره پیمایش می شود. به ازای هر بار ظاهر شدن دو کلمه در کنار هم یا با فاصله اندک (فاصله اندک توسط پنجره تعریف می شود)، امتیاز میان آن دو کلمه در ماتریس افزوده می شود. در این پژوهش هم وقوعی در تفسیر آیات محاسبه شد. ابتدا متن تفسیر پیش پردازش شد (مانند قسمت TF-IDF). کلمات کم کاربردی که در حد آستانه در قسمت TF-IDF قرار نگرفته بودند، حذف شدند.

شکل 7: نمودار هم وقوعی طول پنجره هم وقوعی 2 در نظر گرفته شد. شیوه محاسبه امتیاز به این صورت بود که اگر دو کلمه پشت سر هم آمده بودند امتیاز میان آن ها 1 واحد افزوده می شد و اگر با یک فاصله آمده بودند امتیاز میان آنها 0.5 واحد افزوده می͏شد. . در شکل زیر امتیاز میان کلمه A و كلمه B و كلمه A و كلمه C، 1 واحد افزوده می شود. زیر امتیاز میان کلمه A و كلمه D و كلمه A و كلمه F، 0.5 واحد افزوده می͏شود برای مثال اگر در پیکره، کلمه A و B، سه بار در کنار هم و سه بار با یک کلمه فاصله از هم قرار گرفته شده باشند درایه ماتریس مربوط به این دو کلمه امتیاز 4.5 خواهد بود.

این کلمات دارای امتیازات بالا در قسمت هم وقوعی بودند. جدول 2: امتیازات بالا در قسمت هم وقوعی

ستون ۱ ستون ۲
قیامت روز
صادق امام
صلى پیامبر
على حضرت
براى خداوند
الهى قهر
اکرم پیامبر
آخرت دنیا
مى‌فرماید آیه
خدا اولیاى
اسلام پیامبر
خدا رسول
باقر امام
ابراهیم حضرت
انسان قیامت
کیفر پاداش

تعبیه کلمه سامانه تعبیه کلمات[۲۸] روش پیشرفته تر هم وقوعی می باشد و برای پیکره های بزرگ کاربرد دارد. این روش نیز احتمال وقوع دنباله ای از کلمات را مورد بررسی قرار می دهد. دو رویکرد اصلی در سیستم های تعبیه کلمه CBOW و Skip-gram است. (Hinton, 1986) (Mikolov, Chen, Corrado, & Dean, 2013) از مدل های پرکاربرد می توان به word2vec، GloVe و FastText اشاره کرد. (Chawla, 2018) در این پروژه از دو مدل سیستم تعبیه کلمه که از پیش آموزش داده شده بودند، استفاده شد. این مدل͏ها شامل بردارهای تعبیه کلمات بودند که از پیکره های مربوطه به دست آمده بودند. مدل مژگانی این مدل براساس پیکره فارسی سایت ویکی پدیا در سال 2016[۲۹] ، آموزش دیده است. روش آموزش در این مدل، روش word2vec بوده است. این مدل تعبیه کلمه توسط امین مژگانی در سایت گیت هاب قرار داده شده است. حدود 2000 کلمه از کلمات نهایی استخراج شده در مراحل قبل در مجموعه این مدل قرار داشتند. مدل فارسي يار مجموعه پیکره های فارسی یار[۳۰] چندین سرویس از جمله پیکره تشخیص موجودیت های نامدار، پیکره ویکی‌پدیای فارسی به همراه مدل͏های تعبیه کلمات، فردوس‌نت (شبکه واژگان جامع زبان فارسی) و حس‌نگار (شبکه واژگان حسی فارسی) و پیکره اخبار می باشد. این مدل با استفاده از پیکره ویکی پدیا فارسی[۳۱] آموزش داده شده است. هر سطر از پیکره شامل اطلاعات یک صفحه ویکی‌پدیا با فرمت JSON و شامل موارد 1-شناسه (Id)، 2-عنوان صفحه (Title)، 3-نوع موجودیت (شامل 0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر)، 4-رتبه اهمیت مقاله (Rank)، 5-فضای نام (Namespace)، 6-لیست تغییرمسیرها به این صفحه (RedirectList)، 7-مشخص‌کننده ابهام‌زدایی (IsDisambiguati)، 8-تعداد ارجاعات به این صفحه (TargetLinksCount)، 8-بخش جعبه اطلاعات بصورت تفکیک شده (InfoBox)، 9-متن به هنجار‌شده اصلی (Text)، 10-لینک‌های به سایر صفحات (Links)، 11-لیست رده‌ها (Parents) است. از این پیکره برای آموزش سیستم تعبیه کلمه استفاده شده است. روش های آموزش این سیستم Skip-Gram، CBOW، fasttext و GloVe با طول پنجره 5 بوده اند. این مدل تعبیه کلمه توسط احسان عسگریان در سایت گیت هاب بارگذاری شده است. از میان این مدل ها، مدل GloVe انتخاب شد. حدود 2900 کلمه از کلمات نهایی استخراج شده در مراحل قبل در مجموعه این مدل قرار داشتند. نحوه استفاده از مدل تعبیه کلمه در پژوهش

شکل 8: نمودار استفاده از مدل تعبیه کلمه در پژوهش این دو مدل شامل بردار هایی از کلمات بودند. بردار های کلمات هدف را از میان این بردار ها جدا شد. سپس برای این بردار ها شباهت سنجی کسینوسی انجام شد؛ برای هر زوج کلمه یک عدد به عنوان امتیاز شباهت سنجی کسینوسی بدست آمد و ذخیره شد. برای اطمینان از صحت بردار های بدست آمده از مدل و روش شباهت سنجی، یک مقدار آستانه بالا و پایین در نظر گرفته شد. برخی از نتایج این حدود آستانه در جداول زیر آمده است. جدول 3: نتایج معیار کسینوسی برای بردار های استخراج شده از مدل تعبیه کلمه مژگانی

Cos(a,b) > 0.8 -0.01 < Cos(a,b) < 0.01 Cos(a,b) < -0.5
حسن و حضرت آباد و نژاد انتخاب و گشود
حسین و عبدالله تدبیر و ابراز فراموش و گرفت
داد و دادگاه داور و نرم گردیده و اضطراب
دهد و دهنده شک و امتیاز گشته و آفات
کَرد و نمودن مواد و عزیز جدا و گرفت

جدول 4: نتایج معیار کسینوسی برای بردار های استخراج شده از مدل تعبیه کلمه فارسی یار

Cos(a,b) > 0.8 -0.01 < Cos(a,b) < 0.01 Cos(a,b) < -0.5
آداب و رسوم آب و تقلید آغاز و مگردان
آزار و شکنجه انداختن و ذات اهمیت و زیانکاران
تفسیر و قرآن شرف و رفتار تاریخ و مستکبر
دختر و پسر محتوا و حادثه درجه و ترسیدند
ماه و شب گشتند و اختصاص نویسد و اجبار

فارس͏نت به عنوان بهترین و جامع ترین وردنت فارسی، فارس͏نت انتخاب شد. فارس͏نت یک وب سرویس دارد که می توان به آن درخواست فرستاد. کلمات از لیست کلمات نهایی (که در قسمت های قبل به دست آمده بودند) انتخاب شدند و برای وب سرویس فارس͏نت فرستاده شدند. به کمک وب سرویس فارس نت هم͏نشیم[۳۲] های دقیقا مطابق کلمه دریافت شدند. نحوه استفاده از فارس͏نت در پژوهش

شکل 9: نحوه استخراج روابط با استفاده از هستان نگار فارس͏نت با هر کلمه، شناسه هم͏نشیم مربوطه[۳۳] ، شناسه سنس[۳۴] ، متن هم͏نشیم، دسته اسمی[۳۵] ، حالت گذشته فعل[۳۶] ، حالت حال فعل[۳۷] ، نوع فعل[۳۸] ، دسته معنایی[۳۹] و ادات سخن[۴۰] ذخیره شد. در این قسمت برای مجموعا 1975 کلمه هم͏نشیم یافت شد. پس از ذخیره هم͏نشیم ها، با استفاده از شناسه هم͏نشیم، تمام روابط متصل به هر هم͏نشیم ذخیره شد. 35 نوع رابطه در هستان نگار فارس͏نت برای این هم͏نشیم ها موجود بود. از میان این روابط، 4 رابطه ترادف، تضاد، ابرمجموعه و زیرمجموعه انتخاب شد. برای کلمات نهایی این 4 رابطه مشخص گردید. میان کلمات مورد استفاده در این قسمت بین 1680 زوج کلمه رابطه ترادف، بین 106 زوج کلمه رابطه تضاد، بین 1006 زوج کلمه رابطه زیرمجموعگی و بین 779 زوج کلمه رابطه ابرمجموعگی وجود داشت. برای مثال در قسمت ترادف، دو آیه(آیات 275و 278 سوره مبارکه بقره) که از نظر معنایی شبیه به هم بودند انتخاب شدند. هم͏نشیم های مشترک به صورت گراف درشکل 10 آمده است.

شکل 10: نمودار خوشه بندی کلمات با استفاده از فارس͏نت برای آیات 275 و 278 سوره بقره (توجه: کلمه ای که به شکل مربع نمایش داده می شود کلمه الله بوده که به خاطر تشدید درست نشان داده نمی͏شود.) شکل 11 رابطه ابرمجموعگی را در کلمات این دو آیه نشان می دهد.

شکل 11: مثال برای رابطه ابرمجموعه با استفاده از هستان نگار فارس͏نت، روابط میان کلمات موجود در متن تفاسیر آیات به دست آمد.

ریشه کلمات در متن قرآن

متن و نص قرآن کریم بسیار مقدس و حساب شده است. بسیاری از پژوهشگران حوزه علوم قرآنی معتقدند که متن قرآن اعجاز لفظی دارد. از این رو از متن عربی قرآن نیز در این پژوهش استفاده شده است. در این پژوهش، روشی پیشنهاد شده که بین دو متن که به دو زبان مختلف هستند، ولی به هم ربط دارند(نه لزوما ترجمه هم باشند)، ارتباط ایجاد کرد. در این پژوهش متن عربی قرآن کریم و متن فارسی تفسیر نور، این دو متن را تشکیل می دهند. به دلیل این که دو متن ترجمه هم نیستند؛ نمی͏توان از نگاشت یک به یک استفاده کرد. در این پژوهش روشی بر اساس TF-IDF دو متن به صورت مجزا پیشنهاد شده که این دو متن را به صورت محاسباتی به هم ارتباط دهد. فرقان با استفاده از پیکره فرقان (استیری، کاهانی، و قائمی، 2013) ابتدا ریشه کلمات عربی در هر آیه استخراج شد، سپس TF-IDF ریشه ها برای آیات به دست آمد.

شکل 12: نحوه محاسبه روابط بین کلمات بر اساس ریشه های کلمات آیات محاسبه رابطه TRR این رابطه بر اساس TF-IDF ریشه ها و TF-IDF کلمات که قبلا محاسبه شد به دست آمده است. به دست آوردن اندیس زوج آیاتی که بیشتر از 3 ریشه مشترک دارند. محاسبه رابطه [۴۱] RR به ازای تمام ریشه های مشترک در هر زوج آیه 〖RR〗_(x,y)=∑_(i=1)^n▒〖T_(r_i,x)*〗 T_(r_i,y) n: تعداد ریشه های مشترک بین آیه x,y T_(r_i,x) : مقدار TF-IDF برای ریشه r (i امین ریشه مشترک)در آیه x x,y: اندیس زوج آیاتی که بیش از سه ریشه مشترک دارند. (اگر x,y کمتر از سه ریشه مشترک داشته باشند، 〖RR〗_(x,y) آنها صفر است) m: تعداد آیات RR_Mat=[■(〖RR〗_1,1&…&〖RR〗_(1,m)@■(⋮@〖RR〗_(m,1) )&■(⋱@…)&■(⋮@〖RR〗_(m,m) ))] ماتریس RR_Mat یک ماتریس با سطر و ستون به اندازه تعداد آیات می باشد. محاسبه رابطه TRR برای تمام کلمات 〖TRR〗_(w_α w_β )=∑_(i,j=1)^m▒T_(w_(α_i ) ) *T_(w_(β_j ) )*〖RR_Mat〗_(i,j) TRR_mat=[■(〖TRR〗_(w_1 w_1 )&…&〖TRR〗_(w_1 w_c )@⋮&⋱&⋮@〖TRR〗_(w_c w_1 )&…&〖TRR〗_(w_c w_c ) )] برخی از نتایج این محاسبات که دارای مقدار بالای TRR بوده اند در جدول 5 آمده است. جدول 5: کلماتی که دارای مقادیر بالای TRR هستند.

کلمه اول کلمه دوم
معاد متاع
هستی مکان
موسی صالح
معاد الدنیا
قیامت اتقوا
ینظرون شاهد

وزن دهی و جمع ماتریس ها با استفاده از ماتریس های به دست آمده از قسمت های قبل یک ماتریس مربعی ساخته شد که سطر ها و ستون های آن کلمات نهایی بودند. ابتدا به هر ماتریس بر اساس اولویت ارزش هر ماتریس یک ضریب داده می شد، سپس درایه های ماتریس ها یک به یک با هم جمع وزن دار می͏شدند. روش خوشه بندی K-Means برای ماتریس به دست آمده از قسمت های قبل از روش خوشه بندی K-Means استفاده شد. به هر ماتریس عددی به عنوان ضریب تخصیص داده شد که به عنوان اولویت آن ماتریس شناخته می شود. بیشترین اولویت مربوط به ماتریس های فارس͏نت بود. در میان ماتریس های فارس͏نت بالاترین اولویت برای ماتریس ترادف بود. ماتریس های ابرمجموعگی و زیر مجموعگی اولویت یکسان با هم داشتند. ماتریس تضاد در میان ماتریس های فارس نت کم ترین اولویت را داشت. در درجه بعدی اولویت با ماتریس هم وقوعی است. درجه بعدی اولویت برای ماتریس تعبیه کلمه می باشد و آخرین اولویت برای ماتریس رابطه ریشه ها می باشد. این اولویت ها براساس نتایج به دست آمده انتخاب شدند. این خوشه های به دست آمده با نام قاب تداعی یاد می شوند. برخی از خوشه های به دست آمده در جدول ذیل آمده است. توجه قسمتی از اعضای خوشه برای نمایش در جدول ذیل آمده اند. جدول 6: برخی از خوشه های به دست آمده از روش K_Means

خوشه 1 خوشه 2 خوشه 3 خوشه 5
تفکیک بیهوده بخشش ارائه
جداگانه جایز خرج استفاده
جرم روا طلب اصلاح
دسته زشت شهادت اعمال
جزء سزاوار شعار انجام
ذیل غفلت هدیه ایحاد
قاعده قاتل وعده برداشت
مطابق مجرم پاداش تقویت
معین مقصر حرکت
وجه گناهکار فراهم
شکل 13 مقدار معیار دیویس بولدین را برای تعداد خوشه های مختلف نشان می͏دهد.

شکل 13: معیار دیویس بولدین با توجه به شکل 13 با این که بعد از 200 خوشه باز هم معیار کمتر می شود و در ظاهر نشان از بهبود دارد؛ ولی تعداد خوشه های خیلی زیاد باعث کم شدن تفسیرپذیری خوشه ها شده و ممکن است این خوشه های معنایی دچار بیش برازش شوند. علاوه بر آن هر چقدر تعداد خوشه ها بیشتر باشد پیچیدگی محاسباتی بالاتر خواهد رفت. اصطلاح نامه یکی از راه های انتخاب صحیح کلمات در ساخت شبکه معنایی استفاده از اصطلاح نامه است. در این پژوهش از کتاب اصطلاح‌نامه معارف قرآن با تالیف دفتر تبلیغات اسلامی حوزه علمیه قم. مرکز فرهنگ و معارف قرآن، استفاده شده است. این اصطلاح نامه توسط سایت نور به شکل دیجیتالی آماده استفاده مخاطبان می باشد[۴۲] . (قرآن, 1386) در این اصطلاح نامه حدود 3000 اصطلاح قرآنی تک کلمه ای آورده شده است. از این میان حدود 1200 کلمه در دادگان مورد استفاده در این پژوهش یافت شد. تمام مراحل قبلی برای این کلمات نیز به صورت جداگانه انجام شد. ابتدا کلماتی که در اصطلاح نامه نبودند، حذف شدند. سپس برای کلمات باقی مانده، مراحل انجام شد.

شکل 14: روند انتخاب کلمات نهایی با استفاده از اصطلاح نامه TF-IDF: بردار TF-IDF برای کلمات اصطلاح نامه محاسبه شد. هم وقوعی: ماتریس هم وقوعی برای این کلمات محاسبه شد. تعبیه کلمه: برای دو مدل مژگانی و فارسی یار بردار های تعبیه کلمه استخراج شد. 714 بردار کلمه در مدل مژگانی و 1048 بردار کلمه در مدل فارسی یار یافت شد. سپس میان این بردارها، شباهت کسینوسی گرفته شد. فارس͏نت: کلمات اصطلاح نامه به هستان نگار فارس͏نت داده شد. برای 837 کلمه هم͏نشیم وجود داشت. برای این کلمات روابط ترادف، تضاد، ابرمجموعگی و زیرمجموعگی محاسبه شد. ریشه یابی: با استفاده از بردارهای TF-IDF بدست آمده از قسمت اول و بردارهای TF-IDF بدست آمده برای ریشه های آیات (با بیش از 3 ریشه مشترک) در قسمت های قبل رابطهTRR محاسبه شد. توجه: بردار TF-IDF برای ریشه های آیات فقط یک بار لازم است محاسبه بشود. پس از محاسبه 4 ماتریس قسمت های 2 تا 5، این 4 ماتریس با اولویت های به دست آمده در قسمت قبل با هم جمع شدند. پس از آن، خوشه بندی با روش K-Means براي كلمات اصطلاح͏نامه نیز محاسبه شد.

شکل 15: نمودار معیار دیویس بولدین برای خوشه بندی کلمات اصطلاح نامه شکل بالا مقدار معیار دیویس بولدین را برای تعداد خوشه های مختلف نشان می دهد. با توجه به نمودار بالا تعداد خوشه های مورد استفاده 90 انتخاب شد. جدول 7: برخی از خوشه های به دست آمده در روش K-Means در قسمت اصطلاح نامه با تعداد خوشه 90

خوشه 4 خوشه 7 خوشه 11 خوشه 21
وفات غرور هنر آهن
زادگاه عذاب اعتقاد طلا
نسب محبت اخلاق قلم
وارث نفرت علم برق
بستگان رنج مطالعه زره
باردار فقر دانش مس
تولد احساس شناخت سلاح
ارث آزار آموزش سپر
اجداد اضطراب پژوهش سنگ
نوه لذت علوم زر

به هنجار سازی تعداد کلمه مورد استفده در حالتی که IDF كلمات، حد آستانه را تعیین می کردند، حدود 4000 کلمه بود. علاوه بر آن، در میان این کلمات، کلمات بی مفهوم، اشتباه(غلط تایپی) و کلماتی که به اشتباه ریشه یابی شده بودند، نیز وجود داشتند. در قسمت اصطلاح نامه نیز کل کلماتی که انتخاب شد حدود 1200 کلمه بود. برای حل هر کدام از این مشکلات راه حلی پیش نهاد شد. مشکل اول: برخی از کلمات که به اشتباه ریشه یابی شده بودند. این کلمات به دو دسته فارسی و عربی تقسیم می شدند. راه حل: از یک کتابخانه فارسی پردازش متن به نام آیپا[۴۳] و یک کتابخانه پردازش متن عربی به نام qalsadi استفاده شد.

شکل 16: روند ریشه یابی با کمک دو ابزار آیپا و qalsadi qalsadi يك كتابخانه پایتون است که برای پردازش متن در زبان عربی استفاده می شود. این کتابخانه ریشه یاب زبان عربی نیز دارد. [۴۴] (T. Zerrouki‏, 2020) كلمات پس از به هنجار سازی اولیه لیست شده و سپس توسط آیپا ریشه یابی می شوند. در مرحله بعدی این کلمات (که ریشه یابی فارسی شده اند) به qalsadi داده می شوند تا ریشه یابی عربی شوند. با توجه به این که هر دو ابزار(عربی و فارسی) خطا دارند؛ کاربر انسانی تصمیم می گیرد که کدام ریشه͏یابی صحیح تر است؟ سپس این فایل برای ریشه یابی کلمات استفاده شد. از حدود 17000 کلمه پس از ریشه یابی از کتابخانه هضم به دست آمده بودند، حدود 15000 کلمه باقی ماندند. مشکل دوم: کلماتی که بی مفهوم و یا اشتباه(غلط تایپی) هستند.

شکل 17:روند انتخاب کلمات نهایی در قسمت به هنجار سازی راه حل: برای این که کلمات بی مفهوم یا اشتباه انتخاب نشوند یک شرط گذاشته شد. برای این که کلمه که در لیست کلمات نهایی قرار بگیرد، باید در حداقل یکی از گروه های زیر قرار بگیرد: کلمه در مدل تعبیه کلمه مژگانی و یا فارسی یار وجود داشته باشد. هم͏نشیم کلمه در فارس͏نت موجود باشد. كلماتی که جز این دو دسته قرار نمی گرفتند، از دیتاست حذف شدند. حدود 7000 کلمه باقی ماند. سپس برای این کلمات باقی مانده بردار TF_IDF و ماتريس هم وقوعي و TRR(ریشه یابی عربی) به دست آمد. سپس با اولویت های قبلی ماتریس ها با هم جمع شدند. پس از تشکیل ماتریس نهایی، کلمات با روش K-Means خوشه بندی شدند.

شکل 18: نمودار معیار دیویس بولدین برای خوشه بندی کلمات در قسمت به هنجار سازی شکل بالا معیار دیویس بولدین را با تعداد خوشه های مختلف نشان می دهد. با توجه به نمودار بالا تعداد 420 خوشه انتخاب شد. توجه: در حالت انتخاب کلمات نهایی با حدآستانه TF-IDF و هم چنین در حالت انتخاب کلمات با کمک اصطلاح نامه، تعداد زیادی کلمه همه در یک خوشه قرار گرفتند. در حالت حدآستانه TF-IDF حدود 1300 کلمه و در حالت اصطلاح نامه حدود 300 کلمه همگی در یک خوشه قرار گرفتند. علت این اتفاق عموما ناشی از این دو عامل است: کم ͏اطلاعات بودن کلمه(عدم حضور کلمه در فارس نت و یا مدل های تعبیه کلمه) کم ارتباط بودن کلمه(امتیاز میان کلمه و کلمات دیگر بسیار پایین و نزدیک به صفر باشد) به دلیل همین اتفاق تعداد زیادی کلمه (حدود 30 درصد کلمات) قابلیت تفسیر پذیری نداشته و در قاب های تداعی قرار نگرفتند؛ ولی این مشکل در قسمت به هنجار سازی کمرنگ تر شده بود. بزرگترین خوشه ها در قسمت به هنجار سازی دو خوشه حدود 400 عضو بودند که جمعا کمتر از 14 درصد کلمات را شامل می شدند. جدول 8: برخی از خوشه های به دست آمده در روش K-Means در قسمت به هنجار سازی با تعداد خوشه 420

خوشه 6 خوشه 10 خوشه 28 خوشه 33
شعور کلاه خوک نصب
شهود چنگال اسب هدایت
معنویت چرخ سگ پرتاب
تجسم سوزن پرنده ذخیره
ذات شلاق شیر پیاده
انسانیت شمشیر مار تعویض
بینش میخ حیوان تولید
تخیل سپر گاو تخریب
عواطف آهنین عقاب متصل
وجدان زره اژدها تخلیه

ارزیابی مقدمه در این فصل به ارزیابی مدل پیشنهادی پرداخته می شود. به دلیل این که در خوشه بندی دادگان با برچسب مشخص وجود ندارد؛ در این فصل ابتدا یک پرسشنامه تعریف شده و با استفاده از خِرَد جمعی[۴۵] معیارهای مختلف محاسبه می شود. پرسشنامه برای ارزیابی خوشه بندی از دو معیار درونی و برونی استفاده شده است. معیار درونی مورد استفاده در این پژوهش معیار دیویس-بولدین می باشد. براي معيار بروني هر قسمت 10% خوشه ها، با شرط این که حداقل 10 عضو و حداکثر 40 عضو داشته باشند، به صورت تصادفی انتخاب شدند. برای حالت حد آستانه با TF-IDF، 20 خوشه، برای حالت اصطلاح نامه، خوشه و برای حالت به هنجار سازی 42 خوشه به طور تصادفی برگزیده شد. پس از گزینش خوشه ها، از هر خوشه به صورت تصادفی 10 عضو برگزیده شد. این 10 عضو به عنوان مثبت[۴۶] شناخته مي شوند. 10 عضو دیگر نیز از خوشه های دیگر به صورت تصادفی انتخاب شدند. این اعضا به عنوان منفي[۴۷] شناخته می شوند. برای هر کاربر یک فرم نمایش داده می شود که از میزان تعلق یک کلمه به یک گروه از کلمات سوال پرسیده است.

شکل 19: تصوير فرم نظر سنجی از کاربران برای تشخیص میزان تعلق کلمات به دسته مربوطه (تصویر بالا از دو عکس از صفحه موبایل تشکیل شده است.) کاربر باید از خیلی زیاد، زیاد، متوسط، کم و خیلی کم به میزان تعلق کلمه به گروه امتیاز دهد، برای کلمه مورد پرسش دو حالت وجود دارد: از کلمات مربوط به خوشه (مثبت درست) یک کلمه تصادفا انتخاب شده و تبدیل به کلمه پرسش می شود. حالت آرمانی در این جا این است که کاربر گزینه خیلی زیاد را انتخاب کند. یک کلمه از کلمات نامربوط(منفی درست) انتخاب شده و تبدیل به کلمه پرسش می شود. حالت آرمانی در این جا این است که کاربر گزینه خیلی کم را انتخاب کند. از هر خوشه 2 سوال پرسیده می شود یکی مربوط به مثبت درست و یکی مربوط به منفی درست. از هر کاربر مجموعا 6 سوال پرسیده می شود. علاوه بر آن از هر نفر سن و جنسیت هم پرسیده شد. نحوه جمع آوری داده برای جمع آوری داده ها از افراد مختلف، در یک کانال در پیام رسان تلگرام[۴۸] ، سه بار (هر آزمایش یکبار) تبلیغ قرار داده شد. این کانال حدود نیم میلیون عضو دارد. برای جمع آوری داده بیشتر، با فاصله های زمانی معنادار، چندین بار تبلیغ گذاشته شد که میزان داده به تعادل برسد. علاوه بر این تبلیغات لینک نظر سنجی در گروه ها با تعداد اعضای مختلف فرستاده شد که تعداد داده ها باز هم بیشتر بشود. نحوه ارزیابی اگر فرد در پرسشنامه گزینه خیلی زیاد و یا زیاد را زده باشد، در ارزیابی مثبت در نظر گرفته می͏شود. اگر فرد گزینه کم و یا خیلی کم را زده باشد، در ارزیابی منفی در نظر گرفته می͏شود. اگر فرد گزینه متوسط را انتخاب کرده باشد به دلیل تردید فرد در میزان تعلق کلمه، این حالت در ارزیابی در نظر گرفته نمی شود. چهار مقدار برای ارزیابی با معیارهای مختلف مانند دقت به صورت زیر معرفی می شود: مثبت درست[۴۹] (TP): مدل به دست آمده با نظر مردم یکی است و هر دو از تعلق بالای کلمه به دسته کلمه می گویند منفی درست[۵۰] (TN): مدل به دست آمده با نظر مردم یکی است و هر دو از تعلق پایین کلمه به دسته کلمه می گویند. مثبت کاذب[۵۱] (FP): مدل به دست آمده با نظر مردم یکی نیست و مدل تعلق بالا تشخیص داده در صورتی که مردم به تعلق پایین اعتقاد دارند. منفی کاذب[۵۲] (FN): مدل به دست آمده با نظر مردم یکی نیست و مدل تعلق پایین تشخیص داده در صورتی که مردم به تعلق بالا اعتقاد دارند. برای ارزیابی 5 معیار دقت، صحت[۵۳] ، فراخوانی[۵۴] ، اختصاص[۵۵] و معیارF [۵۶] محاسبه شد. معيار دقت: accuracy=(TP+TN)/(TP+TN+FP+FN) معیار صحت: precision=TP/(TP+FP) معيار فراخواني: recall=TP/(TP+FN) معيار اختصاص: accuracy=TN/(TN+FP) معيار F F1=(2×precision×recall)/(precision+recall) آزمایش های انجام گرفته چندین آزمایش با فواصل زمانی برای جمع آوری داده انجام شد. مجموعا در سه آزمایش انجام شده تعداد 1295 نفر به صورت داوطلبانه در تکمیل پرسشنامه آنلاین پویا[۵۷] شرکت کردند و هر نفر به تعداد 6 سوال پاسخ دادند. مجموعا تعداد 7770 پاسخ دریافت و ذخیره شد. این سوالات مربوط به ارزیابی مجموعا 71 خوشه بودند. آزمایش اول در این آزمایش جمعا 316 نفر شرکت کردند. تعداد شرکت کنندگان در هر کدام از قسمت ها به شرح زیر است: انتخاب کلمه با آستانه TF-IDF: 83 نفر انتخاب كلمه با اصطلاح نامه: 53 نفر انتخاب کلمه با به هنجار سازی: 180 نفر نتایج معیارهای مختلف در آزمایش اول در جدول 9 آمده است.

آزمایش دقت صحت فراخوانی اختصاص F
آستانه TF-IDF 67.53 53.30 73.94 81.95 61.95
اصطلاح‌نامه 67.69 50.40 74.12 83.70 60
به‌هنجار‌سازی 69.51 50.49 77.61 86.78 61.18

جدول 9: نتایج ارزیابی در آزمایش اول آزمایش دوم در این آزمایش جمعا 417 نفر شرکت کردند. براي آزمایش دوم به همان کانالی که در آزمایش 1 به آن تبلیغ داده شده بود، مجددا تبلیغ فرستاده شد. علاوه بر آن لینک پرسشنامه در گروه های مختلف نیز گذاشته شد. تعداد شرکت کنندگان در هر کدام از قسمت ها به شرح زیر است: انتخاب کلمه با آستانه TF-IDF: 116 نفر انتخاب كلمه با اصطلاح نامه: 65 نفر انتخاب کلمه با به هنجار سازی: 236 نفر نتایج معیار های مختلف در جدول 10 برای آزمایش اول و دوم به صورت تجمعی آمده است. جدول 10:نتایج ارزیابی برای آزمایش دوم

آزمایش دقت صحت فراخوانی اختصاص F
آستانه TF-IDF 68.49 51.62 76.06 84.53 61.51
اصطلاح‌نامه 70.92 52.78 76.77 86.39 62.55
به‌هنجار‌سازی 70.78 50.37 79.41 88.60 61.64

آزمایش سوم در این آزمایش جمعا562 نفر شرکت کردند. برای آزمایش سوم نیز به همان کانال که در آزمایش اول و دوم، از آن استفاده شده بود مجددا تبلیغ فرستاده شد. علاوه بر آن به یک کانال ادبی[۵۸] در تلگرام با حدود 81 هزار عضو نیز، تبلیغ فرستاده شد. تعداد شرکت کنندگان در هر کدام از قسمت ها به شرح زیر است: انتخاب کلمه با آستانه TF-IDF: 133 نفر انتخاب كلمه با اصطلاح نامه: 81 نفر انتخاب کلمه با به هنجار سازی: 348 نفر در جدول 22 نتایج مربوط به آزمایش سوم آمده است. جدول 11: نتايج ارزیابی برای آزمایش سوم

آزمایش دقت صحت فراخوانی اختصاص F
آستانه TF-IDF 67.32 56.18 70.89 77.96 62.69
اصطلاح‌نامه 69.23 53.57 75.00 83.61 62.50
به‌هنجار‌سازی 70.22 51.89 79.82 87.03 63.62

نتایج معیار های مختلف در جدول 12 برای آزمایش اول، دوم و سوم به صورت تجمعی آمده است. جدول 12:نتایج ارزیابی برای مجموع آزمایش اول و دوم و سوم(اعداد به درصد هستند)

آزمایش دقت صحت فراخوانی اختصاص F
آستانه TF-IDF 67.89 53.81 73.37 81.34 62.09
اصطلاح‌نامه 69.23 53.57 75.00 83.61 62.50
به‌هنجار‌سازی 70.20 51.52 79.22 87.49 62.44

مشاهده می شود که بین نتایج آزمایش اول و دوم و نتایج اول و دوم و سوم تفاوت زیادی وجود نداشته و نتایج تقریبا همگرا شده اند. نتایج کلی حاصل از سه حالت حدآستانه TF-IDF، اصطلاح نامه و به هنجار سازی در جدول زیر آمده است. جدول 13: نتایج کلی معیارهای دقت، صحت، فراخوانی، اختصاص و معیار F

دقت صحت فراخوانی اختصاص F
69.47 52.42 76.93 85.35 62.35


پانویس و منابع

  1. Semantic Web
  2. Automatic
  3. Computerized Quran Mining
  4. Concept
  5. Relation
  6. Instance
  7. Axiom
  8. Type
  9. Value
  10. Taxonomic Relation
  11. Non-Taxonomic Relation
  12. Part of
  13. Antonymy
  14. Synonymy
  15. possession
  16. causality
  17. Hypernymy
  18. Hyponymy
  19. Princeton WordNet
  20. MappingMaster
  21. Object-role Modeling
  22. https://wiki.ahlolbait.com/
  23. https://fa.wikishia.net/view/%D8%AA%D9%81%D8%B3%DB%8C%D8%B1_%D9%86%D9%88%D8%B1_(%DA%A9%D8%AA%D8%A7%D8%A8)
  24. https://quran.inoor.ir/
  25. normalization
  26. Hazm
  27. lemmatization
  28. Word Embedding
  29. wikipedia_fa_all_nopic_2016-12.zim
  30. https://text-mining.ir/corpus
  31. https://github.com/Text-Mining/Persian-Wikipedia-Corpus
  32. Synset
  33. Synset Id
  34. Sense Id
  35. Noun Category
  36. Verb Past Stem
  37. Verb Present Stem
  38. Verb Category
  39. Semantic Category
  40. Part Of Speech
  41. Root Relation
  42. https://noorlib.ir/book/info/5028
  43. https://aipaa.ir/
  44. https://pypi.org/project/qalsadi/
  45. Collective Wisdom
  46. Posetive
  47. Negative
  48. https://telegram.me/OfficialPersianTwitter
  49. True Positive
  50. True Negative
  51. False Positive
  52. False Negative
  53. Precision
  54. Recall
  55. Specificity
  56. F-Measure
  57. Dynamic
  58. https://t.me/chaame


Alhawarat, M. a. (2015). Processing the text of the Holy Quran: a text mining study‏. International Journal of Advanced Computer Science and Applications, 262-267.

Ali, Z. (2019, 11 20). Simple Tutorial on Word Embedding and Word2Vec. Retrieved from Medium:

https://medium.com/@zafaralibagh6/simple-tutorial-on-word-embedding-and-word2vec-43d477624b6d

Al-Salhi, R. Y., & Abdulla, A. M. (2022). Building Quranic stories ontology using MappingMaster domain-specific language. International Journal of Electrical and Computer Engineering (IJECE) , 684-693.

Alshammari, I. K., Atwell, E., & Alsalka, M. A. (2022). Automatic Mapping of Quranic Ontologies Using RML and Cellfie Plugin. Natural Language Processing and Information Systems, 307-314.

Bilal, K. a. (2012). Muhadith: A cloud based distributed expert system for classification of ahadith‏. 10th international conference on Frontiers of Information Technology (pp. 73-78). Islamabad, Pakistan: IEEE.

Buitlaar, P., cimiano, P., & Magnini, B. (2005). Ontology learning from text: Methods, Evaluation and Applications. Amesterdam: IOS press.

Chawla, J. S. (2018, 4 24). what is GloVe? Retrieved from Medium: https://medium.com/analytics-vidhya/word-vectorization-using-glove-76919685ee0b

Corcho, O. a.-P. (2000). Evaluating Knowledge Representation and Reasoning Capabilites of Ontology Specification Languages. In Proceedings of the ECAI'00 Workshop on Applications of Ontologies and Problem Solving Methods. Berlin, Alemania.

Davies, D. L., & Bouldin, D. W. (1979). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (2), 224-227.

Ester, M., Kriegel, H.-P., Sander, J., Xu, X. S., Han, J., & Fayyad, U. M. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 226-231.

Forgy, E. W. (1965). Cluster analysis of multivariate data: efficiency versus interpretability of classifications. Biometrics. 21, 768-169.

GRUBER, T. (1993). A translation approach to portable ontologies. Knowledge Acquisition. 199-220.

Hakkoum, A. a. (2016). Semantic Q&A System on the Qur’an‏. Arabian Journal for Science and Engineering.

Hinton, G. E. (1986). Learning distributed representations of concepts. In: Proceedings of Eighth Annual Conference og the Cognitive Science Society, 1-12.

Jones, K. S. (1972). A statistical interpretation of term sprcifity and its application in retrival . Journal of Documentation, 11-21.

Kazuhiro, M., Atlam, E.-S., Fuketra, M., Tsuda, K., Oono, M., & Aoe, J.-i. (2004). Word classification and hierarchy using co-occurrence word information. Information Processing and Management, 957-972.

Khalifa, R. A. (1973). Miracle of the Quran: Significance of the Mysterious Alphabets. St. Louis, Missouri: Islamic Productions International.

Langley, P., & Meadows, B. (2019). Heuristic Construction of Explanations Through Associative Abduction. Advances in Cognitive Systems 8, 93-112.

Lee, T. B. (1998). Semantic Web Road map.

Li, Y., & Yang, T. (2018). Word Embedding for Understanding Natural Language: A Survey. Guide to Big Data Applications, 83-104.

Lloyd, S. P. (1982). Least square quantization in PCM". Bell Telephone Laboratories Paper. IEEE Transactions on Information Theory, 129-137.

M.Alsharbi, B., Mubin, O., & Novoa, M. (2021). Quranic Education and Technology: Reinforcement learning System for Non-Native Arabic Children. Procedia Computer Science, 306-313.

MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol. 1. University of California Press., 281-297.

Malhotra, Y. (2000). ed. Knowledge management and virtual organizations. IGI global,.

McCarthy, J. (1987). Generality In AI, Turing Award Lecture. Comunications of the ACM, Vol. 30, Num 12, pages 1030.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space‏.

Montazery, M. a. (2010). Automatic Persian WordNet Construction. Coling.

Mousavi, Z., & Faili, H. (2021). Developing the Persian Wordnet of Verbs Using Supervised Learning. ACM Trans. Asian Low-Resour. Lang. Inf. Process, 1-18.

Mousavi, Z., Faili, H., & Fadaee, M. (2017). Persian wordnet construction using supervised learning. International Journal of Information & Communication Technology Research , 35-44.

Natural language inference. (2018). Retrieved from NLP-progress: http://nlpprogress.com/english/natural_language_inference.html

Oren Etzioni, M. B. (2006). Machine Reading. washington: AAAI Spring Symposium.

PressMan, R. (2010). Software engineering, A practioner's Approach. McGRAW-Hill.

Rahmani, S., Fakhrahmad, S., & Sadreddini, M. H. (2019). Co-occurrence graph-based context adaptation: a new unsupervised approach to word sense disambiguation. Digital Scholarship in the Humanities, 1-23.

Rupal Sethi and B. Shekar. (2018). Mining Substitution Rules: A Knowledge-based Approach using Dynamic Ontologies. ICAART, 73-84.

Safee, M. A. (2018). Hybrid Search Approach for Retrieving Medical and Health Science Knowledge from Quran. International Journal of Engineering & Technology, 69.

Salloum, S. A.-E. (2018). A survey of Arabic text mining.‏. In K. a. Shaalan, Intelligent Natural Language Processing: Trends and Applications (pp. 417-431). Springer.

Shamsfard, M. a. (2003). The state of the art in ontology learning: a framework for comparison. The Knowledge Engineering Review, 293-316.

Shamsfard, M. a. (2004). Learning ontologies from natural language texts. Human-Computer Studies, 17-63.

Shamsfard, M. a. (2010). Semi Automatic Development Of FarsNet: The Persian WordNet.

Soliman, A., Eissa, K., & Samhaa, R.-B. (2017). AraVec: A set of Arabic Word Embedding Models for use in Arabic. 3rd International Conference on Arabic Computational Linguistics (ACLing 2017), Dubai, UAE,, 1-10. T. Zerrouki‏, Q. (2020). Arabic mophological analyzer Library for python. Retrieved from https://pypi.python.org/pypi/qalsadi/

Xue, X., Wang, H., Zhang, J., Huang, Y., Li, M., & Zhu, H. (2021). Machine Learning, Deep Learning, and Optimization Techniques for Transportation 2021. Journal of Advanced Transportation, vol. 2021, 9.

Zhaoa, Y., Zhangb, B., & Gao, D. (2022). Construction of petrochemical knowledge graph based on deep learning. Journal of Loss Prevention in the Process Industries 76 (2022) 104736, 1-13.

Zouaoui, S., & Rezeg, K. (2021). A Novel Quranic Search Engine Using an Ontology-Based Semantic Indexing. Arabian Journal for Science and Engineering, 3653–3674.

احمدی, ح., عصاره, ف., حسینی بهشتی, م., & حیدری, غ. (1396, 7). طراحی سامانه نیمه‌خودکار ساخت هستی‌شناسی به‌کمک تحلیل هم‌رخدادی واژگان و روش C-value (مطالعه موردی: حوزه علم‌سنجی ایران). پژوهش نامه پردازش و مدیریت اطلاعات, 185-216.

ارتباطات, ا. ف. (2016). چکیده مقالات هشتمین کنفرانس بین المللی فناوری اطلاعات و دانش IKT 2016. همدان: کتاب کلک.

استیری, ا., کاهانی, م., & قائمی, ه. (2013). ایجاد و انتشار زیرساخت وب معنایی برای قرآن کریم. IKT.

اصفهانی, ح. ر. (1395). مروری بر جدید ترین تکنیک های جستجوی معنایی در قرآن . اولین کنفرانس بین المللی دستاورد های نوین پژوهشی در مهندسی برق و کامپیوتر.

امکان سنجی هوشمندسازی علوم اسلامی. (1398). Retrieved from پیش نشست اوّل نخستین همایش هوش مصنوعی و علوم اسلامی: http://www.rahavardnoor.ir/index.php/component/k2/item/926-hushmandsaziye-olume-islami

آهنگر, ع., باب الحوائجی, ف., حسینی بهشتی, م., حریری, ن., & خادمی, م. (1400). ترسیو و تحلیل ساختار شبکه مفاهیم حوزه امنیت اطلاعات. پژوهش نامه پردازش و مدیریت اطلاعات, 473-496.

بارفروش, م. ش. (1381). ساخت هستان شناسی از روی متون زبان طبیعی. هشتمین کنفرانس سالانه انجمن کامپیوتر ایران.

بازرگان, ع. (1375). نظم قرآن. تهران: نشر قلم.

جمالی, ا., میرعابدینی, س., & هارون آبادی, ع. (1399). ارائه ی یک مدل جهت دسته بندی متون فارسی با استفاده از ترکیب روش های دسته بندی. فصلنامه مهندسی مخابرات جنوب، دوره: 10، شماره: 38.

حورعلی, م. (1390). ﯾﺎدﮔﯿﺮي ﻫﻮﺷﻤﻨﺪ ﻫﺴﺘﺎن ﻧﮕﺎر ﺑﺮاي ﺑﺴﻂ ﭘﺮﺳﻤﺎن در ﺟﺴﺘﺠﻮي ﻣﻌﻨﺎﯾﯽ. تهران: دانشگاه تربیت مدرس.

درزی, ق. (1395). دانشگاه شهید بهشتی خبر نشست علمی. Retrieved from درباره نرم افزارهای بررسی [و ادراک] هوشمند داده¬ های قرآنی: https://sbu.ac.ir/Lists/News/DispForm.aspx?ID=18425&RootFolder=%2FLists%2FNews&Source=http%3A%2F%2Fsbu%2Eac%2Eir%2FRes%2FQURAN%2FPages%2Fdefault%2Easpx

درزی, ق. (1397). درآمدی برکاربستِ علوم شناختی در مطالعات قرآنی. مطالعات قرآنی و فرهنگ اسلامی, 43-75.

دوخانی, ف. (1392). چشم اندازی به نرم افزار پروتج. گفتمان علم و فناوری.

رحیمی, م. م. (1395). سیری در نظریه پیچیدگی . تهران: نشرنو.

سهرابی, م. م. (1397). روش شناسی ساخت و طراحی هستی نگاشت ها. پژوهش نامه پردازش و مدیریت اطلاعات.

سیوطی, ج. ا. (قرن نهم هجری قمری). الاتقان فی علوم القرآن.

شفیعی, م. پ. (1388). ارزیابی و نقد نظریۀ اعجاز عددی قرآن کریم . دو فصــــلنامه پژوهشــــهای قــــرآن و حــــدیث, 57-76.

علیخانی, م. ا. (1397). یادگیری ماشین. تهران: 2,7.

عمید, ح. (1389). فرهنگ فارسی عمید. اشجع.

فتاحی, م. ک. (1390). نظام هاي نوين سازماندهي دانش: وب معنايي، هستي شناسي و ابزارهاي سازماندهي دانش عيني . فصلنامه کتابداری و اطلاع رسانی.

فروتن, ع. (1358). کشف معجرات قرآن به کمک کامپیوتر. درسهایی از مکتب اسلام, 5-10.

قرائتی, م. (1374). تفسیر نور. مؤسسه در راه حق • وزارت فرهنگ و ارشاد.

قرآن, د. ت. (1386). اصطلاح‌نامه معارف قرآن. قم: بوستان کتاب قم (انتشارات دفتر تبليغات اسلامی حوزه علميه قم) - قم ایران.

قیومی, م. (1398). تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه . پژوهشنامه پردازش و مدیریت اطلاعات دوره 35.

محمدی, س., & بدیع, ک. (1396). استخراج مفاهيم کليدي با استفاده از شبکه قاب و زنجيره مفاهيم. مهندسي برق و مهندسي کامپيوتر ايران - ب مهندسي كامپيوتر, 64-72.

مکتبه الشامله. (2019). Retrieved from http://shamela.ws/

مینایی, ح. ع. (1390). کاربردهای داده کاوی در علوم اسلامی. فصلنامه ره آورد نور, 7. Retrieved from http://www.rahavardnoor.ir/index.php/component/k2/item/112-dade-kavi

نجاتی, و., کمری, س., شیری, ا., & رادفر, ف. (1394). تعیین شبکه معنایی برای کلمات منتخب فارسی و طراحی مقیاس حافظه کاذب (محک). روانشناسی شناختی, 1-17.

نوفل, ع. (1985). الاعجاز العددي للقرآن الکريم. بیروت: دارالکتاب العربي.