ابزار علوم‌انسانی دیجیتال و حاشیه‌نویسی نظام‌های قرآنی - مطالعه موردی پلتفرم اینسپشن

از شبکه نخبگان و قرآن‌کاوی
پرش به ناوبری پرش به جستجو

چکیده

از پلتفرم‌هایی که برای حاشیه‌نویسی متون در حوزه علوم‌انسانی دیجیتال تولید شده‌اند می‌توان به اینسپشن (پلتفرم حاشیه‌نویسی معنایی) اشاره کرد که در آزمایشگاه یوکی‌پی دانشگاه دارمشتاد - آلمان توسعه‌یافته و در مؤسسه‌های پژوهی عضو کلارین به کار می‌رود. از این ابزار می‌توان در پروژه‌های فردی، گروهی و یا جمع‌سپاری پروژه‌ها استفاده کرد. هدف پژوهش حاضر به‌کارگیری این ابزار در حاشیه‌نویسی نظام‌های قرآنی (به طور خاص دو نظام ارجاع و دانش عرفی)، یافتن نقاط قوت و ضعف استفاده از آن در متون عربی و فارسی قرآنی، و ارائه راه کارهایی برای رفع چالش‌هاست. برای این منظور، مطالعه موردی‌ای تعریف شد و آیات سوره مبارکه صافات (متن عربی و تفسیر فارسی) با این ابزار برای نظام ارجاع و نظام دانش عرفی حاشیه‌نویسی شدند. از یافته‌های این پژوهش می‌توان برای محلی‌سازی ابزارهای حاشیه‌نویسی متناسب با نیازهای کاربران ایرانی حوزه علوم قرآنی و دانش‌های وابسته استفاده کرد.

واژگان کلیدی

قرآن؛ پلتفرم اینسپشن؛ علوم‌انسانی دیجیتال؛ حاشیه‌نویسی؛ نظام ارجاع؛ دانش عرفی.


1. مقدمه

منابع علوم قرآنی حاوی اطلاعات ارزشمندی برای بازسازی دانش عرفی مخاطبان اولیه قرآن مجید و هم مرجع یابی و تعیین مرجع هستند. اما ماهیت بدون ساختار این داده‌ها چالشی برای بازیابی و استفاده از داده‌های جای گرفته در متون ایجاد می‌کند. ابزارهای حاشیه‌نویسی می‌توانند با ضبط و تبدیل دقیق متون بدون ساختار به متون ساختاریافته به این فرایند کمک کند و به‌صورت جداگانه یا به‌عنوان بخشی از پایپ لاین پردازش زبان طبیعی بزرگ‌تر استفاده شوند. می¬توان از تکنیک‌های پردازش زبان طبیعی برای استخراج اطلاعات استفاده کرد، لیکن یکی از پیش‌نیازهای آن مجموعه‌داده‌های حاشیه‌نویسی استاندارد طلایی است که هنوز برای آموزش و اعتبارسنجی برنامه‌ها ضروری هستند. بنابراین لازم است ابزارهایی کاربرپسند برای حاشیه‌نویسی سریع و دقیق این‌گونه متون بدون ساختار تولید شود و در اختیار متخصصان آشنا به منابع فوق‌الذکر قرار گیرد تا آنها متون را به‌صورت دستی حاشیه‌نویسی و این مجموعه‌داده‌ها را تولید نمایند. حاشیه نویسی از فعالیت‌هایی است که در علوم‌انسانی دیجیتال انجام می‌شود. در اینجا به علوم‌انسانی دیجیتال و ارائه دهندگان خدمات به این حوزه خواهیم پرداخت. علوم‌انسانی دیجیتال که قبلاً به‌عنوان علوم‌انسانی محاسباتی شناخته می‌شد، مجموعه‌ای از روش‌شناسی‌هایی است که پایگاه‌های داده دیجیتالی و نرم‌افزارهای رایانه‌ای را به کار می‌گیرد تا حجم عظیمی از داده‌ها را به روش‌هایی بررسی کند که به‌صورت دستی انجام‌شدنی نیست. علاوه بر رشته‌ای دانشگاهی شدن، این حوزه در مراجع آکادمیک هم جایگاهی یافته است و هرساله کنفرانس‌های بین‌المللی در حوزه علوم‌انسانی دیجیتال برگزار می‌شود، ناشران علمی معتبر مجموعه‌هایی با این عنوان منتشر می‌کنند و مجلاتی به نشر آخرین دستاوردهای این حوزه اختصاص یافته‌اند. علوم‌انسانی دیجیتال، محلی برای مطالعه، تحقیق، تدریس و ابداع ابزارهایی است که محل تلاقی علوم رایانه‌ای (محاسباتی) و رشته‌های علوم‌انسانی هستند. ماهیت آن روش‌شناختی است و دامنه آن بین‌رشته‌ای؛ یعنی بررسی، تجزیه‌وتحلیل، ترکیب و ارائه اطلاعات به شکل الکترونیکی. در علوم‌انسانی دیجیتال تأثیروتأثر دو حوزه علوم‌انسانی و علوم محاسباتی را مطالعه می-شود. چگونه این رسانه‌های دیجیتالی وقتی در حوزه‌های علوم‌انسانی به کار گرفته می‌شوند بر این حوزه‌ها تأثیر می‌گذارند، و این علوم‌انسانی متقابلاً چه چیزهایی را به دانش محاسباتی می‌افزایند؟ (آنسورث، مک‌کارتی، 2005 و ۲۰۱۰ و 2016؛ سونسن ۲۰۰۹؛ گلد، ۲۰۱۱، راک‌ول، 2013؛ گلد و کلاین، ۲۰۱۶ و ۲۰۱۹). برخی علوم‌انسانی دیجیتال را تعهدی اجتماعی می‌دانند که به تولید ابزارهایی برای رقومی کردن منابع علوم‌انسانی پرداخته است. آنان شبکه‌هایی ایجاد کرده‌اند و نتایج تحقیقات را به اشتراک می‌گذارند؛ حتی ابتکار رمزگذاری متن یا پروژه اورلاندو (TEI) را هم از جمله دستاوردهای کلیدی این جامعه برمی‌شمارند (کرشنبام، ۲۰۱۱).

از میان ارائه دهندگان خدمات به حوزه علوم‌انسانی دیجیتال می‌توان به کلارین اشاره کرد. کلارین (سرواژه: منابع زبانی مشترک و زیرساخت فناوری) [۱] نهادی اروپایی است که در سال ۲۰۱۲ تأسیس شد. مأموریت آن ایجاد و حفظ زیرساخت‌ها برای حمایت از به‌اشتراک‌گذاری، استفاده و پایداری داده‌های زبانی دیجیتال (به‌صورت نوشتاری، گفتاری یا چندرسانه‌ای) و ابزارهای زبانی برای تحقیق در علوم‌انسانی و اجتماعی است. کلارین ابزارهای پیشرفته‌ای را برای کشف، کاوش، بهره‌برداری، حاشیه‌نویسی، تجزیه‌وتحلیل یا ترکیب این مجموعه‌داده‌ها ارائه می‌دهد. این کار از طریق شبکه‌ای از مراکز فعال انجام می‌شود: مخازن داده‌های زبان، مراکز خدمات و مراکز دانش. همه اعضای جامعه دانشگاهی در کشورهای شرکت‌کننده به این شبکه دسترسی دارند. ابزارها و داده‌های مراکز مختلف همکاری متقابل دارند، به‌طوری‌که می‌توان مجموعه‌های داده را با هم ترکیب کرد و ابزارها را جهت انجام عملیات پیچیده و پشتیبانی از کار پژوهشگران به یکدیگر متصل کرد. کلارین طیف گسترده‌ای از ابزارها و خدمات حاشیه‌نویسی، تجزیه‌وتحلیل یا ترکیب داده‌های زبان ارائه می‌دهد.

از فعالیت‌های کلارین می¬توان به سفارش ساخت نرم‌افزار اشاره کرد. وب‌اَنو[۲] یکی از نرم‌افزارهایی بود که به سفارش آنها در دانشگاه دارمشتاد ساخته شد و با استقبال محققان مواجه شد. پس از اتمام آن پروژه، نرم‌افزار دیگری به پژوهشگران آن دانشگاه سفارش داده شد. از سال 2018 پلتفرم اینسپشن[۳] در اختیار مجموعه کلارین و همکاران آنها قرار گرفت. علاوه بر رفع باگ‌های سیستم قبلی، امکانات جدیدی به اینسپشن افزوده شده است. از مهم‌ترین آنها می‌توان به پایگاه دانش اشاره کرد. سفارش دهندگان آن مدعی‌اند اینسپشن محیط حاشیه‌نویسی چندکاربره عمومی است. آنها دو هدف برای نرم‌افزار خود تعیین کرده‌اند: (الف) تجمیع سه جنبه اساسی حاشیه‌نویسی متن (ساخت پیکره، مدل‌سازی دانش و حاشیه‌نویسی) در ابزاری واحد، (ب) ترکیب آنها با مکانیسم‌های کمکی مبتنی بر یادگیری ماشین برای بهبود کارایی و کیفیت حاشیه‌نویسی. ویژگی‌های این ابزار عبارت‌اند از: رابط کاربری همه‌کاره و درعین‌حال بصری، پیکربندی انعطاف‌پذیر طرح حاشیه‌نویسی، توانایی اجرای هم‌زمان چند پروژه حاشیه‌نویسی، پشتیبانی از گردش کار در مراحل حاشیه‌نویسی و مقایسه توافق برون‌دادها. سیستم مدیریت دانش عمومی اینسپشن شناسایی موجودیت‌های اسمی، ابهام‌زدایی و پیوند، و در نتیجه هم‌مرجع یابی اسناد را امکان‌پذیر می‌سازد. علاوه بر این، باتوجه‌به انعطاف‌پذیری اینسپشن، مدل‌سازی وظایف پیشرفته هم ممکن است و همچنین، می¬تواند از انواع فرمت‌های فایل پشتیبانی می‌کند. بنابر مراتب بالا، هدف پژوهش حاضر معرفی و به‌کارگیری اینسپشن در حاشیه‌نویسی نظام‌های قرآنی (به طور خاص دو نظام ارجاع و دانش عرفی)، یافتن نقاط قوت و ضعف استفاده از آن در متون عربی و فارسی قرآنی، و ارائه راه کارهایی برای رفع چالش‌هاست. حاشیه‌نویسی فرایند زمان بر و فرسایشی است که گاه منجر به خطا در برچسب‌گذاری و اشتباهات دیگر می‌شود. استفاده از ابزار کاربرپسند دارای قابلیت‌های گوناگون از جمله یادگیری و برچسب‌گذاری خودکار، ارائه پیشنهاد به حاشیه‌نویس، نشان‌دادن خطاهای به مصحح و فراهم‌آوردن امکان اصلاح آنها به روش‌های ساده و سریع می‌تواند حاشیه‌نویسی متون علوم قرآنی را بهبود بخشد. از یافته‌های این پژوهش می‌توان برای محلی‌سازی ابزارهای حاشیه‌نویسی متناسب با نیازهای کاربران ایرانی حوزه علوم قرآنی و دانش‌های وابسته استفاده کرد.

2. پیشینه تحقیق

مطالب این بخش به زیر مجموعه‌های علوم‌انسانی دیجیتال، ابزارهای حاشیه‌نویسی متون، و معناشناسی قالب فیلمور تقسیم شده است. علوم‌انسانی دیجیتال. فینلیسن و اریاویک (۲۰۱۷) چرخه فرایند حاشیه‌نویسی هفت‌مرحله‌ای را (ایده، مدل، ابتیاع، حاشیه‌نویسی، آموزش و تست، ارزیابی و تجدیدنظر، توزیع) پیشنهاد دادند. این چرخه با چارچوب مفهومی مَتِر (پاستاجوسکی و استابز، ۲۰۱۳) تفاوت‌هایی دارد: در فرایند پیشنهادی فینلیسن و اریاویک قبل از ایجاد مدل اولیه، باتوجه‌به نوشتگان هر حوزه لازم است نظریه زبانی مبنای پژوهش مشخص شود و ایده‌ای کلی از داده‌های زبانی محتمل در پروژه بیان شود. پس از ایجاد مدل، و قبل از شروع حاشیه‌نویسی، باید ابزارهای حاشیه‌نویسی مناسب وظایف پروژه را تهیه کرد. پس از تکمیل مراحل حاشیه‌نویسی و ارزیابی، پروژه باید در قبال هزینه یا رایگان در دسترس عموم قرار گیرد و توزیع شود. از ابتدای پروژه حاشیه نویسی به موضوع کسب مجوزهای لازم (مالکیت معنوی)، امکانات ابزار برای پاک‌سازی اطلاعات اضافی، بسته‌بندی داده‌ها، تولید و صدور نسخه‌های (فرمت‌های) سازگار با آرشیوها و مخزن(های) هدف به‌طورجدی پرداخته شود. همچنین به دلیل مشکلات ساخت ابزار حاشیه‌نویسی معمولاً توصیه می‌شود از ابزارهای آماده استفاده شود. در مرحله انتخاب ابزار مناسب باید دقت و وسواس لازم به خرج داده شود تا از مشکلات بعدی تا حد ممکن نظیر توسعه‌پذیری، پشتیبانی، ورود، صدور یا تبدیل ناکافی، عدم وجود مستندات یا پشتیبانی، یادگیری دشوار، رابط کاربری ضعیف، نصب سخت، ناپایداری، کندی و باگ‌های سیستم پیشگیری شود. البته باید هزینه بر بودن، را به این موارد افزود (فینلیسن و اریاویک، ۲۰۱۷). علی‌رغم جستجوی فراوان، نگارندگان نتوانستند پلتفرم جامعی که برای حاشیه‌نویسی متون عربی یا فارسی طراحی شده باشد بیابند.

ابزارهای حاشیه‌نویسی متون. آنچه در پی می‌آید نمونه‌ای از پژوهش‌هایی است که به ابزارهای حاشیه‌نویسی متون اشاره کرده‌اند. کامیابی گل، اخلاقی، عسگریان و حبیبی (1397) در مقاله خود به معرفی و توصیف چگونگی ساخت پیکرۀ مقاله‌های علمی‎پژوهشی دانشگاه مشهد پرداخته‌اند. نرم‌افزار پیکره‌سازی که طراحی و ساخته‌اند می‌تواند پیکره را در فایل‌های مجزا به جمله‌های تشکیل‌دهنده آن تجزیه کند، ریشۀ کلمات را استخراج کرده و برچسب نحوی بر کلمات بزند. آنها معتقدند ابزارهای استاندارد پیش‌پردازشِ ایجادشده برای متون زبان فارسی یا رایگان منتشر نشده‌اند؛ مانند شمس‌فرد (2010)، سرابی، مهیار و فرهودی (2013)، سراجی، مقیسی و نور (۲۰۱۲) یا از دقت مناسب برخوردار نیستند (مانند ابزارهای کدباز خلش و ایمانی (۲۰۱۴)، جدیدنژاد، محمودی و دهداری (۲۰۱۰) و منشادی (۲۰۱۵).

پایگاه‌داده‌های (دادگان) زبان فارسی با کمک رایانه در پژوهشگاه علوم‌انسانی و مطالعات فرهنگی کار خود را در دهه ۷۰ شمسی آغاز کرد و فاز چهارم آن با حجم داده‌ها تا ۳۵۰ میلیون واژه در ۱۳۹۸ رونمایی شد. در بخشی از سایت از ابزارها و نرم‌افزارهای مستقل برای پردازش زبان فارسی نام‌برده‌شده است مانند: ابزارهای درونداد و ویرایش متن فارسی، ابزارهای پردازش متن فارسی (جستجوگرها، واژه‌شمارها، واژه‌نامه‌های بسامدی، آماری، باهمایی و چندتایی)، ابزارهای یکسان‌سازی متن‌های فارسی، یکدست‌سازی کدها و کاراکترهای متون فارسی، تقطیع‌گرها و تحلیل‌گرهای نحوی و نمودار درختی برای جملات فارسی، ابزارهای آوانگاری و برچسب‌زنی خودکار متن‌های فارسی (عاصی، ۱۳۹۸). اما ابزارهای مورداستفاده معرفی شده در دسترس نیستند.

فلاحی (۱۴۰۰) گزارشی از تهیه سامانه و پیکره معنایی افعال زبان فارسی بر پایه مؤلفه‌های معنایی افعال ارائه کرده است. طبق گزارش این پیکره (در دو مرحله فهرست فعل‌ها و فهرست جمله‌ها) در قالب فایل اکسل تهیه شده است و برای تولید رابط کاربری سامانه یا اجزای دیگر آن از ابزار دیگری نام برده نشده است. اسماعیل، یقی و همّو (۲۰۱۴) به معرفی مجموعه‌ای از ابزارهای زبان‌شناختی که برای مطالعات معناشناسی تاریخی زبان عربی تولید شده اند پرداخته‌اند. درباره برنامه پیکره‌سازی خود آورده‌اند: یک سند را همراه فرا داده‌های آن آپلود می‌کند، متن سند را پردازش و توکن می‌کند، با استفاده از ریشه‌یاب عربی اصلاح شده خوجه ریشه کلمات را استخراج می‌کند، الگوی صرفی و ریشه هر کلمه در متن را بازیابی می‌کند، برای برچسب‌گذاری اجزای کلام از برچسب گذار استنفورد استفاده می‌کند، تمام اطلاعات را در XML کامپایل می‌کند، و نهایتا یک فایل XML دارای حاشیه‌نویسی صرفی و نحوی از سند پردازش شده ارائه می‌دهد. آنها برنامه HACSS را برای تسهیل ردیابی توسعه زبانی تولید کرده‌اند که از چهار ماژول اصلی تشکیل شده است: نمایه‌ساز اصطلاح، موتور جستجوی اصطلاح، هماهنگ‌کننده، ویرایشگر فرهنگ لغت.

معناشناسی قالب فیلمور. در پژوهش‌های قرآنی دانشگاه لیدز هم از معناشناسی قالب مانند شرف و اتول (۲۰۰۹)استفاده شده است. الشهری (۲۰۱۴) هم از معناشناسی قالب برای مقایسه و نمایش ویژگی‌های افعال عربی و انگلیسی استفاده کرده است. در فارسی هم برای نمایش ویژگی‌های فعل از معناشناسی قالب استفاده شده است؛ برای نمونه: نایب لوئی، عاصی و افراشی (۱۳۹۴)، رحمتی نژاد و همکاران (۱۳۹۸).

به‌عنوان نمونه‌ای از کاربرد معناشناسی قالب در حاشیه‌نویسی دانش عرفی می‌توان به مودی (۲۰۱۷) اشاره کرد. او به مدل‌سازی دانش عرفی درباره فعالیت‌های روزمره (ترتیب، بازنویسی، و پیش‌بینی رویداد) با استفاده از اسکریپت‌ها و بهره‌گیری از تکنیک‌های آمار و احتمالات مبتنی بر شبکه پرداخته است. او معتقد است حاصل کار برای پردازش زبان طبیعی و هوش مصنوعی در زمینه‌هایی مانند استدلال زمانی، هم‌مرجع یابی، درک داستان و سیستم‌های پاسخگویی به سؤالات مفید خواهد بود. مبنای نظری به کار گرفته شده در این پایان‌نامه نظریه معناشناسی قالب فیلمور است و از بازنمودهای به سبک فریم نت استفاده شده است. تاکید بر سهم قابل‌توجه دانش اسکریپت در درک زبان و پیش‌بینی گفتمان از دیگر نتایج این پژوهش است.

مودی، آنیکینا، اوسترمن و پینکال پیکره اینسکریپت (ساختار متن روایی) ساخته‌اند؛ مجموعه‌ای از ۹۱۰ داستان. هر داستان سناریوی واحدی را نشان می‌دهد که حول محور ۱۰ سناریو مختلف متمرکز شده است؛ مانند پختن کیک، کوتاه‌کردن مو، و غیره. افعال و عبارات اسمی هر داستان به‌صورت دستی با انواع رویدادهای خاص اسکریپت و انواع شرکت‌کنندگان و متن نیز با اطلاعات هم‌مرجع یابی حاشیه‌نویسی شده‌اند. تهیه‌کنندگان آن معتقدند این مجموعه تنوع واژگانی غنی ای را نشان می‌دهد و منبعی منحصربه‌فرد برای مطالعه نقش دانش اسکریپت در پردازش زبان طبیعی است.

چارچوب نظری. برای بررسی ویژگی‌های پلتفرم از مدل پیشنهادی فینلیسن و اریاویک (۲۰۱۷) استفاده شد. برای تهیه طرح نظام ارجاع از نظریه هلیدی و متیسون ۲۰۱۴ استفاده شد. برای تهیه طرح نظام دانش عرفی از نظریه معناشناسی قالب فیلمور استفاده شد. نظام ارجاع و نظام دانش عرفی با هم در ارتباط هستند. تعیین مرجع ضمیر به شناسایی فاعل/قائل به دانش کمک می‌کند. حال این پرسش‌ها مطرح می¬شود آیا می‌توان از اینسپشن در حاشیه‌نویسی نظام‌های قرآنی (به طور خاص دو نظام ارجاع و دانش عرفی) به کار گرفت. نقاط قوت و ضعف استفاده از آن در متون عربی و فارسی قرآنی کدام‌اند؟ چگونه می‌توان مشکلات را برطرف کرد؟ راه کارها؟

3. روش‌شناسی تحقیق

این پژوهش از نوع مطالعه کیفی است و برای بررسی دقیق‌تر ویژگی‌های پلتفرم موردنظر یک مطالعه موردی در آن تعریف شده است. در ادامه این بخش ابتدا توصیف مختصری از پلتفرم منتختب (اینسپشن) ارائه می‌شود و سپس سیاهه (چک‌لیست) بررسی و مقایسه ابزارهای حاشیه‌نویسی و روش کار معرفی می‌شود. این سیاهه به‌منظور پاسخ به سؤالات پژوهش تدوین شده و برگرفته از ادبیات پژوهش در این حیطه خصوصاً فینلیسن و اریاویک (۲۰۱۷) و باتوجه‌به تجربیات پژوهشگران است. اینسپشن حاشیه‌نویسی تعاملی و مدیریت دانش را در پلتفرم واحدی ادغام می‌کند. در مرحله قبل از حاشیه‌نویسی، می‌توان پیکره را با استفاده از قابلیت موجود در پلتفرم تهیه کرد یا از قابلیت پذیرش پیکره‌های آماده (ساده یا حاشیه‌نویسی شده) بهره جست؛ علاوه بر روش مستقیم بارگذاری اسناد در اینسپشن، جستجو و انتخاب اسناد از مخازن اسناد خارجی هم امکان‌پذیر است. پس از تهیه پیکره، یا طرح حاشیه‌نویسی محقق ساخته ایجاد می‌شود یا از انواع عناصر از پیش تعریف‌شده‌ای مانند پایگاه‌های دانش، لایه‌ها و مجموعه برچسب‌ها تعبیه شده در ابزار استفاده می‌شود. پس از طراحی‌های لازم می‌توان از امکانات مدیریت پروژه ابزار بهره جست و کار به حاشیه‌نویس‌ها و مصحح‌ها اختصاص داد. امکان اصلاح و ادغام حاشیه‌نویسی‌هایی مختلف وجود دارد. طبق اظهارات سازندگان آن، این پلتفرم از قالب‌ها و استانداردهای رایج نمایش حاشیه‌نویسی و نمایش دانش پشتیبانی می‌کند، و امکان همکاری گروهی و جمع‌سپاری را فراهم می‌آورد. این ابزار بخشی تحت عنوان "توصیه‌کنندگان" دارد که از حاشیه‌نویسی کاربر یاد می‌گیرد و حاشیه‌نویس‌ها و مصحح‌ها پیشنهاداتی نویسی ارائه می‌دهد. اجزای اصلی هر پروژه در اینسپشن عبارت‌اند از: یک یا چند سند برای حاشیه‌نویسی، یک یا چند کاربر برای کار روی پروژه، یک یا چندلایه برای حاشیه‌نویسی (مانند اجزای کلام، موجودیت‌های اسمی، هم‌مرجع. ..). اجزای اختیاری عبارت‌اند از: یک یا چند پایگاه دانش، توصیه‌کنندگان برای پیشنهاد خودکار حاشیه‌نویسی، رهنمودهایی برای مدیر پروژه و گروه او، مجموعه برچسب‌ها، مخزن اسناد و غیره (گروه اینسپشن، ۲۰۲۱). در سیاهه بررسی و مقایسه ابزارهای حاشیه‌نویسی پیش‌گفته، مشخصه‌های ابزار مناسب حاشیه‌نویسی به سه دسته تقسیم می‌شوند: الف. مشخصه‌های معمول که عبارت‌اند از: ورود و صدور فرمت‌های فایل‌های مختلف، حاشیه‌نویسی چندلایه، حاشیه‌نویسی چندرسانه‌ای، واسط کاربری حاشیه‌نویسی قابل تغییر با نیازهای مشتری، محاسبه توافق میان حاشیه‌نویس‌ها، رابط تجمیع حاشیه‌نویسی‌ها، تهیه فراداده، تجزیه‌وتحلیل پیکره و تجزیه‌وتحلیل الگو، ایجاد طرح‌های دلخواه تگ مسطح، حاشیه‌نویسی مبتنی بر وب، دسترسی به منابع خارجی. ب. مشخصه‌های ویژه که عبارت‌اند از: ایجاد طرح‌های حاشیه‌نویسی دلخواه، مصورسازی ماهرانه، بررسی صحت فایل باتوجه‌به مشخصات، پشتیبانی از گردش‌کار (کاربر، نقش، فایل و مدیریت وظایف)، پایپ لاین حاشیه‌نویسی قابل تنظیم، حاشیه‌نویسی دستی و خودکار به‌هم‌پیوسته، آموزش آنلاین، جمع‌سپاری، پرس‌وجو. ج. مشخصه‌های خاص که عبارت‌اند از: قابلیت تصحیح متن اصلی، تشخیص و تصحیح خطای حاشیه‌نویسی، ویرایشگر طرح حاشیه‌نویسی، سازنده رابط کاربری، مدیریت مشخصات، دستورالعمل‌ها و نسخه‌های مجموعه، مدیریت و اندازه‌گیری آموزش حاشیه‌نویس، پشتیبانی از بسته‌بندی در آرشیوها، توزیع در مخازن و مدیریت مجوزها، صدور به قالب‌های (فرمت‌های) با قابلیت انتشار. همان طور که گفته شد نگارندگان پژوهش حاضر از چرخه فرایند حاشیه‌نویسی هفت‌مرحله‌ای (ایده، مدل، ابتیاع، حاشیه‌نویسی، آموزش و تست، ارزیابی و تجدیدنظر، توزیع) استفاده کرده‌اند. قبل از ایجاد مدل اولیه، باتوجه‌به نوشتگان لازم است نظریه زبانی مبنای پژوهش در دو زیربخش نظام ارجاع و نظام دانش عرفی مشخص شد (به ترتیب نظریه هلیدی و متیسون ۲۰۱۴ معناشناسی قالب فیلمور) تا شمایی از داده‌های زبانی پروژه به دست آید. آنگاه طرح‌های حاشیه‌نویسی تدوین شد. در مرحله بعد این طرح‌ها در پلتفرم حاشیه‌نویسی اینسپشن اجرا شدند. برای مثال عبارت‌های حاوی دانش عرفی شناسایی شدند. برای طرح برچسب‌گذاری از معناشناسی قالب استفاده شد. واژه برانگیزنده قالب شناسایی شد و اجزای قالب برچسب‌گذاری خوردند. حاشیه‌نویسی متن قدمی به‌سوی بازسازی دانش عرفی است. این کار پیکره‌بنیاد است و درصدد ساخت انتولوژی نیست؛ اما با پیشرفت کار و آشکار شدن سلسه‌مراتب ممکن است به این نتیجه رسید که اغلب قالب‌ها را می‌توان در چند قالب بالاتر گنجاند. هنگام حاشیه‌نویسی بخش‌های سه‌گانه سیاهه فوق به‌دقت مدنظر قرار گرفت. مقاله حاضر به گزارش یافته‌ها حاصل از بررسی سیاهه خواهد پرداخت.

4. یافته‌ها

به‌کارگیری ابزار و بررسی آن با استفاده از سیاهه بررسی و مقایسه ابزارهای حاشیه‌نویسی نتایج زیر را نشان داد. در اینجا به یافته‌های پژوهش برای هریک از مشخصه‌های چک‌لیست ابزار مناسب حاشیه‌نویسی ارائه شده در بخش قبل می‌پردازیم. بعضی مشخصه‌ها را که مستقیماً موردنیاز نبود حذف و برخی ادغام شده‌اند. رابط کاربری حاشیه‌نویسی اینسپشن به حاشیه‌نویس‌ها اجازه می‌دهد متون زبانی را حاشیه‌نویسی کنند. رابط کاربری بصری است و استفاده از آن نسبتاً آسان است، که می‌تواند بر سرعت و کیفیت حاشیه‌نویسی تأثیر گذارد. این ابزار از طرح‌های حاشیه‌نویسی انتخاب شده (نظام ارجاع و دانش عرفی) پشتیبانی می‌کند. همچنین قابلیت مهم دیگر آن پشتیبانی از زبان‌های عربی و فارسی و خصیصه راست نویسی در آنها است. شکل 1 نمایی از رابط کاربری و حاشیه‌نویسی (نظام ارجاع و دانش عرفی) انجام شده برای آیه سوره صافات را نشان می‌دهد. توکن سازی به‌صورت خودکار انجام شده و د بن واژه سازی، برچسب‌گذاری اجزای کلام، هم مرجع و روابط معنایی به‌صورت دستی انجام شده است.


شکل (1): محیط حاشیه‌نویسی آیه در پلتفرم اینسپشن


باتوجه‌به ویژگی زبان عربی در بخش ضمایر، امکان انتخاب از یک حرف و تا کلمه برای حاشیه‌نویسی وجود دارد. همین‌طور حاشیه‌نویسی در چندلایه بر یک زنجیره از حروف یا کلمات امکان‌پذیر است. واحد پیش‌فرضِ حاشیه‌نویسی کلمه است اما می‌توان تنظیمات جزئیات لایه را تغییر داد و سطح کاراکتر یا دیگر سطوح را انتخاب کرد. اگر از لایه‌های از پیش تعبیه شده استفاده شود امکان حذف آنها وجود ندارد اما به هر پروژه لایه‌های جدید با ویژگی‌های دلخواه می‌توان افزود. حاشیه‌نویسی هم مرجع می‌توان روی چند توکن در یک جمله انجام شود. یک توکن می‌تواند هم‌زمان چندین اسپن هم مرجع بپذیرد. شکل 2 نمایی از رابط کاربری و حاشیه‌نویسی چند لایه برای آیه سوره صافات را نشان می‌دهد. علاوه بر حاشیه‌نویسی امکان افزودن پایگاه‌های دانش به پروژه هم وجود دارد. پژوهشگران ویکی قرآن را به پروژه افزودند تا آیات به آن متصل شوند (نمونه‌ای از اتصال پایگاه‌های دانشی موجود در وب). امکان ساخت پایگاه‌های دانش جدید (پایگاه‌های دانش محلی) و ذخیره آنها در پلتفرم فراهم بود ولی در این فاز از پروژه به آنها پرداخته نخواهد شد. شکل (2): حاشیه‌نویسی هم‌مرجع‌یابی در پلتفرم اینسپشن

5. مشخصه‌های بررسی شده

ورود و صدور فرمت‌های فایل‌های مختلف. اینسپشن فایل‌ با فرمت‌های متنوع را می‌پذیرد. هنگام طراحی گردش کار حاشیه‌نویسی این پروژه، فایل‌هایی با فرمت pdf، txt و. .. در اختیار بود که اینسپشن آنها را می‌پذیرفت. برای صدور متن حاشیه‌نویسی شده هم فرمت XML 1.0 مدنظر بود که در اینسپشن موجود است. حاشیه‌نویسی چندلایه: شکل ۱ نمایی از این امکان اینسپشن را نمایش می‌دهد. محاسبه توافق میان حاشیه‌نویس‌ها. اینسپشن این قابلیت را دارد که یکی از عملیات اساسی که در بررسی مجموعه‌های حاشیه‌نویسی شده و تضمین کیفیت آنها است. توافق بر اساس هر ویژگی بین حاشیه‌نویس‌ها در تمام اسناد محاسبه می‌گردد. می‌توان لایه‌ها و ویژگی‌هایی را انتخاب کرد تا برای آنها توافق محاسبه شود. ضریب‌ها عبارت‌اند از کاپای کوهن، کاپای فلیس، آلفای کریپندورف (اسمی) و آلفای کریپندورف (واحد کننده). در این فاز از پروژه از این قابلیت استفاده نشد اما به دلیل اهمیت آن ذکر شد که این قابلیت در پلتفرم وجود دارد. رابط تجمیع حاشیه‌نویسی‌ها. این قابلیت را دارد. این قابلیت اینسپشن به داور اجازه می‌دهد تا به‌سرعت و به‌راحتی حاشیه‌نویسی‌ها را از حاشیه‌نویس‌های مختلف ادغام کند تا یک استاندارد طلایی تولید کند. داور کار را در یک پنجره واحد انجام می‌دهد و می‌تواند حاشیه‌نویسی‌های جدیدی در آن صفحه؛ دقیقاً مانند صفحه حاشیه‌نویسی، ایجاد نماید. در این فاز از پروژه از این قابلیت استفاده نشد اما به دلیل اهمیت آن ذکر شد که این قابلیت در پلتفرم وجود دارد. تهیه فراداده. یکی از کارهایی که اغلب در پروژه‌های حاشیه‌نویسی نادیده گرفته می‌شود، تهیه فراداده درباره خود فرایند حاشیه‌نویسی است. اینسپشن این امکان را فراهم کرده است تا مدیران پروژه به اطلاعاتی نظیر این که کدام حاشیه‌نویس چه سندی را حاشیه‌نویسی کرده است، یا کدام اسناد قبلاً حاشیه‌نویسی شده‌اند، یا مدت زمانی که یک حاشیه‌نویس روی یک سند خاص کار کرده است یا منشأ یک سند حاشیه‌نویسی فردی در ابتدا چگونه ایجاد شده است،و به چه ترتیبی اصلاح شده است، توسط چه کسی و چگونه انجام شده است، دسترسی داشته باشند. این اطلاعات را می‌توان برای تجزیه‌وتحلیل فرایند حاشیه‌نویسی برای بهبودهای بعدی، یا اندازه‌گیری بهره‌وری و کارایی حاشیه‌نویس استفاده کرد. تجزیه‌وتحلیل پیکره و تجزیه‌وتحلیل الگو. کاری رایج هنگام شروع یک پروژه حاشیه‌نویسی زبانی، تعیین مشخصات مجموعه‌ای است که قرار است حاشیه‌نویسی شود. برای مثال می شود به شمارش انواع سند، واژه‌ها، جمله‌ها تجزیه‌وتحلیل کلمات کلیدی در زمینه (KWIC) و... اشاره کرد. در اسناد راهنمای اینسپشن به این قابلیت اشاره نشده است. ایجاد طرح‌های حاشیه‌نویسی دلخواه. اینسپشن توانایی تعریف یک طرح برچسب دلخواه و اعمال آن بر داده‌ها را فراهم می‌کند. علاوه‌برآن طراح می‌تواند از محدوده‌های متنی (نشان‌ها، جملات، پاراگراف‌ها، نمی‌توان از مرزهای جمله) عبور کند. دانه‌بندی در سطوح مختلف ممکن است. وقتی روی سطح کاراکتر تنظیم شود، حاشیه‌نویسی را می‌توان در هر جا ایجاد کرد. حاشیه‌نویسی با عرض صفر مجاز است. حاشیه‌نویسی مبتنی بر وب. توانایی انجام و جمع‌آوری حاشیه‌نویسی از طریق رابط مبتنی بر وب از دیگر قابلیت‌های اینسپشن است. دسترسی به منابع خارجی. توانایی دسترسی به منابع خارجی مانند فرهنگ لغت الکترونیکی، اصطلاحات، یا پایگاه‌های دانش (هستی‌شناسی) می‌تواند یک قابلیت کلیدی برای بسیاری از پروژه‌های حاشیه‌نویسی باشد. دسترسی به پایگاه‌های دانش هم از قابلیت‌های اینسپشن است. مصورسازی. اینسپشن قابلیت مصورسازی حاشیه‌نویسی‌ها را دارد.

پشتیبانی از گردش کار و مدیریت آن از قابلیت‌های اینسپشن است که به‌ویژه برای مدیر پروژه حاشیه‌نویسی مفید است. منظور از گردش کار، فرایند برنامه‌ریزی برای ایجاد پروژه حاشیه‌نویسی، توزیع وظایف و فایل‌ها میان حاشیه‌نویس‌ها، و نظارت بر پیشرفت کار آنها از طریق پیگیری اینکه چه فایل‌هایی در چه زمانی و توسط چه کسی حاشیه‌نویسی می‌شوند، آیا محدودیت‌هایی وجود دارد که باید رعایت شوند (به‌عنوان‌مثال، یک حاشیه‌نویس باید ابتدا حاشیه‌نویسی کند، یا یک فایل باید قبل از دیگری حاشیه‌نویسی شود) و غیره.

پایپ لاین حاشیه‌نویسی قابل تنظیم. گاه پروژه‌ها قبل از شروع حاشیه‌نویسی اصلی ابتدا چندلایه خودکار حاشیه‌نویسی روی متن اعمال می‌کنند مانند: توکن‌سازی، تقسیم‌بندی جمله، برچسب‌گذاری جزء کلام، بن‌واژه‌سازی و تجزیه نحوی. اینسپشن یک برنامه یادگیری ماشین عمومی دارد که به مدیران اجازه می‌دهد تا نوع حاشیه‌نویسی را تعریف کنند، داده‌های آموزشی را وارد کنند، و یادگیرنده را بر اساس این داده‌ها آموزش دهند. سپس داده‌های جدید را می‌توان به طور خودکار با مدل آموزش‌دیده حاشیه‌نویسی کرد. استفاده از قابلیت پایپ لاین حاشیه‌نویسی قابل تنظیم اما در حال حاضر برای فارسی و عربی کاربرد ندارد.

قابلیت تصحیح متن اصلی دیگر قابلیت اینسپشن است. متن تصحیح شده به سه صورت (بعد از غلط، قبل از غلط، جایگزینی با غلط) درج می‌شود. ویرایشگر طرح حاشیه‌نویسی. نیز از قابلیت‌های اینسپشن است. یکی دیگر از ویژگی‌های موردنیاز، امکان ویرایش طرح‌ها و مشخصات حاشیه‌نویسی از طریق یک رابط کاربری اختصاصی، به‌جای ویرایش مستقیم آنها در فایل است. اینسپشن اجازه ایجاد لایه‌های حاشیه‌نویسی جدید را می‌دهد که می‌تواند حاشیه‌نویسی برای هر نشانه باشد، با یا بدون مجموعه‌ای از مقادیر از پیش تعریف شده، حاشیه‌نویسی‌های روی کلمه یا ایجاد قوس برای حاشیه‌نویسی مرجع یا وابستگی. راهنما کاربر جامع دارد و چندین پروژه حاشیه‌نویسی نمونه ایجاد شده تا کاربران بتوانند مطالب راهنمای کاربر را در آن پروژه‌ها تمرین کنند. فیلم‌های کوتاه آموزشی برای تشریح بخش‌های مختلف در وب‌سایت آن موجود است.

6. بحث‌وبررسی

آیا می‌توان از ابزار اینسپشن در حاشیه‌نویسی نظام‌های قرآنی (به طور خاص دو نظام ارجاع و دانش عرفی) به کار گرفت؟ نقاط قوت و ضعف استفاده از آن در متون عربی و فارسی قرآنی کدام‌اند؟ چگونه می‌توان مشکلات را برطرف کرد؟ راه کارها؟ اینسپشن ابزار حاشیه‌نویسی همه‌منظوره، منبع‌باز و مبتنی بر وب است. این ابزار طیف وسیعی از ویژگی‌ها را برای بهبود تجربه حاشیه‌نویسی، رفع محدودیت‌های ابزارهای موجود و کاهش زمان حاشیه‌نویسی ارائه می‌دهد. پلتفرم را می‌توان به‌صورت محلی نصب کرد یا از نسخه آنلاین آن بدون نیاز به نصب نرم‌افزار استفاده کرد. البته سایت اصلی اینسپشن نسخه آنلاین را برای پروژه‌ها توصیه نمی‌کند.اما برای آموزش همکاران طرحی مناسب است. امکان ایجاد حساب کاربری با سطوح دسترسی متفاوت (مدیر، مصحح، حاشیه‌نویس) وجود دارد. به‌این‌ترتیب، اشتراک‌گذاری پیکربندی‌ها، اسناد، حاشیه‌نویسی‌ها و هستی‌شناسی‌ها در گروه حاشیه‌نویسی امکان‌پذیر می‌شود. نکته مثبت دیگر پشتیبانی از انواع فرمت‌ها برای ذخیره و بازیابی است. مدیریت گردش کار از دیگر قابلیت‌های اینسپشن بود که به‌عنوان یک کارکرد عمومی فارغ از ویژگی‌های زبان خاص در طراحی و نظارت بر کار حاشیه‌نویسی نظام‌های قرآنی قابل‌استفاده است. لایه‌های برچسب‌گذاری آماده سرعت کار آماده‌سازی پروژه را بیشتر می‌کند. امکان افزودن لایه‌های خاص متناسب با نیاز پژوهشگران فراهم است. امکان حاشیه‌نویسی برای نظام ارجاع و دانش عرفی وجود دارد. حاشیه‌نویسی پیکره‌ها عموماً بر اساس یک طرح حاشیه‌نویسی از پیش تعیین شده انجام می‌شود. امکان تعریف طرح و انتخاب لایه‌ها و مجموعه برچسب‌ها در اینسپشن وجود دارد. اما باتوجه‌به این که طرح حاشیه‌نویسی پیشنهاد شده مبتنی بر نظریات موجود است، ممکن است در عمل با موضوعات جدیدی مواجه شد که اینسپشن این امکان را فراهم می‌آورد تا حاشیه‌نویسان در حین برچسب‌زنی، برچسب‌های جدیدی به مجموعه اضافه کنند و دلیل خود را ذکر کنند. در مرحله بعد مصحح می‌تواند درباره پذیرش آن تصمیم‌گیری کند. اینسپشن از زبان فارسی و عربی (زبان متون موردبحث) و ویژگی از راست به چپ بودن خط آنها پشتیبانی می‌کند. توکن‌سازی به‌خوبی انجام می‌شود اما امکان بن‌واژه‌سازی و برچسب نحوی خودکار برای عربی یا فارسی وجود ندارد. ابزارهای کاربرپسندی در زبان فارسی یا عربی که بتوان آنها را به مجموعه اینسپشن اضافه کرد در دسترس نبود. اگر در حال حاضر امکان تولید پلتفرم‌های همه‌کاره وجود ندارد بهتر است حداقل ابزارهای پردازش متن پایه به‌صورت آزاد در دسترس قرار گیرند تا سرعت کار حاشیه‌نویسی بیشتر شود. ویژگی دیگر امکان انتخاب سطح کاراکتر برای حاشیه‌نویسی است. این ویژگی در حاشیه‌نویسی ضمایر عربی برایپژوهشگران مهم است زیرا گاه لازم است تنها یک حرف به‌عنوان ضمیر انتخاب شود و گاه ضمیر محذوف است. در مورد دوم می‌شود از قابلیت درج عرض صفر در اینسپشن استفاده کرد اما این قابلیت به‌خوبی عمل نمی‌کند و استفاده از آن با مشکلاتی همراه است. همین‌طور امکان حاشیه‌نویسی در چندلایه بر یک زنجیره از حروف یا کلمات امکان‌پذیر است که در حاشیه‌نویسی هم‌مرجع یابی مهم بود. قابلیت تصحیح متن اصلی از قابلیت‌های مفید اینسپشن است که اجازه می‌داد اشتباهات ایجاد شده در مرحله اول دیجیتال کردن متون تصحیح شود. رابط کاربری به زبان انگلیسی است. باتوجه‌به تجربه نگارندگان این سطور در سفارش کار به کارپذیران حوزه علوم‌انسانی نکته منفی به‌حساب می‌آید و باعث عدم استقبال و کاهش چشمگیر تعداد داوطلبان کار در پروژه می‌شود. فارسی کردن رابط کاربری می‌تواند این مشکل را رفع کند و هزینه‌های آموزش کارپذیران را نیز کاهش دهد.

7. نتیجه‌گیری

نتایج این پژوهش نشان داد از پلتفرم اینسپشن می‌توان برای حاشیه‌نویسی متن عربی و فارسی تفسیر سوره صافات استفاده کرد؛ اما این که استفاده از آن با سهولت و سرعت انجام‌پذیر باشد نیاز به بررسی‌هایی با تعداد شرکت‌کننده بیشتر دارد. استفاده از ابزار مناسب می‌تواند فرایند دیجیتال کردن متون را تسریع و تسهیل کند. ماشین می‌تواند امکان بررسی وسیع و عمیق منابع علوم قرآنی را فراهم آورد اما لازم است ابتدا متن‌ها برای ماشین قابل خواندن و فهمیدن باشند. قدم اول تهیه نسخه الکترونیکی از این متون است که تا حد زیادی با موفقیت انجام شده است. مرحله بعد برچسب‌گذاری آنها و قابل‌فهم کردن آنهاست تا ماشین بتواند طبق درخواست عملیات جستجو، پرسش‌وپاسخ، و. .. را انجام دهد. باتوجه‌به آنچه در حال حاضر در دسترس عموم قرار دارد به نظر نمی‌رسد در بخش دوم موفقیت چندانی حاصل شده باشد. شاید بتوان حجم زیاد متون را از یک سو و طاقت‌فرسا بودن فرایند حاشیه‌نویسی را از سوی دیگر از دلایل این عدم موفقیت دانست. وجود ابزارهای کاربرپسند حاشیه‌نویسی می‌تواند تسهیل گر قدم دوم در فرایند دیجیتال کردن این متون باشد ولی تا جایی که جستجوهای نگارندگان این مقاله نشان می‌دهد ابزارهای حاشیه‌نویسی مناسبی برای کاربران فارسی‌زبان در دست نیست. در نبود چنین ابزارهایی نمی‌توان انتظار داشت منابع زبانی کافی برای پردازش ماشینی منابع علوم قرآنی تولید و منتشر شود؛ لذا پیشنهاد می‌شود در قدم اول از پلتفرم‌های موجود مانند اینسپشن استفاده شود و باتوجه‌به ویژگی‌های خاص مخاطبان حوزه علوم‌انسانی در ایران برای اینسپشن رابط کاربری فارسی طراحی شود. امید می‌رود به‌این‌ترتیب کاربران بیشتری به استفاده از این ابزار ترغیب شوند و حاشیه‌نویسی سرعت بیشتری پیدا کند.

نکته قابل‌توجه درباره این ابزار متولی آن یعنی نهاد اروپایی کلارین است که وظیفه فراهم‌آوردن زیرساخت‌های لازم برای دیجیتال کردن منابع علوم‌انسانی را برعهده دارد. این نهاد در اجرای بخشی از وظایف خود ساخت نرم‌افزارهای جدید متناسب با نیازهای پژوهشگران حوزه علوم‌انسانی را به دانشگاه‌ها سفارش می‌دهد و از سوی دیگر مراقبت می‌کند که ابزارهای تولید شده از حاصل کارهای قبلی پشتیبانی کنند. زیرا این موضوع در تداوم کار دیجیتال کردن منابع بسیار مهم و اساسی است. کلارین همچنین مخازنی را برای نگهداری و در دسترس قراردادن متون دیجیتال شده فراهم کرده است. این خدمت همواره از دغدغه‌های فعالان حوزه علوم‌انسانی دیجیتال بوده است. پیشنهاد می‌شود نهادهای فعال در حوزه علوم قرآنی بخشی از منابع خود را به تولید و یا سازگارسازی نرم‌افزارهای موجود با ویژگی‌های مخاطبان ایرانی علوم قرآنی دیجیتال اختصاص دهند. قدم اول، همان‌طور که در بالا اشاره شد، می‌تواند تهیه رابط کاربری فارسی و استفاده از توضیحات و برچسب‌های فارسی در لایه‌ها و. .. باشد. به دلیل محدودیت‌هایی مانند زمان و غیره برخی از قابلیت‌های اینسپشن که در این فاز از پژوهش بررسی نشد عبارت‌اند از: محاسبه توافق میان حاشیه‌نویس‌ها. رابط تجمیع حاشیه‌نویسی‌ها. حاشیه‌نویسی دستی و خودکار به‌هم‌پیوسته، جمع‌سپاری، پرس‌وجو، تشخیص و تصحیح خطای حاشیه‌نویسی، پشتیبانی از بسته‌بندی در آرشیوها، توزیع در مخزن اسناد و مدیریت مجوزها. پیشنهاد برای تحقیقات آتی. به دلیل ماهیت زمان بر و هزینه فرایند حاشیه‌نویسی موجب می‌شود فرد محقق یا دانشجو نتواند به‌تنهایی تعداد اسناد لازم برای آموزش سیستم‌های هوش مصنوعی در مقیاس بزرگ و دقیق را حاشیه‌نویسی کند. لازم است ابزارهای مناسب رایگان، منبع‌باز و مبتنی بر وب با پشتیبانی و به‌روزرسانی مداوم در اختیار قرار گیرد تا به‌تدریج بر حجم داده‌های حاشیه‌نویسی شده اسناد بدون ساختار افزوده شود و زمینه برای استفاده پردازش زبان طبیعی و هوش مصنوعی در پژوهش‌های بزرگ مقیاس در منابع علوم قرآنی فراهم گردد؛ لذا پیشنهاد می‌شود پژوهش‌هایی درباره ویژگی‌های ابزار حاشیه‌نویسی روزآمد باتوجه‌به ویژگی زبان‌های فارسی و عربی و نیز نیازهای مخاطبان ایرانی انجام پذیرد. حاشیه‌نویسی ساختاریافته حاصلِ حاشیه‌نویسی متن با ابزار حاشیه‌نویسی اساس مجموعه‌داده‌ها برای آموزش و توسعه ابزارهای پردازش زبان طبیعی و سیستم‌های هوش مصنوعی را بنا می‌کنند. اما فرایند حاشیه‌نویسی حتی برای افراد تجربه زمان بر است و به‌کندی انجام می‌شود. در برخی زبان‌ها تحقیقاتی درباره متوسط زمان لازم برای حاشیه‌نویسی طبق تعداد عنصر داده جای گرفته در متن انجام شده است اما از تحقیقات برای زبان فارسی و عربی اطلاعی در دسترس نبود لذا پیشنهاد می‌شود پژوهش‌هایی در این باره انجام پذیرد. مناسب است نظر کاربران در شرایط واقعی (و نه پژوهشی) درباره سهولت و سرعت کار با اینسپشن سنجیده و با شرایط کار با سایر ابزارهای موجود مقایسه شود که بخشی از این کارها را انجام می‌دهند مانند ابزار پرت که برای حاشیه‌نویسی متون زبان‌شناسی در سطح آوایی، واجی، صرف و نحو کاربرد دارد.

پانویس و منابع

  1. CLARIN- 'Common Language Resources and Technology Infrastructure'
  2. WebAnno
  3. Inception


1. رحمتی نژاد،. س. م. عاصی، ع. قلی فامیان، م. قیومی. (1398). تحلیل معنایی فعل «گفتن» در چارچوب نظریه معناشناسی قالبی: یک بررسی پیکره بنیاد. جستارهای زبانی دوره 10 شماره ۴ (پیاپی ۵۲) 55-89.

2. عاصی، س. م. (1398). معرفی پایگاه متون. پایگاه‌داده‌های زبان فارسی. https://pldb.ihcs.ac.ir/Intro#_ftn8

3. فلاحی، م. ه. (۱۴۰۰). تهیه سامانه و پیکره معنایی افعال زبان فارسی بر پایه مؤلفه‌های معنایی افعال. گزارش نهایی طرح پژوهشی.

4. کامیابی گل، ع.، ا. اخلاقی باقوجری، ا. عسگریان، ه. حبیبی. (1397). استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمیپژوهشی دانشگاه فردوسی مشهد. کتابداری و اطلاع‌رسانی. دوره 21 شماره 2، 3-25.

5. نایب لوئی، ف.، س. م. عاصی، آ. افراشی. (1394). شبکه معنایی قالب بنیاد (فریم نت) در زبان فارسی. نشریه پژوهش‌های زبان‌شناسی تطبیقی. سال پنجم، شماره ۹. 257-275.

6. Alshehri, A. M. (2014). The Frame Semantics of ‘Self¬Motion’ Frame in Arabic and English. Unpulished MA thesis. San Francisco State University.

7. Castilho, R., C. Biemann, I. Gurevych, S. M. Yimam. (2014). WebAnno: a flexible, web-based annotation tool for CLARIN.

8. https://www.clarin.eu/sites/default/files/cac2014_submission_6_0.pdf

9. Finlayson, M. A., & T. Erjavec. (2017). Overview of Annotation Creation-Processes and Tools. In James Pustejovsky & Nancy Ide (eds.) “Handbook of Linguistic Annotation.” New York: Springer. Pp 167-191.

10. Gold, M. & L.F. Klein. (2016). debates-in-the-digital-humanities. https://dhdebates.gc.cuny.edu/projects/debates-in-the-digital-humanities-2016.

11. Gold, M. (2011). debates-in-the-digital-humanities. https://dhdebates.gc.cuny.edu/projects/debates-in-the-digital-humanities.

12. https://inventory.clarin.gr/tool-service/844

13. https://www.clarin.eu/

14. Ismail O., S. Yagi & B. Hammo. (2014). Corpus Linguistic Tools for Historical Semantics in Arabic. In International Journal of Arabic-English Studies (IJAES) Vol. 15, 2014 135.

15. Kirschenbaum. M. (2011). What Is Digital Humanities and What’s It Doing in English Departments?, In M. Gold. debates-in-the-digital-humanities. https://dhdebates.gc.cuny.edu/projects/debates-in-the-digital-humanities

16. Klie, J., M. Bugert, B. Boullosa, R. Castilho, & I. Gurevych. (2018). The INCEpTION Platform: Machine-Assisted and Knowledge-Oriented Interactive Annotation. In Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations, pp 5–9, Association for Computational Linguistics.

17. McCarty, W. (2016). Becoming Interdisciplinary. In A New Commpanion to Digital Humanities. (Eds.) S. Chreibman, R Siemens, & A. J. Unsworth. John Wiley & Sons, Ltd.

18. McCarty, W. (2005). Humanities Computing. New York: Palgrave Macmillan.

19. McCarty, W. (2010). The Landscape of Digital Humanities. In Digital Humanities Quarterly 4, no. 1 http://digitalhumanities.org/dhq/vol/4/1/000080/000080.html.

20. Modi , A. (2017). Modeling Common Sense Knowledge via Scripts. Unpublished PhD dissertation, Saarland University.

21. Ohman, E. (2020). Challenges in Annotation: Annotator Experiences from a Crowdsourced Emotion Annotation Task.


22. Rockwell, G. (2013). Is humanities Computing an academic Discipline? In Defining Digital Humanities: A Reader. (Eds.) M. Terras, J. Nyhan, E Vanhoutte. Ashgate Publishing limited.

23. Sharaf ,A. & E. Atwell. (2009). Knowledge representation of the Quran through frame semantics A corpus-based approach. Proceedings of the Fifth Corpus Linguistics Conference.

24. Svensson, P. (2009). “Humanities Computing as Digital Humanities.” Digital Humanities Quarterly 3, no. 3 http://digitalhumanities.org/dhq/vol/3/3/000065/000065.html.

25. Unsworth, J. “What Is Humanities Computing and What Is Not?” Graduate School of Library and Information Sciences. Illinois Informatics Institute, University of Illinois, Urbana. November 8, 2002. http://computerphilologie.uni-muenchen.de/jg02/unsworth.html.