مقدمه: ويژگيهاي خاصّ دستوري و نگارشي زبان و خط فارسي، دشواريهايي را در ذخيره و بازيابي اطلاعات در محيط رايانهاي پديد آورده است. رسمالخط فارسي نيز از يكسو به علت اختلاف نظر پديدآورندگان متون و از سوي ديگر پيچيدگيهاي ذاتي خود، بههنگام ذخيره، جستجو و بازيابي چالشهاي متعددي را براي طراحان و نمايهسازان پايگاهها، كاربران و پديدآورندگان منابع بهوجود آورده است.
روش بررسي: اين پژوهش به روش تحليل محتوا انجام شد.100 عنوان از پاياننامههاي موجود رشته كتابداري و اطلاعرساني به منزله نمونهاي از متون فارسي در پايگاههاي اطلاعاتي پژوهشگاههاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاعرساني علوم و فناوري و از هر پايگاه 50 عنوان بهصورت تصادفي انتخاب شد. با استفاده از دستور خط فارسي مصوب فرهنگستان زبان، كلماتي كه درست يا نادرست نوشته شده بود، از يكديگر تفكيك و در مرحله بعد، عنوانهاي مورد نظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو گرديد و در نهايت، نتايج بازيابي در پايگاهها، ارزيابي و مقايسه شد.
يافتهها: نتايج اين بررسي نشان داد 2/71% از كلمات عنوانها به صورت درست و 8/28% نادرست نگارش شدهاند. همچنين، مشخص شد 6/51% اين كلمات، دو جزئي و 5/47% سه جزئي هستند و اغلب نويسندگان پاياننامهها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق ميباشند، دچار خطا شدهاند. در پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري، تنها حالت ثبت شده عنوانها به بازيابي عنوان مورد نظر انجاميد و در پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، تنها 58% عنوانها با تغيير رسمالخط همچنان بازيابي شدند.
نتيجهگيري: اين پژوهش نشان داد پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران نسبت به پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري، در بازيابي عنوان پايان نامهها در حالتهاي مختلف پيوسته و جدا نوشته شده، بهتر عمل ميكند. همچنين، بايد به نويسندگان پاياننامهها، استفاده از قواعد يكدست ملي بويژه در نگارش كلمات 2 جزئي و مشتق تأكيد شود.
كليدواژهها: خط فارسي، ذخيره و بازيابي، پايگاههاي اطلاعاتي، رسمالخط، پيوستهنويسي، جدانويسي.
در اين جستار كوتاه سعي شده با نگاه به ويژگي پيوستهنويسي و جدانويسي واژگان فارسي در محدودة عنوانهاي پاياننامههاي كتابداري و اطلاعرساني و بررسي اين مشكل در دو پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاعرساني علوم و فناوري، وضعيت توجه نويسندگان و همچنين پايگاههاي مورد نظر به اين بخش از رسمالخط بررسي و راهكارهايي براي حلّ اين مشكلات ارائه شود.
به استناد مركز آمار جهاني اينترنت، هرچند زبان انگليسي هنوز هم جزء ده زبان اول دنياي اينترنت است[1]، تعداد مدارك غير انگليسي و كاربران غير انگليسي زبان در وب در حال افزايش است. اين وضعيت، مطالعه و طراحي سيستمهاي بازيابي براي اين زبانهاي مختلف را ناگزير ساخته است. چنانكه «آل احمد و ديگران»[2] (2008) نيز به اين مسئله اشاره كردهاند، زبان فارسي بهعنوان زبان رسمي ايران، افغانستان و تاجيكستان سبب شده منابع زيادي از وب به اين زبان توليد شود و كاربران فارسي زبان به دلايل مختلفي در جستجوهاي خود از اين زبان استفاده كنند، اما به دليل غالب بودن زبان انگليسي در اينترنت، جستجو به زبانهاي غيرانگليسي از جمله فارسي، مسائل و مشكلات مختلفي جدا از مشكلات عمومي اينترنت به همراه دارد (راثي، 1384). مشكلات زبان فارسي از يك سو و اهميت يافتن روزافزون موضوع رايانه و خط و زبان فارسي، كه در همه زمينههاي كاربردي و تحقيقاتي و حتي در زندگي عموم مردم رسوخ يافته، از سوي ديگر، همانطور كه «صامتي و بيجنخان» (1389، نوزده) نيز بيان ميكنند، سبب شكلگيري پژوهشهاي زيادي در اين حوزه شده است.
دشواريهاي زبان فارسي در ارتباط با حوزة ذخيره و بازيابي اطلاعات را ميتوان از نظرگاههاي مختلفي دستهبندي نمود. مقالة حاضر كه با ديدگاه ساختاري به مسائل رسمالخط فارسي پرداخته است، بهطور مشخص بر ويژگي پيوسته و جدانويسي كلمات فارسي تأكيد دارد. كلماتي كه به دو شكل پيوسته و جدا نوشته ميشوند، هر چند مشكلات كمي در خواندن متن به وجود ميآورند و هر آشناي به زبان فارسي به راحتي ميتواند آنها را بخواند، در نظامهاي ذخيره و بازيابي اطلاعات، مشكلات زيادي ايجاد ميكنند. از اين رو، نيازمند توجه از سوي پديدآورندگان متون و منابع و نيز طراحان و نمايهسازان پايگاههاي اطلاعاتي ميباشند.
پيوستهنويسي و جدانويسي در رسمالخط فارسي
فرهنگستان زبان و ادب فارسي در باب پيوستهنويسي و يا جدانويسي تركيبات در زبان فارسي، سه فرض را متصور است (دستور خط فارسي، 1388، ص 38) كه در ادامه به آنها اشاره شده است. در پژوهش حاضر بر مبناي اين دستورالعملهاي فرهنگستان عمل شده است.
1. تدوين قواعدي براي جدانويسي همه كلمات مركب و تعيين موارد استثنا.
2. تدوين قواعدي براي پيوستهنويسي همه كلمات مركب و تعيين موارد استثنا.
3. تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوستهنويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان.
فرهنگستان در تدوين و تصويب دستور خط فارسي، فرض سوم را برگزيده و تنها موارد الزامي جدانويسي و يا پيوستهنويسي را مشخص كرده است:
الف)كلمات مركبي كه الزاماً پيوسته نوشته ميشوند. به عنوان مثال، مركبهاي بسيطگونه مانند يكشنبه و كلماتي كه جزء دومشان با «آ» آغاز ميشود و تك هجايي هستند و موارد ديگر كه در متن دستور خط فارسي بهطور كامل توضيح داه شدهاند.
ب) كلمات مركبي كه الزاماً جدا نوشته ميشوند. مانند تركيبهاي اضافي، مصدر مركب و غيره... .
در عين حال، چنانكه اشاره شد، نويسندگان، ويراستاران و ناشران آثار فارسي تاكنون از شيوهها و رسم الخطهاي مختلفي استفاده كردهاند و متون موجود فارسي با همين گوناگوني در پايگاههاي اطلاعاتي و در وب ذخيره شده است. به همين سبب، جستجو و بازيابي متون فارسي با چالشهاي فراوان همراه است.
نظام نحوي يا ساختاري هر زبان، مهمترين شاخص استقلال و تمايز يك زبان از زبانهاي ديگر است كه بر پاية واژگان زبان شكل ميگيرد (نوبهار، 1388). زبان فارسي، در مقايسه با ساير زبانهاي دنيا، ماهيت متفاوت و ويژه (Oroumchian , et al. , 2007) و نيز نظام ساختاري پيچيدهاي دارد. به همين دليل، طراحي سيستمهاي ذخيره و بازيابي براي آن نيازمند ملاحظات ويژهاي است. اين تفاوتها نه تنها در ساختار زبان، بلكه در خط فارسي نيز وجود دارد (دستور خط فارسي، 1388، ص.1). متأسفانه، نبود استاندارد و تنوع رسمالخط و مفاهيم در زبان فارسي (شهيدي و ديگران 1384) سبب پراكندگي سبك و سياق نگارشي براي اين زبان شده است. بيتوجهي برخي از پديدآورندگان به اين ويژگيهاي خط فارسي بويژه در متون و منابع علمي و گاه بيتوجهي طراحان پايگاههاي اطلاعاتي و موتورهاي جستجو، اغلب به ناكارآمدي اين پايگاهها در جستجو و بازيابي منجر شده است. آنچه ضرورت پرداختن به اين پژوهش را آشكار ميسازد، شناسايي مسائل مربوط به پيوسته و جدانويسي در نگارش فارسي و ميزان توجه به اين مسائل در ذخيره و بازيابي اطلاعات و متون فارسي است. براساس اين ضرورت، هدف از پژوهش حاضر، شناسايي كاستيهايي است كه از نظر رسمالخط فارسي و از جنبه ويژگيهاي تركيب و جدانويسي كلمات در زبان فارسي، در عنوانهاي پاياننامههاي كتابداري انعكاس يافته است. همچنين، ميزان توجه طراحان و نمايهسازان پايگاههاي اطلاعاتي پژوهشگاههاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاعرساني علوم و فناوري به اين ويژگيهاي كلمات فارسي به منظور تلاش براي بهينهسازي اين پايگاههاي اطلاعاتي، از ديگر هدفهايي است كه اين پژوهش دنبال ميكند.
رسمالخط فارسي، چنانكه «حرّي» (1376) نيز اشاره ميكند، يكي از متغيرهاي عمده در ذخيره و بازيابي اطلاعات به زبان فارسي است و در دهههاي اخير نيز مسبب بيشترين اختلاف نظر در مورد شيوه املاي كلمات بوده است (شهيدي و ديگران، 1384). دشواريهاي حاكم بر نحوة نگارش واژههاي فارسي، علاوه بر اينكه سبب ناهماهنگي متون ميشود، براي جستجوگران محيط وب نيز مسائلي را پيش روي مينهد. بيتوجهي كاربران (راثي، 1384)، پديدآورندگان متون و منابع و نيز طراحان و نمايهسازان پايگاههاي اطلاعاتي فارسي به ويژگيهاي پيوستهنويسي و جدانويسي واژگان در كنار ساير مسائل رسمالخط فارسي، ميتواند سبب بروز مشكلات زيادي در ذخيره و بازيابي اطلاعات شود. بر اين اساس، پژوهش حاضر در پي آن است تا ميزان رعايت اصول رسمالخط فارسي از جنبة پيوستهنويسي و جدانويسي را با محدود نمودن به حوزة كتابداري و اطلاعرساني و صرفاً به پاياننامههايي كه بهعنوان نمونه براي اينكار انتخاب شدهاند، بررسي كند. همچنين، روشهايي را كه ممكن است برخي پايگاههاي اطلاعاتي در اين زمينه اتخاذ نموده باشند، شناسايي و بر مبناي يافتههاي حاصل، ضمن نشان دادن وضعيت حال حاضر، پيشنهادها و راهكارهايي عملي ارائه نمايد.
بررسي پژوهشهاي انجام گرفته در حوزة بازيابي اطلاعات به زبان فارسي بيانگر اين است كه اين مقوله از ديرباز مورد توجه صاحبنظران و پژوهشگران علوم كتابداري و اطلاعرساني، رايانه و زبانشناسي بوده است. نگاه به فعاليتهايي كه در اين زمينه صورت گرفته، از گستردگي مشكلات و دشواريهاي زبان فارسي و ابعاد مختلف آن حكايت دارد كه در حوزة بازيابي بهعنوان مسئله رخ نموده و لزوم تلاش براي رفع آنها را ضروري ميسازد[3]. در ادامه، برخي از اين پژوهشها در حوزههاي ريشهيابي، پيوستهنويسي و جدانويسي و نيز شكلهاي مختلف نوشتاري واژگان فارسي، دستهبندي و بيان ميشود.
جدانويسي و پيوستهنويسي: مرور پيشينه در اين حوزه، نشان از فعاليتهاي اندك صورت گرفته دربارة مشكلات جدانويسي و پيوستهنويسي دارد. اغلب اين پژوهشها، مسائل مطرح در اين زمينه را شناسايي نمودهاند؛ مانند پژوهشي كه «شهيدي و همكارانش» (1384) براي يافتن روشي براي رفع چالشهاي محتوا كاوي در وبهاي فارسي زبان انجام دادند و در نهايت، برخي از مهمترين چالشهاي خط فارسي را برشمردند كه در بين آنها ميتوان اشارههايي به ويژگيها و مسائل تركيب و جدانويسي واژگان را نيز ملاحظه نمود. عمدهترين راه حلهايي كه اين پژوهشگران ارائه دادند، عبارت است از: انتخاب مناسب سرعنوانهاي موضوعي در وبسايتهاي فارسي، استمداد از علم اصطلاحشناسي در نمايهسازي ماشيني، تعريف يك استاندارد براي مفاهيم و رسمالخط فارسي در وب، استفاده از مفرد و جمع در نمايهسازي و استفاده از يك واسط كاوش فارسي براي رفع چالشهاي رسمالخطي.
البته در اين زمينه، پژوهشي را «كاشفي و همكارانش» (Kashefi, et al., 2010) با عنوان بهينهسازييابش مدارك مشابه در بازيابي اطلاعات به زبان فارسي انجام دادند و در آن به شناسايي بيش از 300 پسوند و تركيبهاي كلمات و كارآمدي حذف پيشوندها از متون فارسي به هنگام بازيابي آنها پرداختند. در اين پژوهش، از چهار روش استفاده شد؛ نمايهسازي معاني پنهان، مدل فضاي برداري، همآيندي و شينگلينگ[4]. نتيجه نشان داد با حذف پيشوندها، ميزان بازيابي مدارك مشابه، بهبود و بازيافت اين منابع بهطور قابل ملاحظهاي افزايش مييابد.
ريشهيابي واژگان: ريشهيابي، كه عبارت است از قرار دادن واژههاي يك زبان در دستههاي معنايي يكسان، در بسياري از زمينههاي پردازش زبان طبيعي. همچنين پردازش زبان فارسي، مدنظر است. پژوهشي كه «رحيم طرقي و همكارانش» (Rahimtoroghi, et al., 2010) در زمينة ريشهيابي مبتني بر قواعد دستوري براي زبان فارسي انجام دادند نيز شاهد اين مدعاست. اين پژوهشگران، برمبناي قواعد دستور زبان، الگوريتم ريشهيابي را طراحي نمودند كه از ساختار كلمات و قواعد املايي آنها براي شناسايي ريشه هر كلمه استفاده ميكند. بر اين اساس، 33 قاعدة دستوري شناسايي شد. نتايج نشان داد استفاده از اين ريشهياب در سيستمهاي بازيابي اطلاعات در مورد زبان فارسي، دقت نتايج بازيابي شده را به ميزان 8/4% افزايش و اندازة فايل نمايهسازي شده را تا 6% كاهش ميدهد.
توجه به ريشهيابي گاه در كنار ساير بررسيهاي زبانشناختي قرار گرفته است. بهعنوان مثال، ميتوان به پژوهش «كريمپور و ديگران»(Karimpour, et al., 2009) اشاره نمود. دراين پژوهش، از مدل بازيابي Idri و از برچسبزن اجزاي جملة TNT با استفاده از 40 برچسب پيكرة «بيجنخان»[5] استفاده شد. بر اين اساس، بهبود عملكرد الگوريتمهاي بازيابي ارزيابي گرديد. همچنين، تأثير ريشهيابي بهعنوان يكي ديگر از بخشهاي كار اين پژوهشگران، بررسي شد. يافتههاي اين تحقيق نشان داد هرچند استفاده از برچسب زني اركان سخن ممكن است تأثير اندكي در اثر بخشي نتايج بازيابي شده داشته باشد، زمانيكه اين روش همراه با ريشهيابي به كار ميرود، دقت نتايج بازيابي شده بهميزان قابل توجهي افزايش مييابد.
در مورد تأثير ريشهيابي در متون زبان فارسي، پژوهش ديگري توسط «دلاميك و ساووي» (Delamic and Savoy, 2009) انجام گرفته كه با هدف ارزيابي راهبردهاي مختلف نمايهسازي و ريشهيابي، استفاده از سياهة واژگان بازدارنده و يك ريشهيابي سبك را پيشنهاد ميكنند. در اين پژوهش، از مدلهاي بازيابي متعدد از جمله Okapi, DFR, LM و نيز دو مدل كلاسيك فضاي برداري يعني tf idf و نيز Lnu-ltc براي ارزيابي راه حلهاي ارائه شده، استفاده گرديد. آنچه در اين پژوهش مورد توجه است، نگاه ويژه به رسمالخط فارسي و پيشنهاد يك ريشه ياب براي اين خط است كه رايجترين پسوندهاي مورد استفاده و حالتهاي جمع لغتها را استخراج و در نهايت سياهة واژگان بازدارندهاي شامل 881 كلمه را پيشنهاد ميكند كه مديريت و كنترل آنها ميتواند در بازيابي به زبان فارسي، كمك قابل توجهي باشد.
شكلهاي مختلف نوشتاري واژگان: توجه به اينكه واژههاي فارسي شكلهاي مختلف نگارشي دارند، و مسائلي كه وجود اين اشكال پيش روي بازيابي اطلاعات در وب مينهد، در پژوهش «عبدالهي نورعلي» (1386) نيز تأكيد شد. وي مسائل ريختشناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب را بررسي كرد و با استفاده از جستجوگرهاي گوگل، آلتاويستا و ياهو، جستجوهايي را به زبان فارسي انجام داد و دريافت كه اين جستجوگرها، به دشواريهاي زبان فارسي در بازيابي اطلاعات نپرداخته و تلاشي براي بهبود نتايج انجام ندادهاند.
برخي نيز بهطور مشخص، مسائل زبان و خط فارسي در ذخيره و بازيابي اطلاعات را بررسي كردند. از آن جمله، «مرتضايي» (1381) است كه نمونههايي از دشواريهاي زبان و خط فارسي را در بازيابي اطلاعات بر ميشمارد. همچنين، وي به مهمترين دشواريهاي زبان فارسي كه سبب كندي مراحل ذخيره و بازيابي و نيز كاهش بازيافت ميشوند نيز پرداخته و معتقد است راهكارهايي از قبيل يكسان سازي واژهها، كاربرد دستورالعملهايي يكدست در تمامي واحدهاي چاپ و نشر و هوشمندسازي جستجو ميتواند به حلّ اين مسائل كمك كند.
برخي ديگر نيز بهعنوان جزئي از پژوهش خود، توجه به اين بُعد را نيز از نظر دور نداشتهاند. از آن جمله، تحقيقي است كه «گل تاجي و بذرگر» (1389) در زمينة بررسي مشكلات ريختشناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقهاي علوم اطلاعرساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي انجام دادند و با انتخاب و جستجوي كليدواژههايي كه هركدام بيانگر نوعي از چالشهاي زبان فارسي بود، اين كليدواژهها را در پايگاههاي موردنظر جستجو كردند. نتايج اين پژوهش نشان داد هيچيك از اين سه پايگاه، به شيوهاي جامع و قابل ملاحظه به حل مسائل ريختشناسي واژگان فارسي نپرداختهاند. موارد مورد توجه پايگاههاي مورد بررسي در اين پژوهش، به ترتيب زير ذكر شده است: پايگاه مركز منطقهاي اطلاعرساني علوم و فناوري: تنوين، تشديد، پيوستهنويسي و بيفاصلهنويسي؛ پژوهشگاه اطلاعات و مدارك علمي ايران: جدانويسي و بي فاصلهنويسي، خط تيره، نقطه بين سرنامها؛ پايگاه جهاد دانشگاهي:همزه به صورتهاي مختلف.
نگاهي به پيشينة پژوهشهايي كه بيان شد، نشان ميدهد مسائل خط و زبان فارسي در پيوند با ذخيره و بازيابي اطلاعات را ميتوان از ابعاد مختلف بررسي كرد. ويژگيهاي خاص حاكم بر نگارش خط فارسي سبب شده تا بررسي دقيقتر هركدام از آنها و مسائلي كه در ذخيره و بازيابي پديد ميآورند، بيش از پيش اهميت يابد. به نظر ميرسد آگاهي از اين ضرورت در بين متخصصان حوزههاي مرتبط، بويژه متخصصان علم كتابداري و اطلاعرساني، به وجود آمده است و زمان آن فرا رسيده تا راهحلهايي دقيق و موشكافانه براي هريك از اين دشواريها ارائه شود. پژوهش حاضر با اين رويكرد و با هدف قرار دادن يكي از اين معضلات، كه عبارت است از ويژگيهاي تركيب و جدانويسي واژگان فارسي، و به منظور يافتن راهي براي گذر از چالشهاي آن در حوزة كتابداري و اطلاعرساني، انجام يافته است.
پژوهش حاضر در پي يافتن پاسخ سؤالهاي زير انجام شده است:
1.اصول پيوستهنويسي و جدانويسي بهعنوان يكي از مسائل رسمالخط فارسي، تا چه ميزان در عنوانهاي پاياننامههاي حوزه كتابداري و اطلاعرساني رعايت شده است؟
2.به لحاظ شكل دستوري، كليدواژههاي جدا يا پيوسته نوشته شده، جزء كدام نوع (اسم، صفت، قيد، فعل) هستند؟
3.پايگاههاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاعرساني علوم و فناوري با توجه به ويژگيهاي پيوستهنويسي و جدانويسي واژگان در عنوانهاي پاياننامهها چگونه عمل ميكنند؟
در اين پژوهش كه به روش تحليل محتوا انجام شده است، 100 عنوان از پاياننامههاي موجود رشته كتابداري و اطلاعرساني به منزلة نمونهاي از متون فارسي در پايگاههاي موردنظر و از هر پايگاه 50 عنوان بهصورت تصادفي انتخاب شد. به اين ترتيب كه ابتدا سياههاي از دانشگاههاي مجري رشتة كتابداري و اطلاعرساني در مقاطع تحصيلات تكميلي در ايران جمعآوري و پس از آن از طريق جستجوي نام استادان راهنما، به عنوانهاي پاياننامهها دست يافته شد. همچنين، عنوانهايي كه در يك پايگاه يافت ميشدند، بهمنظور جلوگيري از تكرار يافتهها بههنگام جستجو در پايگاه دوم، در صورت بازيابي از سياهه كنار گذاشته شدند. جستجوي اسمها با هدف شناسايي كلمات مركبي كه قابليت پيوسته و جدانويسي داشتند، انجام شد. تمام كلمات عنوانهاي اين پاياننامهها بررسي و سياههاي از كلماتي كه ويژگي مورد نظر را به لحاظ رسمالخطي دارا بودند، فراهم شد. پس از اين مرحله، بر اساس دستور خط فارسي مصوب فرهنگستان (1388) كلماتي كه درست يا نادرست نوشته شده بودند از يكديگر تفكيك، و از نظر تعداد اجزا و نوع (مركب، مشتق و مركب- مشتق) تحليل شدند. گفتني است، تعداد كلماتي كه قاعدهاي براي آنها در فرهنگستان وجود نداشت و در مورد آنها اختيار به نويسنده داده شده بود، بسيار ناچيز بود، با اينحال، به هنگام جستجو، بهعنوان كلمة خنثي در نظر گرفته شدند. روايي اين كار با مشورت استاد راهنما تأييد گرديد. در مرحلة سوم، عنوانهاي موردنظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو شد. نتايج بازيابي در پايگاههاي اطلاعاتي پژوهشگاههاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاعرساني علوم و فناوري، ارزيابي و مقايسه و در نهايت نتايجي حاصل شد كه پاسخ سؤالهاي تحقيق را شكل داد.
يافتههاي پژوهش
با بررسي عنوانهاي مورد نظر، مشخص شد اين عنوانها در كل شامل 1547 كلمه ميباشند. در پي دستيابي به هدفهاي پژوهش مبني بر شناسايي كاستيهاي نگارشي از ديدگاه رسمالخطي مورد توجه در عنوانهاي پاياننامههاي كتابداري و اطلاعرساني، پس از بررسي كلمات و مطابقت آنها با دستور خط فارسي مصوب فرهنگستان زبان، آنهايي كه از نظر رسمالخطي قابليت پيوسته و جدانويسي را داشتند، در سياههاي جداگانه تنظيم شدند كه تعداد آنها، 316 كلمه، حدود 4/20% كلّ كلمات عنوانها بود. پس از آن، با توجه به قواعد فرهنگستان، به تفكيك كلماتي پرداخته شد كه بر اين اساس درست و نادرست نوشته شده بودند.
نتايج اين بررسي براي يافتن پاسخ سؤال اول اين پژوهش، نشان داد نگارش 225 كلمه (2/71%) درست، 91 كلمه ديگر (8/28%) نادرست است. اين وضعيت در جدول 1 نيز آورده شده است.
تعداد كلّ كلمههاي عنوانها
|
كلمههاي داراي ويژگي مورد نظر
|
كلمههاي درست
|
كلمههاي نادرست
|
||||
فراواني
|
درصد
|
فراواني
|
درصد
|
فراواني
|
درصد
|
فراواني
|
درصد
|
1547
|
100
|
316
|
42/20
|
225
|
2/71
|
91
|
8/28
|
در شكل 1 نيز نسبت كلمات درست و نادرست از كل كلماتي كه مركب بودند، نشان داده شده است.
در مورد سؤال دوم، بررسي كلمات موردنظر نشان داد اغلب اين كلمات (بيش از 95%) اسم و حدود 5% ديگر، ضمير ميباشند. از آنجا كه در عنوان فعل بهكار نميرود و نيز متون علمي بندرت داراي قيد يا صفت هستند، نبود چنين كلماتي كه ويژگي پيوسته و جدانويسي را نيز داشته باشند، قابل توجيه است. همچنين براي بررسي بهتر، كلمات داراي ويژگي پيوسته و جدانويسي به لحاظ ساختاري نيز تفكيك و به سه دسته تقسيم شدند:
1-كلمات مشتق: آنهايي هستند كه يك جزء آنها معناي قاموسي و اجزاي ديگر معناي دستوري دارند.
2-كلمات مركب: آنهايي هستند كه از دو جزء يا بيشتر تشكيل شدهاند و تمامي اجزا داراي معناي قاموسي ميباشند.
3-كلمات مشتق - مركب: آنهايي هستند كه دو جزء يا بيشتر از آنها معناي قاموسي و بقية اجزايشان معناي دستوري دارد.
بر اين اساس، حدود 35% كلمات، مشتق، بيش از 18% مركب و نزديك به 42% نيز مشتق- مركب بودند كه جدول 2 و شكل 2 بيانگر اين وضعيت است.
نوع كلمه
|
فراواني
|
درصد
|
مشتق
|
111
|
1/35
|
مركب
|
59
|
7/18
|
مشتق - مركب
|
146
|
2/46
|
مجموع
|
316
|
100
|
شكل 1. نسبت كلمات مورد بررسي از نظر ساختاري
همچنين، تعداد اجزاي اين كلمات نيز بررسي شد. چنانكه جدول 3 و شكل 3 نيز نشان ميدهند، مشخص شد بيشتر اين كلمات، دو جزئي (6/51%) و سه جزئي (5/47%) هستند و كلمات چهار جزئي، درصد بسيار اندكي از كلمات موردنظر را تشكيل ميدهند.
جدول اجزاي كلمه
|
فراواني
|
درصد
|
2 جزئي
|
163
|
6/51
|
3 جزئي
|
150
|
5/47
|
4 جزئي و بيشتر
|
3
|
0/9
|
مجموع
|
316
|
100
|
با بررسي كلمات استخراج شده از عنوانهاي بررسي شده، همانطور كه جدول 4 نيز نشان ميدهد، مشخص شد اغلب نويسندگان پاياننامهها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق ميباشند، دچار خطا شدهاند.
تعداد اجزاي كلمه
|
درصد نادرستي (فراواني نسبي)
|
2 جزئي
|
03/38
|
3 جزئي
|
33/17
|
4 جزئي و بيشتر
|
66/66
|
نوع كلمه
|
درصد نادرستي (فراواني نسبي)
|
مشتق
|
58/67
|
مركب
|
56/13
|
مشتق - مركب
|
49/18
|
در مرحلة بعد، بهمنظور دستيابي به هدف دوم اين پژوهش و پاسخگويي بهسؤال سوم، عنوانهاي مربوط به هر پايگاه، با «جستجوي عنواني» به طور عمدي در حالتهاي درست و نادرست از سوي پژوهشگر جستجو شد؛ به اين ترتيب كه در عنوانهايي كه كلمات به صورت نادرست نوشته شده بود، جستجو با شكل صحيح رسمالخطي و همچنين در عنوانهايي كه كلمات بهطور درست بهكار رفته بود، جستجو با شكل اشتباه رسمالخطي نيز انجام شد. گفتني است، اين روش براي هر دو پايگاه اطلاعاتي و در مورد تمامي عنوانها انجام گرفت. چنانكه جدول5 نيز نشان ميدهد، در پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري، با اعمال هريك از تغييرات مورد اشاره به هنگام جستجو، عنوان مورد نظر بازيابي نشد و تنها حالت ثبت شدة[1] عنوانها به بازيابي عنوان مورد نظر ميانجاميد. در انجام همين جستجوها در مورد 50 عنوان مورد نظر از پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، 29 عنوان (58%) با تغيير رسمالخط (درست به نادرست و برعكس) همچنان بازيابي شد، اما 21 عنوان ديگر كه 42% باقيمانده را تشكيل ميداد، با اين تغييرات، بازيابي نشدند. علت تغيير نوع رسمالخط از درست به نادرست و برعكس، اين بود كه ممكن است كاربر هنگام جستجوي عنواني در هر حالتي به صورت پيوسته يا تركيبي، واژه را جستجو كند و پايگاههاي اطلاعاتي بايد توانايي جستجوي مورد نظر از سوي كاربر را بدون توجه به ميزان اطلاع وي از نحوة نگارش صحيح كلمات، داشته باشند.
بر اين اساس، ميتوان عملكرد ذخيره و بازيابي پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران را در مقايسه با پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري، مناسبتر قلمداد نمود؛ هرچند يافتهها نشان داد اين پايگاه نيز در زمينه ذخيرهسازي و بازيابي كلمات فارسي با ويژگيهاي پيوسته و جدانويسي، يكپارچه عملنكرده است. نتايج حاصل از جستجوهاي عنواني در دو پايگاه، در جدول 5 آورده شده است.
جدول 5. نتايج حاصل از جستجوي عنوانهاي پاياننامهها در حالتهاي مختلف رسمالخطي در دو پايگاه مورد بررسي
پايگاه
نتيجه
|
پژوهشگاه علوم و فناوري اطلاعات ايران
|
مركز منطقهاي اطلاعرساني علوم و فناوري |
||
فراواني
|
درصد
|
فراواني
|
درصد
|
|
بازيابي نشده
|
21
|
42
|
50
|
100
|
بازيابي شده
|
29
|
58
|
0
|
0
|
مجموع
|
50
|
100
|
50
|
100
|
بحث و نتيجهگيري
پيچيدگيهاي رسمالخط فارسي، از يكسو سببساز آشفتگيهايي در ذخيره و بازيابي (صامتي و بيجن خان، 1389، ص. نوزده؛ شهيدي و ديگران، 1384 وOroumchian, et al., 2007) و همچنين جستجوي اطلاعات به زبان فارسي در اينترنت شده و از سوي ديگر به دليل تأثيرهاي همفرسايي مشكلات بر يكديگر، چالشهاي اين حوزه را چند برابر ساخته است. بهعنوان نمونه، تأثير تركيب و جدانويسي را بر مرزبندي و تعيين حدود كلمه ميتوان مثال زد. اگر در رسمالخط فارسي، مطابق قواعد استاندارد عمل نشود، مشكل مرزبندي كلمات فارسي دو چندان ميشود، زيرا به دليل مشكلات عدم شناسايي مرز دقيق كلمات، چالشهاي عمدهاي براي ريشهيابي كلمات و الگوريتمهاي ريشهيابي پديد ميآيد كه با استفاده از دستورالعملهاي استاندارد براي تركيب و جدانويسي كلمات، بخشي از اين چالشها حل و در صورت آشفتگي رسمالخط، مشكلات ديگري كه به آنها اشاره شد، افزون خواهد شد. اين پژوهش با هدف شناسايي بخشي از مشكلات خط فارسي كه بر ذخيره و بازيابي اطلاعات از پايگاههاي اطلاعاتي تأثير ميگذارند، در محدوده كوچكي انجام شد. در بازنگري دوباره نتايج اين پژوهش با بخشي از پيشينه كه ارتباط نزديكتري با موضوع دارند، ميتوان به نتايج قابل توجهي رسيد.
نتايج پژوهش حاضر با پژوهش «عبداللهي نورعلي» (1386) همخوان است. در آن پژوهش نشان داده شد كه به مسائل ريختشناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي گوگل، ياهو و آلتاويستا پرداخته نشده است و در اينجا مشخص شد كه يك نمونه از اين مسائل ريختشناسي، يعني پيوسته و جدانويسي، در پايگاههاي اطلاعاتي فارسي نيز مورد بيتوجهي قرار گرفته است. بهعبارت ديگر، به مسائل ريختشناسي زبان فارسي نه تنها در جستجوگرهاي غير فارسي، بلكه در پايگاههاي اطلاعاتي فارسي نيز پرداخته نشده است. البته در سالهاي اخير، حركتهايي از سوي طراحان جستجوگرهاي وب مبني بر پيشنهاد عبارتهاي جستجو و نيز پيشنهاد شكلهاي مختلف نگارشي كلمه و عبارت مورد جستجو، صورت گرفته است كه تا اندازهاي ميتواند برخي از مشكلات خط فارسي را از بين ببرد و پايگاههاي اطلاعاتي فارسي زبان نيز ميتوانند از اين ايدهها بهرة لازم را ببرند.
چنانكه نتايج اين پژوهش نشان داد، جستجو در حالتهاي مختلف پيوسته و جداي واژگان عنواني هرچند در پايگاههاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران به طور كامل به جامعيت بازيابي نميانجامد، همراه نمودن كلمة مورد نظر با تعداد بيشتري از واژههاي عنوان از سوي جستجوگر، در برخي موارد به بازيابي عنوان مورد نظر ميانجامد. بر مبناي اين يافتهها كه در بخش قبل نيز شرح داده شد، هرچند نتايج پژوهش «گل تاجي و بذرگر» (1389) در مورد بيتوجهي برخي پايگاههاي اطلاعاتي فارسي به مسائل ريختشناسي زبان فارسي تأييد ميشود، نتايج پژوهش حاضر نشان از آن دارد كه برخلاف آنچه در پژوهش «گل تاجي و بذرگر» آمده است، پايگاههاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و نيز مركز منطقهاي اطلاعرساني علوم و فناوري، به ويژگي پيوسته و جدانويسي كلمات توجه نشان ندادهاند.
همچنين، اين پژوهش تأييدي است بر آنچه «مرتضايي» (1381) مبني بر تأثير استاندارد نبودن شكل نوشتاري كلمات در عدم مطلوبيت و جامعيت جستجو، ذكر ميكند.
با توجه به مشكلات نگارش خط فارسي كه به برخي از آنها اشاره شد، ضرورت انديشيدن در مورد راهكارهاي برطرف كردن آن بويژه در محيطهاي الكترونيكي جديد، بيش از پيش آشكار است. بديهي است، نميتوان به بهانة اين دشواريها، خط غني فارسي را به همين شكل از وب كنار گذاشت، بلكه بايد موشكافانه ابعاد مختلف خط و نيز زبان فارسي را بررسي و راه حلهاي مناسبي طراحي نمود. در مورد مشكل تركيب و جدانويسي، مانند ساير پيچيدگيهاي اين خط، نميتوان يك راهكار منحصر ارائه داد. تلفيقي از آنچه در ادامه آمده است، ميتواند به رفع بخشي از پيچيدگيها كمك كند. اين راهكارها در دو بخش قابل ارائه است.
- توجه و حساسيت نويسندگان و پديدآورندگان متون و منابع به زبان فارسي، در رعايت قواعدي كه فرهنگستان زبان و ادب فارسي تدوين نموده است. چنانكه اشاره شد، رعايت اين قواعد، دستِ كم در مواردي كه قاعدهاي مشخص و از پيش تعيين شده وجود دارد، همانطور كه «حرّي» (1372) نيز خاطر نشان ميسازد، نه تنها كاري پايهاي است، بلكه به سبب يكدستي حاكم، بههنگام طرحريزي در نمايهسازي و طراحي الگوريتمهاي ذخيره و بازيابي، به حلّ عالمانهتر مسائل نيز خواهد انجاميد. البته، بايد توجه داشت حتي با فرض اينكه رعايت اين قواعد، ضمانت اجرايي لازم را داشته باشد، بيقاعده بودن برخي حالتهاي رسمالخطي و اختيار نويسندگان، بخش عمدهاي از مشكلات را حل نشده باقي ميگذارد. البته بايد توجه داشت، با توجه به اينكه زبان فارسي در كشورهايي مانند افغانستان و تاجيكستان هم كاربرد دارد، با رعايت قواعد رسمالخط ملي بهنظر ميرسد برخي مشكلات براي ساير جستجوگران فارسي زبان در خارج از ايران كه با اين قواعد نا آشنا هستند، همچنان باقي خواهد ماند.
- پيشفرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است. چنانكه در ابتداي مقاله اشاره شد، سه مفروضه براي مواجهه با مشكلات نوشتاري خط فارسي قابل طرح است. سومين آنها، يعني«تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوستهنويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان»، هرچند با ارائه قواعد - و البته با شرط رعايت آنها از سوي نويسندگان - كمك قابل توجهي به يكدستي خط فارسي و رفع مشكلات جستجو و بازيابي ميكند، با توجه به اينكه راهحلهاي بينابيني ارائه داده و موارد زيادي را به نويسنده ميسپارد، به ابهام و چند دستگي در اين زمينه منجر ميگردد. حتي با تصور اينكه تمام پديدآورندگان متون و منابع در وب مطابق با قواعد استاندارد رسمالخط فارسي بنويسند، باز هم زمانيكه انتخاب شكل نگارش كلمه رسماً به سليقة نويسنده سپرده شود، مشكلات پردازشي زبان آغاز خواهد شد. اين دشواريها نه تنها در مورد كلماتِ با ويژگيهاي تركيب و جدانويسي وجود دارد، بلكه ساير چالشهايي را كه نگارش خط فارسي با آن مواجه است، شامل شده و بر ابهام و پيچيدگي نمايهسازي، جستجو و بازيابي اطلاعات به زبان فارسي ميافزايد. رويكرد پيشنهادي پيشفرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است، ميتواند برخي از مشكلات پيوسته و جدانويسي را برطرف كند. نمونههايي از اين مشكلات، عبارتند از: شروع شدن جزء دوم با الف، هم مخرج بودن جزء اول با حرف آغازين جزء دوم، نامأنوس بودن كلمه در حالت پيوستهنويسي، بسامد زياد جزء آغازين كلمه و ابهام در اجزاي تركيب به هنگام پيوستهنويسي.
2- راهكارهاي ذخيره و پردازش واژگان
- در اين زمينه، متخصصان زبانشناسي، علوم رايانه و علوم كتابداري و اطلاعرساني ميتوانند انواع رويكردها و روشهاي پردازش هوشمند واژگان فارسي را برگزينند كه به ذخيره و پردازش بهينه به قصد بازيابي جامعتر و در عين حال دقيقتر كه كاستيهاي ناشي از نبود يكدستي در جدانويسي و پيوستهنويسي است، كمك كند. برخي راه حلها در قسمت پاياني پژوهش حاضر ارائه شده است. استفاده از يافتههاي پژوهشي و رويكردهاي عملي كه در مورد ساير زبانها بويژه زبان عربي اعمال شده، ميتواند به اين هدف كمك كند.
پيشنهادهاي پژوهش به تفكيك در دو بخش آمدهاند: پيشنهادهاي عملي و پيشنهادهاي پژوهشي.
- پيشنهاد ميشود نويسندگان و پديدآورندگان منابع، خود را ملزم به رعايت قواعد رسمالخط فارسي كنند[2]. به نظر ميرسد پايگاههاي اطلاعات علمي فارسي، نمايهسازي را بر اساس كلمات استخراج شده از متون انجام ميدهند. بر همين اساس، رعايت اين قاعدهها حداقل در مورد عنوانها، چكيده و كليدواژههاي متون علمي، ضرورت بيشتري دارد. اين كار گذشته از آنكه تلاشي براي حفظ پويايي و يكدستي خط فارسي بهشمار ميرود، براي طراحان و نمايهسازان پايگاههاي اطلاعاتي مشكلات كمتري را پديد ميآورد.
- به نمايهسازان پايگاههاي اطلاعاتي فارسي زبان و بخصوص پايگاههاي اطلاعرساني مركز منطقهاي اطلاعرساني علوم و فناوري و پژوهشگاه علوم و فناوري اطلاعات ايران توصيه ميشود با بهرهمندي از نتايج پژوهشهاي انجام شده در شوراي عالي اطلاعرساني ايران در زمينه خط و زبان فارسي، الگوريتمهاي نمايهسازي خود را متناسب سازند و در جهت بهينهسازي نتايج جستجو و كمك به كاربران پايگاه، از امكانات كمكي مانند قابليتهاي پيشنهاد واژگان[3] استفاده كنند.
- به پايگاههاي اطلاعاتي توصيه ميشود براي بازيابي كلماتي كه ويژگيهاي تركيب و جدانويسي را دارند، از الگوريتمهاي N-Geram استفاده كنند.
- انجام پژوهشي به روش تحليل محتوا در زمينة بسامد شكلهاي مختلف جدانويسي و پيوسته نويسي در حوزههاي موضوعي مختلف در متون زبان فارسي تا مشخص شود شكل رايج در هر حوزة موضوعي چگونه است و چه راه حلي را ميتوان براي ذخيرة بهتر واژگان زبان فارسي در پيش گرفت.
- تفكيك مهمترين چالشهاي سطوح آوايي، واژگاني و ساختاري در زبان و خط فارسي و انجام پژوهشهايي مشابه براي يافتن مشكلات موجود در پايگاههاي اطلاعاتي.
- شناسايي و دستهبندي نوع واژگان مورد جستجو در پايگاههاي اطلاعاتي فارسي بهمنظور بررسي پربسامدترين اشتباههاي رايج كاربران به هنگام پرس و جو در اين پايگاهها با هدف طراحي نظامي هوشمند براي بازيابي.
- شناسايي مشكلات مشابه رسمالخط فارسي و عربي بهمنظور مقايسة ميزان توجه، استفاده از راهكارهاي احتمالي و نيز الگوبرداري از پايگاههاي اطلاعاتي زبان عربي.
- حري، ع. (1372). كامپيوتر و رسمالخط فارسي. مجله پيام كتابخانه. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:
- دستور خط فارسي (1388). مصوب فرهنگستان زبان و ادب فارسي. تهران: فرهنگستان زبان و ادب فارسي (نشر آثار).
- راثي، م. (1384). مشكلات جستجو و بازيابي اطلاعات به زبان فارسي در اينترنت، مطالعه موردي كاربران مركز اينترنت دانشگاه آزاد اسلامي واحد شبستر. تاريخ بازيابي: 25/9/1390. قابل بازيابي در:
- صامتي، ح و م، بيجنخان (1389). پيشگفتار. زبان فارسي و رايانه: برگزيده مقالات كنفرانس بينالمللي سالانه انجمن كامپيوتر ايران، كنفرانس مهندسي برق ايران، همايش زبانشناسي اسران، كارگاه زبان فارسي و رايانه (تا خرداد 1386). تهران: سازمان مطالعه و تدوين كتب علوم انساني دانشگاهها (سمت).
- عبدالهي نورعلي، م. (1386). كندوكاو مسائل ريختشناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب. پاياننامه كارشناسي ارشد كتابداري و اطلاعرساني، دانشگاه شيراز.
- گل تاجي، م و س، بذرگر (1389). بررسي مشكلات ريختشناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:
http://www.aqlibrary.ir/index.php?module=TWArticles&;file=index&func=view_ pubarticles&did=885&pid=10
- مرتضايي، ل (1381). مسائل زبان و خط فارسي در ذخيرهسازي و بازيابي اطلاعات. فصلنامه اطلاعرساني. دوره 17شماره2و1؛ پاييز و زمستان 1380.
- نوبهار، (1388). آيا بايد جدا نوشت؟ تاريخ بازيابي: 3/9/1390. قابل بازيابي در:
- AleAhmad, A., Amiri, H., Rahgozar, M., Oroumchian, F. (2008). Experiments with English-Persian Text Retrieval. Retrieved: Retrieved 9 July 2012. Available in: khorshid.ut.ac.ir/~a.aleahmad/Files/inews22.pdf
- Dolamic, L.,Savoy, J., (2009). Persian Language, is Stemming Efficient.Retrieved9 July 2012Available in:
- Kashefi, O., Mohseni, N., Minaei, B. (2010). Optimizing Document Similarity Detection in Persian Information Retrieval.Journal of Convergence Information Technology. Retrieved 9 July 2012. Available in: www.aicit.org/jcit/ppl/11_april.pdf
- Karimpour, R., (2008) .Using Part of Speech Tagging in Persian Information Retrieval.Retrieved 9 July 2012.Available in:
- Oroumchian, F., AleAhmad, A., Hakimian, P., Mahdikhani., F., (2007).F N-Geram and Local Context Analysis for Persian Text Retrieval.Retrieved 9 July 2012. Available in:
- Rahimtoroghi, E., Faili, H., Shakeri, A., (2010). A Structural Rule-based Stemmer for Persian. Retrieved 9 July 2012Available in:
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&;arnumber=5734090
[1]. حالت ثبت شده، نحوة درج عنوان پاياننامه در پايگاه مربوط است. حين اين پژوهش، عنوانهايي كه با غلطهاي املايي و تايپي ثبت شده بودند در پايگاه اطلاعاتي مركز منطقهاي اطلاعرساني علوم و فناوري نيز وجود داشت كه نگارنده ناگزير اين عنوانها را با همان اشتباههاي ثبتي جستجو نمود.
[2]. دستور خط فارسي مصوب فرهنگستان زبان و ادب فارسي را ميتوانيد در http://www.persianacademy.ir/fa/das.aspx مشاهده نماييد.
[1]. براي اطلاعات بيشتر نگاه كنيد به: http://www.internetworldstats.com/stats7.htm
[3]. براي اطلاعات بيشتر، نگاه كنيد به: نشاط،نرگس (1379). «مسائل رسمالخط فارسي در رويارويي با فنّاوري نوين اطلاعاتي». در مجموعه مقالات فهرستهاي رايانهاي: كاربرد و توسعه. به كوشش رحمت الله فتاحي. مشهد: دانشگاه فردوسي: تهران: مركز اطلاعرساني جهاد.
[4]. الگوريتم شينگلينگ (Shingling) يكي از روشهاي موجود در زمينة شناسايي متون تقريباً يكسان است كه براي شناسايي كلماتي كه حجم زيادي از آنها جزئيات بياهميت است، بهكار ميرود. برگرفته از:
[5]. پيكرهاي برچسب گذاري شده كه براي تحقيقات پردازش زبان طبيعي در زبان فارسي مناسب است. اين مجموعه از اخبار روزانه و متون رايج، از 4300 موضوع مختلف جمعآوري شده و شامل 2.6 ميليون واژة برچسبگذاري شده است. برگرفته از: