مقالات برگرفته از پایان نامه - مقالات برگرفته از پایان نامه - تحليل چالش هاي پيوسته نويسي و جدا نويسي واژگان فارسي در ذخيره و بازيابي اطلاعات در پايگاه هاي اطلاعاتي

شما اینجا هستید: خانه

مقالات برگرفته از پایان نامه

تحليل چالش هاي پيوسته نويسي و جدا نويسي واژگان فارسي در ذخيره و بازيابي اطلاعات در پايگاه هاي اطلاعاتي

Category: مقالات برگرفته از پایان نامه

Tags: جدا نويسي, پيوسته‌ نويسي, رسم‌الخط, پايگاه‌هاي اطلاعاتي, ذخيره و بازيابي, خط فارسي

Author: آخشيك، سميه سادات, فتاحی، رحمت الله

Review

چكيده

مقدمه: ويژگيهاي خاصّ دستوري و نگارشي زبان و خط فارسي، دشواريهايي را در ذخيره و بازيابي اطلاعات در محيط رايانه‎اي پديد آورده است. رسم‌الخط فارسي نيز از يك‌سو به علت اختلاف نظر پديدآورندگان متون و از سوي ديگر پيچيدگيهاي ذاتي خود، به‎هنگام ذخيره، جستجو و بازيابي چالشهاي متعددي را براي طراحان و نمايه‎سازان پايگاه‌ها، كاربران و پديدآورندگان منابع به‌وجود آورده است.

روش بررسي: اين پژوهش به روش تحليل محتوا انجام شد.100 عنوان از پايان‎نامه‎هاي موجود رشته كتابداري و اطلاع‌رساني به منزله نمونه‌اي از متون فارسي در پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقه‎اي اطلاع‌رساني علوم و فناوري و از هر پايگاه 50 عنوان به‎صورت تصادفي انتخاب شد. با استفاده از دستور خط فارسي مصوب فرهنگستان زبان، كلماتي كه درست يا نادرست نوشته شده بود، از يكديگر تفكيك و در مرحله بعد، عنوانهاي مورد نظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو گرديد و در نهايت، نتايج بازيابي در پايگاه‌ها، ارزيابي و مقايسه شد.

يافته‎ها: نتايج اين بررسي نشان داد 2/71% از كلمات عنوانها به صورت درست و 8/28% نادرست نگارش شده‎اند. همچنين، مشخص شد 6/51% اين كلمات، دو جزئي و 5/47% سه جزئي هستند و اغلب نويسندگان پايان‎نامه‎ها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق مي‎باشند، دچار خطا شده‎اند. در پايگاه اطلاعاتي مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، تنها حالت ثبت شده عنوانها به بازيابي عنوان مورد نظر ‎انجاميد و در پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، تنها 58% عنوانها با تغيير رسم‌الخط همچنان بازيابي شدند.

نتيجه‎گيري: اين پژوهش نشان داد پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران نسبت به پايگاه اطلاعاتي مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، در بازيابي عنوان پايان نامه‌ها در حالتهاي مختلف پيوسته و جدا نوشته شده، بهتر عمل مي‎كند. همچنين، بايد به نويسندگان پايان‌نامه‌ها، استفاده از قواعد يكدست ملي بويژه در نگارش كلمات 2 جزئي و مشتق تأكيد شود.

كليدواژه‎ها: خط فارسي، ذخيره و بازيابي، پايگاه‌هاي اطلاعاتي، رسم‌الخط، پيوسته‌نويسي، جدانويسي.

در اين جستار كوتاه سعي شده با نگاه به ويژگي پيوسته‎نويسي و جدانويسي واژگان فارسي در محدودة عنوانهاي پايان‎نامه‎هاي كتابداري و اطلاع‌رساني و بررسي اين مشكل در دو پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، وضعيت توجه نويسندگان و همچنين پايگاه‌هاي مورد نظر به اين بخش از رسم‌الخط بررسي و راهكارهايي براي حلّ اين مشكلات ارائه شود.

مقدمه

به استناد مركز آمار جهاني اينترنت، هرچند زبان انگليسي هنوز هم جزء ده زبان اول دنياي اينترنت است^{^[1]}، تعداد مدارك غير انگليسي و كاربران غير انگليسي زبان در وب در حال افزايش است. اين وضعيت، مطالعه و طراحي سيستمهاي بازيابي براي اين زبانهاي مختلف را ناگزير ساخته است. چنان‌كه «آل احمد و ديگران»^{^[2]} (2008) نيز به اين مسئله اشاره كرده‌اند، زبان فارسي به‎عنوان زبان رسمي ايران، افغانستان و تاجيكستان سبب شده منابع زيادي از وب به اين زبان توليد شود و كاربران فارسي زبان به دلايل مختلفي در جستجوهاي خود از اين زبان استفاده كنند، اما به دليل غالب بودن زبان انگليسي در اينترنت، جستجو به زبانهاي غيرانگليسي از جمله فارسي، مسائل و مشكلات مختلفي جدا از مشكلات عمومي اينترنت به همراه دارد (راثي، 1384). مشكلات زبان فارسي از يك سو و اهميت يافتن روزافزون موضوع رايانه و خط و زبان فارسي، كه در همه زمينه‎هاي كاربردي و تحقيقاتي و حتي در زندگي عموم مردم رسوخ يافته، از سوي ديگر، همانطور كه «صامتي و بي‎جن‎خان» (1389، نوزده) نيز بيان مي‎كنند، سبب شكل‎گيري پژوهشهاي زيادي در اين حوزه شده است.

دشواريهاي زبان فارسي در ارتباط با حوزة ذخيره و بازيابي اطلاعات را مي‎توان از نظرگاه‌هاي مختلفي دسته‎بندي نمود. مقالة حاضر كه با ديدگاه ساختاري به مسائل رسم‌الخط فارسي پرداخته است، به‌طور مشخص بر ويژگي پيوسته و جدانويسي كلمات فارسي تأكيد دارد. كلماتي كه به دو شكل پيوسته و جدا نوشته مي‎شوند، هر چند مشكلات كمي در خواندن متن به وجود مي‌آورند و هر آشناي به زبان فارسي به راحتي مي‌تواند آنها را بخواند، در نظامهاي ذخيره و بازيابي اطلاعات، مشكلات زيادي ايجاد مي‎كنند. از اين رو، نيازمند توجه از سوي پديدآورندگان متون و منابع و نيز طراحان و نمايه‎سازان پايگاه‌هاي اطلاعاتي مي‎باشند.

پيوسته‎نويسي و جدانويسي در رسم‌الخط فارسي

فرهنگستان زبان و ادب فارسي در باب پيوسته‌نويسي و يا جدانويسي تركيبات در زبان فارسي، سه فرض را متصور است (دستور خط فارسي، 1388، ص 38) كه در ادامه به آنها اشاره شده است. در پژوهش حاضر بر مبناي اين دستورالعملهاي فرهنگستان عمل شده است.

1. تدوين قواعدي براي جدانويسي همه كلمات مركب و تعيين موارد استثنا.

2. تدوين قواعدي براي پيوسته‌نويسي همه كلمات مركب و تعيين موارد استثنا.

3. تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوسته‌نويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان.

فرهنگستان در تدوين و تصويب دستور خط فارسي، فرض سوم را برگزيده و تنها موارد الزامي جدانويسي و يا پيوسته‎نويسي را مشخص كرده است:

الف)كلمات مركبي كه الزاماً پيوسته نوشته مي‎شوند. به عنوان مثال، مركبهاي بسيط‎گونه مانند يكشنبه و كلماتي كه جزء دومشان با «آ» آغاز مي‎شود و تك هجايي هستند و موارد ديگر كه در متن دستور خط فارسي به‎طور كامل توضيح داه شده‎اند.

ب) كلمات مركبي كه الزاماً جدا نوشته مي‎شوند. مانند تركيبهاي اضافي، مصدر مركب و غيره... .

در عين حال، چنان‌كه اشاره شد، نويسندگان، ويراستاران و ناشران آثار فارسي تاكنون از شيوه‌ها و رسم الخط‌هاي مختلفي استفاده كرده‌اند و متون موجود فارسي با همين گوناگوني در پايگاه‌هاي اطلاعاتي و در وب ذخيره شده است. به همين سبب، جستجو و بازيابي متون فارسي با چالشهاي فراوان همراه است.

ضرورت و هدفهاي پژوهش

نظام نحوي يا ساختاري هر زبان، مهم‌ترين شاخص استقلال و تمايز يك زبان از زبانهاي ديگر است كه بر پاية واژگان زبان شكل مي‌گيرد (نوبهار، 1388). زبان فارسي، در مقايسه با ساير زبانهاي دنيا، ماهيت متفاوت و ويژه (Oroumchian , et al. , 2007) و نيز نظام ساختاري پيچيده‎اي دارد. به همين دليل، طراحي سيستمهاي ذخيره و بازيابي براي آن نيازمند ملاحظات ويژه‎اي است. اين تفاوتها نه تنها در ساختار زبان، بلكه در خط فارسي نيز وجود دارد (دستور خط فارسي، 1388، ص.1). متأسفانه، نبود استاندارد و تنوع رسم‌الخط و مفاهيم در زبان فارسي (شهيدي و ديگران 1384) سبب پراكندگي سبك و سياق نگارشي براي اين زبان شده است. بي‌توجهي برخي از پديدآورندگان به اين ويژگيهاي خط فارسي بويژه در متون و منابع علمي و گاه بي‎توجهي طراحان پايگاه‌هاي اطلاعاتي و موتورهاي جستجو، اغلب به ناكارآمدي اين پايگاه‌ها در جستجو و بازيابي منجر شده است. آنچه ضرورت پرداختن به اين پژوهش را آشكار مي‎سازد، شناسايي مسائل مربوط به پيوسته و جدانويسي در نگارش فارسي و ميزان توجه به اين مسائل در ذخيره و بازيابي اطلاعات و متون فارسي است. براساس اين ضرورت، هدف از پژوهش حاضر، شناسايي كاستيهايي است كه از نظر رسم‌الخط فارسي و از جنبه ويژگيهاي تركيب و جدانويسي كلمات در زبان فارسي، در عنوانهاي پايان‎نامه‎هاي كتابداري انعكاس يافته است. همچنين، ميزان توجه طراحان و نمايه‎سازان پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقه‎اي اطلاع‌رساني علوم و فناوري به اين ويژگيهاي كلمات فارسي به منظور تلاش براي بهينه‎سازي اين پايگاه‌هاي اطلاعاتي، از ديگر هدفهايي است كه اين پژوهش دنبال مي‎كند.

مسئله پژوهش

رسم‌الخط فارسي، چنان‌كه «حرّي» (1376) نيز اشاره مي‎كند، يكي از متغيرهاي عمده در ذخيره و بازيابي اطلاعات به زبان فارسي است و در دهه‎هاي اخير نيز مسبب بيشترين اختلاف نظر در مورد شيوه املاي كلمات بوده است (شهيدي و ديگران، 1384). دشواريهاي حاكم بر نحوة نگارش واژه‎هاي فارسي، علاوه بر اين‌كه سبب ناهماهنگي متون مي‎شود، براي جستجوگران محيط وب نيز مسائلي را پيش روي مي‎نهد. بي‌توجهي كاربران (راثي، 1384)، پديدآورندگان متون و منابع و نيز طراحان و نمايه‎سازان پايگاه‌هاي اطلاعاتي فارسي به ويژگيهاي پيوسته‎نويسي و جدانويسي واژگان در كنار ساير مسائل رسم‌الخط فارسي، مي‎تواند سبب بروز مشكلات زيادي در ذخيره و بازيابي اطلاعات شود. بر اين اساس، پژوهش حاضر در پي آن است تا ميزان رعايت اصول رسم‌الخط فارسي از جنبة پيوسته‎نويسي و جدانويسي را با محدود نمودن به حوزة كتابداري و اطلاع‌رساني و صرفاً به پايان‎نامه‎هايي كه به‎عنوان نمونه براي اين‎كار انتخاب شده‎اند، بررسي كند. همچنين، روشهايي را كه ممكن است برخي پايگاه‌هاي اطلاعاتي در اين زمينه اتخاذ نموده باشند، شناسايي و بر مبناي يافته‎هاي حاصل، ضمن نشان دادن وضعيت حال حاضر، پيشنهادها و راهكارهايي عملي ارائه نمايد.

پيشينة پژوهش

بررسي پژوهشهاي انجام گرفته در حوزة بازيابي اطلاعات به زبان فارسي بيانگر اين است كه اين مقوله از ديرباز مورد توجه صاحب‌نظران و پژوهشگران علوم كتابداري و اطلاع‌رساني، رايانه و زبانشناسي بوده است. نگاه به فعاليتهايي كه در اين زمينه صورت گرفته، از گستردگي مشكلات و دشواريهاي زبان فارسي و ابعاد مختلف آن حكايت دارد كه در حوزة بازيابي به‎عنوان مسئله رخ نموده و لزوم تلاش براي رفع آنها را ضروري مي‎سازد^{^[3]}. در ادامه، برخي از اين پژوهشها در حوزه‎هاي ريشه‎يابي، پيوسته‎نويسي و جدانويسي و نيز شكلهاي مختلف نوشتاري واژگان فارسي، دسته‎بندي و بيان مي‌شود.

جدانويسي و پيوسته‌نويسي: مرور پيشينه در اين حوزه، نشان از فعاليتهاي اندك صورت گرفته دربارة مشكلات جدانويسي و پيوسته‎نويسي دارد. اغلب اين پژوهشها، مسائل مطرح در اين زمينه را شناسايي نموده‌اند؛ مانند پژوهشي كه «شهيدي و همكارانش» (1384) براي يافتن روشي براي رفع چالشهاي محتوا كاوي در وبهاي فارسي زبان انجام دادند و در نهايت، برخي از مهم‌ترين چالشهاي خط فارسي را برشمردند كه در بين آنها مي‎توان اشاره‎هايي به ويژگيها و مسائل تركيب و جدانويسي واژگان را نيز ملاحظه نمود. عمده‎ترين راه حلهايي كه اين پژوهشگران ارائه دادند، عبارت است از: انتخاب مناسب سرعنوانهاي موضوعي در وب‌سايتهاي فارسي، استمداد از علم اصطلاح‌شناسي در نمايه‌سازي ماشيني، تعريف يك استاندارد براي مفاهيم و رسم‌الخط فارسي در وب، استفاده از مفرد و جمع در نمايه‌سازي و استفاده از يك واسط كاوش فارسي براي رفع چالشهاي رسم‌الخطي.

البته در اين زمينه، پژوهشي را «كاشفي و همكارانش» (Kashefi, et al., 2010) با عنوان بهينه‎سازي‌يابش مدارك مشابه در بازيابي اطلاعات به زبان فارسي انجام دادند و در آن به شناسايي بيش از 300 پسوند و تركيبهاي كلمات و كارآمدي حذف پيشوندها از متون فارسي به هنگام بازيابي آنها پرداختند. در اين پژوهش، از چهار روش استفاده شد؛ نمايه‌سازي معاني پنهان، مدل فضاي برداري، هم‎آيندي و شينگلينگ^{^[4]}. نتيجه نشان داد با حذف پيشوندها، ميزان بازيابي مدارك مشابه، بهبود و بازيافت اين منابع به‎طور قابل ملاحظه‎اي افزايش مي‎يابد.

ريشه‎يابي واژگان: ريشه‎يابي، كه عبارت است از قرار دادن واژه‎هاي يك زبان در دسته‎هاي معنايي يكسان، در بسياري از زمينه‎هاي پردازش زبان طبيعي. همچنين پردازش زبان فارسي، مدنظر است. پژوهشي كه «رحيم طرقي و همكارانش» (Rahimtoroghi, et al., 2010) در زمينة ريشه‎يابي مبتني بر قواعد دستوري براي زبان فارسي انجام دادند نيز شاهد اين مدعاست. اين پژوهشگران، برمبناي قواعد دستور زبان، الگوريتم ريشه‌يابي را طراحي نمودند كه از ساختار كلمات و قواعد املايي آنها براي شناسايي ريشه هر كلمه استفاده مي‌كند. بر اين اساس، 33 قاعدة دستوري شناسايي شد. نتايج نشان داد استفاده از اين ريشه‎ياب در سيستمهاي بازيابي اطلاعات در مورد زبان فارسي، دقت نتايج بازيابي شده را به ميزان 8/4% افزايش و اندازة فايل نمايه‎سازي شده را تا 6% كاهش‎ مي‎دهد.

توجه به ريشه‎يابي گاه در كنار ساير بررسيهاي زبانشناختي قرار گرفته است. به‎عنوان مثال، مي‎توان به پژوهش «كريم‎پور و ديگران»(Karimpour, et al., 2009) اشاره نمود. دراين پژوهش، از مدل بازيابي Idri و از برچسب‌زن اجزاي جملة TNT با استفاده از 40 برچسب پيكرة «بي‎جن‎خان»^{^[5]} استفاده شد. بر اين اساس، بهبود عملكرد الگوريتمهاي بازيابي ارزيابي گرديد. همچنين، تأثير ريشه‎يابي به‎عنوان يكي ديگر از بخشهاي كار اين پژوهشگران، بررسي شد. يافته‎هاي اين تحقيق نشان داد هرچند استفاده از برچسب زني اركان سخن ممكن است تأثير اندكي در اثر بخشي نتايج بازيابي شده داشته باشد، زماني‎كه اين روش همراه با ريشه‎يابي به كار مي‎رود، دقت نتايج بازيابي شده به‎ميزان قابل توجهي افزايش مي‎يابد.

در مورد تأثير ريشه‎يابي در متون زبان فارسي، پژوهش ديگري توسط «دلاميك و ساووي» (Delamic and Savoy, 2009) انجام گرفته كه با هدف ارزيابي راهبردهاي مختلف نمايه‎سازي و ريشه‎يابي، استفاده از سياهة واژگان بازدارنده و يك ريشه‌يابي سبك را پيشنهاد مي‎كنند. در اين پژوهش، از مدلهاي بازيابي متعدد از جمله Okapi, DFR, LM و نيز دو مدل كلاسيك فضاي برداري يعني tf idf و نيز Lnu-ltc براي ارزيابي راه حلهاي ارائه شده، استفاده گرديد. آنچه در اين پژوهش مورد توجه است، نگاه ويژه به رسم‌الخط فارسي و پيشنهاد يك ريشه ياب براي اين خط است كه رايج‌ترين پسوندهاي مورد استفاده و حالتهاي جمع لغتها را استخراج و در نهايت سياهة واژگان بازدارنده‎اي شامل 881 كلمه را پيشنهاد مي‎كند كه مديريت و كنترل آنها مي‌تواند در بازيابي به زبان فارسي، كمك قابل توجهي باشد.

شكلهاي مختلف نوشتاري واژگان: توجه به اين‌كه واژه‎هاي فارسي شكلهاي مختلف نگارشي دارند، و مسائلي كه وجود اين اشكال پيش روي بازيابي اطلاعات در وب مي‎نهد، در پژوهش «عبدالهي نورعلي» (1386) نيز تأكيد شد. وي مسائل ريخت‎شناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب را بررسي كرد و با استفاده از جستجوگرهاي گوگل، آلتاويستا و ياهو، جستجوهايي را به زبان فارسي انجام داد و دريافت كه اين جستجوگرها، به دشواريهاي زبان فارسي در بازيابي اطلاعات نپرداخته و تلاشي براي بهبود نتايج انجام نداده‎اند.

برخي نيز به‎طور مشخص، مسائل زبان و خط فارسي در ذخيره و بازيابي اطلاعات را بررسي كردند. از آن جمله، «مرتضايي» (1381) است كه نمونه‎هايي از دشواريهاي زبان و خط فارسي را در بازيابي اطلاعات بر مي‎شمارد. همچنين، وي به مهم‌ترين دشواريهاي زبان فارسي كه سبب كندي مراحل ذخيره و بازيابي و نيز كاهش بازيافت مي‎شوند نيز پرداخته و معتقد است راهكارهايي از قبيل يكسان سازي واژه‎ها، كاربرد دستورالعمل‎هايي يكدست در تمامي واحدهاي چاپ و نشر و هوشمند‌سازي جستجو مي‎تواند به حلّ اين مسائل كمك كند.

برخي ديگر نيز به‎عنوان جزئي از پژوهش خود، توجه به اين بُعد را نيز از نظر دور نداشته‎اند. از آن جمله، تحقيقي است كه «گل تاجي و بذرگر» (1389) در زمينة بررسي مشكلات ريخت‌شناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقه‎اي علوم اطلاع‌رساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي انجام دادند و با انتخاب و جستجوي كليدواژه‎هايي كه هركدام بيانگر نوعي از چالشهاي زبان فارسي بود، اين كليدواژه‎ها را در پايگاه‌هاي موردنظر جستجو كردند. نتايج اين پژوهش نشان داد هيچ‎يك از اين سه پايگاه، به شيوه‎اي جامع و قابل ملاحظه به حل مسائل ريخت‎شناسي واژگان فارسي نپرداخته‎اند. موارد مورد توجه پايگاه‌هاي مورد بررسي در اين پژوهش، به ترتيب زير ذكر شده است: پايگاه مركز منطقه‌اي اطلاع‌رساني علوم و فناوري: تنوين، تشديد، پيوسته‌نويسي و بي‌‌فاصله‌نويسي؛ پژوهشگاه اطلاعات و مدارك علمي ايران: جدانويسي و بي فاصله‌نويسي، خط تيره، نقطه بين سرنام‌ها؛ پايگاه جهاد دانشگاهي:همزه به صورتهاي مختلف.

نگاهي به پيشينة پژوهشهايي كه بيان شد، نشان مي‌دهد مسائل خط و زبان فارسي در پيوند با ذخيره و بازيابي اطلاعات را مي‎توان از ابعاد مختلف بررسي كرد. ويژگيهاي خاص حاكم بر نگارش خط فارسي سبب شده تا بررسي دقيقتر هركدام از آنها و مسائلي كه در ذخيره و بازيابي پديد مي‎آورند، بيش از پيش اهميت يابد. به نظر مي‎رسد آگاهي از اين ضرورت در بين متخصصان حوزه‎هاي مرتبط، بويژه متخصصان علم كتابداري و اطلاع‌رساني، به وجود آمده است و زمان آن فرا رسيده تا راه‎حلهايي دقيق و موشكافانه براي هريك از اين دشواريها ارائه شود. پژوهش حاضر با اين رويكرد و با هدف قرار دادن يكي از اين معضلات، كه عبارت است از ويژگيهاي تركيب و جدانويسي واژگان فارسي، و به منظور يافتن راهي براي گذر از چالشهاي آن در حوزة كتابداري و اطلاع‌رساني، انجام يافته است.

سؤالهاي پژوهش

پژوهش حاضر در پي يافتن پاسخ سؤالهاي زير انجام شده است:

1.اصول پيوسته‎نويسي و جدانويسي به‎عنوان يكي از مسائل رسم‌الخط فارسي، تا چه ميزان در عنوانهاي پايان‎نامه‎هاي حوزه كتابداري و اطلاع‌رساني رعايت شده است؟

2.به لحاظ شكل دستوري، كليدواژه‎هاي جدا يا پيوسته نوشته شده، جزء كدام نوع (اسم، صفت، قيد، فعل) هستند؟

3.پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقه‎اي اطلاع‌رساني علوم و فناوري با توجه به ويژگيهاي پيوسته‎نويسي و جدانويسي واژگان در عنوانهاي پايان‎نامه‎ها چگونه عمل مي‎كنند؟

طرح پژوهش

در اين پژوهش كه به روش تحليل محتوا انجام شده است، 100 عنوان از پايان‎نامه‎هاي موجود رشته كتابداري و اطلاع‌رساني به منزلة نمونه‌اي از متون فارسي در پايگاه‌هاي موردنظر و از هر پايگاه 50 عنوان به‎صورت تصادفي انتخاب شد. به اين ترتيب كه ابتدا سياهه‎اي از دانشگاه‌هاي مجري رشتة كتابداري و اطلاع‌رساني در مقاطع تحصيلات تكميلي در ايران جمع‎آوري و پس از آن از طريق جستجوي نام استادان راهنما، به عنوانهاي پايان‎نامه‎ها دست يافته شد. همچنين، عنوانهايي كه در يك پايگاه يافت مي‎شدند، به‎منظور جلوگيري از تكرار يافته‎ها به‎هنگام جستجو در پايگاه دوم، در صورت بازيابي از سياهه كنار گذاشته شدند. جستجوي اسمها با هدف شناسايي كلمات مركبي كه قابليت پيوسته‎ و جدانويسي داشتند، انجام شد. تمام كلمات عنوانهاي اين پايان‎نامه‎ها بررسي و سياهه‎اي از كلماتي كه ويژگي مورد نظر را به لحاظ رسم‌الخطي دارا بودند، فراهم شد. پس از اين مرحله، بر اساس دستور خط فارسي مصوب فرهنگستان (1388) كلماتي كه درست يا نادرست نوشته شده بودند از يكديگر تفكيك، و از نظر تعداد اجزا و نوع (مركب، مشتق و مركب- مشتق) تحليل شدند. گفتني است، تعداد كلماتي كه قاعده‎اي براي آنها در فرهنگستان وجود نداشت و در مورد آنها اختيار به نويسنده داده شده بود، بسيار ناچيز بود، با اين‎حال، به هنگام جستجو، به‎عنوان كلمة خنثي در نظر گرفته شدند. روايي اين كار با مشورت استاد راهنما تأييد گرديد. در مرحلة سوم، عنوانهاي موردنظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو شد. نتايج بازيابي در پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، ارزيابي و مقايسه و در نهايت نتايجي حاصل شد كه پاسخ سؤالهاي تحقيق را شكل داد.

يافته‎هاي پژوهش

با بررسي عنوانهاي مورد نظر، مشخص شد اين عنوانها در كل شامل 1547 كلمه مي‎باشند. در پي دستيابي به هدفهاي پژوهش مبني بر شناسايي كاستيهاي نگارشي از ديدگاه رسم‌الخطي مورد توجه در عنوانهاي پايان‎نامه‎هاي كتابداري و اطلاع‌رساني، پس از بررسي كلمات و مطابقت آنها با دستور خط فارسي مصوب فرهنگستان زبان، آنهايي كه از نظر رسم‌الخطي قابليت پيوسته و جدانويسي را داشتند، در سياهه‎اي جداگانه تنظيم شدند كه تعداد آنها، 316 كلمه، حدود 4/20% كلّ كلمات عنوانها بود. پس از آن، با توجه به قواعد فرهنگستان، به تفكيك كلماتي پرداخته شد كه بر اين اساس درست و نادرست نوشته شده بودند.

نتايج اين بررسي براي يافتن پاسخ سؤال اول اين پژوهش، نشان داد نگارش 225 كلمه (2/71%) درست، 91 كلمه ديگر (8/28%) نادرست است. اين وضعيت در جدول 1 نيز آورده شده است.

جدول 1. فراواني كلمات عنوانها و داراي ويژگي پيوسته و جدانويسي

تعداد كلّ كلمه‎هاي عنوانها		كلمه‎هاي داراي ويژگي مورد نظر		كلمه‎هاي درست		كلمه‎هاي نادرست
فراواني	درصد	فراواني	درصد	فراواني	درصد	فراواني	درصد
1547	100	316	42/20	225	2/71	91	8/28

در شكل 1 نيز نسبت كلمات درست و نادرست از كل كلماتي كه مركب بودند، نشان داده شده است.

شكل 1. نسبت كلمات با رسم‌الخط درست و نادرست

در مورد سؤال دوم، بررسي كلمات موردنظر نشان داد اغلب اين كلمات (بيش از 95%) اسم و حدود 5% ديگر، ضمير مي‎باشند. از آنجا كه در عنوان فعل به‎كار نمي‎رود و نيز متون علمي بندرت داراي قيد يا صفت هستند، نبود چنين كلماتي كه ويژگي پيوسته و جدانويسي را نيز داشته باشند، قابل توجيه است. همچنين براي بررسي بهتر، كلمات داراي ويژگي پيوسته و جدانويسي به لحاظ ساختاري نيز تفكيك و به سه دسته تقسيم شدند:

1-كلمات مشتق: آنهايي هستند كه يك جزء آنها معناي قاموسي و اجزاي ديگر معناي دستوري دارند.

2-كلمات مركب: آنهايي هستند كه از دو جزء يا بيشتر تشكيل شده‌اند و تمامي اجزا داراي معناي قاموسي مي‎باشند.

3-كلمات مشتق _- مركب: آنهايي هستند كه دو جزء‎ يا بيشتر از آنها معناي قاموسي و بقية اجزايشان معناي دستوري دارد.

بر اين اساس، حدود 35% كلمات، مشتق، بيش از 18% مركب و نزديك به 42% نيز مشتق- مركب بودند كه جدول 2 و شكل 2 بيانگر اين وضعيت است.

جدول 2. تفكيك كلمات از نظر ساختاري

نوع كلمه	فراواني	درصد
مشتق	111	1/35
مركب	59	7/18
مشتق _- مركب	146	2/46
مجموع	316	100

شكل 1. نسبت كلمات مورد بررسي از نظر ساختاري

همچنين، تعداد اجزاي اين كلمات نيز بررسي شد. چنان‌كه جدول 3 و شكل 3 نيز نشان مي‎دهند، مشخص شد بيشتر اين كلمات، دو جزئي (6/51%) و سه جزئي (5/47%) هستند و كلمات چهار جزئي، درصد بسيار اندكي از كلمات موردنظر را تشكيل مي‎دهند.

جدول 3. تعداد اجزاي كلمات مورد بررسي

جدول اجزاي كلمه	فراواني	درصد
2 جزئي	163	6/51
3 جزئي	150	5/47
4 جزئي و بيشتر	3	0/9
مجموع	316	100

شكل 3. نسبت اجزاي كلمات مورد بررسي

با بررسي كلمات استخراج شده از عنوانهاي بررسي شده، همان‌طور كه جدول 4 نيز نشان مي‎دهد، مشخص شد اغلب نويسندگان پايان‎نامه‎ها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق مي‎باشند، دچار خطا شده‎اند.

جدول 4. ميزان اشتباه نويسندگان در رسم‌الخط كلمات به تفكيك اجزا و نوع كلمه

تعداد اجزاي كلمه	درصد نادرستي (فراواني نسبي)
2 جزئي	03/38
3 جزئي	33/17
4 جزئي و بيشتر	66/66
نوع كلمه	درصد نادرستي (فراواني نسبي)
مشتق	58/67
مركب	56/13
مشتق _- مركب	49/18

در مرحلة بعد، به‎منظور دستيابي به هدف دوم اين پژوهش و پاسخگويي بهسؤال سوم، عنوانهاي مربوط به هر پايگاه، با «جستجوي عنواني» به طور عمدي در حالتهاي درست و نادرست از سوي پژوهشگر جستجو شد؛ به اين ترتيب كه در عنوانهايي كه كلمات به صورت نادرست نوشته شده بود، جستجو با شكل صحيح رسم‌الخطي و همچنين در عنوانهايي كه كلمات به‌طور درست به‎كار رفته بود، جستجو با شكل اشتباه رسم‌الخطي نيز انجام شد. گفتني است، اين روش براي هر دو پايگاه اطلاعاتي و در مورد تمامي عنوانها انجام گرفت. چنان‌كه جدول5 نيز نشان مي‎دهد، در پايگاه اطلاعاتي مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، با اعمال هريك از تغييرات مورد اشاره به هنگام جستجو، عنوان مورد نظر بازيابي نشد و تنها حالت ثبت شدة^{^[1]} عنوانها به بازيابي عنوان مورد نظر مي‎انجاميد. در انجام همين جستجوها در مورد 50 عنوان مورد نظر از پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، 29 عنوان (58%) با تغيير رسم‌الخط (درست به نادرست و برعكس) همچنان بازيابي شد، اما 21 عنوان ديگر كه 42% باقيمانده را تشكيل مي‎داد، با اين تغييرات، بازيابي نشدند. علت تغيير نوع رسم‌الخط از درست به نادرست و برعكس، اين بود كه ممكن است كاربر هنگام جستجوي عنواني در هر حالتي به صورت پيوسته يا تركيبي، واژه را جستجو كند و پايگاه‌هاي اطلاعاتي بايد توانايي جستجوي مورد نظر از سوي كاربر را بدون توجه به ميزان اطلاع وي از نحوة نگارش صحيح كلمات، داشته باشند.

بر اين اساس، مي‎توان عملكرد ذخيره و بازيابي پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران را در مقايسه با پايگاه اطلاعاتي مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، مناسب‌تر قلمداد نمود؛ هرچند يافته‎ها نشان داد اين پايگاه نيز در زمينه ذخيره‎سازي و بازيابي كلمات فارسي با ويژگيهاي پيوسته و جدانويسي، يكپارچه عمل‌نكرده است. نتايج حاصل از جستجوهاي عنواني در دو پايگاه، در جدول 5 آورده شده است.

جدول 5. نتايج حاصل از جستجوي عنوانهاي پايان‎نامه‎ها در حالتهاي مختلف رسم‌الخطي در دو پايگاه مورد بررسي

پايگاه نتيجه	پژوهشگاه علوم و فناوري اطلاعات ايران		مركز منطقه‎اي اطلاع‌رساني علوم و فناوري
پايگاه نتيجه	فراواني	درصد	فراواني	درصد
بازيابي نشده	21	42	50	100
بازيابي شده	29	58	0	0
مجموع	50	100	50	100

بحث و نتيجه‎گيري

پيچيدگيهاي رسم‌الخط فارسي، از يك‌سو سبب‌ساز آشفتگيهايي در ذخيره و بازيابي (صامتي و بي‎جن خان، 1389، ص. نوزده؛ شهيدي و ديگران، 1384 وOroumchian, et al., 2007) و همچنين جستجوي اطلاعات به زبان فارسي در اينترنت شده و از سوي ديگر به دليل تأثيرهاي هم‌فرسايي مشكلات بر يكديگر، چالشهاي اين حوزه را چند برابر ساخته است. به‎عنوان نمونه، تأثير تركيب و جدانويسي را بر مرزبندي و تعيين حدود كلمه مي‎توان مثال زد. اگر در رسم‌الخط فارسي، مطابق قواعد استاندارد عمل نشود، مشكل مرزبندي كلمات فارسي دو چندان مي‎شود، زيرا به دليل مشكلات عدم شناسايي مرز دقيق كلمات، چالشهاي عمده‎اي براي ريشه‎يابي كلمات و الگوريتمهاي ريشه‎يابي پديد مي‎آيد كه با استفاده از دستورالعملهاي استاندارد براي تركيب و جدانويسي كلمات، بخشي از اين چالشها حل و در صورت آشفتگي رسم‌الخط، مشكلات ديگري كه به آنها اشاره شد، افزون خواهد شد. اين پژوهش با هدف شناسايي بخشي از مشكلات خط فارسي كه بر ذخيره و بازيابي اطلاعات از پايگاه‌هاي اطلاعاتي تأثير مي‎گذارند، در محدوده كوچكي انجام شد. در بازنگري دوباره نتايج اين پژوهش با بخشي از پيشينه كه ارتباط نزديكتري با موضوع دارند، مي‎توان به نتايج قابل توجهي رسيد.

نتايج پژوهش حاضر با پژوهش «عبداللهي نورعلي» (1386) همخوان است. در آن پژوهش نشان داده شد كه به مسائل ريخت‌شناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي گوگل، ياهو و آلتاويستا پرداخته نشده است و در اين‌جا مشخص شد كه يك نمونه از اين مسائل ريخت‌شناسي، يعني پيوسته و جدانويسي، در پايگاه‌هاي اطلاعاتي فارسي نيز مورد بي‎توجهي قرار گرفته است. به‎عبارت ديگر، به مسائل ريخت‎شناسي زبان فارسي نه تنها در جستجوگرهاي غير فارسي، بلكه در پايگاه‌هاي اطلاعاتي فارسي نيز پرداخته نشده است. البته در سالهاي اخير، حركتهايي از سوي طراحان جستجوگرهاي وب مبني بر پيشنهاد عبارتهاي جستجو و نيز پيشنهاد شكلهاي مختلف نگارشي كلمه و عبارت مورد جستجو، صورت گرفته است كه تا اندازه‎اي مي‎تواند برخي از مشكلات خط فارسي را از بين ببرد و پايگاه‌هاي اطلاعاتي فارسي زبان نيز مي‎توانند از اين ايده‎ها بهرة لازم را ببرند.

چنان‌كه نتايج اين پژوهش نشان داد، جستجو در حالتهاي مختلف پيوسته و جداي واژگان عنواني هرچند در پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران به طور كامل به جامعيت بازيابي نمي‎انجامد، همراه نمودن كلمة مورد نظر با تعداد بيشتري از واژه‎هاي عنوان از سوي جستجوگر، در برخي موارد به بازيابي عنوان مورد نظر مي‎انجامد. بر مبناي اين يافته‎ها كه در بخش قبل نيز شرح داده شد، هرچند نتايج پژوهش «گل تاجي و بذرگر» (1389) در مورد بي‌توجهي برخي پايگاه‌هاي اطلاعاتي فارسي به مسائل ريخت‌شناسي زبان فارسي تأييد مي‎شود، نتايج پژوهش حاضر نشان از آن دارد كه برخلاف آنچه در پژوهش «گل تاجي و بذرگر» آمده است، پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و نيز مركز منطقه‎اي اطلاع‌رساني علوم و فناوري، به ويژگي پيوسته و جدانويسي كلمات توجه نشان نداده‎اند.

همچنين، اين پژوهش تأييدي است بر آنچه «مرتضايي» (1381) مبني بر تأثير استاندارد نبودن شكل نوشتاري كلمات در عدم مطلوبيت و جامعيت جستجو، ذكر مي‌كند.

با توجه به مشكلات نگارش خط فارسي كه به برخي از آنها اشاره شد، ضرورت انديشيدن در مورد راهكارهاي برطرف كردن آن بويژه در محيطهاي الكترونيكي جديد، بيش از پيش آشكار است. بديهي است، نمي‎توان به بهانة اين دشواريها، خط غني فارسي را به همين شكل از وب كنار گذاشت، بلكه بايد موشكافانه ابعاد مختلف خط و نيز زبان فارسي را بررسي و راه حلهاي مناسبي طراحي نمود. در مورد مشكل تركيب و جدانويسي، مانند ساير پيچيدگيهاي اين خط، نمي‎توان يك راهكار منحصر ارائه داد. تلفيقي از آنچه در ادامه آمده است، مي‎تواند به رفع بخشي از پيچيدگيها كمك كند. اين راهكارها در دو بخش قابل ارائه است.

1- راهكارهايي براي رعايت فراگير قواعد يكدست ملي

_- توجه و حساسيت نويسندگان و پديدآورندگان متون و منابع به زبان فارسي، در رعايت قواعدي كه فرهنگستان زبان و ادب فارسي تدوين نموده است. چنان‌كه اشاره شد، رعايت اين قواعد، دستِ كم در مواردي كه قاعده‎اي مشخص و از پيش تعيين شده وجود دارد، همان‌طور كه «حرّي» (1372) نيز خاطر نشان مي‎سازد، نه تنها كاري پايه‎اي است، بلكه به سبب يكدستي حاكم، به‎هنگام طرح‌ريزي در نمايه‌سازي و طراحي الگوريتمهاي ذخيره و بازيابي، به حلّ عالمانه‎تر مسائل نيز خواهد انجاميد. البته، بايد توجه داشت حتي با فرض اينكه رعايت اين قواعد، ضمانت اجرايي لازم را داشته باشد، بي‎قاعده بودن برخي حالتهاي رسم‌الخطي و اختيار نويسندگان، بخش عمده‎اي از مشكلات را حل نشده باقي مي‎گذارد. البته بايد توجه داشت، با توجه به اينكه زبان فارسي در كشورهايي مانند افغانستان و تاجيكستان هم كاربرد دارد، با رعايت قواعد رسم‌الخط ملي به‎نظر مي‎رسد برخي مشكلات براي ساير جستجوگران فارسي زبان در خارج از ايران كه با اين قواعد نا آشنا هستند، همچنان باقي خواهد ماند.

_- پيش‎فرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است. چنان‌كه در ابتداي مقاله اشاره شد، سه مفروضه براي مواجهه با مشكلات نوشتاري خط فارسي قابل طرح است. سومين آنها، يعني«تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوسته‌نويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان»، هرچند با ارائه قواعد _- و البته با شرط رعايت آنها از سوي نويسندگان _- كمك قابل توجهي به يكدستي خط فارسي و رفع مشكلات جستجو و بازيابي مي‌كند، با توجه به اينكه راه‎حلهاي بينابيني ارائه داده و موارد زيادي را به نويسنده مي‎سپارد، به ابهام و چند دستگي در اين زمينه منجر مي‌گردد. حتي با تصور اينكه تمام پديدآورندگان متون و منابع در وب مطابق با قواعد استاندارد رسم‌الخط فارسي بنويسند، باز هم زماني‎كه انتخاب شكل نگارش كلمه رسماً به سليقة نويسنده سپرده شود، مشكلات پردازشي زبان آغاز خواهد شد. اين دشواريها نه تنها در مورد كلماتِ با ويژگيهاي تركيب و جدانويسي وجود دارد، بلكه ساير چالشهايي را كه نگارش خط فارسي با آن مواجه است، شامل شده و بر ابهام و پيچيدگي نمايه‎سازي، جستجو و بازيابي اطلاعات به زبان فارسي مي‎افزايد. رويكرد پيشنهادي پيش‎فرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است، مي‎تواند برخي از مشكلات پيوسته و جدانويسي را برطرف كند. نمونه‎هايي از اين مشكلات، عبارتند از: شروع شدن جزء دوم با الف، هم مخرج بودن جزء اول با حرف آغازين جزء دوم، نامأنوس بودن كلمه در حالت پيوسته‌نويسي، بسامد زياد جزء آغازين كلمه و ابهام در اجزاي تركيب به هنگام پيوسته‌نويسي.

2- راهكارهاي ذخيره و پردازش واژگان

_- در اين زمينه، متخصصان زبانشناسي، علوم رايانه و علوم كتابداري و اطلاع‌رساني مي‎توانند انواع رويكردها و روشهاي پردازش هوشمند واژگان فارسي را برگزينند كه به ذخيره و پردازش بهينه به قصد بازيابي جامع‌تر و در عين حال دقيق‌تر كه كاستيهاي ناشي از نبود يكدستي در جدانويسي و پيوسته‌نويسي است، كمك كند. برخي راه حلها در قسمت پاياني پژوهش حاضر ارائه شده است. استفاده از يافته‌هاي پژوهشي و رويكردهاي عملي كه در مورد ساير زبانها بويژه زبان عربي اعمال شده، مي‎تواند به اين هدف كمك كند.

پيشنهادهاي پژوهش

پيشنهادهاي پژوهش به تفكيك در دو بخش آمده‎اند: پيشنهادهاي عملي و پيشنهادهاي پژوهشي.

الف) پيشنهادهاي عملي

_- پيشنهاد مي‎شود نويسندگان و پديدآورندگان منابع، خود را ملزم به رعايت قواعد رسم‌الخط فارسي كنند^{^[2]}. به نظر مي‎رسد پايگاه‌هاي اطلاعات علمي فارسي، نمايه‎سازي را بر اساس كلمات استخراج شده از متون انجام مي‎دهند. بر همين اساس، رعايت اين قاعده‎ها حداقل در مورد عنوانها، چكيده و كليدواژه‎هاي متون علمي، ضرورت بيشتري دارد. اين كار گذشته از آن‌كه تلاشي براي حفظ پويايي و يكدستي خط فارسي به‌شمار مي‌رود، براي طراحان و نمايه‎سازان پايگاه‌هاي اطلاعاتي مشكلات كمتري را پديد مي‎آورد.

_- به نمايه‎سازان پايگاه‌هاي اطلاعاتي فارسي زبان و بخصوص پايگاه‌هاي اطلاع‌رساني مركز منطقه‎اي اطلاع‌رساني علوم و فناوري و پژوهشگاه علوم و فناوري اطلاعات ايران توصيه مي‌شود با بهره‎مندي از نتايج پژوهشهاي انجام شده در شوراي عالي اطلاع‌رساني ايران در زمينه خط و زبان فارسي، الگوريتمهاي نمايه‎سازي خود را متناسب سازند و در جهت بهينه‎سازي نتايج جستجو و كمك به كاربران پايگاه، از امكانات كمكي مانند قابليتهاي پيشنهاد واژگان^{^[3]} استفاده كنند.

_- به پايگاه‌هاي اطلاعاتي توصيه مي‎شود براي بازيابي كلماتي كه ويژگيهاي تركيب و جدانويسي را دارند، از الگوريتمهاي N-Geram استفاده كنند.

ب) پيشنهادهاي پژوهشي

_- انجام پژوهشي به روش تحليل محتوا در زمينة بسامد شكلهاي مختلف جدانويسي و پيوسته نويسي در حوزه‎هاي موضوعي مختلف در متون زبان فارسي تا مشخص شود شكل رايج در هر حوزة موضوعي چگونه است و چه راه حلي را مي‌توان براي ذخيرة بهتر واژگان زبان فارسي در پيش گرفت.

_- تفكيك مهم‌ترين چالشهاي سطوح آوايي، واژگاني و ساختاري در زبان و خط فارسي و انجام پژوهشهايي مشابه براي يافتن مشكلات موجود در پايگاه‌هاي اطلاعاتي.

_- شناسايي و دسته‎بندي نوع واژگان مورد جستجو در پايگاه‌هاي اطلاعاتي فارسي به‎منظور بررسي پربسامدترين اشتباه‌هاي رايج كاربران به هنگام پرس و جو در اين پايگاه‌ها با هدف طراحي نظامي هوشمند براي بازيابي.

_- شناسايي مشكلات مشابه رسم‌الخط فارسي و عربي به‎منظور مقايسة ميزان توجه، استفاده از راهكارهاي احتمالي و نيز الگوبرداري از پايگاه‌هاي اطلاعاتي زبان عربي.

منابع

- حري، ع. (1372). كامپيوتر و رسم‌الخط فارسي. مجله پيام كتابخانه. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

www.noormags.com/view/fa/articlepage/396231

- دستور خط فارسي (1388). مصوب فرهنگستان زبان و ادب فارسي. تهران: فرهنگستان زبان و ادب فارسي (نشر آثار).

- راثي، م. (1384). مشكلات جستجو و بازيابي اطلاعات به زبان فارسي در اينترنت، مطالعه موردي كاربران مركز اينترنت دانشگاه آزاد اسلامي واحد شبستر. تاريخ بازيابي: 25/9/1390. قابل بازيابي در:

http://www.aqlibrary.org/index.php?module=TWArticles&;file=index&func=view_ pubarticles&did=885&pid=10

- شهيدي، م، م، صديقي و ك، زماني‎فر (1384). روشي براي رفع چالش‎هاي محتواكاوي در وب‎هاي فارسي زبان. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

www4.irandoc.ac.ir/etela-art/21/shahidi.pdf

- صامتي، ح و م، بي‎جن‎خان (1389). پيشگفتار. زبان فارسي و رايانه: برگزيده مقالات كنفرانس بين‌المللي سالانه انجمن كامپيوتر ايران، كنفرانس مهندسي برق ايران، همايش زبانشناسي اسران، كارگاه زبان فارسي و رايانه (تا خرداد 1386). تهران: سازمان مطالعه و تدوين كتب علوم انساني دانشگاه‌ها (سمت).

- عبدالهي نورعلي، م. (1386). كندوكاو مسائل ريخت‌شناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب. پايان‌نامه كارشناسي ارشد كتابداري و اطلاع‌رساني، دانشگاه شيراز.

- گل تاجي، م و س، بذرگر (1389). بررسي مشكلات ريخت‌شناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقه‌اي اطلاع‌رساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

http://www.aqlibrary.ir/index.php?module=TWArticles&;file=index&func=view_ pubarticles&did=885&pid=10

- مرتضايي، ل (1381). مسائل زبان و خط فارسي در ذخيره‌سازي و بازيابي اطلاعات. فصلنامه اطلاع‌رساني. دوره 17شماره2و1؛ پاييز و زمستان 1380.

- نوبهار، (1388). آيا بايد جدا نوشت؟ تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

www.aicit.org/jcit/ppl/11_april.pdf

- AleAhmad, A., Amiri, H., Rahgozar, M., Oroumchian, F. (2008). Experiments with English-Persian Text Retrieval. Retrieved: Retrieved 9 July 2012. Available in: khorshid.ut.ac.ir/~a.aleahmad/Files/inews22.pdf

- Dolamic, L.,Savoy, J., (2009). Persian Language, is Stemming Efficient.Retrieved9 July 2012Available in:

http://www.uni-weimar.de/medien/webis/research/events/tir-09/tir09-papers-final/dolamic09-persian-language-is-stemming-efficient.pdf.

- Kashefi, O., Mohseni, N., Minaei, B. (2010). Optimizing Document Similarity Detection in Persian Information Retrieval.Journal of Convergence Information Technology. Retrieved 9 July 2012. Available in: www.aicit.org/jcit/ppl/11_april.pdf

- Karimpour, R., (2008) .Using Part of Speech Tagging in Persian Information Retrieval.Retrieved 9 July 2012.Available in:

www.clef-campaign.org/2008/.../Karimpour-paperCLEF2008.pdf

- Oroumchian, F., AleAhmad, A., Hakimian, P., Mahdikhani., F., (2007).F N-Geram and Local Context Analysis for Persian Text Retrieval.Retrieved 9 July 2012. Available in:

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04555345

- Rahimtoroghi, E., Faili, H., Shakeri, A., (2010). A Structural Rule-based Stemmer for Persian. Retrieved 9 July 2012Available in:

http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&;arnumber=5734090

[1]. حالت ثبت شده، نحوة درج عنوان پايان‌نامه در پايگاه مربوط است. حين اين پژوهش، عنوانهايي كه با غلطهاي املايي و تايپي ثبت شده بودند در پايگاه اطلاعاتي مركز منطقه‌اي اطلاع‌رساني علوم و فناوري نيز وجود داشت كه نگارنده ناگزير اين عنوانها را با همان اشتباه‌هاي ثبتي جستجو نمود.

[2]. دستور خط فارسي مصوب فرهنگستان زبان و ادب فارسي را مي‌توانيد در http://www.persianacademy.ir/fa/das.aspx مشاهده نماييد.

[3]. اين قابليت هم اكنون در برخي موتورهاي جستجو از جمله گوگل و ياهو و نيز پايگاه‌هاي اطلاعاتي وجود دارد.

[1]. براي اطلاعات بيشتر نگاه كنيد به: http://www.internetworldstats.com/stats7.htm

[2]. AleAhmad, et al.

[3]. براي اطلاعات بيشتر، نگاه كنيد به: نشاط،نرگس (1379). «مسائل رسم‌الخط فارسي در رويارويي با فنّاوري نوين اطلاعاتي». در مجموعه مقالات فهرستهاي رايانه‌اي: كاربرد و توسعه. به كوشش رحمت الله فتاحي. مشهد: دانشگاه فردوسي: تهران: مركز اطلاع‌رساني جهاد.

[4]. الگوريتم شينگلينگ (Shingling) يكي از روشهاي موجود در زمينة شناسايي متون تقريباً يكسان است كه براي شناسايي كلماتي كه حجم زيادي از آنها جزئيات بي‌اهميت است، به‌كار مي‌رود. برگرفته از:

http://www.farsipaper.ir/group/d1fe51a944a24a179e6649b78cc369f3

[5]. پيكره‌اي برچسب گذاري شده كه براي تحقيقات پردازش زبان طبيعي در زبان فارسي مناسب است. اين مجموعه از اخبار روزانه و متون رايج، از 4300 موضوع مختلف جمع‌آوري شده و شامل 2.6 ميليون واژة برچسب‌گذاري شده است. برگرفته از:

http://ece.ut.ac.ir/dbrg/bijankhan

فصلنامه كتابداري و اطلاع رساني (اين نشريه در

59 _ شماره سوم,جلد 15 www.isc.gov.ir نمايه مي شود)

Date insert: سه شنبه, 26 فروردين 1393

Alexandria Book Library

Add comment

JComments

تمامی حقوق مطالب محفوظ است