آموزش ذخیره و بازیابی اطلاعات

moein_13 · 27 اردیبهشت، ۱۳۸۹

ذخیره و بازیابی اطلاعات

فعالیت‌هایی که برای تحلیل و سازماندهی مدارک و منابع صورت می‌گیرد ذخیره اطلاعات، و تلاش‌هایی که برای یافتن یک یا چند مدرک از میان انبوه مدارک ذخیره شده انجام می‌شود بازیابی اطلاعات نام دارد.

فعالیت‌هایی که برای تحلیل و سازماندهی مدارک و منابع صورت می‌گیرد ذخیره اطلاعات، و تلاش‌هایی که برای یافتن یک یا چند مدرک از میان انبوه مدارک ذخیره شده انجام می‌شود بازیابی اطلاعات نام دارد. نظام‌هایی که این جریان‌ها در آنها روی می‌دهد نظام‌های ذخیره و بازیابی اطلاعات خوانده می‌شود (۶۶۱:۵). نظام‌های ذخیره و بازیابی اطلاعات معمولاً به منظور دسترس‌پذیر کردن مجموعه‌ای از منابع اطلاعاتی برای استفاده‌کننده‌ای که مایل به کسب این اطلاعات است طراحی می‌گردد. اطلاعاتی که در نظام‌های ذخیره و بازیابی اطلاعات ذخیره می‌شود یا صرفاً شامل داده‌های کتابشناختی است، مانند مشخصات کتاب‌ها، اسناد و مدارک، و مقاله‌های مجلات؛ یا اصل مدرک است که همراه مشخصات آن عرضه می‌شود. حالت اخیر پایگاه داده‌های تمام متن نام دارد. نظام‌های بازیابی اطلاعات را در معنای وسیع می‌توان برای دستیابی به مجموعه‌های تصویری، فیلم، پروانه‌های ثبت اختراع، و جز آن نیز مورد استفاده قرار داد. در هر حال، هدف هر نظام ذخیره و بازیابی اطلاعات آن است که در اسرع وقت بیشترین اطلاعات مرتبط با نیاز استفاده‌کننده را ـ آن‌طور که در درخواست وی ذکر شده ـ در اختیار بگذارد.

● تاریخچه

تاریخچه ایجاد و گسترش نظام‌های بازیابی اطلاعات را می‌توان به چندین دوره نسبتاً روشن تقسیم کرد. قبل از سال‌های ۱۹۴۰ تهیه می‌شد، نظام‌های بازیابی اطلاعات تنها از نوع دستی محض بود، یعنی نمایه‌ها و فهرست‌ها به شکل چاپی و کارتی تهیه می‌شد. این وسایل بازیابی، پیش‌همارا و غیرقابل دستکاری است و متکی بر سازماندهی خطی (تک بعدی) بوده و قابلیت‌های بسیار محدودی برای جست‌وجو و بازیابی دارند. در سال‌های ۱۹۴۰، مهم‌ترین پیشرفت در تاریخچه بازیابی اطلاعات یعنی ابداع نظام‌های بازیابی که پس‌همارا و قابل دستکاری هستند روی داد. این نظام‌ها که هنوز عمدتاً دستی بودند توسط باتن و کوردونیر[۱] (پیکابو، یا تطابق نوری)، موئرز[۲] (برگه‌های منگنه‌ای)، و نیز توسط مورتیمر تاب[۳] (نظام تک واژه‌ای) عرضه شد. این نظام‌های پس‌همارای اولیه مزایای قابل توجهی نسبت به پیشینیان خود عرضه کردند. آنها نیای مسلّم نظام‌های رایانه‌ای نوین به حساب می‌آیند.

در سال‌های ۱۹۵۰ اشکال اولیه خودکارسازی نمایه‌سازی پس‌همارا توسط نظام‌های داده‌پردازی برگه منگنه پدید آمد. نظام‌های برگه منگنه در دهه ۱۹۵۰، در واقع، اسلاف بلافصل نظام‌های رایانه‌ای سال‌های ۱۹۶۰ بودند. سال‌های ۱۹۶۰ دوران بازیابی رایانه‌ای به شیوه گسسته، پردازش دسته‌ای و نواری را تشکیل می‌داد. در سال‌های ۱۹۷۰، با توسعه سخت‌افزارها و نرم‌افزارهای رایانه‌ای، امکان انجام جست‌وجوهای پیوسته یا تعاملی فراهم آمد. نظام‌های پیوسته بازیابی، علاوه بر افزایش سرعت، امکان دریافت بازخورد جست‌وجو در روند جست‌وجو و، در صورت لزوم، تغییر و اصلاح آن را به استفاده کننده می‌دادند. مهم‌ترین مزیت بازیابی پیوسته امکان دسترسی از راه دور بود. در این مورد شرکت‌های بزرگی چون دیالوگ و بی.آر.اس. در بخش خصوصی و کتابخانه ملی پزشکی در بخش دولتی، با عرضه نظام بازیابی مدلاین، فعالیت‌های فراوانی داشته‌اند. از ابتدای سال‌های ۱۹۸۰، توسعه و گسترش ذخیره و بازیابی اطلاعات به شکل متن کامل از جمله تحولات و رویدادهای مهمی است که شکل گرفته است. هر چند اندیشه‌ها و تلاش‌های مربوط به این شکل از ذخیره و بازیابی به سال‌های ،۱۹۷۰ زمان اولین تلاش‌ها برای واردکردن متون حقوقی در رایانه و جست‌وجوی آزاد بر روی آن متون، باز می‌گردد با ازدیاد رایانه‌های شخصی و پیدایش رسانه‌های ذخیره‌سازی نوری مانند دیسک فشرده و نیز رواج نشر رومیزی (دی.تی.پی.) بود که ایجاد پایگاه‌های تمام متن و نیز فنون بازیابی از متن عمومیت بیشتری یافت و در دسترس استفاده‌کنندگان قرار گرفت. بازیابی در این نوع نظام‌ها که عمدتاً مبتنی بر استفاده از زبان طبیعی است و از این لحاظ در مقابل نظام‌های مبتنی بر واژگان مهار شده قرار می‌گیرند دارای جذابیت‌های زیادی برای استفاده‌کنندگان از آنهاست، لکن برای بازدهی بیشتر از مزایای هر دو نظام به طور همزمان استفاده می‌شود.

در سال‌های اخیر، استفاده از فنون بصری جایگاه خاصی یافته و چالش‌های جدید و بحث‌های گسترده‌ای را به دنبال داشته است. استفاده از این فنون، به ویژه برای طراحی واسط‌های کاربر، باعث سهولت بیشتر در استفاده از نظام‌های بازیابی و فراگیرتر شدن دامنه استفاده از این نظام‌ها گردیده است.

● تحلیل و جست‌وجوی اطلاعات

بازیابی اطلاعات ممکن است به دلایل زیر باشد:

۱) حجم زیاد اطلاعاتی که می‌بایست دسترس‌پذیر گردد؛

۲) مشکلات فراهم آوردن ذخایر عظیم مواد و منابع به صورتی که بتوان به راحتی به آنها دست یافت؛

۳) افزایش مشکلات فنی ناشی از اشاعه گزینشی حجم زیاد منابع برای استفاده‌کنندگان ناهمگن (۶۶۱:۵).

در روند ذخیره و بازیابی اطلاعات دو مرحله متمایز تحلیل اطلاعات و جست‌وجوی اطلاعات را می‌توان مشخص ساخت.

● تحلیل اطلاعات

فرایند تعیین محتوای موضوعی مدارک و تبدیل آن به زبان نظام (یا مجموعه‌ای از اصطلاحات نمایه‌ای) را تحلیل اطلاعات گویند. در این مرحله، نمایه‌ساز یا کسی که کار تحلیل اطلاعات را انجام می‌دهد ابتدا باید، پس از پویش و تحلیل مفهومی مدرک، مشخص کند که مدرک درباره چیست و چه جنبه‌هایی را دربرمی‌گیرد. در نظر گرفتن نیازهای استفاده‌کننده نظام در این مرحله مسئله‌ای اساسی است. به عبارت دیگر، نمایه‌ساز نه تنها باید در مورد موضوع مدرک تصمیم‌گیری کند، بلکه باید متوجه باشد که چه جنبه‌هایی از مدرک می‌تواند برای استفاده‌کننده‌ای خاص حائز اهمیت باشد. گام بعدی، تبدیل نتیجه تحلیل مفهومی مدرک به مجموعه‌ای از اصطلاحات نمایه‌ای است. اصطلاحات نمایه‌ای ممکن است برگرفته از سیاهه‌ای مجاز از واژه‌ها (واژگان مهار شده) یا از متن مدرک و واژه‌های مؤلف باشد. شیوه دوم نمایه‌سازی با استفاده از زبان طبیعی است. در هر حال، حاصل کار، تعدادی اصطلاح است که، در مجموع، تصویری از موضوع مدرک را به دست می‌دهند و با نام‌های کلید واژه، سرعنوان موضوعی، توصیفگر، و نیز خوانده می‌شوند. تلاش‌ها و فعالیت‌های زیادی صورت گرفته تا کار تخصیص اصطلاحات نمایه‌ای به صورت ماشینی و بدون دخالت انسان انجام گیرد. بحث نمایه‌سازی خودکار برخاسته از این تلاش است. اصطلاحات نمایه‌ای یا توصیفگرهای هر مدرک به اضافه مشخصات کتابشناختی آن مدرک (نویسنده، عنوان، منبع، و چکیده)، مجموعاً یک رکورد کتابشناختی را تشکیل می‌دهند. اتخاذ روشی مناسب برای سازمان‌دادن این رکوردها در کنار یکدیگر باعث خواهد شد تا نظام بازیابی، عملکرد بهتری داشته باشد.

● واژگان مهار شده

به منظور ایجاد یکدستی و هماهنگی و نیز سهولت در بازیابی مدارک، معمولاً واژه‌ها یا اصطلاحاتی را که مبیّن موضوع مدرک هستند از سیاهه‌ای مستند به نام واژگان مهار شده انتخاب می‌کنند. فهرست‌های سرعنوان موضوعی، طرح‌های رده‌بندی، و اصطلاحنامه‌ها سه نوع واژگان مهار شده مهم هستند. زیرا در این منابع تلاش شده است تا اصطلاحات به صورت الفبایی و نیز به شکل نظام یافته ارائه شود (۱۴:۲).

نقطه مقابل استفاده از واژگان مهار شده، نمایه‌سازی با استفاده از زبان طبیعی است. منظور از زبان طبیعی واژه‌ها و کلماتی است که در متن به کار رفته و بنابراین اصطلاح "متن آزاد" را می‌توان مترادف آن در نظر گرفت. متن آزاد می‌تواند شامل عنوان، چکیده، برگزیده، یا متن کامل مدرک باشد. هنگام تحلیل اطلاعات می‌توان به جای انتخاب اصطلاحات نمایه‌ای از واژگان مهار شده، هر کدام از عناصر بالا را ذخیره کرد و در مرحله جست‌وجو مستقیماً مورد استفاده قرار داد. این روش که تاریخچه آن به کار مورتیمر تاب و نظام تکواژه‌ای او باز می‌گردد نخست به طور گسترده‌ای برای ذخیره و بازیابی متون رشته حقوق مورد استفاده قرار گرفت و با رواج و گسترش رایانه نضج گرفت. اما استفاده از زبان طبیعی دارای مزایا و معایب خاص خویش است.

● سازماندهی فایل‌ها

در نظام‌های رایانه‌ای ذخیره و بازیابی اطلاعات، داده‌ها معمولاً در قالب رکورد ذخیره می‌شوند و مجموعه‌ای از رکوردها یک فایل را تشکیل می‌دهند. شیوه ذخیره رکوردها در داخل فایل و شیوه ارتباط آنها با یکدیگر مطلبی است که تحت عنوان ساختار فایل یا سازماندهی فایل مورد بحث قرار می‌گیرد. برای سازماندهی فایل به طور معمول چندین روش وجود دارد که ساده‌ترین آنها فایل ترتیبی است. در این نوع فایل هیچ‌گونه راهنما یا اشاره‌گر ربط دهنده‌ای ایجاد نمی‌شود و معمولاً رکوردها بدون نظم خاصی در کنار یکدیگر قرار می‌گیرند. یافتن رکوردهای خاص در این گونه فایل‌ها منوط به آن است که یکایک رکوردها از ابتدای فایل بررسی شود. چنانچه با حجم زیادی از اطلاعات روبه‌رو باشیم استفاده از این نوع فایل بسیار وقت‌گیر است. در عوض، این ساختار حداقل فضای ذخیره‌سازی را به خود اختصاص می‌دهد و اجرای آن نیز نسبتاً آسان است. نوع دیگر، فایل شاخص‌دار یا فایل مقلوب است. در این نوع ساختار، که در نظام‌های معروف ذخیره و بازیابی اطلاعات به وفور مورد استفاده قرار گرفته، به ازای فیلدهای شاخص یا فیلدهایی که در نظر است بر روی آنها جست‌وجو صورت گیرد، فایل یا فایل‌های جداگانه‌ای به نام فایل شاخص یا فایل مقلوب ایجاد می‌شود. محتوای این فایل را مقادیر فیلد شاخص و نشانی متناظر به آن در فایل اصلی تشکیل می‌دهد. هنگام بازیابی، ابتدا عبارت مورد نظر در فایل مقلوب جست‌وجو می‌شود و سپس براساس شماره مدرک یا نشانی که در مقابل آن عبارت وجود دارد، رکورد کامل از فایل اصلی بازیابی می‌گردد. در این ساختار، به جهت آنکه حداقل دو فایل ایجاد می‌شود فضای بیشتری اشغال می‌گردد، ولی در مقابل، سرعت جست‌وجو و بازیابی به خصوص در پایگاه‌های حجیم تا حد زیادی بالا می‌رود. سومین نوع را فایل با دستیابی مستقیم می‌نامند دارد. در این ساختار، امکان نوشتن یا خواندن رکورد بدون در نظر گرفتن محل آن وجود دارد.

در این فایل‌ها لازم است که فیلدی به عنوان فیلد کلید مشخص گردد. در این نوع ساختار برای یافتن محل آزاد در حافظه جهت درج رکورد یا پیدا کردن رکوردی خاص، از فن آدرس‌دهیِ درهم استفاده می‌شود. مهم‌ترین ویژگی و مزیّت این ساختار، صرفه‌جویی در فضای حافظه و نیز سرعت زیاد در دستیابی به رکوردهاست. متقابلاً نقطه ضعف آن در سختی پیاده‌سازی و اجرای آن است. ساختار دیگر، ساختار زنجیره‌ای است و ویژگی آن در این است که همه اقلامی که نشان‌دهنده شناساگر فرضی مشترکی هستند با رابط‌ها یا اشاره‌گرهایی مناسب، به هم زنجیر می‌شوند. طبیعتاً یک راهنما دسترسی به اولین فقره را در هر زنجیره فراهم می‌آورد و فایل را می‌توان با تعقیب اشاره‌گرهای درونی هر زنجیره جست‌وجو کرد. فایل‌های زنجیره‌ای نسبت به فایل‌های ترتیبی سرعت بیشتری را فراهم می‌آورند، اما به فضای ذخیره‌سازی قابل توجهی برای ذخیره اشاره‌گرها و راهنماها نیاز دارند (۶۲۲:۵).

● جست‌وجوی اطلاعات

در این مرحله، وظیفه نظام ذخیره و بازیابی، بررسی و شناخت درخواست استفاده‌کننده، پویش یا جست‌وجو در بانک اطلاعاتی، و یافتن و نمایش رکوردهایی است که با درخواست ارائه شده انطباق دارد. دستیابی به این هدف، یعنی یافتن اطلاعاتی که نیاز استفاده‌کننده را به طور قطع برطرف کند عملاً کار آسانی نیست، زیرا از یک سو استفاده‌کننده به طور دقیق نیاز اطلاعاتی خود را نمی‌داند و در برخی اوقات نیز علی‌رغم آگاهی به نیاز اطلاعاتی خود، ممکن است نتواند آن را با عبارت‌های مناسب بیان کند. از سوی دیگر، ممکن است اصطلاحات یا عباراتی که به عنوان موضوع مدارک در نظر گرفته شده چندان دقیق نباشند و نتوانند تصویر کاملی از محتوای مدرک بدست دهند. بدین سبب گفته می‌شود که وجه خروجی نظام بازیابی اطلاعات (پاسخگویی به درخواست استفاده کننده) همواره پیچیده‌تر از وجه ورودی آن است و بدین لحاظ باید بخش خروجی مورد توجه بیشتری قرار گیرد (۱۴:۳).

شیوه‌های بازیابی اطلاعات را می‌توان در نگاه کلی به دو دسته:

ـ نظام‌های مبتنی بر انطباق مطلق و

ـ نظام‌های مبتنی بر انطباق نسبی، تقسیم کرد (۱۵۳:۳).

فنون انطباق مطلق در حال حاضر در بسیاری از نظام‌های سنتی بازیابی اطلاعات مورد استفاده قرار می‌گیرد. پرس‌وجوها در این روش معمولاً با استفاده از عملگرهای بولی تدوین می‌شوند و، برای بازیابی، تنها انطباق واژه‌های پرسش با عبارت‌های موجود در مدرک کفایت می‌کند.

در انطباق نسبی یا انطباق برتر[۴] این امکان وجود دارد که نظام بازیابی را بتوان با ورود رشته‌ای از اصطلاحات که بیانگر نیاز اطلاعاتی هستند، بدون استفاده از عملگرهای بولی، جست‌وجو کرد. در این نوع، نظام دنبال قطعاتی از متن می‌گردد که بهترین انطباق را با رشته ورودی داشته باشد. بنابراین، اگر رشته اصلی شامل پنج کلمه باشد و مدرکی در بانک اطلاعاتی نیز کلّ پنج واژه را دربرگیرد این مدرک حداکثر وزن ممکن را گرفته و در رأس سیاهه موارد بازیابی رشته قرار می‌گیرد (۱۵۳:۳). بر این اساس، الگوها و فنون مختلفی برای بازیابی شکل گرفته است که به عنوان مدل‌های کلاسیک و مدل‌های پیشرفته از آنها یاد می‌شود. مدل‌های کلاسیک بازیابی شامل مدل بولی، فضای برداری[۵] ، و مدل‌های احتمالی[۶] است. مدل‌های پیشرفته، علاوه بر مدل‌های فوق، شامل بازیابی براساس منطق مشکک (فازی)[۷] ، نمایه‌سازی معنایی نهفته[۸] ، شبکه‌های استنتاجی[۹] ، و نیز الگوهای مبتنی بر مرور شامل نظام‌های بازیابی فرامتن است (۱: ۲۴-۶۰).

● مدل بولی

اولین روش بازیابی که در نظام‌های اطلاعاتی اجرا شد مدل بولی بود که در آن اصطلاحات پرس‌وجو با عملگرهای بولی بیان شده و با نمایه مقلوب مقایسه می‌گردید. توانایی عملگرهای بولی برای ترکیب مفاهیم اجزا (AND) و مترادف (OR) و نیز زمان پاسخ سریع، این مدل را مدلی عام برای نظام‌های بازیابی ساخت.

با فراگیرتر شدن نظام‌های بازیابی بولی، تدوین پرس‌وجوهای مؤثر برای عموم افرادی که با منطق آشنا نبودند دشوار گردید. علاوه بر آن، نظام بولی اغلب تعداد مدارک را با توجه به ماهیت حساس منطق خود که پاسخی انعطاف‌ناپذیر در برابر بود یا نبود اصطلاحی واحد نشان می‌داد بازیابی می‌کرد.

برای غلبه بر مسئله بازیابی مدارک زیاد بدون توجه به میزان اهمیت کاربردی بالقوه آنها ـ اصلاحاتی در نظام صورت گرفت تا با اختصاص وزن‌هایی به اصطلاحات، براساس اهمیت "متصوّر" آنها، خروجی‌های ترتیبی تولید شود. روش‌های اصلاحی دیگر مانند کنترل فرایند تدوین پرسش برای کاهش مشکل ساخت پرس‌وجوهای بولی پیچیده نیز مورد تحقیق قرار گرفته است.

● مدل فضای بُرداری

در حالی که برخی تلاش کردند تا با انجام اصلاحاتی در مدل بولی بر نقاط ضعف آن غلبه کنند، دیگران با راهبرد متفاوتی به نام مدل فضای برداری به بازیابی اطلاعات پرداختند. در این مدل، مدارک و پرس‌وجوها به صورت بردارهایی در فضایی سه بعدی در نظر گرفته می‌شود که هر بعد با مدخلی در نمایه مقلوب متناظر است. مثلاً مدرک D و پرس و جوی Q در شکل برداری به صورت D= (d۱, d۲, d۳, .... dn)و Q= (q۱, q۲, q۳, .... qn) بیان می‌شود که n مجموع اصطلاحات نمایه‌ای و هر کدام از مقادیر داخل پرانتز وزن هر اصطلاح بوده که بیانگر اهمیت اصطلاح است.

شناخته شده‌ترین وزن اصطلاحی، بسامد مقلوب مدرک نامیده می‌شود که با بسامد مجموعه (تعداد مدارک مجموعه‌ای که در آن یک اصطلاح خاص وجود دارد) تغییر می‌کند. بسامد مقلوب مدرک نوعاً از طریقdkN Log محاسبه می‌شود که در آن N تعداد مدارک مجموعه و dk تعداد مدارکی است که اصطلاح k در آن ظاهر می‌شود. فرمول‌های مختلفی برای محاسبه اوزان اصطلاح وجود دارد که برخی از آنها گونه‌هایی از وزن IDFبوده و از بسامد مدرک (تعداد دفعاتی که اصطلاحی در مدرکی ظاهر می‌شود) و عادی‌سازی بهره می‌گیرند. مثلاً می‌توان IDF را در بسامد مدرک ضرب کرد (تا اصطلاحاتی که مکرراً در مدرکی ظاهر می‌شوند اهمیت بیشتری پیدا کنند) و بر عامل عادی‌سازی طول بردارها تقسیم کرد تا طول متغیر بردارهای مدرک مجموعه تنظیم شود. این عمل تابع فرمول زیر است:

Wki = idfk×tfk i Svector i (tfi×idf)۲

که در آن Wki وزن اصطلاح K موجود در مدرک d، tfki بسامد اصطلاح k در مدرک d، idfk بسامد مقلوب مدرک، و مخرج کسر عامل عادی‌سازی، و idfk بسامد مقلوب مدرک است.

مدل‌برداری، سیاهه‌ای ترتیبی از مدارک براساس مشابهت آنها با پرسش، با در نظر گرفتن زاویه میان بردار مدرک و بردار پرسش، به عنوان مقیاس مشابهت ارائه می‌دهد. علاوه بر فرمول‌های توزین اصطلاح، فرمول‌های دیگری نیز برای محاسبه مشابهت "پرسش ـ مدرک" پیشنهاد شده است. آزمایش‌ها نشان داده است که انتخاب مقیاس جدید مشابهت می‌تواند بر عملکرد بازیابی تأثیر قابل ملاحظه‌ای داشته باشد. یکی از مقیاس‌های مشابهت که به طور گسترده مورد استفاده قرار گرفته مشابهت کسینوسی است که حاصل ضرب درونی میان عناصر عادی سازی شده بردار در طول بردارهاست.

گونه دیگری از مدل‌برداری مدل خوشه‌ای است که در آن با محاسبه مشابهت برداری مدرک به مدرک و با استفاده از معیارهای خوشه‌بندی گروهی از مدارک شکل می‌گیرد. معیارهای خوشه‌بندی مشخص می‌کند چه چیز خوشه‌ای از مدارک را تشکیل می‌دهد. برخلاف مدل فضای برداری که در آن بردار هر پرسش با بردار هر مدرک مقایسه می‌شود، در اینجا، بردار هر پرسش با بردار مرکز خوشه، یعنی برداری که خوشه را به صورت کلی ارائه می‌کند، مقایسه می‌گردد.

مزیت رویکرد خوشه‌ای زمانی جلوه‌گر می‌شود که با مجموعه مدارکی به کار رود که بتواند خوشه‌های فشرده تشکیل دهد. همچنین، این مدل در محیطی مؤثر شناخته می‌شود که خوشه‌ها تمایل به ارائه مشترک مدارک مرتبط داشته باشند. با این حال، هیچ تضمینی وجود ندارد که مجموعه مدارک مفروض ضرورتاً به ساختار خوشه‌بندی مفیدی بینجامد، و حتی در موارد مفید، هزینه محاسبه ساخت، نگهداشت، و جست‌وجو در خوشه‌های کوچک و همبسته ممکن است به طور سرسام آوری بالا باشد.

مدل احتمالی. این مدل نخستین بار توسط استیو رابرتسن و کارن اسپارک جونز در سال‌های ۱۹۷۰ معرفی شد. این مدل به لحاظ اینکه مدارک و پرسش‌ها را به صورت بردار عرضه می‌کند شبیه مدل‌برداری است، اما به جای بازیابی مدارک براساس میزان مشابهت با پرسش، مدارک را براساس احتمال ارتباطشان با پرسش بازیابی می‌کند. احتمال ربط مدرکی خاص به پرسش را می‌توان با جمع اوزان ربط اصطلاحات آن مدرک، یعنی برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرک مرتبط، و نه در مدرک غیرمرتبط، محاسبه کرد.

در مدل بازیابی کلاسیک احتمالی، این احتمالات اصطلاح از طریق مجموعه‌ای نمونه از مدارک و پرسش‌ها همراه با قضاوت مرتبط مربوط به آن تخمین زده می‌شود. با وجود این، اجرای فرایند تخمین به صورت عملیاتی مشکل است، زیرا جمع‌آوری داده‌های ربط لازم قبل از جست‌وجوی واقعی عملاً غیرممکن است. در نتیجه، برای تخمین احتمال اصطلاح، معمولاً، در این مدل از بازخورد ربط استفاده می‌کنند (۳:۷-۵).

● فرامتن

شکل دیگری که برای جست‌وجو و بازیابی اطلاعات ارائه شده، و به خصوص در سال‌های اخیر با رشد شبکه وب گسترش یافته است، بازیابی فرامتنی است. روش‌هایی که تاکنون ذکر شد عمدتاً بر این محور استوار است که کاربر پرسش خود را در قالب واژه‌ها و عباراتی به نظام ارائه کند تا نظام، پس از جست‌وجو، تعدادی مدرک را به عنوان نتیجه جست‌وجو بازگرداند. در مقابل این نظام‌ها که می‌توان آنها را نظام‌های پرسش مدار نامید، نظام‌های فرامتن تلاش می‌کنند با ایجاد پیوندهای مفهومی میان مدارک و فراهم‌آوردن امکان مرور و راهبری، کاربر را در رسیدن به مدرک مورد نظر یاری دهند. از این دو نوع رویکرد، به ترتیب، به حرکت از کجا به چه (کاربر می‌داند در کجای بانک اطلاعاتی است و می‌خواهد بداند در آنجا چه چیز وجود دارد) و حرکت از چه به کجا (کاربر می‌داند چه چیزی می‌خواهد و می‌خواهد بداند آن چیز را در کجا می‌تواند بیابد) تعبیر شده است (۳۰۰:۴). در نظام‌های فرامتن، هر کدام از مدارک یا الام اطلاعاتی، یک گره و رابطه میان گره‌ها، پیوند نامیده می‌شود. در هر گره یک یا چند واژه یا عبارت برجسته وجود دارد که آن را لنگر[۱۰] می‌نامند و زمانی که از سوی کاربر انتخاب یا فعال می‌شوند، با استفاده از پیوندها، کاربر را به گره مرتبط دیگری هدایت می‌کنند. گره‌ها علاوه بر متن می‌توانند شامل قطعات صوتی و تصویری مانند موسیقی، فیلم، عکس، و جز آن نیز باشند.

● ارزیابی نظام بازیابی

در بحث از ارزیابی نظام باید به سه پرسش پاسخ گفت:

۱) دلیل ارزیابی نظام چیست؟

۲) چه عنصری از نظام ارزیابی می‌شود؟

۳) ارزیابی نظام چگونه یا به چه شیوه‌ای صورت می‌گیرد؟

ارزیابی نظام به منظور سنجش منافع یا زیان‌هایی که از نظام بازیابی حاصل می‌شود و نیز برای سنجش هزینه و سودمندی نظام صورت می‌گیرد. در ارزیابی معمولاً عناصر زیر که گویای توانایی نظام در رفع نیاز استفاده‌کننده است مورد توجه قرار می‌گیرد:

۱) پوشش مجموعه، یا تعداد مدرک مرتبطی که در هر مجموعه وجود دارد؛

۲) زمان پاسخگویی، یعنی فاصله متوسط میان زمان درخواست جست‌وجو و به‌دست‌آوردن پاسخ؛

۳) شکل خروجی، یعنی شکل مدارک بازیابی شده، شماره مدرک، مآخذ کتابشناختی، مآخذ همراه با چکیده‌ها، متن کامل، و جز آن؛

۴) تلاش استفاده کننده، یعنی کوششی که استفاده‌کننده در مرحله خروجی (جدا کردن مدارک مرتبط از نامرتبط)، در مرحله درخواست (بیان هر چه دقیق‌تر پرسش یا نیاز اطلاعاتی)، و در مرحله تدوین راهبرد جست‌وجو (بررسی راهبرد تدوین شده و اصلاح آن) انجام می‌دهد؛

۵) جامعیت، یعنی توانایی نظام در بازیابی متون مرتبط؛ و

۶) مانعیت، یعنی توانایی نظام در بازیابی نکردن متون نامرتبط.

گفته می‌شود که موارد ۱ تا ۴ به راحتی قابل ارزیابی است لیکن این جامعیت و مانعیت است که در کنار یکدیگر سودمندی نظام را نشان می‌دهند. در واقع این دو معیار در کنار هم توانایی *****ی نظام را بیان می‌کنند و استفاده از هر کدام از آنها به تنهایی چندان کارساز نیست (۵۵:۳-۶۱؛ ۲۰۴:۶). در هر نظام بازیابی، مطلوب آن است که نسبت جامعیت و مانعیت هر دو ۱۰۰ درصد باشند، یعنی نظام بتواند کلیه مدارک مرتبط موجود را بازیابی کند و در عین حال هیچ یک از مدارک غیرمرتبط را را نیز ارائه ندهد. اما رسیدن به چنین آرمانی عملاً غیرممکن است، و در واقع این مسئله یکی از مهم‌ترین تفاوت‌های میان نظام‌های ذخیره و بازیابی اطلاعات و نظام‌های مدیریت پایگاه داده‌ها را تشکیل می‌دهد. جامعیت و مانعیت با یکدیگر رابطه‌ای معکوس دارند، یعنی هر گونه تلاشی برای افزایش مانعیت منجر به کاهش جامعیت و هرگونه کوششی برای افزودن جامعیت باعث کاهش مانعیت می‌شود. بنابراین، در عمل باید به نسبتی معقول میان این دو رسید. نیاز استفاده‌کننده یکی از عوامل مؤثر در تعیین این نسبت است.

ورود

آموزش ذخیره و بازیابی اطلاعات

ارسال های توصیه شده

moein_13 528

لینک به دیدگاه

به گفتگو بپیوندید

سایت نواندیشان

انجمن نواندیشان

فعالیت ها

جریان فعالیت های من

کسب درآمد کنید