جستجو در اينترنت
در سال 2000 حدود يكصدميليون پايگاه وب بر روي شبكه جهاني اينترنت وجوددارد و پيش بيني مي شود كه تنها پس از گذشت 2 سال ، در سال 2002 به 250 ميليون پايگاه رسید. با رشد تصاعدي حجم اطلاعات ، يافتن اطلاعات موردنظر در اين درياي پهناور كار مشكلي است و بكارگيري ابزارهاي جستجوي مناسب يكي از ضروريات كار باشبكه مي باشد.
موتورهاي جستجو از سال 1994 مورداستفاده قرار گرفتند. در ابتدا فعاليت آنها فقطجستجو در وب بود ولي با گذشت زمان ، خدمات ديگري از جمله فروش كالا، اجاره فضاي وب و پست الكترونيك ، تحليل سايتها و… به فعاليت آنها اضافه شد.
انواع موتور جستجو
موتورهاي عمومي كه در كليه پايگاهها فارغ از نوع آن جستجو مي كنند. موتورهاي عمومي معروف عبارتند از:
altavista.com, google.com, go.com, hotbot.com .
موتورهاي تخصصي در يك رشته خاص مانند اخبار “news.com”، تجارت “deja.com”، شركتها “yellow pages.com”،افراد 2- “whowhere.com”، مقالات و انتشارات “infojump.com
بهترين پايگاه magellan .comو deja.com موتورهاي تخصصي در خدمات اينترنت مانند گروههاي خبري و مباحثه –3
- 4- موتورهاي كلان ; اين موتورها عبارت مورد جستجو را همزمان به چند موتورجستجو داده و پاسخها را اولويت بندي كرده و با ذكر نام
- com,savvysearch.com موتور جستجو نمايش مي دهند.مانند:
5-نقطه شروع ; اينگونه سايتها موتورهاي جستجو را برحسب موضوعات مختلف معرفي مي كنند. درصورتي كه موتورهاي تخصصي و عمومي رانمي شناسيد از اين پايگاهها شروع كنيد. مانند:
6-موتور اختصاصي پايگاهها; بعضي از پايگاههاي بزرگ مانند مايكروسافت ، جنرال الكتريك ،… از داخل پايگاه خود موتور جستجو دارند. جديدا مي توان از موتورهاي جستجو عمومي مانند hotbot,altavista,… در يك پايگاه جهت جستجو در آن استفاده كرد.
تقسيم بندي ديگري كه از موتور جستجو مي توان كرد، موتورهاي جستجوگر، و دوم موتورهايي است كه پايگاهها را دسته بندي موضوعي -7 كرده اند و به آنها web directoryگفته مي شود. معروفترين آنها webcrawear,yahooاست . درحال حاضر اكثر موتورهاي جستجو دسته بندي موضوعي نيز دارند و در هر دسته و يا زيرشاخه هاي بعدي مي توان جستجو كرد.
نحوه كار موتورهاي جستجو
در اين مقاله فقط نحوه كار موتورهاي عمومي بررسي مي شود. موتورهاي عمومي ازبرنامه هايي معروف به crawler,robot و يا spiderبراي يافتن و مرور صفحات وب استفاده مي كنند. نحوه كار اين برنامه ها بدين صورت است كه با يافتن يك صفحه كلمات مورداستفاده در آن را شناسايي كرده و به جداول فهرست بانك اطلاعاتي خود اضافه مي كنند درواقع موتورها صفحات وب را در بانك اطلاعاتي نگهداري نمي كنند بلكه دربانك اطلاعاتي فهرستي از كلمات وآدرس صفحات مشمول اين كلمات مي باشد.
كار ديگر اين برنامه ها اين است كه به صفحات فهرست شده قبلي مراجعه كرده ودرصورت به روز شدن صفحات ، مجددا آنها را فهرست بندي مي كنند. ممكن است پايگاه موردنظرموجودنبوده وياآدرس آن عوض شده باشد.
عوامل مهم در فهرست كردن يك صفحه وب ، تعداد وقوع كلمه در صفحه ، محل قرارگيري آن ، نوع فايلهاي مورداستفاده در صفحه ، درجه اهميت كلمه در صفحه با توجه به كليد واژه هاي تعيين شده توسط مالك صفحه و توضيحات آمده در بخش دستورات meta در شناسنامه صفحه مي باشد.موتورهاي جستجو باتوجه به حجم بانك اطلاعاتي و برنامه هايشان به پايگاههاي جديد مراجعه مي كنند ولي مطمئنا تمام پايگاههاي وب را شامل نمي شوند. بزرگترين موتور جستجوي عمومي حدود 500 ميليون صفحه وب را شامل مي شود. درصورتي كه مي خواهيد پايگاه وب شما به بانك اطلاعاتي يك موتور جستجو اضافه شود پايگاه وب خود را به آن موتور جستجو معرفي كنيد در صفحات وب ، در بخش دستورات شناسنامه اي صفحه ، كليد واژه هاي موردنظر خود را معرفي كنيد. موتورهاي جستجوعمومي به دو روش كلمات را فهرست بندي مي كنند.
اغلب موتورهاي جستجو براساس كلمات فهرست بندي مي كنند.درواقع درجستجوكلمات هم معني راتشخيص نمي دهند. (keyword indexing)
معروفترين موتوري كه براساس مفهوم جستجو مي كندمي باشد. excite.com
نكته ديگري كه در فهرست بندي بايد بدانيد اين است كه هر موتور چه بخشهايي ازيك صفحه را فهرست مي كند. براي مثال ممكن است فقط hyperlink,heading, titleها ويا چند خط اول صفحه را فهرست كند. در برخي از موتورهاي جستجو مانند opentextمي توان تعيين كرد كه كلمه مورد جستجو در كجاي صفحه باشد. براي مثال در…,heading,title نكته ديگر كلمات معروف به stop word هستند مانند web,and,or,the,is,an,a و… بعضي از موتورها اين كلمات را درنظر نمي گيرند. مانند: