روش جستجو در اينترنت

بازدید: 1806 بازدید
search

جستجو در اينترنت

در سال 2000 حدود يكصدميليون پايگاه وب بر روي شبكه جهاني اينترنت وجوددارد و پيش بيني مي شود كه تنها پس از گذشت 2 سال ، در سال 2002 به 250 ميليون پايگاه رسید. با رشد تصاعدي حجم اطلاعات ، يافتن اطلاعات موردنظر در اين درياي پهناور كار مشكلي است و بكارگيري ابزارهاي جستجوي مناسب يكي از ضروريات كار باشبكه مي باشد.
موتورهاي جستجو از سال 1994 مورداستفاده قرار گرفتند. در ابتدا فعاليت آنها فقطجستجو در وب بود ولي با گذشت زمان ، خدمات ديگري از جمله فروش كالا، اجاره فضاي وب و پست الكترونيك ، تحليل سايتها و… به فعاليت آنها اضافه شد.

انواع موتور جستجو

 موتورهاي عمومي كه در كليه پايگاهها فارغ از نوع آن جستجو مي كنند. موتورهاي عمومي معروف عبارتند از:     

altavista.com, google.com, go.com, hotbot.com .

موتورهاي تخصصي در يك رشته خاص مانند اخبار “news.com”، تجارت “deja.com”، شركتها “yellow pages.com”،افراد  2- “whowhere.com”، مقالات و انتشارات “infojump.com

بهترين پايگاه   magellan .comو deja.com موتورهاي تخصصي در خدمات اينترنت مانند گروههاي خبري و مباحثه –3

  • 4- موتورهاي كلان ; اين موتورها عبارت مورد جستجو را همزمان به چند موتورجستجو داده و پاسخها را اولويت بندي كرده و با ذكر نام
  • com,savvysearch.com موتور جستجو نمايش مي دهند.مانند:

5-نقطه شروع ; اينگونه سايتها موتورهاي جستجو را برحسب موضوعات مختلف معرفي مي كنند. درصورتي كه موتورهاي تخصصي و عمومي رانمي شناسيد از اين پايگاهها شروع كنيد. مانند:  

   6-موتور اختصاصي پايگاهها; بعضي از پايگاههاي بزرگ مانند مايكروسافت ، جنرال الكتريك ،… از داخل پايگاه خود موتور جستجو دارند.    جديدا مي توان از موتورهاي جستجو عمومي مانند hotbot,altavista,… در يك پايگاه جهت جستجو در آن استفاده كرد.
تقسيم بندي ديگري كه از موتور جستجو مي توان كرد، موتورهاي جستجوگر، و دوم موتورهايي است كه پايگاهها را دسته بندي موضوعي   -7   كرده اند و به آنها web directoryگفته مي شود. معروفترين آنها webcrawear,yahooاست . درحال حاضر اكثر موتورهاي جستجو دسته بندي موضوعي نيز دارند و در هر دسته و يا زيرشاخه هاي بعدي مي توان جستجو كرد.

نحوه كار موتورهاي جستجو

در اين مقاله فقط نحوه كار موتورهاي عمومي بررسي مي شود. موتورهاي عمومي ازبرنامه هايي معروف به crawler,robot و يا spiderبراي يافتن و مرور صفحات وب استفاده مي كنند. نحوه كار اين برنامه ها بدين صورت است كه با يافتن يك صفحه كلمات مورداستفاده در آن را شناسايي كرده و به جداول فهرست بانك اطلاعاتي خود اضافه مي كنند درواقع موتورها صفحات وب را در بانك اطلاعاتي نگهداري نمي كنند بلكه دربانك اطلاعاتي فهرستي از كلمات وآدرس صفحات مشمول اين كلمات مي باشد.
كار ديگر اين برنامه ها اين است كه به صفحات فهرست شده قبلي مراجعه كرده ودرصورت به روز شدن صفحات ، مجددا آنها را فهرست بندي مي كنند. ممكن است پايگاه موردنظرموجودنبوده وياآدرس آن عوض شده باشد.
عوامل مهم در فهرست كردن يك صفحه وب ، تعداد وقوع كلمه در صفحه ، محل قرارگيري آن ، نوع فايلهاي مورداستفاده در صفحه ، درجه اهميت كلمه در صفحه با توجه به كليد واژه هاي تعيين شده توسط مالك صفحه و توضيحات آمده در بخش دستورات meta در شناسنامه صفحه مي باشد.موتورهاي جستجو باتوجه به حجم بانك اطلاعاتي و برنامه هايشان به پايگاههاي جديد مراجعه مي كنند ولي مطمئنا تمام پايگاههاي وب را شامل نمي شوند. بزرگترين موتور جستجوي عمومي حدود 500 ميليون صفحه وب را شامل مي شود. درصورتي كه مي خواهيد پايگاه وب شما به بانك اطلاعاتي يك موتور جستجو اضافه شود پايگاه وب خود را به آن موتور جستجو معرفي كنيد در صفحات وب ، در بخش دستورات شناسنامه اي صفحه ، كليد واژه هاي موردنظر خود را معرفي كنيد. موتورهاي جستجوعمومي به دو روش كلمات را فهرست بندي مي كنند.

اغلب موتورهاي جستجو براساس كلمات فهرست بندي مي كنند.درواقع درجستجوكلمات هم معني راتشخيص نمي دهند. (keyword indexing)     

معروفترين موتوري كه براساس مفهوم جستجو مي كندمي باشد. excite.com

نكته ديگري كه در فهرست بندي بايد بدانيد اين است كه هر موتور چه بخشهايي ازيك صفحه را فهرست مي كند. براي مثال ممكن است فقط hyperlink,heading, titleها ويا چند خط اول صفحه را فهرست كند. در برخي از موتورهاي جستجو مانند opentextمي توان تعيين كرد كه كلمه مورد جستجو در كجاي صفحه باشد. براي مثال در…,heading,title نكته ديگر كلمات معروف به stop word هستند مانند  web,and,or,the,is,an,a   و… بعضي از موتورها اين كلمات را درنظر نمي گيرند. مانند:

عوامل مهم در انتخاب موتور جستجو

عوامل زيردرانتخاب موتورجستجومهم هستند:
حجم بانك اطلاعاتي موتور جستجو و تعداد صفحات مرور شده توسط آن
به روز بودن بانك اطلاعاتي
تعداد صفحات مرورشده در روز
سرعت برگرداندن نتايج جستجو
تعداد سرويس دهنده هاي آن در شبكه اينترنت جهت كاهش ترافيك و افزايش سرعت
نحوه نمايش نتايج جستجو و كنترل آن توسط كاربر
نحوه اولويت بندي نتايج حاصله و ارتباط آنها با يكديگر و كنترل آن توسط كاربر
راحتي استفاده
صفحات معرفي شده به آن طي چند روز در فهرست قرار مي گيرند
پشتيباني ,imagemap,frameامنيت در پايگاهها
قابليت جستجو در نتايج
پشتيباني stop words
حساس به حروف بزرگ و كوچك
پشتيباني عبارت
عدم محدوديت درتعدادحروف عبارت جستجو
دسته بندي موضوعي وامكان جستجودرهردسته
جستجو در خدمات اينترنت شامل وب ، گروههاي خبري و مباحثه ،…
پشتيباني عملگرهاي جستجو
پشتيباني زبانهاي مختلف وتبديل زبانهابه يكديگر
جستجو براساس تاريخ
منبع: نواندیشان
مقالات، مطالب، طرح ها و پروژه های خود را برای قرارگیری در سایت علمی آموزشی نواندیشان از اینجا بفرستید.

ادامه مطلب