رفتن به مطلب
Fahim

سرويس اخبار شبکه علمی کشور

پست های پیشنهاد شده

مقدمه

در سالهاي پيشين روزنامه‌ها و رسانه‌هايي مانند راديو و تلويزيون منبع اصلي پخش اخبار در جوامع مختلف و دنيا بوده است. اما امروزه، با توجه به نيازجوامع به دسترسي به همه اخبار در کوتاه‌ترين زمان ممکن، شبکه جهاني اينترنت مبدل به مهمترين منبع دستيابي به اخبار در سراسر جهان شده است. طولاني بودن فواصل انتشار روزنامه‌ها و محدوديت زماني در رسانه‌هايي مانند تلوزيون و عدم توانايي آنان در ارائه تمامي اخبار روزانه باعث شده که اين رسانه‌ها نتوانند با اينترنت به عنوان يک ابزار اطلاع رساني کامل برای مصرف کنندگان خبر رقابت کنند.news.gif

اما مشکل اينترنت در امر اطلاع رساني، پراکندگي اطلاعات موجود در شبکه جهاني است. اگرچه تمامي اطلاعات و اخبار موجود در اينترنت از طريق يک پايانه قابل دسترسي هستند، اما پراکندگي اطلاعات در سايتهاي مختلف که تعداد آنها بسيار زياد است، امکان زير نظر داشتن تمامي اخبار انتشار يافته از مراکز پخش خبر را عملاً غير ممکن ميسازد. با توجه به اين نکته، ايجاد يک مرکز تجمع جهت ارائه تمامي اخبار منتشره از سوي خبرگزاريها ، روزنامه‌ و منابع مختلف از اهميتي خاص برخوردار مي‌شود. سرويس اخبار ارائه شده در شبکه علمي کشور با توجه به اين نکات طراحي شده است. اين سرويس با جمع‌آوري اخبار از منابع مختلف خبري و ارائه آن از طريق يک سايت واحد اين امکان را فراهم مي‌سازد تا کاربران بتوانند از طريق يک نقطه به تمامي اخبار و اطلاعات خبري منتشره از منابع مختلف دسترسي داشته باشند.

 

سايت‌هاي خبري

اغلب خبرگزاريها و رسانه‌های عمومی اقدام به انتشار اخبار از طريق سايت‌هاي خود مي‌کنند. مي‌توان گفت که سايت‌هاي خبري در کنار وبلاگها، نمونه‌هاي پرکاربرد دسته‌اي از نرم‌افزارهای توليد محتوا در اينترنت موسوم به Content Manager مي‌باشند. پروتکل‌هايي برای انتشار اخبار به صورت Web Service وجود دارد که مي‌توانند مورد استفاده نرم ‌افزارها و سيستم‌هاي خودکار قرار گيرد. از جمله اين پروتکل‌های مي‌توان به RSS، RDF ، Atom و NNTP اشاره کرد که سه پروتکل اول نسخه‌هاي خاصي از زبان داده‌اي XML مي‌باشند. برخي از Content Managerها توانايي ارائه Web Service به صورت خودکار را دارند که اين سرويس‌ها مي‌توانند مورد استفاده ساير نرم‌افزارها قرار گيرند و برخي از سايت‌ها(از جمله بيشتر سايتهاي خبری موجود به زبان فارسي) نيز از ارائه اين خدمات امتناع مي‌کنند.

 

Crawler اخبار

Crawler يا خزنده به دسته‌اي از نرم‌افزارها گفته مي‌شود که با واکشي صفحات وب مي‌تواند داده‌هايي از آنها را استخراج کرده و جهت پردازش‌هاي بعدي آماده کند. از اين تکنيک مي‌توان در جهت واکشي و ذخيره سازي اخبار از منابع مختلف و ارائه آنها از طريق يک سايت واحد استفاده کرد. با اين ديدگاه Crawler طراحي شده قادر است با استفاده از الگوهاي تعريف شده براي هر سايت خبري ، در فواصل زماني تعيين شده به سايت خبري مورد نظر مراجعه کرده و اخبار جديد را استخراج نمايد.

 

مشخصات سيستم طراحي شده

Crawler طراحي شده به منظور واکشي اخبار در قالب دو زير سيستم پياده سازي شده و زير سيستم سوم، جهت واکشي Content اخبار نيز در مراحل پاياني پياده سازي قرار دارد. اين زيرسيستم‌ها براي محيط سيستم عامل ويندوز با زبان برنامه سازي دلفي پياده سازی شده است و از Mysql به عنوان موتور بانک اطلاعاتي استفاده مي‌کند.

 

.:. RSS Builder

زير سيستم اول مورد استفاده در اين سيستم ، نرم افزار RSS Builder است. اين نرم‌افزار هوشمند با دريافت آدرس صفحات سايتهاي خبري و روزنامه‌ها و همچنين ، Pattern توصيف کننده بخش‌هاي مختلف سايت مذکور و با اعمال الگوريتم‌هاي مکاشفه‌اي (heuristic) برروي داده‌هاي متني اطلاعات موجود در صفحات را در قالب رشته‌هاي تطبيق پذير با الگوهاي تعريف شده استخراج مي‌کند و در قالب استاندارد RSS ذخيره مي‌کند. داده‌هاي تبديل شده به RSS در اين نرم افزار به طور مستقل به عنوان يک سرويس جانبي قابل ارائه است. همچنين اين نرم‌افزار از يک الگوريتم هوشمند پردازش زمان بهره مي‌برد که قادر است اطلاعات مربوط به زمان انتشار مطالب را در قالب‌ها ، فرمت‌ها و تقويم‌هاي مختلف (هجري شمسي، ميلادي و GMT هاي مختلف زماني) استخراج کرده و به تقويم و زمان مبدا تعريف شده در آن (هجري شمسي، تهران) تبديل کند.

از جمله توانايي‌هاي ديگر اين نرم افزار توليد آدرس‌هاي ديناميک Content Manger ها مي‌باشد. برخي از سايتها از جمله روزنامه‌ها از آدرس‌هاي ديناميک براي انتشار محتويات خود استفاده مي‌کنند که اين امر موجب ناممکن شدن پردازش اين گونه از سايتها توسط Crawler هاي متعارف مي‌گردد. اما با فراهم آوردن امکان توصيف الگو مورد استفاده در آدرس ديناميک اين‌گونه از سايتها با ايجاد يکScript Language خاص اين‌گونه از آدرس‌ها، امکان پردازش اين دسته از سايت‌ها توسط اين Crawler فراهم آمده است.

 

.:. News Feeder

زير سيستم دوم مورد استفاده در اين سيستم، نرم افزار News Feeder است. اين نرم افزار قادر است با دريافت آدرس RSS Feederهاي دور و يا نزديک و با مراجعه ادواري به آنها ، محتواي اطلاعاتي آنها را دريافت و در بانک اطلاعاتي محلي ذخيره کند. از آنجايي که در بسياري از موارد سايت‌هاي خبري فارسي اطلاعات خود را در قالب پروتکلهاي مرسوم ارائه نمي‌دهند و يا اطلاعات ارائه شده در Web Service هاي آنها ناکافي و بعضاً داراي اشتباهات گرامري است ، در سيستم فعلي نرم افزار News Feeder اغلب اطلاعات را از زير سيستم اول دريافت مي‌کند تا سايتهاي ارائه دهنده اخبار. اين نرم افزار در حال حاضر پروتکل‌هاي RSS v1.0 ، RSS v2.0 و RDF را پشتيباني مي‌کند.

 

.:. Content Fetcher

زير سيستم در حال پياده سازي Content Fetcher نرم افزار مستقلي است که با دريافت آدرس هاي اينترنتي از يک بانک اطلاعاتي و در اختيار داشتن الگوهاي تعريف شده براي هر سايت خبري ، محتواي اطلاعاتي آنها را استخراج کرده و مجدداً در بانک اطلاعاتي ذخيره مي‌کند. توجه به اين نکته ضروري است که صفحات توليد شده توسط Content Manager ها ممکن است به دو صورت محتواي اطلاعات را در اختيار بگذارند. در برخي موارد (مانند سايت‌هاي روزنامه‌ها) عنوان و محتواي اخبار در قالب يک صفحه واحد ارائه مي‌شوند که در اين حالت نرم افزار RSS Builder با ارائه Pattern مناسب قادر به استخراج مستقيم محتواي اطلاعات مي‌باشد. در حالت ديگر، سايت‌هاي خبري ممکن است در صفحات خود عنوان و آدرس خبر را ارائه دهند و در محتواي اخبار از طريق آن آدرس، در اختيار قرار گيرد. در اين حالت نرم‌افزارContent Fetcher مي‌تواند با دريافت آدرس‌ها از يک بانک اطلاعاتی و الگوهاي مرتبط ، محتواي اخبار را استخراج کند. با توجه به تعداد زياد اخبار منتشره از سوي منابع مختلف، لازم است که واکشي و ذخيره سازي محتويات خبري به صورت موازي انجام شود.به اين لحاظ الگوريتم طراحي شده در اين زير سيستم الزاماً بايد از روش‌هاي موازي سازي استفاده کند.

WEB Interface

اينترفيس ايجاد شده برای News Crawler شبکه علمی کشور، يک وب سايت ساده و کم حجم در آدرس

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
ميباشد. در صفحه اصلی اين سايت، آخرين 10 خبر دريافتی براساس طبقه بنديهای مختلف گنجانده شده است. در منوی اصلی سايت، دسته بندی موضوعی اخبار قرار دارد که با کليک بر روی هر موضوع، آخرين 200 خبر در ارتباط با آن موضوع در دو صفحه برای کاربر نمايش داده می شود. بدليل بروزرسانی مداوم اطلاعات کليه صفحات سايت بطور خودکار و هر 5 دقيقه يکبار بهنگام (Refresh) می شوند. همچنين برای دسترسی به اخبار يک مرکز خاص اعم از خبرگزاری، روزنامه و يا سايت اطلاع رسانی، اخبار هريک از اين مراکز به تفکيک و از طريق کليک بر نام آنها قابل دستيابی ميباشد.

علاوه بر اين جهت جلوگيری از اتلاف وقت کاربر و نيز دسترسی به اخبار آرشيوی، امکان جستجو در عناوين خبری نيز در اين سايت قرار داده شده است. اين سايت با تکنولوژی PHP پياده سازی شده است و دو سرور (يکی ويندوزی و ديگری لينوکسی) جهت راه اندازی آن بکار گرفته شده است.

سايت‌هاي تحت پوشش

در حال حاضر اخبار از 22 منبع خبري شامل 16 خبرگزاري و سايت خبري و 6 روزنامه توسط Crawler طراحي شده، واکشي مي‌شوند. با استخراج الگوهاي بيشتر از سايتهاي خبري بزودي سايتهاي تحت پوشش اين پروژه افزايش مي‌يابد. در عين حال با ارتقاء زير سيستم‌هايRSS Builder و News Feeder به الگوريتم‌هاي پردازش موازي امکان کاهش بازه‌هاي زماني رجوع به منابع بوجود خواهد آمد. سايتهاي تحت پوشش اين پروژه در حال حاضر عبارتند از :

 

خبرگزاريها

خبرگزاری دانشجويان ايران (ايسنا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
جمهوری اسلامی ايران (ايرنا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
خبرگزاری فناوری اطلاعات (ايتنا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
کار ايران (ايلنا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
ورزشی ايران(ايپنا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
infoخبرگزاری جامعه جوانان ايرانی (سينا)

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
موجhttp://www.mojnews.comخبرگزاری بازتابhttp://www.baztab.comخبرگزاری فارسhttp://www.farsnews.comخبرگزاری مهرhttp://www.mehrnews.comخبرگزاری شريفhttp://sharifnews.comواحد مرکزی خبرhttp://www.iribnews.ir

 

 

سايتهای خبری

سايت خبری آی تی ايرانhttp://itiran.comسايت خبری همکاران سيستم

محتوای مخفی

    برای مشاهده محتوای مخفی می بایست در انجمن ثبت نام کنید.
سايت خبری باشگاه خبرنگاران جوانhttp://www.yjconline.comسايت خبری شبكه فن‌آوري اطلاعات ايرانhttp://www.iritn.com

 

مطبوعات

روزنامه ايرانhttp://www.iraninstitute.comروزنامه شرقhttp://www.sharghnewspaper.comروزنامه همشهریhttp://www.hamshahri.orgروزنامه جام جمhttp://www.jamejamdaily.comروزنامه هموطن سلامhttp://www.hamvatansalam.comروزنامه عصر ارتباطhttp://www.ictnews.ir

به اشتراک گذاری این ارسال


لینک به ارسال

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

مهمان
ارسال پاسخ به این موضوع ...

×   شما در حال چسباندن محتوایی با قالب بندی هستید.   حذف قالب بندی

  تنها استفاده از ۷۵ اموجی مجاز می باشد.

×   لینک شما به صورت اتوماتیک جای گذاری شد.   نمایش به عنوان یک لینک به جای

×   محتوای قبلی شما بازگردانی شد.   پاک کردن محتوای ویرایشگر

×   شما مستقیما نمی توانید تصویر خود را قرار دهید. یا آن را اینجا بارگذاری کنید یا از یک URL قرار دهید.


×
×
  • جدید...