Fahim 9563 اشتراک گذاری ارسال شده در 19 فروردین، ۱۳۸۹ مقدمه در سالهاي پيشين روزنامهها و رسانههايي مانند راديو و تلويزيون منبع اصلي پخش اخبار در جوامع مختلف و دنيا بوده است. اما امروزه، با توجه به نيازجوامع به دسترسي به همه اخبار در کوتاهترين زمان ممکن، شبکه جهاني اينترنت مبدل به مهمترين منبع دستيابي به اخبار در سراسر جهان شده است. طولاني بودن فواصل انتشار روزنامهها و محدوديت زماني در رسانههايي مانند تلوزيون و عدم توانايي آنان در ارائه تمامي اخبار روزانه باعث شده که اين رسانهها نتوانند با اينترنت به عنوان يک ابزار اطلاع رساني کامل برای مصرف کنندگان خبر رقابت کنند. اما مشکل اينترنت در امر اطلاع رساني، پراکندگي اطلاعات موجود در شبکه جهاني است. اگرچه تمامي اطلاعات و اخبار موجود در اينترنت از طريق يک پايانه قابل دسترسي هستند، اما پراکندگي اطلاعات در سايتهاي مختلف که تعداد آنها بسيار زياد است، امکان زير نظر داشتن تمامي اخبار انتشار يافته از مراکز پخش خبر را عملاً غير ممکن ميسازد. با توجه به اين نکته، ايجاد يک مرکز تجمع جهت ارائه تمامي اخبار منتشره از سوي خبرگزاريها ، روزنامه و منابع مختلف از اهميتي خاص برخوردار ميشود. سرويس اخبار ارائه شده در شبکه علمي کشور با توجه به اين نکات طراحي شده است. اين سرويس با جمعآوري اخبار از منابع مختلف خبري و ارائه آن از طريق يک سايت واحد اين امکان را فراهم ميسازد تا کاربران بتوانند از طريق يک نقطه به تمامي اخبار و اطلاعات خبري منتشره از منابع مختلف دسترسي داشته باشند. سايتهاي خبري اغلب خبرگزاريها و رسانههای عمومی اقدام به انتشار اخبار از طريق سايتهاي خود ميکنند. ميتوان گفت که سايتهاي خبري در کنار وبلاگها، نمونههاي پرکاربرد دستهاي از نرمافزارهای توليد محتوا در اينترنت موسوم به Content Manager ميباشند. پروتکلهايي برای انتشار اخبار به صورت Web Service وجود دارد که ميتوانند مورد استفاده نرم افزارها و سيستمهاي خودکار قرار گيرد. از جمله اين پروتکلهای ميتوان به RSS، RDF ، Atom و NNTP اشاره کرد که سه پروتکل اول نسخههاي خاصي از زبان دادهاي XML ميباشند. برخي از Content Managerها توانايي ارائه Web Service به صورت خودکار را دارند که اين سرويسها ميتوانند مورد استفاده ساير نرمافزارها قرار گيرند و برخي از سايتها(از جمله بيشتر سايتهاي خبری موجود به زبان فارسي) نيز از ارائه اين خدمات امتناع ميکنند. Crawler اخبار Crawler يا خزنده به دستهاي از نرمافزارها گفته ميشود که با واکشي صفحات وب ميتواند دادههايي از آنها را استخراج کرده و جهت پردازشهاي بعدي آماده کند. از اين تکنيک ميتوان در جهت واکشي و ذخيره سازي اخبار از منابع مختلف و ارائه آنها از طريق يک سايت واحد استفاده کرد. با اين ديدگاه Crawler طراحي شده قادر است با استفاده از الگوهاي تعريف شده براي هر سايت خبري ، در فواصل زماني تعيين شده به سايت خبري مورد نظر مراجعه کرده و اخبار جديد را استخراج نمايد. مشخصات سيستم طراحي شده Crawler طراحي شده به منظور واکشي اخبار در قالب دو زير سيستم پياده سازي شده و زير سيستم سوم، جهت واکشي Content اخبار نيز در مراحل پاياني پياده سازي قرار دارد. اين زيرسيستمها براي محيط سيستم عامل ويندوز با زبان برنامه سازي دلفي پياده سازی شده است و از Mysql به عنوان موتور بانک اطلاعاتي استفاده ميکند. .:. RSS Builder زير سيستم اول مورد استفاده در اين سيستم ، نرم افزار RSS Builder است. اين نرمافزار هوشمند با دريافت آدرس صفحات سايتهاي خبري و روزنامهها و همچنين ، Pattern توصيف کننده بخشهاي مختلف سايت مذکور و با اعمال الگوريتمهاي مکاشفهاي (heuristic) برروي دادههاي متني اطلاعات موجود در صفحات را در قالب رشتههاي تطبيق پذير با الگوهاي تعريف شده استخراج ميکند و در قالب استاندارد RSS ذخيره ميکند. دادههاي تبديل شده به RSS در اين نرم افزار به طور مستقل به عنوان يک سرويس جانبي قابل ارائه است. همچنين اين نرمافزار از يک الگوريتم هوشمند پردازش زمان بهره ميبرد که قادر است اطلاعات مربوط به زمان انتشار مطالب را در قالبها ، فرمتها و تقويمهاي مختلف (هجري شمسي، ميلادي و GMT هاي مختلف زماني) استخراج کرده و به تقويم و زمان مبدا تعريف شده در آن (هجري شمسي، تهران) تبديل کند. از جمله تواناييهاي ديگر اين نرم افزار توليد آدرسهاي ديناميک Content Manger ها ميباشد. برخي از سايتها از جمله روزنامهها از آدرسهاي ديناميک براي انتشار محتويات خود استفاده ميکنند که اين امر موجب ناممکن شدن پردازش اين گونه از سايتها توسط Crawler هاي متعارف ميگردد. اما با فراهم آوردن امکان توصيف الگو مورد استفاده در آدرس ديناميک اينگونه از سايتها با ايجاد يکScript Language خاص اينگونه از آدرسها، امکان پردازش اين دسته از سايتها توسط اين Crawler فراهم آمده است. .:. News Feeder زير سيستم دوم مورد استفاده در اين سيستم، نرم افزار News Feeder است. اين نرم افزار قادر است با دريافت آدرس RSS Feederهاي دور و يا نزديک و با مراجعه ادواري به آنها ، محتواي اطلاعاتي آنها را دريافت و در بانک اطلاعاتي محلي ذخيره کند. از آنجايي که در بسياري از موارد سايتهاي خبري فارسي اطلاعات خود را در قالب پروتکلهاي مرسوم ارائه نميدهند و يا اطلاعات ارائه شده در Web Service هاي آنها ناکافي و بعضاً داراي اشتباهات گرامري است ، در سيستم فعلي نرم افزار News Feeder اغلب اطلاعات را از زير سيستم اول دريافت ميکند تا سايتهاي ارائه دهنده اخبار. اين نرم افزار در حال حاضر پروتکلهاي RSS v1.0 ، RSS v2.0 و RDF را پشتيباني ميکند. .:. Content Fetcher زير سيستم در حال پياده سازي Content Fetcher نرم افزار مستقلي است که با دريافت آدرس هاي اينترنتي از يک بانک اطلاعاتي و در اختيار داشتن الگوهاي تعريف شده براي هر سايت خبري ، محتواي اطلاعاتي آنها را استخراج کرده و مجدداً در بانک اطلاعاتي ذخيره ميکند. توجه به اين نکته ضروري است که صفحات توليد شده توسط Content Manager ها ممکن است به دو صورت محتواي اطلاعات را در اختيار بگذارند. در برخي موارد (مانند سايتهاي روزنامهها) عنوان و محتواي اخبار در قالب يک صفحه واحد ارائه ميشوند که در اين حالت نرم افزار RSS Builder با ارائه Pattern مناسب قادر به استخراج مستقيم محتواي اطلاعات ميباشد. در حالت ديگر، سايتهاي خبري ممکن است در صفحات خود عنوان و آدرس خبر را ارائه دهند و در محتواي اخبار از طريق آن آدرس، در اختيار قرار گيرد. در اين حالت نرمافزارContent Fetcher ميتواند با دريافت آدرسها از يک بانک اطلاعاتی و الگوهاي مرتبط ، محتواي اخبار را استخراج کند. با توجه به تعداد زياد اخبار منتشره از سوي منابع مختلف، لازم است که واکشي و ذخيره سازي محتويات خبري به صورت موازي انجام شود.به اين لحاظ الگوريتم طراحي شده در اين زير سيستم الزاماً بايد از روشهاي موازي سازي استفاده کند. WEB Interface اينترفيس ايجاد شده برای News Crawler شبکه علمی کشور، يک وب سايت ساده و کم حجم در آدرس برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام ميباشد. در صفحه اصلی اين سايت، آخرين 10 خبر دريافتی براساس طبقه بنديهای مختلف گنجانده شده است. در منوی اصلی سايت، دسته بندی موضوعی اخبار قرار دارد که با کليک بر روی هر موضوع، آخرين 200 خبر در ارتباط با آن موضوع در دو صفحه برای کاربر نمايش داده می شود. بدليل بروزرسانی مداوم اطلاعات کليه صفحات سايت بطور خودکار و هر 5 دقيقه يکبار بهنگام (Refresh) می شوند. همچنين برای دسترسی به اخبار يک مرکز خاص اعم از خبرگزاری، روزنامه و يا سايت اطلاع رسانی، اخبار هريک از اين مراکز به تفکيک و از طريق کليک بر نام آنها قابل دستيابی ميباشد. علاوه بر اين جهت جلوگيری از اتلاف وقت کاربر و نيز دسترسی به اخبار آرشيوی، امکان جستجو در عناوين خبری نيز در اين سايت قرار داده شده است. اين سايت با تکنولوژی PHP پياده سازی شده است و دو سرور (يکی ويندوزی و ديگری لينوکسی) جهت راه اندازی آن بکار گرفته شده است. سايتهاي تحت پوشش در حال حاضر اخبار از 22 منبع خبري شامل 16 خبرگزاري و سايت خبري و 6 روزنامه توسط Crawler طراحي شده، واکشي ميشوند. با استخراج الگوهاي بيشتر از سايتهاي خبري بزودي سايتهاي تحت پوشش اين پروژه افزايش مييابد. در عين حال با ارتقاء زير سيستمهايRSS Builder و News Feeder به الگوريتمهاي پردازش موازي امکان کاهش بازههاي زماني رجوع به منابع بوجود خواهد آمد. سايتهاي تحت پوشش اين پروژه در حال حاضر عبارتند از : خبرگزاريها خبرگزاری دانشجويان ايران (ايسنا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام جمهوری اسلامی ايران (ايرنا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام خبرگزاری فناوری اطلاعات (ايتنا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام کار ايران (ايلنا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام ورزشی ايران(ايپنا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام infoخبرگزاری جامعه جوانان ايرانی (سينا) برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام موجhttp://www.mojnews.comخبرگزاری بازتابhttp://www.baztab.comخبرگزاری فارسhttp://www.farsnews.comخبرگزاری مهرhttp://www.mehrnews.comخبرگزاری شريفhttp://sharifnews.comواحد مرکزی خبرhttp://www.iribnews.ir سايتهای خبری سايت خبری آی تی ايرانhttp://itiran.comسايت خبری همکاران سيستم برای مشاهده این محتوا لطفاً ثبت نام کنید یا وارد شوید. ورود یا ثبت نام سايت خبری باشگاه خبرنگاران جوانhttp://www.yjconline.comسايت خبری شبكه فنآوري اطلاعات ايرانhttp://www.iritn.com مطبوعات روزنامه ايرانhttp://www.iraninstitute.comروزنامه شرقhttp://www.sharghnewspaper.comروزنامه همشهریhttp://www.hamshahri.orgروزنامه جام جمhttp://www.jamejamdaily.comروزنامه هموطن سلامhttp://www.hamvatansalam.comروزنامه عصر ارتباطhttp://www.ictnews.ir 3 لینک به دیدگاه
ارسال های توصیه شده