معرفی پارسی جو



معرفی پارسی جو

 

     

درباره موتورجستجوی پارسی‌جو

این سامانه با تلاشهای بی‌وقفه یك تیم 20 نفره در مرکز تحقیقات مهندسی دانشگاه یزد و شرکت پارسی‌جو پیاده سازی شده و با صرف حداقل هزینه و تجهیزات به رشد و توسعه خود ادامه می‌دهد. در حال حاضر موتور پارسی‌جو بر روی یك بستر توزیع شده شامل 30 سیستم اجرا می‌شود و تاکنون در حدود 200 میلیون صفحه فارسی (از 500 میلیون سند) را نمایه‌سازی نموده است. همچنین این سامانه مجهز به پردازشگر و خطایاب هوشمند فارسی می‌باشد. بخشی از پروژه با حمایت پژوهشگاه فضای مجازی انجام پذیرفته است.


تاریخچه موتورجستجوی پارسی‌جو

فاز تحقیقاتی پروژه در شهریور 1387شروع شده و طراحی و پیاده سازی پارسی‌جو در مهر 1388 آغاز گردید و نسخه ۱ در 28 اردیبهشت 1389 با پوشش یك میلیون صفحه روی وب قرار گرفت. هم اكنون نسخه ۳ پارسی جو با پوشش دویست میلیون صفحه روی وب قرار دارد.


معماری پارسی‌جو

پارسی‌جو موتور جستجویی مستقل و بومی است که شامل سه بخش اصلی می‌باشد.

الف) خزشگر (crawler) :
خزشگر پارسی‌جو که Parsijoo نام دارد به صورت هوشمند وب را پیمایش نموده و صفحات را جمع آوری می‌كند. در حال حاضر خزشگر پارسی‌جو، قادر به خزش دویست میلیون صفحه وب به صورت متوالی می‌باشد. نسخه جدید آن كه بزودی بر روی وب قرار می‌گیرد قادر است بیش از یك میلیارد صفحه وب را جمع‌آوری كند. در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمع‌آوری می‌شو‌ند. یكی از مباحث مهم این بخش كشف صفحات مهم فارسی می‌شود كه این عمل با استفاده از الگوریتمی به نام FICA+ انجام می‌گیرد. روش FICA+ كه توسط طراحان پارسی جو ارائه شده است صفحات مهم فارسی را با استفاده از روش یادگیری تقویتی كشف كرده و سپس بارگذاری می‌كند.

ب) نمایه ساز:
در این بخش متن خالص از اسناد فارسی (مانند HTML، DOC و PDF) بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام می‌گیرد. در این بخش از یك پردازشگر فارسی برای پردازش كلمات و عبارات فارسی استفاده می‌شود که این پردازشگر قادر است عملیات فاصله گذاری و یكسان سازی كدینگ‌های استفاده شده را انجام دهد. همچنین تصاویر و بقیه اسناد در این بخش پردازش می‌شوند. کل این مجموعه عملیات بر روی یك بستر توزیع شده اجرا می‌گردد.

ج) بخش بازیابی و جستجو:
این بخش كه به صورت برخط عمل می كند و با كاربر در ارتباط است، در ابتدا پرس‌جو را از كاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایه‌ساز بازیابی می‌كند. در نهایت اسناد با استفاده از روش‌های هوشمند رتبه بندی مانند الگوریتمهای A3Crank و DistnaceRank رتبه بندی گردیده و به كاربر ارائه می شوند. این دو الگوریتم نوین توسط تیم پارسی‌جو طراحی و ارائه شده‌اند. همچنین پردازشگر پرس‌وجوی این بخش قادر است عملیات فاصله گذاری، یكسان سازی كدینگ‌ها، ریخت شناسی صرفی و خطایابی را انجام دهد.


خدمات پارسی جو

1) وب:
این خدمت در بین 200 میلیون صفحه فارسی جستجو می‌كند. با توجه به اینكه صفحات وب از طریق گذرگاه رسمی شبکه کشور دریافت شده‌اند، دارای محتویات امن و مطمئن می‌باشند. بزودی، نسخه جدیدی از پارسی‌جو به بهره‌برداری می‌رسد که امکان جستجو در بیش از ۳۰۰ میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم می‌سازد و در ضمن، کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبه‌بندی بهبود قابل توجهی یافته است.

2) تصویر:
این خدمت در بین میلیون ها تصویر جستجو می‌كند. این تصاویر عمدتاً از صفحات وب فارسی استخراج شده‌اند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن می‌باشد. بزودی، پارسی‌جو قادر به جستجو در بیش از ۳۰ میلیون عکس موجود در وب خواهد بود.

3) علمی:
این خدمت در بین یك میلیون مقاله انگلیسی و فارسی جستجو می‌كند. بزودی تعداد مقالات تحت پوشش چند برابر خواهد شد.

4) ترجمه ماشینی:
این سرویس قابلیت ترجمه دو زبانه متن از فارسی به انگلیسی، انگلیسی به فارسی و پینگلیش به فارسی به همراه فرهنگ لغت انگلیسی به فارسی را دارا می‌باشد . نسخه آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی می‌باشد. خدمت ترجمه مبتنی بر روش ترجمه ماشینی هوشمند آماری عمل کرده و از ترجمه ماشینی ترگمان كه توسط دانشگاه صنعتی امیركبیر پیاد‌سازی شده است، استفاده می‌كند.

5) دانلود:
این خدمت در بین سایت های دانلودی معروف جستجو كرده به صورت دقیقه‌ای بروز می‌شود.

گفتنی است نسخه موبایل پارسی‌جو نیز به بهره‌برداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشی‌های هوشمند تلفن همراه در دسترس می‌باشند.

تیم پارسی‌جو به صورت شبانه‌روزی در حال تحقیق و فعالیت برای بهبود و ارتقاء این موتور جستجو می‌باشد و در آینده‌ای نزدیک شاهد بهره‌برداری از سرویسهای جدیدی نظیر سرویس ارائه تبلیغات مبتنی بر وب، سرویس جستجوی صوت و ویدئو، سرویس اخبار با امکان مشاهده، دسته‌بندی و جستجوی خبرهای مخابره شده از اکثر خبرگزاریهای کشور خواهیم بود.


کاربر گرامي، دلگرمي ناشي از استفاده شما از پارسي جو، هر روز باعث افزايش کیفیت آن و ارائه خدمات بیشتر مي‌شود. خواهشمند است با ارسال نظرات خود در بخش بازخورد، ما را در بهبود اين سامانه ياری نماييد.

منبع:موتور جست وجو ایرانی پارسی جو




:: موضوعات مرتبط: اینترنت ملی , موتورهای جستجو ایرانی , ,
:: برچسب‌ها: معرفی پارسی جو , معرفی , پارسی جو ,
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
نویسنده : منتظر
تاریخ : دو شنبه 4 شهريور 1392
مطالب مرتبط با این پست
می توانید دیدگاه خود را بنویسید


نام
آدرس ایمیل
وب سایت/بلاگ
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

آپلود عکس دلخواه: