سبد خرید شما

اطلاعات داده

حجم: نامشخص
فرمت: نامشخص
وضعیت دریافت: برون سازمانی

جداکننده جمله و توکنایزر فارسی (ست‌پر)

معرفی: 

جداکنندۀ جمله و توکنایزر فارسی سِت‌پِر (SeTPer) از پلتفرم Uplug استفاده می‌کند که به منظور تجمیع ابزارهای پردازش متن طراحی شده است. جداکنندۀ جمله و توکنایزر Uplug برنامۀ مبتنی‌برقانون است که قابلیت انطباق با زبان‌های متنوع دارد. ابزار SeTPer در قالب کتابخانه‌ای به زبان پِرل قابل استفاده است. علامت‌ نگارشی نقطه، علامت سؤال و علامت تعجب در SeTPer  نشانۀ جداکنندۀ جمله هستند؛ در حالی که علامت‌های نگارشی  '، []،:، ;، -، !،  ؟، @، /، \، %، * و ~ جداکنندۀ توکن هستند. اعداد، آدرس وبگاه‌ها، مخفف‌ها، سرنام‌ها و عنوان‌ها نیز توسط این توکنایزر پردازش می‌گردد.

*اطلاعات ارجاع: 

Seraji, M.‎‎ (2015)‎‎.‎‎ Morphosyntactic Corpora and Tools for Persian‎ (Doctoral dissertation‏).‎ Retrieved from uu.diva-portal.org/smash/get/diva2:800998/FULLTEXT02.pdf.‎ (دریافت)

 

اطلاعات انتشار:

ناشر
دانشگاه اوپسالا
مجوز
تاریخ ثبت در پیکره‌گان
۱۳۹۸-۰۲-۲۹
تاریخ آخرین تغییر
۱۳۹۸-۰۳-۰۸
شناسه
PT3980229a
آمار بازدید
۳۱۰۲

© ۲۰۱۸ CRCIS All Rights Reserved.‎