سبد خرید شما

اطلاعات داده

حجم: نامشخص
فرمت: نامشخص
وضعیت دریافت: برون سازمانی

پیکره متنی زبان فارسی

معرفی: 

پیکرهٔ متنی زبان فارسی، مجموعه‌ای از متون نوشتاری و گفتاری رسمی زبان فارسی است که از منابع واقعی همچون روزنامه‌ها، سایت‌ها و مستنداتِ از قبل تایپ‌شده، جمع‌آوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوع بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشتهٔ زبان‌شناسی برچسب‌دهی شده‌اند و هر پرونده بر حسب موضوع و منبع آن طبقه‌بندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در آموزش مدل زبانی و سایر پروژه‌های مربوط به پردازش زبان طبیعی مناسب است.

*اطلاعات ارجاع: 

Bijankhan, M.‎‎‎, Sheykhzadegan, J.‎‎‎, Bahrani, M.‎‎‎, & Ghayoomi, M.‎‎‎ (2011)‎‎‎.‎‎‎ Lessons from building a Persian written corpus: Peykare.‎‎  Language Resources and Evaluation, 45(2)‎, ‎‎ ۱۴۳–۱۶۴.‎ (دریافت)

اطلاعات تکمیلی: 

 پیکره متنی زبان فارسی (معرفی در وبگاه پژوهشکده پردازش هوشمند علائم)

اطلاعات انتشار:

ناشر
پژوهشکده پردازش هوشمند علائم
شرایط استفاده

برای دریافت داده یا کسب اطلاعات بیشتر با ناشر(ان) تماس حاصل فرمایید.

مجوز
نامشخص
تاریخ ثبت در پیکره‌گان
۱۳۹۲-۰۱-۲۱
تاریخ آخرین تغییر
۱۳۹۷-۱۱-۰۳
شناسه
D3920121a
آمار بازدید
۱۶۵۰۳

© ۲۰۱۸ CRCIS All Rights Reserved.‎