قیمت: نامشخص
Toggle dropdown دریافت داده
پیکرهٔ متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری رسمی زبان فارسی است که از منابع واقعی همچون روزنامهها، سایتها و مستنداتِ از قبل تایپشده، جمعآوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوع بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشتهٔ زبانشناسی برچسبدهی شدهاند و هر پرونده بر حسب موضوع و منبع آن طبقهبندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در آموزش مدل زبانی و سایر پروژههای مربوط به پردازش زبان طبیعی مناسب است.
Bijankhan, M., Sheykhzadegan, J., Bahrani, M., & Ghayoomi, M. (2011). Lessons from building a Persian written corpus: Peykare. Language Resources and Evaluation, 45(2), ۱۴۳–۱۶۴. (دریافت)
پیکره متنی زبان فارسی (معرفی در وبگاه پژوهشکده پردازش هوشمند علائم)
اطلاعات انتشار:
ناشر | |
---|---|
شرایط استفاده | برای دریافت داده یا کسب اطلاعات بیشتر با ناشر(ان) تماس حاصل فرمایید. |
مجوز | نامشخص |
تاریخ ثبت در پیکرهگان | ۱۳۹۲-۰۱-۲۱ |
تاریخ آخرین تغییر | ۱۳۹۷-۱۱-۰۳ |
شناسه | D3920121a |
آمار بازدید | ۱۶۵۰۳ |