پیکره گان | پایگاه انتشار و تولید داده‌های زبانی

قیمت: نامشخص
Toggle dropdown دریافت داده
- پیش‌نمایش

معرفی:

پیکرهٔ متنی زبان فارسی، مجموعه‌ای از متون نوشتاری و گفتاری رسمی زبان فارسی است که از منابع واقعی همچون روزنامه‌ها، سایت‌ها و مستنداتِ از قبل تایپ‌شده، جمع‌آوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوع بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشتهٔ زبان‌شناسی برچسب‌دهی شده‌اند و هر پرونده بر حسب موضوع و منبع آن طبقه‌بندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در آموزش مدل زبانی و سایر پروژه‌های مربوط به پردازش زبان طبیعی مناسب است.

*اطلاعات ارجاع:

Bijankhan, M.‎‎‎, Sheykhzadegan, J.‎‎‎, Bahrani, M.‎‎‎, & Ghayoomi, M.‎‎‎ (2011)‎‎‎.‎‎‎ Lessons from building a Persian written corpus: Peykare.‎‎ Language Resources and Evaluation, 45(2)‎, ‎‎ ۱۴۳–۱۶۴.‎ (دریافت)

اطلاعات تکمیلی:

پیکره متنی زبان فارسی (معرفی در وبگاه پژوهشکده پردازش هوشمند علائم)

اطلاعات انتشار:

ناشر	پژوهشکده پردازش هوشمند علائم
شرایط استفاده	برای دریافت داده یا کسب اطلاعات بیشتر با ناشر(ان) تماس حاصل فرمایید.
مجوز	نامشخص
تاریخ ثبت در پیکره‌گان	۱۳۹۲-۰۱-۲۱
تاریخ آخرین تغییر	۱۳۹۷-۱۱-۰۳
شناسه	D3920121a
آمار بازدید	۱۸۲۵۴

سبد خرید شما

اطلاعات داده

پیکره متنی زبان فارسی

اطلاعات انتشار:

دربارۀ ما

تماس با ما