سبد خرید شما

اطلاعات داده

حجم: نامشخص
فرمت: نامشخص
وضعیت دریافت: برون سازمانی

پیکره فارسی ۱۹۸۴

  • قیمت: نامشخص

    دریافت داده
معرفی: 

برای تهیهٔ پیکرهٔ فارسی ۱۹۸۴ که در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخهٔ فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

*اطلاعات ارجاع: 

قاسمی‌زاده، ب.، رحیمی، س.، سالاریان، م.، و بهاری سلیم، ع. (۱٣٨۵). گزارشی از ساخت نخستین پیکرهٔ چندزبانه برای زبان فارسی. ارائه‌شده در دوازدهمین کنفرانس بین‌المللی سالانهٔ انجمن کامپیوتر ایران، تهران. (دریافت)

سایر مستندات: 

Qasemizadeh, B.‎, Rahimi, S.‎, & Bakhtiari, B.‎ M.‎ (2007)‎.‎ The First Parallel Multilingual Corpus of Persian: Toward a Persian BLARK.‎ The Second Workshop on Computational Approaches to Arabic Script-based Languages, California, USA. (دریافت)

اطلاعات تکمیلی: 

اطلاعات انتشار:

ناشر
پژوهشگر(ان) طرح
شرایط استفاده

جهت دریافت این داده پس از ملاحظه و قبول فرم شرایط استفاده درخواست خود را بهTomaž Erjavec ارسال نمایید.

مجوز
اختصاصی
تاریخ ثبت در پیکره‌گان
۱۳۹۳-۰۲-۱۳
تاریخ آخرین تغییر
۱۳۹۷-۱۱-۰۳
شناسه
D3930213a
آمار بازدید
۹۵۴۵

© ۲۰۱۸ CRCIS All Rights Reserved.‎