قیمت: نامشخص
دریافت داده
برای تهیهٔ پیکرهٔ فارسی ۱۹۸۴ که در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخهٔ فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیهنویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکرههای مشابه موجود چارچوب MULTEXT-East برای زبانهایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.
قاسمیزاده، ب.، رحیمی، س.، سالاریان، م.، و بهاری سلیم، ع. (۱٣٨۵). گزارشی از ساخت نخستین پیکرهٔ چندزبانه برای زبان فارسی. ارائهشده در دوازدهمین کنفرانس بینالمللی سالانهٔ انجمن کامپیوتر ایران، تهران. (دریافت)
Qasemizadeh, B., Rahimi, S., & Bakhtiari, B. M. (2007). The First Parallel Multilingual Corpus of Persian: Toward a Persian BLARK. The Second Workshop on Computational Approaches to Arabic Script-based Languages, California, USA. (دریافت)
اطلاعات انتشار:
ناشر | |
---|---|
شرایط استفاده | جهت دریافت این داده پس از ملاحظه و قبول فرم شرایط استفاده درخواست خود را بهTomaž Erjavec ارسال نمایید. |
مجوز | اختصاصی |
تاریخ ثبت در پیکرهگان | ۱۳۹۳-۰۲-۱۳ |
تاریخ آخرین تغییر | ۱۳۹۷-۱۱-۰۳ |
شناسه | D3930213a |
آمار بازدید | ۹۴۵۷ |