قیمت: نامشخص
دریافت داده
پیکرهٔ واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران تولیده شده، از دو مجموعه داده تشکیل شده است:
۱. مجموعۀ استخراجشده از صفتهای برچسبخوردهٔ فارسی:
این مجموعه از روی مجموعۀ صفتهای زبان فارسی استخراجشده از فارسنت ساخته شده است. هر ورودی در این مجموعه میتواند برچسب مثبت، منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت، منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸، ۹۶۲ و ۱۵۷۲ کلمه میباشند. از بین صفتهای ارزیابیشده تنها صفتهایی در مجموعه باقی ماندهاند که یا توسط هر چهار ارزیاب برچسب یکسان گرفتهاند و یا سه ارزیاب در مورد صفت نظر یکسان داشتهاند و ارزیاب چهارم به این صفت برچسب مخالف ندادهاست.
۲. مجموعهٔ صفت، فعل و اسم:
این مجموعه از روی مجموعهٔ صفتها، فعلها و اسمهای موجود در فارسنت استخراج شدهاند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمهناظر یک مقدار عددی نسبت داده میشود. این عدد درواقع تعیینکنندهٔ میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگتر از صفر و به کلمات منفی، عددی کوچکتر از صفر نسبت داده میشود. در این مجموعه، کلمات خنثی به صراحت تعیین نمیشوند و میتوان کلمات خنثی را براساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت، ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخهٔ ۱ فارسنت استخراج شدهاند.
Dehdarbehbahani, I., Shakery, A., & Faili, H. (2014). Semi-supervised Word Polarity Identification in Resource-lean Languages. Neural Networks, 58, ۵۰-۵۹.
- این مجموعه به عنوان بخشی از پروژهٔ «ایجاد و توسعهٔ پیکرهٔ دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.
- آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران
- صفحهٔ معرفی پیکرهٔ قطبیت در وبگاه دانشکده مهندسی برق و کامپیوتر دانشگاه تهران
اطلاعات انتشار:
ناشر | |
---|---|
شرایط استفاده | برای استفاده از این مجموعه، با ارسال ایمیل به خانم دکتر آزاده شاکری (سرپرست آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران -shakery[at]ut[dot]ac[dot]ir)، رمز مربوطه را دریافت نمایید. |
مجوز | نامشخص |
تاریخ ثبت در پیکرهگان | ۱۳۹۵-۰۲-۰۸ |
تاریخ آخرین تغییر | ۱۳۹۸-۰۲-۰۳ |
شناسه | D3950208 |
آمار بازدید | ۹۸۴۷ |