سبد خرید شما

اطلاعات داده

حجم: ۸.۸۵ MB
فرمت: txt
وضعیت دریافت: درون سازمانی

پیکره گفتمانی زبان فارسی

معرفی: 

تحلیل گفتمان، بالاترین سطح تحلیل زبان است. در این سطح از بررسی، روابط میان جملات و اساساً روابط منطقی مطرح در متن مورد توجه قرار می‌گیرد. این سطح همان حلقۀ مفقوده‌ای است که بسیاری از متون از نبودش رنج می‌برند و بر همین اساس برچسب ناواضح، آشفته،  گسسته، نامفهوم و مانند آنرا دریافت می‌کنند. بدین قرار دستیابی به ابزارهای تحلیل گفتمان به معنای دستیابی به مقصود کاربران زبان است که در متن ساری و جاری شده است. پیکرۀ گفتمانی زبان فارسی جزء معدود پیکره‌های برچسب‌خوردۀ جهان است که اطلاعات گفتمانی را به صورت دستی بر روی داده‌های زبانی قرار داده‌است تا زیرساخت مناسبی را برای هوشمندی‌سازی ماشین و پردازش زبان طبیعی فراهم آورد. این پیکره توسط پژوهشگران گروه پیکره و دادگان مرکز تحقیقات کامپیوتری علوم اسلامی (نور) و با حمایت سازمان فناوری اطلاعات تولید شده است.

ویژگی‌ها: 
  • داده‌ای که برچسب‌گذاری گفتمانی روی آن صورت گرفته است، پیکرۀ وابستگی نحوی زبان فارسی با حجم حدود ۳۰ هزار جمله است.
  • حدود ۲۰ هزار جمله به صورت دوبرچسبی برچسب‌زنی شده است تا توافق میان برچسب‌زنان قابل بررسی باشد.
  • در این پیکرۀ گفتمانی تمام روابط منطقی درون‌جمله‌ای برچسب‌زنی شده است.
*اطلاعات ارجاع: 

Mirzaei, A.‎, and Safari, P.‎ (2018)‎.‎ Persian Discourse Treebank and Coreference Corpus.‎ In LREC 2018, ۴۰۴۹- ۴۰۵۵. (دریافت)

اعضای پروژه: 

سرپرستی پروژه و پژوهش زبان‌شناسی

  • آزاده میرزائی، دکترای زبان‌شناسی، دانشگاه علامه طباطبائی

 

پژوهش رایانشی

  • پگاه صفری، کارشناس ارشد هوش مصنوعی، دانشگاه الزهرا

 

برچسب‌زنی زبان‌شناختی

  • فرزانه بختیاری، دانشجوی دکتری زبان‌شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی
  • ندا پورمرتضی خامنه، کارشناس ارشد زبان و ادبیات فارسی، دانشگاه آزاد اسلامی
  • پری‌ناز دادرس، دانشجوی کارشناسی ارشد زبان‌شناسی، دانشگاه تهران
  • سلیمه زمانی، کارشناس ارشد زبان‌شناسی، دانشگاه آزاد اسلامی علوم و تحقیقات
  • سعیده قدردوست نخچی، دانشجوی دکتری زبان‌شناسی، دانشگاه تهران
  • منوچهر کوهستانی، دانشجوی دکتری زبان‌شناسی، دانشگاه تربیت مدرس
  • مصطفی مهدوی، دانشجوی دکتری زبان‌شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی
  • سمیرا میرزایی، کارشناس مترجمی زبان انگلیسی

 

برنامه‌نویسی و ابزارسازی

  • پگاه صفری، کارشناس ارشد هوش مصنوعی، دانشگاه الزهرا

اطلاعات انتشار:

ناشر
سازمان فناوری اطلاعات ایران
مجوز
تاریخ ثبت در پیکره‌گان
۱۳۹۷-۰۱-۲۶
تاریخ آخرین تغییر
۱۳۹۹-۰۶-۰۲
شناسه
P3970126a
آمار بازدید
۷۹۱۸

© ۲۰۱۸ CRCIS All Rights Reserved.‎