قیمت: نامشخص
دریافت داده
پیکرۀ حاضر مجموعهای است بیش از یک میلیون کلمه، که ۱۱۰۱۹۸ تیتر خبری را از ۱۳ خبرگزاری رسمی و معتبر فارسیزبان گردآوری کرده است و شامل تیتر خبر، لید، گروهبندی اصلی خبر، زیرطبقه یا گروهبندی فرعی خبر، تاریخ انتشار و عبارت پیشین خبر است. برای هر تیتر سه برچسب نام خبرگزاری، تاریخ خبر و طبقۀ موضوعی آن مشخص شده و علاوه بر تیتر، لید متناظر با آن نیز در صورت وجود، جمعآوری شده است. تیترها قطعهبندی و ریشهیابی شده و برچسب اجزاء سخن برای هر واژه تعیین گردیده است. همچنین لیدهای خبری بهصورت جداگانه پردازش شده و پس از قطعهبندی، ریشهیابی و جملهبندی، حجم کلمات مجموعه را به سه میلیون افزایش داده است. جمعآوری دادههای این پیکره بهصورت خودکار (Crawl) صورت پذیرفته است.
میرزایی، آ.، و صفری، پ. (۱۳۹۵). پیکرۀ تیتر خبرگزاریهای فارسیزبان. مجموعه مقالات دومین همایش ملی زبانشناسی پیکرهای. تهران: نشر نویسه پارسی.
اطلاعات انتشار:
ناشر | |
---|---|
شرایط استفاده | برای دریافت داده یا کسب اطلاعات بیشتر با ناشر(ان) تماس حاصل فرمایید. |
مجوز | نامشخص |
تاریخ ثبت در پیکرهگان | ۱۳۹۶-۰۹-۲۲ |
تاریخ آخرین تغییر | ۱۳۹۷-۱۱-۰۳ |
شناسه | P3960922 |
آمار بازدید | ۳۶۵۲ |