دسته بندی | مقالات ترجمه شده isi |
بازدید ها | 18 |
فرمت فایل | zip |
حجم فایل | 635 کیلو بایت |
تعداد صفحات فایل | 13 |
چکیده. یکی از امور مهم مربوط به عبارات چند جزئی (MWEs) شناسایی فعل مرکب است. آثار بسیاری در زمینه شناسایی بدون افعال چند جزئی در بسیاری از زبان ها وجود دارد، اما هیچ مطالعهی برجسته ای در زبان فارسی دیده نشده است. افعال چند جزئی فارسی (که افعال مرکب نامیده می شوند)، نوعی ساختار فعل سبک یا همکرد (LVC) است که دارای انعطاف پذیری نحوی است مثلا بین بخش فعل سبک و عنصر غیر کلامی فاصله نامحدودی وجود دارد. علاوه بر این، این عنصر غیر فعلی را می توان صرف کرد. این ویژگی ها کار را در فارسی بسیار مشکل ساخته است. در این مقاله، دو روش بدون نظارت پیشنهاد شده است به طور خودکار به شناسایی افعال مرکب در زبان فارسی می پردازد. در روش اول، با گسترش مفهوم اندازه گیری نقطه به نقطه اطلاعات متقابل (PMI) ، روش بوت استرپ استفاده شده است. در روش دوم، الگوریتم خوشه بندی K-means مورد استفاده قرار گرفته است. آزمایش های ما نشان می دهد که روش های ارائه شده با توجه به استاندارد سازی، به نتایجی فراتر از آغاز مطالعه که از اندازه گیری PMI استفاده شده بود، دست یافته است.
واژگان کلیدی: اصطلاح چند جزئی، ساختار افعال سبک، شناسایی بدون نظارت، روش بوت استرپ، K-mean، فارسی.
Abstract. One of the main tasks related to multiword expressions (MWEs) is
compound verb identification. There have been so many works on unsupervised
identification of multiword verbs in many languages, but there has not been any
conspicuous work on Persian language yet. Persian multiword verbs (known as
compound verbs), are a kind of light verb construction (LVC) that have syntactic
flexibility such as unrestricted word distance between the light verb and the
nonverbal element. Furthermore, the nonverbal element can be inflected. These
characteristics have made the task in Persian very difficult. In this paper, two
different unsupervised methods have been proposed to automatically detect
compound verbs in Persian. In the first method, extending the concept of
pointwise mutual information (PMI) measure, a bootstrapping method has been
applied. In the second approach, K-means clustering algorithm is used. Our experiments
show that the proposed approaches have gained results superior to the
baseline which uses PMI measure as its association metric.
Keywords: multiword expression, light verb constructions, unsupervised identification,
bootstrapping, K-means, Persian.