2-1-۲-۲. فاکتورهای امتیاز دهنده …………………………………………………………………………… 24

2-1-۳-۲-۱. مشابهت نحوی…………………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت معنایی……………………………………………………………………………….. 25

2-1-۳-۲-۱. بارز بودن…………………………………………………………………………………………… 25

2-1-۳. روش‏های یادگیری ماشین…………………………………………………………………………………….. 27

2-1-۳-۱. ویژگی‏ها………………………………………………………………………………………………………. 28

2-1-۳-۲. مدل‏های جفت اشاره………………………………………………………………………………….. 28

2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی………………………………………………….. 32

2-1-۳-۲-۱-1. درخت تصمیم………………………………………………………………………… 33

2-1-۳-۲-۲.افراز……………………………………………………………………………………………………… 35

2-1-۳-۲-۲-۱.درختِ بل………………………………………………………………………………….. 36

2-1-۳-۲-۲-۲. افراز گراف……………………………………………………………………………….. 38

2-1-۳-۳. روش‏های مبتنی بر پیکره……………………………………………………………………………… 40

2-1-۳-۴. روش‏های جایگزین…………………………………………………………………………………………. 44

2-1-۳-۴-۱. روش هم‏آموزی…………………………………………………………………………………….. 44

2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول…………………………………………………………………… 46

2-1-۳-۴-۳. رتبه‏بندی………………………………………………………………………………………………. 47

2-1-۳-۴-۴. فیلدهای تصادفی شرطی……………………………………………………………………… 49

2-1-۳-۴-۵. خوشه ‏بندی………………………………………………………………………………………….. 51

2-1-۴. جمع‏بندی………………………………………………………………………………………………………. 56

فصل 2: بخش دوم…………………………………………………………………………………….. 57

2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع…………………………………………………. 58

2-2-۲. پیکره بیژن‏خان………………………………………………………………………………………………….. 59

2-2-۳. پیکره لوتوس…………………………………………………………………………………………………….. 60

2-2-۴.شیوه‏ های نشانه ‏گذاری پیکره لوتوس…………………………………………………………….. 62

2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها………………………………………………………………………….. 62

2-2-۴-۱-۱. موجودیت شخص……………………………………………………………………………………… 64

2-2-۴-۱-۲. موجودیت سازمان……………………………………………………………………………………… 64

2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………………. 66

2-2-۴-۱-۴. موجودیت سیاسی……………………………………………………………………………………… 66

2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………………. 68

2-2-۴-۲-۱.غیر ارجاعی……………………………………………………………………………………………….. 69

2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………………. 69

2-2-۴-۲-۲-۱.ارزیابی به شکل منفی……………………………………………………………………… 69

2-2-۴-۲-۲-۲.ارجاعی خاص………………………………………………………………………………….. 70

2-2-۴-۲-۲-۳.ارجاعی عمومی……………………………………………………………………………….. 70

2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده………………………………………………………………. 70

2-2-۴-۳.انواع اشاره/سطوح اشاره…………………………………………………………………………… 71

2-2-۴-۳-۱.اشاره ساده………………………………………………………………………………………………….. 72

2-2-۴-۳-۱-۱.محدوده اشاره………………………………………………………………………………….. 72

2-2-۴-۳-۱-۲. هسته اشاره……………………………………………………………………………………. 72

2-2-۴-۳-۱-۳.انواع اشاره ساده………………………………………………………………………………. 72

2-2-۴-۳-۲.ساختارهای پیچیده………………………………………………………………………………………. 74

2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل……………………………………………………….. 75

2-2-۵.جمع‏بندی………………………………………………………………………………………………………… 75

فصل 3: الگوریتم­های پیشنهادی……………………………………………………………….. 76

3-۱. رده بندی دودویی…………………………………………………………………………………………… 76

3-1-1.جدا کننده‏های خطی………………………………………………………………………………… 77

3-1-1-1 پرسپترون……………………………………………………………………………………………… 78

3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………….. 80

3-1-1-3 درخت تصمیم………………………………………………………………………………………………… 85

3-۲.خوشه ‏بندی…………………………………………………………………………………………………………. 88

3-2-1 .الگوریتم‏های افراز بسته‏ای…………………………………………………………………………………… 89

3-2-1-1 .خوشه ‏بندی سلسله مراتبی پایین به بالا……………………………………………………. 90

3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی…………………………………………….. 93

3-3.جمع‏بندی……………………………………………………………………………………………………….. 96

فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97

4-۱.مقدمه………………………………………………………………………………………………………………. 97

4-۲.سیستم شناسایی اشاره لوتوس………………………………………………………………….. 98

4-2-1 .بانک اطلاعاتی…………………………………………………………………………………… 98

4-2-2.سیستم شناسایی اشاره………………………………………………………………………….. 102

4-3.تشخیص اشاره‏های هم مرجع……………………………………………………………………………….. 103

4-3-1 ویژگی‏ها…………………………………………………………………………………………………….. 104

4-3-2.الگوریتم یادگیری…………………………………………………………………………………….. 105

4-3-3.معیار ارزیابی…………………………………………………………………………………………….. 107

4-3-4.نتیجه ارزیابی……………………………………………………………………………………… 110

4-3-4-1.نتایج بدست آمده……………………………………………………………………………………….. 110

4-3-4-.2چالش‏ها و تحلیل خطا……………………………………………………………………………….. 112

4-4.جمع‏بندی……………………………………………………………………………………………………… 115

فصل 5 :نتیجه گیری و پیشنهادها……………………………………………………………… 116

5-۱.نتیجه‏ گیری………………………………………………………………………………………………….. 116

5-2.پیشنهادها…………………………………………………………………………………………………… 118

فصل .6 منابع………………………………………………………………………………………….. 121

چکیده:

پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع مشترک را می‏توان به دو دسته‏ روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از

پایان نامه و مقاله

 آنها قابل اعتماد‏تر است. در این پایان ‏نامه تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره ‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏ گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه ‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه می‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه ‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویت‏های میان اشاره ‏ها، سیستمی ارائه می‏کنیم که اشاره ‏های موجود در متن را شناسایی کرده و سپس نمونه ‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با استفاده از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏ های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.

فصل اول

1-1- مقدمه و بیان مسئله

امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبیعی[1]»شاخه‏ای از علم «هوش مصنوعی[2]» است كه به ماشینی كردن فرآیند زبان شناسی سنتی می‏پردازد. به این ترتیب با استفاده از رایانه می‏توان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده كند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[

در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[3]، برچسب‏گذاری ادات سخن[4]، تعیین و ابهام‏زدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامی این حوزه‏های جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.

وظایف زبان طبیعی را می‏توان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار[8] و … ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفته‏اند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بوده و می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.

از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [78,55,38[.

یک مطلب دیگر :

 
 

بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏ای از تکنیک‏های رده‏بندی[16]، خوشه‏بندی[17] و قوانین وابستگی[18] است و خروجی استخراج اطلاعات شامل، شناسایی موجودیت‏ها[19] ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیت‏ها و همچنین استخراج رویدادهایی كه در آن مشاركت دارند، می‏باشد.[71[ در نهایت می‏توان گفت كه خلاصه سازی، بازیابی اطلاعات[20]، داده‏كاوی[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهای این سیستم هستند.

تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏نامه شناسایی اشاره‏های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[24] به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]

به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.

واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژول‏هایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل می‏شود. روش‏های موجود در این حوزه، به دو دسته روش‏های زبان‏شناسی[25] و روش‏های یادگیری ماشین[26] تقسیم می‏‏‏شوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی‏‏، مراجع کاندیدا تعیین می‏‏‏شود و سپس با به کارگیری مجموعه‏ای از قواعد زبان‏شناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی می‏‏‏شوند و در‏نهایت کاندیدایی به عنوان مرجع برگزیده می‏‏‏شود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبان‏شناسی مورد نیاز، فرآیندی زمان‏بر، پرهزینه و پر خطاست. البته با پیدایش پیکره‏های[27] زبان‏شناسی و موفقیت روش‏های یادگیری ماشین در سایر حوزه‏ها، روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبان‏شناسی پیچیده و سطح بالای روش‏های زبان‏شناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبان‏شناسی نیز می‏توان به نتایج خوب و قابل توجهی دست یافت.

از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می‏‏‏ کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارت‏های اسمی‏‏‏ که به موجودیت[28] ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشاره‏هایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارت‏های اسمی‏‏‏ تحت عنوان اشاره[29] و در قالب چهار گروه اصلی ضمایر[30]، اسامی‏‏‏ خاص[31]، اسامی‏‏‏ عام[32] و غیر اشاره‏ها[33] قرار می‏گیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص می‏‏‏‌کند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]می‏‏‏توان گفت که فرآیند کشف اشاره، توسعه یافته‏ی فرآیند شناسایی موجودیت‏های نامدار می‏باشد که علاوه بر شناسایی اسامی‏‏‏ خاص، به شناسایی اسامی‏‏‏ عام و ضمایر نیز می‏پردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیند‏های شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزه‏ی این پایان‏نامه است، ما عبارت‏های اسمی‏‏‏ را در قالب انواع اشاره‏های گفته شده در پیکره‏ای تحت عنوان لوتوس برچسب‏گذاری می‏نمائیم و نتیجه‏ی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.

چارچوب کلی این پایان‏نامه به این صورت می‏باشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی‏‏‏ و به خصوص ارتباط‏های هم‏مرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روش‏های ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار می‏دهیم و در بخش دوم آن، به نحوه ایجاد پیکره‏ای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتم‏های مناسب برای این پایان‏نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشاره‏های ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتم‏های یادشده را مورد ارزیابی قرار می‏دهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد كارهای آتی در ادامه‏ی این پژوهش خواهیم پرداخت.

1-2.بررسی ارتباط هم ‏مرجعی

یکی از ‏ویژگی‏های خاص گفتمان این است که می‏توان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارت‏ها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی‏(بنیان‏گذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارت‏ها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب می‏شود که زنجیره‏ها‏ی بالقوه‏ای از تمام عبارت‏های اسمی‏که به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیان‏گذار منطق فازی که به شخص پرفسور زاده اشاره دارند).

یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیره‏ها در متن است که در فرآیند تحلیل مرجع‏مشترک انجام می‏پذیرد. برای شروع، مثال ۱ را در نظر بگیرید[34]:

مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشه‏ی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.

اگر فرض کنیم که پیمانه‏های نشانه‏گذاری تا کشف اشاره به عنوان پیش پردازش‏هایی بر روی متن اجرا شوند، با اجرای این پیمانه‏ها، انواع عبارت‏های اسمی‏موجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانه‏گذاری می‏شوند. سپس با اجرای پیمانه تشخیص مرجع‏مشترک، ارتباطات میان این عبارت‏ها و اطلاعات نهفته در مورد موجودیت‏های شرکت کننده در متن آشکار می‏شود. به عنوان نمونه، می‏دانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره می‏کنند.

استفاده از اصطلاح موجودیت در تحلیل مرجع‏مشترک، این سؤال را مطرح می‏کند که چه چیزهایی موجودیت محسوب می‏شوند؟ تاکنون گروه‏بندی‏های متعددی برای انواع موجودیت‏ها ارائه شده است، به عنوان نمونه[35]ACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیت‏ها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیت‏ها و یا گاهی اوقات برخی از آن‏ها را مورد مطالعه و بررسی قرار می‏دهند.

یکی از ‏ویژگی‏های تحلیل مرجع‏مشترک این است که علاوه بر انواع موجودیت‏های رایج، می‏توانیم در حوزه‏ها‏ی متفاوت از تعاریف پیش فرض خود نیز برای موجودیت‏ها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجع‏مشترک در متون پزشکی پرداخته و بررسی موجودیت‏هایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...