رهیافتی برای نظرکاوی در متون خبری فارسی |
2-2-3. درجهبندی نظر……………………………………………………………. 9
2-2-4. جستجو و یافتن متون هدف…………………………………………….. 10
2-2-4-1. تشخیص موضوع………………………………………………….. 10
2-2-4-2. تشخیص زبان……………………………………………………… 10
2-2-4-3. تشخیص وجود نظر……………………………………………….. 11
2-2-5. سطح مطالعهی گرایش احساس…………………………………………. 11
2-2-6. منابع لغوی………………………………………………………………. 11
2-2-7. مشخصههای استفادهشده در مطالعات قبلی……………………………… 12
2-2-8. خلاصهسازی…………………………………………………………….. 12
2-2-9. وزندهی…………………………………………………………………. 12
2-2-10. شناسایی نظرات نامطلوب……………………………………………… 13
2-2-11. پیشپردازشهای لازم بر روی متن……………………………………. 13
2-3. ضعفهایی در مطالعات قبل که در راستای رفع آنها تلاش شده است ………………………………. 14
فصل3 معماری پیشنهادی برای یک موتور جستجوی نظرات…………………… 15
3-1. مقدمه……………………………………………………………………….. 16
3-2. واسط کاربر…………………………………………………………………. 16
3-3. مدیریتکنندهی جستجو……………………………………………………. 17
3-4. خلاصهساز نتایج……………………………………………………………. 17
3-5. رتبهبند………………………………………………………………………. 17
3-6. گسترشدهندهی پرسوجو…………………………………………………. 18
3-7. پایگاهدادهی اطلاعات تحلیلشده…………………………………………… 18
3-8. خزشگر متمرکز……………………………………………………………. 18
3-8-1. شناسایی وجود احساس……………………………………………… 19
3-8-2. تشخیص موضوع…………………………………………………….. 19
3-8-3. تشخیص زبان………………………………………………………… 19
3-9. پایگاهدادهی اسناد خام………………………………………………………. 19
3-10. تجزیهوتحلیل دادهها………………………………………………………. 19
3-10-1. تشخیص هدف عقیده………………………………………………. 20
3-10-2. تشخیص شخص بیان کنندهی اظهارنظر……………………………. 20
3-10-3. ردهبندی احساس…………………………………………………… 20
3-10-4. تشخیص نظرات نامطلوب………………………………………….. 20
3-10-5. وزنگذاری نظر……………………………………………………… 20
3-10-6. تجزیهوتحلیل شبکههای اجتماعی………………………………….. 21
3-11. پیشپردازش اسناد و متون………………………………………………… 21
3-11-1. استخراج جملات…………………………………………………… 21
3-11-2. قطعهبندی…………………………………………………………… 22
3-11-3. بررسی املا………………………………………………………….. 22
3-11-4. ریشهیابی……………………………………………………………. 22
3-11-5. نرمالسازی………………………………………………………….. 22
3-11-6. تجزیه……………………………………………………………….. 23
3-11-7. برچسبگذاری اجزاء گفتار………………………………………… 23
3-12. پایگاه دادهی اطلاعات پیشپردازششده………………………………….. 23
فصل4 روش تحقیق، آزمایشها، و نتایج………………………………………… 25
4-1. مقدمه……………………………………………………………………….. 26
4-2. انتخاب زمینه……………………………………………………………….. 26
4-3. انتخاب و استخراج نظرات…………………………………………………. 27
4-4. مشخصههای مورد استفاده………………………………………………….. 28
4-5. پیشپردازشهای انجامشده و استخراج بردارهای مشخصه………………… 30
4-6. انتخاب ردهبندها……………………………………………………………. 31
4-7. آزمایشهای انجامشده……………………………………………………… 32
4-8. تحلیل نتایج…………………………………………………………………. 41
4-8-1. بهترین نتایج………………………………………………………….. 41
4-8-2. بررسی ترکیب دو مشخصهی “گرایش آغازگر”، و “نشانههای سؤال”.. 41
4-8-3. بررسی افزودن مشخصهی “صفات و قیود استخراج شده به صورت خودکار” به دو مشخصهی قبل……………………………………………………. 42
4-8-4. بررسی تکتک مشخصهها…………………………………………… 43
4-8-5. بررسی لحاظ و عدم لحاظ “نرمالسازی” و “تعداد رخداد” مشخصهها. 44
4-8-6. بررسی ردهبندهای مورد استفاده……………………………………… 45
یک مطلب دیگر :
4-8-7. بررسی تاثیر حذف برخی از صفات و قیود وابسته به زمینه…………. 46
4-8-8. بررسی برخی از ردهبندهای مهم و شناختهشدهی دیگر……………… 46
فصل5 نتیجهگیری و کارهای آتی………………………………………………… 48
5-1. نتیجهگیری………………………………………………………………….. 49
5-2. کارهای آتی…………………………………………………………………. 50
مراجع و ماخذ……………………………………………………………………. 51
پیوست الف: 50 اظهارنظر استفاده شده (از 30 خبر)، بههمراه مشخصههای استخراجشده از داخل آنها………………………………………………………. 55
واژهنامه فارسی- انگلیسی………………………………………………………… 86
واژهنامه انگلیسی- فارسی………………………………………………………… 88
چکیدهی انگلیسی………………………………………………………………………………………………….. 90
فهرست جداول
جدول4-1. نتایج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازی توسط ردهبند Naïve Bayesian…………………………………………………………… 34
جدول4-2. نتایج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازی توسط ردهبند SVM………………………………………………………………………. 35
جدول4-3. نتایج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردهبند Naïve Bayesian…………………………………………………………… 36
جدول4-4. نتایج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردبند SVM……………………………………………………………………….. 37
جدول4-5. نتایج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند Naïve Bayesian…………………………………………………………………………. 38
جدول4-6. نتایج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند SVM……. 39
جدول4-7. نتایج آزمایش مجدد 3 حالت منتخب پس از افزودن صفات و قیود وابسته به زمینه در کنار نتایج قبل…………………………………………………. 40
جدول4-8. نتایج استفاده از ردهبندهای دیگر در کنار نتایج قبل برای 4 حالت منتخب……………………………………………………………………………. 40
فهرست اشکال
شکل3-1. معماری پیشنهادی برای یک “موتور جستجوی نظرات”……………… 24
فصل1
مقدمه
1-1. مقدمه و ضرورت تحقیق
اطلاع از نظر دیگران از نقطهنظرات گوناگون دارای اهمیت فراوانی است. تصور کنید که قصد دارید کالا یا خدماتی را خریداری کنید. آگاهی از نظر مثبت یا منفی افرادی که قبلا آن کالا یا خدمات را خریداری کردهاند چقدر برای شما اهمیت دارد؟ آیا نظر آنها میتواند بر تصمیم شما تاثیرگذار باشد؟ اگر یک شرکت خدماتی داشتید به چه میزان علاقهمند به اطلاع از نظر مخاطبین خود در رابطه با مطلوبیت یا عدم مطلوبیت خدمات خود بودید؟ آیا اطلاع از نظر آنها در اتخاذ تصمیمات بهتر به شما کمک میکرد؟ اگر یک کاندیدای انتخاباتی بودید تمایل داشتید تا از اقبال یا عدم اقبال رایدهندگان نسبت به خود خبر داشته باشید؟
اگر به اطرافمان نگاه کنیم میبینیم که افراد حقیقی و حقوقی گوناگون از شرکتهای بزرگ و سیاستمداران گرفته، تا افراد عادی جامعه در تصمیمات کوچک و بزرگ خود تحت تاثیر نظرات دیگران قرار دارند. طبیعتاً در چنین وضعیتی اطلاع از نظرات افراد اهمیت فراوانی پیدا میکند.
از طرف دیگر با ظهور وب و گسترش مشارکت کاربران در سالهای اخیر بهخصوص با ظهور پدیدههایی مثل وبلاگها[1] و شبکههای اجتماعی[2]، و تمایل کاربران برای اظهار و به اشتراکگذاری نظرات خود پیرامون مسائل مختلف، شاهد حجم انبوهی از نظرات مکتوبی هستیم که هرگز تاکنون با این حجم، تنوع، و آسانی در دسترس قرار نداشتهاند. این موضوع بههمراه اهمیت ذکرشده در مورد اطلاع از نظر دیگران توجه محققین علوم کامپیوتر بویژه محققین حوزهی دادهکاوی[3] را بهخود جلب کرده است و موجب شکلگیری حوزهای جدید تحت عنوان “کاوش در نظرات[4]” گردیده است. بر اساس [1] شاید بتوان سال 2001 میلادی را نقطهی عطفی برای این توجهات دانست.
به مرور زمان ابعاد گوناگون جدیدی در حوزهی کاوش در نظرات نمایان گشتند و تحقیقات متنوعی در رابطه با هر یک از این ابعاد شکل گرفتند. به عنوان نمونه نیاز به اطلاع از هویت و مشخصات شخصی که یک نظر را اظهار کرده است مثلا برای تعیین میزان سودمندی آن اظهار نظر، و یا نیاز به تشخیص نظراتی که برای اهداف نامطلوب (از قبیل تبلیغات جهتدار بهنفع یا برعلیه یک کالا) درج شدهاند از جملهی این ابعاد هستند. مروری بر تحقیقات انجامشده در حوزهی کاوش در نظرات را میتوان در [1] و [2] دید. در فصل دو به معرفی ابعاد گوناگون این حوزه و نیز چالشهای مشترک این حوزه با حوزههای دیگر متنکاوی[5] (نظیر قطعهبندی متن[6] و برچسب زدن اجزاء گفتار[7]) خواهیم پرداخت.
وقتی شخصی در رابطه با چیزی نظری را بیان میکند، این نظر میتواند حاوی ویژگیهای احساسی نظیر خشم، ترس، خوشحالی، و … باشد. از جملهی ویژگیهای احساسی موجود در نظرات که از مهمترین و اولیهترین بحثهایی بوده که در حوزهی کاوش در نظرات مطرح بوده است، گرایش یا به عبارت دیگر مثبت یا منفی بودن نظر اظهارشده در مورد هدف اظهارنظر است. از تشخیص این ویژگی احساسی در ادبیات این حوزه تحت عناوین “ردهبندی احساس[8]”، “تحلیل احساس[9]”، “تشخیص قطبیت احساس[10]”، و “تشخیص گرایش احساس[11]” یاد میشود. برای مثال اظهارنظر “تصویر این تلویزیون خیلی با کیفیت است” حاوی احساس مثبت نسبت به کیفیت تصویر تلویزیون است و در طبقهبندی مثبت قرار میگیرد، و اظهارنظر “تماشای این فیلم را به کسی توصیه نمیکنم” حاوی احساس منفی نسبت به فیلم مورد نظر است.
آگاهی از “گرایش احساس در نظرات[12]” کاربران در حوزههای مختلف از قبیل تجارت، سیاست، تعامل بین انسان و کامپیوتر (برای تعیین نوع عکسالعمل ماشین بر اساس نظر انسان)، و در انواع تصمیمگیریهای افراد حقیقی و حقوقی کاربرد فراوانی دارد که در آغاز بحث برخی از آنها مورد اشاره قرار گرفتند. این موضوع بههمراه حجم پایین کار انجامشدهی مرتبط در حوزهی زبان فارسی (در جستجوی انجامشده هیچ مقالهی منتشرشدهای در این حوزه برای زبان فارسی یافت نشد)، انجام مطالعه در این رابطه برای نظرات بیانشده به زبان فارسی را ضروری مینماید.
فرم در حال بارگذاری ...
[چهارشنبه 1399-08-07] [ 03:56:00 ب.ظ ]
|