رهیافتی برای نظرکاوی در متون خبری فارسی

2-2-3. درجه‌بندی نظر……………………………………………………………. 9

2-2-4. جستجو و یافتن متون هدف…………………………………………….. 10

2-2-4-1. تشخیص موضوع………………………………………………….. 10

2-2-4-2. تشخیص زبان……………………………………………………… 10

2-2-4-3. تشخیص وجود نظر……………………………………………….. 11

2-2-5. سطح مطالعه‌ی گرایش احساس…………………………………………. 11

2-2-6. منابع لغوی………………………………………………………………. 11

2-2-7. مشخصه‌های استفاده‌شده در مطالعات قبلی……………………………… 12

2-2-8. خلاصه‌سازی…………………………………………………………….. 12

2-2-9. وزن‌دهی…………………………………………………………………. 12

2-2-10. شناسایی نظرات نامطلوب……………………………………………… 13

2-2-11. پیش‌پردازش‌های لازم بر روی متن……………………………………. 13

2-3. ضعف‌هایی در مطالعات قبل که در راستای رفع آن‌ها تلاش شده است ………………………………. 14

فصل3 معماری پیشنهادی برای یک موتور جستجوی نظرات…………………… 15

3-1. مقدمه……………………………………………………………………….. 16

3-2. واسط کاربر…………………………………………………………………. 16

3-3. مدیریت‌کننده‌ی جستجو……………………………………………………. 17

3-4. خلاصه‌ساز نتایج……………………………………………………………. 17

3-5. رتبه‌بند………………………………………………………………………. 17

3-6. گسترش‌دهنده‌ی پرس‌و‌جو…………………………………………………. 18

3-7. پایگاه‌داده‌ی اطلاعات تحلیل‌شده…………………………………………… 18

3-8. خزش‌گر متمرکز……………………………………………………………. 18

3-8-1. شناسایی وجود احساس……………………………………………… 19

3-8-2. تشخیص موضوع…………………………………………………….. 19

3-8-3. تشخیص زبان………………………………………………………… 19

3-9. پایگاه‌داده‌ی اسناد خام………………………………………………………. 19

3-10. تجزیه‌و‌تحلیل داده‌ها………………………………………………………. 19

3-10-1. تشخیص هدف عقیده………………………………………………. 20

3-10-2. تشخیص شخص بیان کننده‌ی اظهار‌نظر……………………………. 20

3-10-3. رده‌بندی احساس…………………………………………………… 20

3-10-4. تشخیص نظرات نا‌مطلوب………………………………………….. 20

3-10-5. وزن‌گذاری نظر……………………………………………………… 20

3-10-6. تجزیه‌و‌تحلیل شبکه‌های اجتماعی………………………………….. 21

3-11. پیش‌پردازش اسناد و متون………………………………………………… 21

3-11-1. استخراج جملات…………………………………………………… 21

3-11-2. قطعه‌بندی…………………………………………………………… 22

3-11-3. بررسی املا………………………………………………………….. 22

3-11-4. ریشه‌یابی……………………………………………………………. 22

3-11-5. نرمال‌سازی………………………………………………………….. 22

3-11-6. تجزیه……………………………………………………………….. 23

3-11-7. برچسب‌گذاری اجزاء گفتار………………………………………… 23

3-12. پایگاه داده‌ی اطلاعات پیش‌پردازش‌شده………………………………….. 23

فصل4 روش تحقیق، آزمایش‌ها، و نتایج………………………………………… 25

4-1. مقدمه……………………………………………………………………….. 26

4-2. انتخاب زمینه……………………………………………………………….. 26

4-3. انتخاب و استخراج نظرات…………………………………………………. 27

4-4. مشخصه‌های مورد استفاده………………………………………………….. 28

4-5. پیش‌پردازش‌های انجام‌شده و استخراج بردار‌های مشخصه………………… 30

4-6. انتخاب رده‌بند‌ها……………………………………………………………. 31

4-7. آزمایش‌های انجام‌شده……………………………………………………… 32

4-8. تحلیل نتایج…………………………………………………………………. 41

4-8-1. بهترین نتایج………………………………………………………….. 41

4-8-2. بررسی ترکیب دو مشخصه‌ی “گرایش آغازگر”، و “نشانه‌های سؤال”.. 41

4-8-3. بررسی افزودن مشخصه‌ی “صفات و قیود استخراج شده به صورت خود‌کار” به دو مشخصه‌ی قبل……………………………………………………. 42

4-8-4. بررسی تک‌تک مشخصه‌ها…………………………………………… 43

4-8-5. بررسی لحاظ و عدم لحاظ “نرمال‌سازی” و “تعداد رخداد” مشخصه‌ها. 44

4-8-6. بررسی رده‌بندهای مورد استفاده……………………………………… 45

یک مطلب دیگر :

چرا زی‌زی‌گولو این‌قدر محبوب بود؟

4-8-7. بررسی تاثیر حذف برخی از صفات و قیود وابسته به زمینه…………. 46

4-8-8. بررسی برخی از رده‌بند‌های مهم و شناخته‌شده‌ی دیگر……………… 46

فصل5 نتیجه‌گیری و کار‌های آتی………………………………………………… 48

5-1. نتیجه‌گیری………………………………………………………………….. 49

5-2. کار‌های آتی…………………………………………………………………. 50

مراجع و ماخذ……………………………………………………………………. 51

پیوست الف: 50 اظهار‌نظر استفاده شده (از 30 خبر)، به‌همراه مشخصه‌های استخراج‌شده از داخل آن‌ها………………………………………………………. 55

واژه‌نامه‌ فارسی- انگلیسی………………………………………………………… 86

واژه‌نامه‌ انگلیسی- فارسی………………………………………………………… 88

چکیده‌ی انگلیسی………………………………………………………………………………………………….. 90

فهرست جداول

جدول4-1. نتایج بدست‌آمده با لحاظ تعداد رخداد و بدون نرمال‌سازی توسط رده‌بند Naïve Bayesian…………………………………………………………… 34

جدول4-2. نتایج بدست‌آمده با لحاظ تعداد رخداد و بدون نرمال‌سازی توسط رده‌بند SVM………………………………………………………………………. 35

جدول4-3. نتایج بدست‌آمده با لحاظ تعداد رخداد و بصورت نرمال‌‌شده توسط رده‌بند Naïve Bayesian…………………………………………………………… 36

جدول4-4. نتایج بدست‌آمده با لحاظ تعداد رخداد و بصورت نرمال‌‌شده توسط رد‌بند SVM……………………………………………………………………….. 37

جدول4-5. نتایج بدست‌آمده بدون لحاظ تعداد رخداد توسط رده‌بند Naïve Bayesian…………………………………………………………………………. 38

جدول4-6. نتایج بدست‌آمده بدون لحاظ تعداد رخداد توسط رده‌بند SVM……. 39

جدول4-7. نتایج آزمایش مجدد 3 حالت منتخب پس از افزودن صفات و قیود وابسته به زمینه در کنار نتایج قبل…………………………………………………. 40

جدول4-8. نتایج استفاده از رده‌بند‌های دیگر در کنار نتایج قبل برای 4 حالت منتخب……………………………………………………………………………. 40

فهرست اشکال

شکل3-1. معماری پیشنهادی برای یک “موتور جستجوی نظرات”……………… 24

فصل‌1

مقدمه

1-1. مقدمه و ضرورت تحقیق

اطلاع از نظر دیگران از نقطه‌نظرات گوناگون دارای اهمیت فراوانی است. تصور کنید که قصد دارید کالا یا خدماتی را خریداری کنید. آگاهی از نظر مثبت یا منفی افرادی که قبلا آن کالا یا خدمات را خریداری کرده‌اند چقدر برای شما اهمیت دارد؟ آیا نظر آن‌ها می‌تواند بر تصمیم شما تاثیر‌گذار باشد؟ اگر یک شرکت خدماتی داشتید به چه میزان علاقه‌مند به اطلاع از نظر مخاطبین خود در رابطه با مطلوبیت یا عدم مطلوبیت خدمات خود بودید؟ آیا اطلاع از نظر آن‌ها در اتخاذ تصمیمات بهتر به شما کمک می‌کرد؟ اگر یک کاندیدای انتخاباتی بودید تمایل داشتید تا از اقبال یا عدم اقبال رای‌دهندگان نسبت به خود خبر داشته باشید؟

اگر به اطرافمان نگاه کنیم می‌بینیم که افراد حقیقی و حقوقی گوناگون از شرکت‌های بزرگ و سیاستمداران گرفته، تا افراد عادی جامعه در تصمیمات کوچک و بزرگ خود تحت تاثیر نظرات دیگران قرار دارند. طبیعتاً در چنین وضعیتی اطلاع از نظرات افراد اهمیت فراوانی پیدا می‌کند.

از طرف دیگر با ظهور وب و گسترش مشارکت کاربران در سال‌های اخیر به‌خصوص با ظهور پدیده‌هایی مثل وبلاگ‌ها[1] و شبکه‌های اجتماعی[2]، و تمایل کاربران برای اظهار و به اشتراک‌گذاری نظرات خود پیرامون مسائل مختلف، شاهد حجم انبوهی از نظرات مکتوبی هستیم که هرگز تاکنون با این حجم، تنوع، و آسانی در دسترس قرار نداشته‌اند. این موضوع به‌همراه اهمیت ذکر‌شده در مورد اطلاع از نظر دیگران توجه محققین علوم کامپیوتر بویژه محققین حوزه‌ی داده‌کاوی[3] را به‌خود جلب کرده است و موجب شکل‌گیری حوزه‌ای جدید تحت عنوان “کاوش در نظرات[4]” گردیده است. بر اساس [1] شاید بتوان سال 2001 میلادی را نقطه‌ی عطفی برای این توجهات دانست.

به مرور زمان ابعاد گوناگون جدیدی در حوزه‌ی کاوش در نظرات نمایان گشتند و تحقیقات متنوعی در رابطه با هر یک از این ابعاد شکل گرفتند. به عنوان نمونه نیاز به اطلاع از هویت و مشخصات شخصی که یک نظر را اظهار کرده است مثلا برای تعیین میزان سودمندی آن اظهار نظر، و یا نیاز به تشخیص نظراتی که برای اهداف نامطلوب (از قبیل تبلیغات جهت‌دار به‌نفع یا بر‌علیه یک کالا) درج شده‌اند از جمله‌ی این ابعاد هستند. مروری بر تحقیقات انجام‌شده در حوزه‌ی کاوش در نظرات را می‌توان در [1] و [2] دید. در فصل دو به معرفی ابعاد گوناگون این حوزه و نیز چالش‌های مشترک این حوزه با حوزه‌های دیگر متن‌کاوی[5] (نظیر قطعه‌بندی متن[6] و برچسب زدن اجزاء گفتار[7]) خواهیم پرداخت.

وقتی شخصی در رابطه با چیزی نظری را بیان می‌کند، این نظر می‌تواند حاوی ویژگی‌های احساسی نظیر خشم، ترس، خوشحالی، و … باشد. از جمله‌ی ویژگی‌های احساسی موجود در نظرات که از مهمترین و اولیه‌ترین بحث‌هایی بوده که در حوزه‌ی کاوش در نظرات مطرح بوده است، گرایش یا به عبارت دیگر مثبت یا منفی بودن نظر اظهار‌شده در مورد هدف اظهار‌نظر است. از تشخیص این ویژگی احساسی در ادبیات این حوزه تحت عناوین “رده‌بندی احساس[8]”، “تحلیل احساس[9]”، “تشخیص قطبیت احساس[10]”، و “تشخیص گرایش احساس[11]” یاد می‌شود. برای مثال اظهار‌نظر “تصویر این تلویزیون خیلی با کیفیت است” حاوی احساس مثبت نسبت به کیفیت تصویر تلویزیون است و در طبقه‌بندی مثبت قرار می‌گیرد، و اظهار‌نظر “تماشای این فیلم را به کسی توصیه نمی‌کنم” حاوی احساس منفی نسبت به فیلم مورد نظر است.

آگاهی از “گرایش احساس در نظرات[12]” کاربران در حوزه‌های مختلف از قبیل تجارت، سیاست، تعامل بین انسان و کامپیوتر (برای تعیین نوع عکس‌العمل ماشین بر اساس نظر انسان)، و در انواع تصمیم‌گیری‌های افراد حقیقی و حقوقی کاربرد فراوانی دارد که در آغاز بحث برخی از آن‌ها مورد اشاره قرار گرفتند. این موضوع به‌همراه حجم پایین کار انجام‌شده‌ی مرتبط در حوزه‌ی زبان فارسی (در جستجوی انجام‌شده هیچ مقاله‌ی منتشر‌شده‌ای در این حوزه برای زبان فارسی یافت نشد)، انجام مطالعه در این رابطه برای نظرات بیان‌شده به زبان فارسی را ضروری می‌نماید.

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب