استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی |
فصل2: ادبیات تحقیق…………………………………………………………………………………………………..8
2-1. مقدمه………………………………………………………………………………………………………9
2-2. دادهکاوی…………………………………………………………………………………………………9
2-2-1. مفهوم دادهکاوی……………………………………………………………………………….9
2-2-2. مراحل دادهکاوی…………………………………………………………………………….10
2-2-3. پیشپردازش…………………………………………………………………………………..10
2-2-3-1. پاکسازی داده………………………………………………………………………11
2-2-3-2. یکپارچهسازی داده………………………………………………………………….11
2-2-3-3. تبدیل داده……………………………………………………………………………..11
2-2-3-4. کاهش داده……………………………………………………………………………12
2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12
2-2-4. دادهکاوی………………………………………………………………………………………13
2-2-5. پسپردازش……………………………………………………………………………………14
2-2-6. کاربردهای دادهکاوی………………………………………………………………………14
2-3. دادهکاوی در پزشکی……………………………………………………………………………….14
2-4. بیماری تنفسی………………………………………………………………………………………….16
2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17
2-4-2. پنومونی…………………………………………………………………………………………17
2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18
2-5. الگوریتمهای ردهبندی………………………………………………………………………………18
2-5-1. درخت تصمیم………………………………………………………………………………..19
2-5-1-1. CHAID…………………………………………………………………………….20
2-5-1-2. ID3……………………………………………………………………………………20
2-5-1-3. C5.0…………………………………………………………………………………..21
2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21
2-5-3. شبکهی عصبی………………………………………………………………………………..24
2-5-4. Bagging…………………………………………………………………………………….25
2-5-5. AdaBoost…………………………………………………………………………………27
2-6. پیشینهی تحقیقات در بیماریهای تنفسی……………………………………………………….30
فصل3: دادههای نامتوازن……………………………………………………………………………………………32
3-1. مقدمه…………………………………………………………………………………………………….33
3-2. روشهای یادگیری در دادههای نامتوازن………………………………………………………33
3-2-1. نمونهبرداری……………………………………………………………………………………33
3-2-1-1. بیشنمونهبرداری تصادفی…………………………………………………………34
3-2-1-2. زیرنمونهبرداری تصادفی…………………………………………………………..34
3-2-1-3. نمونهبرداری آگاهانه……………………………………………………………….34
3-2-1-3-1. EasyEnsemble……………………………………………………….35
3-2-1-3-2. ModifiedBagging………………………………………………….36
3-2-1-4. ترکیب نمونهبرداری و تولید داده……………………………………………….37
3-2-2. روشهای حساس به هزینه…………………………………………………………………39
3-3. معیارهای ارزیابی ردهبند در دادههای نامتوازن……………………………………………….41
3-4. معیارهای ارزیابی ردهبند در دادههای نامتوازن و چند ردهای…………………………….44
3-4-1. میانگینگیری میکرو………………………………………………………………………..46
3-4-2. میانگینگیری ماکرو…………………………………………………………………………46
فصل4: پیشپردازش دادهها………………………………………………………………………………………..47
4-1. مقدمه…………………………………………………………………………………………………….48
4-2. جمعآوری دادهها…………………………………………………………………………………….48
4-3. ویژگیهای دادهها……………………………………………………………………………………48
4-4. نحوه توزیع دادهها براساس ویژگیها…………………………………………………………..51
4-4-1. نوع بیماری تنفسی……………………………………………………………………………51
4-4-2. سن……………………………………………………………………………………………….52
4-5. پیشپردازشهای انجام شده……………………………………………………………………….53
4-5-1. حذف ویژگیهای اضافی………………………………………………………………….53
4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53
4-5-3. یکپارچهسازی داده………………………………………………………………………….54
4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55
4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران………………………………….55
4-5-4-2. WBC (White Blood Cell)……………………………………………56
4-5-4-3. چه چیزهایی باعث کاهش WBC میشود؟………………………………..56
4-5-4-4. چه چیزهایی باعث افزایش WBC میشود؟………………………………..56
4-5-4-5. جدول گسستهسازی WBC……………………………………………………..57
4-5-4-6. RBC(Red Blood Cell)…………………………………………………57
4-5-4-7. چه چیزهایی باعث کاهش RBC میشود؟…………………………………57
4-5-4-8. چه چیزهایی باعث افزایش RBC میشود؟…………………………………58
4-5-4-9. جدول گسستهسازی RBC………………………………………………………58
4-5-4-10. Hb (Hemoglobin)………………………………………………………..58
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین میشود؟………………………….59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین میشود؟…………………………59
4-5-4-13. جدول گسستهسازی هموگلوبین………………………………………………59
4-5-4-14. HCT (Hematocrit)……………………………………………………….59
4-5-4-15. چه چیزهایی باعث کاهش HCT میشود؟……………………………….60
4-5-4-16. چه چیزهایی باعث افزایش HCT میشود؟……………………………….60
4-5-4-17. جدول گسستهسازی HCT…………………………………………………….60
4-5-4-18. Plt یا پلاکتها……………………………………………………………………60
4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟……………………………………61
4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟……………………………………61
4-5-4-21. جدول گسستهسازی پلاکت……………………………………………………61
4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61
4-5-4-23. جدول گسستهسازی MCV، MCH و MCHC……………………..62
4-5-4-24. CRP (C-Reactive Protein)…………………………………………63
4-5-4-25. در چه شرایطی CRP افزایش پیدا میکند؟……………………………….63
4-5-4-26. در چه شرایطی CRP کاهش پیدا میکند؟……………………………….63
4-5-4-27. جدول گسستهسازی CRP…………………………………………………….63
4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64
4-5-4-29. جدول گسستهسازی ESR……………………………………………………..64
4-5-4-30. جدول گسستهسازی BS (Blood Suger)…………………………….64
4-5-5. ویژگی دادهها پس از پیشپردازش نهایی……………………………………………..64
4-6 نمونهبرداری…………………………………………………………………………………………….67
فصل5: نتایج و یافتههای تحقیق……………………………………………………………………………………69
5-1. مقدمه…………………………………………………………………………………………………….70
5-2. ردهبندی…………………………………………………………………………………………………70
5-2-1. مقایسهی الگوریتمهای پایه………………………………………………………………..70
5-2-2. مقایسهی روشهای یادگیری در دادههای نامتوازن…………………………………74
فصل6: نتیجهگیری و پیشنهادات…………………………………………………………………………………..79
6-1. مقدمه…………………………………………………………………………………………………….80
6-2. نتیجهگیری……………………………………………………………………………………………..80
6-3. پیشنهادها………………………………………………………………………………………………..82
6-3-1. مجموعهی داده……………………………………………………………………………….82
6-3-2. دادهکاوی………………………………………………………………………………………82
مراجع…………………………………………………………………………………………………………………….83
پیوست الف: واژهنامه انگلیسی به فارسی………………………………………………………………………. 92
یک مطلب دیگر :
فهرست جدولها
عنوان صفحه
جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41
جدول3-2: ماتریس اغتشاش برای مسائل چند ردهای………………………………………………………44
جدول4-1: ویژگیهای موجود در مجموعه داده اولیه……………………………………………………..49
جدول4-2: اسامی ویژگیها پس از برخی از مراحل پیشپردازش………………………………………54
جدول4-3: ردهبندی فیلد سن به گروه سنی……………………………………………………………………55
جدول 4-4: ردهبندی فیلد آزمایش WBC…………………………………………………………………..57
جدول 4-5: ردهبندی فیلد آزمایش RBC…………………………………………………………………….58
جدول 4-6: ردهبندی فیلد آزمایش Hb………………………………………………………………………..59
جدول 4-7: ردهبندی فیلد آزمایش HCT…………………………………………………………………….60
جدول 4-8: ردهبندی فیلد آزمایش PLT……………………………………………………………………..61
جدول 4-9: ردهبندی فیلد آزمایش MCV…………………………………………………………………..62
جدول 4-10: ردهبندی فیلد آزمایش MCH…………………………………………………………………62
جدول 4-11: ردهبندی فیلد آزمایش MCHC……………………………………………………………..62
جدول 4-12: ردهبندی فیلد آزمایش CRP…………………………………………………………………..63
جدول 4-13: ردهبندی فیلد آزمایش ESR…………………………………………………………………..64
جدول 4-14: ردهبندی فیلد آزمایش BS……………………………………………………………………..64
جدول4-15: ویژگیهای مجموعه داده ثانویه پس از پیشپردازش نهایی……………………………..65
فهرست شکلها
عنوان صفحه
شکل2-1: نمونهای از یک درخت تصمیم……………………………………………………………………..19
شکل2-2: یک مجموعهی آموزش دوبعدی که دادههای آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22
شکل2-3: دو خط جداساز با حاشیههای مختلف…………………………………………………………….23
شکل2-4: افزایش صحت مدل با استفاده از Bagging…………………………………………………..25
شکل2-5: شبهکد الگوریتم Bagging………………………………………………………………………..26
شکل2-6: شبهکد الگوریتم AdaBoost……………………………………………………………………..28
شکل3-1: شبهکد الگوریتم EasyEnsemble…………………………………………………………….36
شکل3-2: شبهکد الگوریتم ModifiedBagging………………………………………………………37
شکل3-3: (a) kتا از نزدیکترین همسایههای xi با فرض k=6
(b) تولید داده براساس فاصلهی اقلیدسی…………………………………………………………38
شکل3-4: ماتریس هزینهی چندردهای………………………………………………………………………….40
شکل4-1: توزیع دادهها براساس نوع بیماری تنفسی…………………………………………………………52
شکل4-2: توزیع دادهها براساس سن…………………………………………………………………………….52
شکل4-3: نمونهبرداری طبقهبندی شده…………………………………………………………………………68
شکل5-1: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آزمون)………………71
شکل5-2: مقایسهی کارایی الگوریتمها در تشخیص ردههای مختلف…………………………………72
شکل5-3: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آموزش)…………….73
شکل5-4: مقایسهی نتایج حاصل از روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون…………………………………………………………………………………………………………………….75
شکل5-5: مقایسهی حساسیت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها……………………………………………………………………………………………………….76
شکل5-6: مقایسهی دقت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها…………………………………………………………………………………………………………76
شکل5-7: مقایسهی معیارF روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها………………………………………………………………………………………………………….78
فرم در حال بارگذاری ...
[پنجشنبه 1399-08-08] [ 12:22:00 ب.ظ ]
|