Handling Missing Data
Data set တွေရဲ့ သက်ဆိုင်ရာ column/freature/attribute မှာ ဘာ အချက်အလက် မှ ပါမလာသည့် data များ / no data value ကို missing value ဟုခေါ်ပါတယ်။
Data ဖြည့်သည့် entry လုပ်သူများကို ဖြည့်ချင်ဖြည့် မဖြည့်ချင်နေ ဟု option ပေးထားခဲ့မိပါက အချို့ entry လုပ်သူများက မဖြည့်ဘဲ ကျော်ခဲ့ကြသည့်အခါ missing value များဖြစ်လာရပါတယ်။
ထိုအခါ Missing value များ နည်းပညာအခေါ်အဝေါ်အရ N/A အဖြစ်လည်းကောင်း “0” /zero အဖြစ်လည်းကောင်း၊ empty cell အဖြစ်လည်းကောင်းတွေ့ရနိုင်ပါတယ်။
Missing value များကို ကိုင်တွယ်ဖြေရှင်း ရန် အတွက် အခြေအနေ အချိန်အခါ ပေါ်မူတည်ပြီး ကိုင်တွယ်ဖြေရှင်းတက်ဖို့ လိုအပ်ပါတယ်။
ဒါပေမယ့် ယေဘုယျ အားဖြင့် ကိုင်တွယ်ဖြေရှင်းနည်းအချို့ကိုသာ ရှင်းပြနိုင်မှာဖြစ်ပါတယ်။
Remove Missing value
ပထမဆုံး အသုံးပြုတဲ့နည်းလမ်းသည် Missing value တွေကို ဖျက်ပစ်သည့်နည်းလမ်းဖြစ်ပါတယ်။ ထိုသို့ ဖျက်ပစ် ရာတွင် Missing value ပါဝင်သည့် Colum ကို ဖျက်ပစ်ခြင်းနဲ့ row ကို ဖျက်စ်ခြင်းဆိုပြီးနှစ်မျိုးလုပ်နိုင်ပါတယ်။ မည်သို့ပင်ဖြစ်စေ ဖျက်ပစ်သည့် နည်းလမ်းကိုသုံးပါက သွင်းထားသည့် အခြား data များကိုပါ တစ်ပါတယ်း ဖျက်ပစ်ရမှာဖြစ်သည့်အတွက် နှမျှောဖို့ ကောင်းပါတယ်။ ထို့ကြောင့် ဖျက်မပစ်ဘဲ အခြားနည်းများကိုလည်းရွေးချယ်နိုင်ပါတယ်။
Replace Missing value
နောက်တစ်နည်းမှာ replace အစားထိုးခြင်းနည်းလမ်းဖြစ်ပါတယ်။ အစားထိုးသည့် နည်းလမ်းကို အသုံးပြုရာတွင်
အခြား record များမှ အချက်အလက်များကိုမူတည်ပြီး ပျမ်းမျှ တန်ဖိုးကို အစားထိုးခြင်း (replace with average value)၊
အများဆုံးပါဝင်နေသည့် တန်ဖိုးတစ်ခုနှင့် အစားထိုးခြင်း ( replace with most frequently fond value)နှင့်
အခြား အချက်အလက်များကို အခြေခံပြီး တွက်ချက်ကာ အစားထိုးခြင်း(replace by calculating using data from other cloumns value)
ဟု နည်းလမ်းများ အသုံးပြုနိုင်ပါတယ်။
No Action Taken
နောက်တစ်နည်းက ဘာမှမလုပ်ဘဲဒီတိုင်းထားလိုက်တာဖြစ်ပါတယ်။
အချို့အရေးကြီးမဟုတ်သည့် အချက်အလက်များကို လစ်လျူရှုလိုက်တာဟာလည်း ကိုင်တွယ် ဖြေရှင်းနည်းဖြစ်ပါတယ်။
ဒါမှမဟုတ် အရမ်းအရေးကြီးပြီး အမှားယွင်းမခံနိုင်သည့်အချက်အလက်များကိုလည်း ဘာမှမလုပ်ဘဲ ထားပြီး ဖြေရှင်းလိုက်ရခြင်းများရှိနိုင်ပါတယ်။ အဘယ်ကြောင့်ဆိုသော် မှန်းဆ ထည့်သွင်း လိုက်ခြင်းဖြင့် မလိုလားအပ်သည့် မှားယွင်းမှုများဖြစ်လာနိုင်သည့် အတွက်ဖြစ်ပါတယ်။
ထို့ကြောင့် No Action Taken နည်းလမ်းကို တစ်ခါတစ်ရံ အရေးမကြီးသည့်အချက်အလက်များကို ကိုင်တွယ်ရန်သုံးပြီး တစ်ခါတစ်ရံ အရမ်းအရေးကြီးသည့်အချက်အလက်များကို ကိုင်တွယ်ရန် သုံးပါတယ်။
Comments
Post a Comment