Handling Missing Data

Data set တွေရဲ့ သက်ဆိုင်ရာ column/freature/attribute မှာ ဘာ အချက်အလက် မှ ပါမလာသည့် data များ / no data value ကို missing value ဟုခေါ်ပါတယ်။

Data ဖြည့်သည့် entry လုပ်သူများကို ဖြည့်ချင်ဖြည့် မဖြည့်ချင်နေ ဟု option ပေးထားခဲ့မိပါက အချို့ entry လုပ်သူများက မဖြည့်ဘဲ ကျော်ခဲ့ကြသည့်အခါ missing value များဖြစ်လာရပါတယ်။

ထိုအခါ Missing value များ နည်းပညာအခေါ်အဝေါ်အရ N/A အဖြစ်လည်းကောင်း “0” /zero အဖြစ်လည်းကောင်း၊ empty cell အဖြစ်လည်းကောင်းတွေ့ရနိုင်ပါတယ်။

Missing value များကို ကိုင်တွယ်ဖြေရှင်း ရန် အတွက် အခြေအနေ အချိန်အခါ ပေါ်မူတည်ပြီး ကိုင်တွယ်ဖြေရှင်းတက်ဖို့ လိုအပ်ပါတယ်။

ဒါပေမယ့် ယေဘုယျ အားဖြင့် ကိုင်တွယ်ဖြေရှင်းနည်းအချို့ကိုသာ ရှင်းပြနိုင်မှာဖြစ်ပါတယ်။

Name

Email

Phone

Address

Mg Mg

mgmg@gmail.com

09420888959

Yangon

Aung Aung

aungaung@gmail.com

N/A

Mandalay

Remove Missing value

ပထမဆုံး အသုံးပြုတဲ့နည်းလမ်းသည် Missing value တွေကို ဖျက်ပစ်သည့်နည်းလမ်းဖြစ်ပါတယ်။ ထိုသို့ ဖျက်ပစ် ရာတွင် Missing value ပါဝင်သည့် Colum ကို ဖျက်ပစ်ခြင်းနဲ့ row ကို ဖျက်စ်ခြင်းဆိုပြီးနှစ်မျိုးလုပ်နိုင်ပါတယ်။ မည်သို့ပင်ဖြစ်စေ ဖျက်ပစ်သည့် နည်းလမ်းကိုသုံးပါက သွင်းထားသည့် အခြား data များကိုပါ တစ်ပါတယ်း ဖျက်ပစ်ရမှာဖြစ်သည့်အတွက် နှမျှောဖို့ ကောင်းပါတယ်။ ထို့ကြောင့် ဖျက်မပစ်ဘဲ အခြားနည်းများကိုလည်းရွေးချယ်နိုင်ပါတယ်။

Replace Missing value

နောက်တစ်နည်းမှာ replace အစားထိုးခြင်းနည်းလမ်းဖြစ်ပါတယ်။ အစားထိုးသည့် နည်းလမ်းကို အသုံးပြုရာတွင်

  1. အခြား record များမှ အချက်အလက်များကိုမူတည်ပြီး ပျမ်းမျှ တန်ဖိုးကို အစားထိုးခြင်း (replace with average value)၊

  2. အများဆုံးပါဝင်နေသည့် တန်ဖိုးတစ်ခုနှင့် အစားထိုးခြင်း ( replace with most frequently fond value)နှင့်

  3. အခြား အချက်အလက်များကို အခြေခံပြီး တွက်ချက်ကာ အစားထိုးခြင်း(replace by calculating using data from other cloumns value)

ဟု နည်းလမ်းများ အသုံးပြုနိုင်ပါတယ်။

Name

Nationality

Age

Date of Birth

Mg Mg

Myanmar

39

1984

Aung Aung

Myanmar

N/A

1993

Ba Ba

-

20

-

No Action Taken

နောက်တစ်နည်းက ဘာမှမလုပ်ဘဲဒီတိုင်းထားလိုက်တာဖြစ်ပါတယ်။

အချို့အရေးကြီးမဟုတ်သည့် အချက်အလက်များကို လစ်လျူရှုလိုက်တာဟာလည်း ကိုင်တွယ် ဖြေရှင်းနည်းဖြစ်ပါတယ်။

ဒါမှမဟုတ် အရမ်းအရေးကြီးပြီး အမှားယွင်းမခံနိုင်သည့်အချက်အလက်များကိုလည်း ဘာမှမလုပ်ဘဲ ထားပြီး ဖြေရှင်းလိုက်ရခြင်းများရှိနိုင်ပါတယ်။ အဘယ်ကြောင့်ဆိုသော် မှန်းဆ ထည့်သွင်း လိုက်ခြင်းဖြင့် မလိုလားအပ်သည့် မှားယွင်းမှုများဖြစ်လာနိုင်သည့် အတွက်ဖြစ်ပါတယ်။

ထို့ကြောင့် No Action Taken နည်းလမ်းကို တစ်ခါတစ်ရံ အရေးမကြီးသည့်အချက်အလက်များကို ကိုင်တွယ်ရန်သုံးပြီး တစ်ခါတစ်ရံ အရမ်းအရေးကြီးသည့်အချက်အလက်များကို ကိုင်တွယ်ရန် သုံးပါတယ်။

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး