Data Preparation

What is data preparation?

မိမိတို့ရရှိသည့် Data များဟာ ချက်ခြင်း analysis လုပ်နိုင်ချင်မှ လုပ်နိုင်မှာဖြစ်ပြီး ထိုသို့ လုပ်ဖို့အတွက် ကြိုတင်ပြင်ဆင်မှုများကို လုပ်ဆောင်ရပါတယ် ထိုသို့လုပ်တဲ့အဆင့်ကို Data preparation = preprocessing လို့လည်းခေါ်ပါတယ်။

ဘာကြောင့် pre−processing လုပ်ရသနည်းဆိုပါက အကြမ်းထည် raw data များကို analysis လုပ် ရာတွင် အဆင်ပြေစေရန် ပိုမိုကောင်းမွန်သည့် ပုံစံရရှိအောင် ပြောင်းလဲ ရခြင်းဖြစ်ပါတယ်။

ဒီအဆင့်ဟာ အချိန်အလွန်ကြာမြင့်တက်ပြီး မပါမဖြင့်/မရှိမဖြစ်အဆင့်တစ်ခုဖြစ်ပါတယ် ။

ဒီလိုလုပ်မှသာ လက်ထဲမှာရှိတဲ့ ဒေတာတွေကို ပိုမို ကောင်းမွန်တဲ့ အဆင့်တစ်ခုကို ရရှိစေမှာ ဖြစ်ပါတယ်။

တခါတရံဒီအဆင့်ဟာ ထင်ထားတာထက်ပိုကြာတက်ပြီး တကယ် analysis လုပ်တဲ့အချိန်ထက် တောင်ပိုကြာတက်ပါတယ်။

Why data preparation

ဘာကြောင့် data preparation ဟာ အရေးကြီးလဲဆိုရင် အချို့ developer တွေဟာ ဆော့ဝဲတွေ ဆွဲတဲ့အခါ survey တွေကောက်တဲ့အခါ အဲဒီ မှာ entry လုပ်လိုက်တဲ့ data တွေရဲ့ သဘောသဘာဝတွေကို စီမံခန့်ခွဲရေးသမားတွေက အစပိုင်းမှာ သတိမထားမိတက်တာမျိုး ရှိတက်ပါတယ်။

အချို့ ဆော့ဝဲလ်ဆွဲသူတွေဟာ data science တွေမဟုတ်တဲ့အတွက် မိမိတို့ဆွဲတဲ့ system တွေကို data entry လုပ်ရာမှာ data analytic လုပ်ဖို့အတွက် ကြိုတင် မစဉ်းစားမိတာမျိုးတွေ ဖြစ်တက်ပါတယ်။ ဒါဆိုရင် ဒီလို data ကို data analytic လုပ်ဖို့ data preparation ကိုမဖြစ်မနေလုပ်ဖို့လိုပါတယ်။

မိမိတို့ အနေနဲ့ Data sicence ဟူသည့် အသုံးအနှုန်း မပေါ်ပေါက်မီကတည်းကပင် data အမြောက်အများကို လက်ထဲတွင်ရှိနေပြီးဖြစ်ပြီး ဖြစ်နေကြပါတယ်။

နောက်ပြီး ဒေတာတွေ error ဖြစ်နေတာတွေလည်းရှိနေတာကြောင့် ( ဥပမာ ဖုန်းနံပါတ် ဖြည့်ရမယ့်နေရာမှာ email လာထည့်ထားတာမျိုးတွေကို လည်း) ဒီအဆင့်မှာ တခါတည်းပြင်ပေး လိုက်နိုင်ပါတယ်။

ဒီလို သန့်စင်တဲ့ဒေတာတွေကို ရရှိတဲ့အတွက် ဆုံးဖြတ်ချက်ချရာမှာလည်း ပိုမိုထိရောက်စေမှာ ဖြစ်ပါတယ်။

Garbage in garbage out (GIGO) မကောင်းတဲ့ဒေတာတွေထည့်ရင် မကောင်းတဲ့ ရလဒ်တွေပဲ ရမှာဖြစ်ပါတယ်။ မှန်ကန်တိကျတဲ့ ရလာဒ်တွေ ရရှိအောင် quality ကောင်းမွန်တဲ့ အချက်အလက်တွေ ကိုအခြေခံဖို့လိုပါတယ်။

နောက်ပြီး တကယ်လိုအပ်တဲ့ အချက်အလက်တွေထက် မလိုအပ်တဲ့ အချက်အလက်တွေ များပြား နေတာဟာလည်း မဖြစ်သင့်တဲ့အချက်ပါပဲ။ data preparation လုပ်ရာမှာ အချိန်ကုန် လူပန်းဖြစ်တက်တာမို့ မိမိတို့အနေနဲ Garbage data များမတောင်းမိဖို့ အလွန်အရေးကြီးပါတယ်။

Missing values

ထိုသို့ လုပ်တဲ့အချိန်တွင် data များ ပျောက်ဆုံးနေတာမျိုးများဖြစ်နိုင်ပါတယ်။ ထိုအခြေအနေမျိုးကို missing values ဟုခေါ်ပါတယ်။ missing values ဖြစ်ပေါ်ရခြင်းမှာ data ထည့်သွင်းသူများက အချို့အချက်အလက်များကို အကြောင်းအမျိုးမျိုးကြောင်းမသွင်းဘဲ ချန်ထားခဲ့ခြင်းများကြောင့် ဖြစ်နိုင်ပါတယ်။ missing values များကိုကိုင်တွယ် ဖြေရှင်းမည့်နည်းလမ်းများကိုလည်း လေ့လာထားဖို့လိုအပ်ပါတယ်။

ထို့အပြင် Data transformation လုပ်ကြရာတွင် format မတူသည့် data များကို တူအောင် လုပ်ခြင်း၊ normalization ၊ scaling ၊ binning ၊ converting စသည့် နည်းလမ်းများဖြင့် ဆောင်ရွက်ကြရမှာဖြစ်ပါတယ်။

Data preparation တွင် အောက်ပါအတိုင်း အဆင့် (၅) ဆင့် ပါဝင်နိုင်ပါတယ် -

Data preparation အဆင့်များ

Collection
Discovery
Cleansing
Transforming
Storing

Collection

data များကို collect လုပ်ရာတွင် sql စသည့် data base language များကိုသုံးပြီး စုဆောင်းခြင်း၊ excel , word စသည့် document များမှ csv ကဲ့သို့သော format များပြောင်းထုတ်ပြီး စုဆောင်းခြင်း၊ သို့မဟုတ် စာရွက် hard copy များကို OCR – optical character reconization ကဲ့သို့ သော နည်းပညာများသုံးပြီး soft copy ပြောင်းကာ စုဆောင်းခြင်း စသည့် နည်းလမ်းများ ပါဝင်ပါတယ်။

Discovery

ထို့နောက် စုဆောင်းရရှိသည့် Data များ၏ သဘောသဘာဝ များကို နားလည်အောင် လေ့လာရပါတယ်။ ထိုအဆင့်ကို discover လုပ်သည် ဟုခေါ်ပါတယ်။

ထိုသို့ Data များ သဘောသဘာဝ အခြေအနေ အရည်အချင်းများကို နားလည်ပါက Cleansing လုပ်ရပါတယ်။ နားမလည်ဘဲရှေ့ဆက်လို့ အဆင်မပြေဘူးလို့ပြောချင်ပါတယ်။

Cleansing/Transform

ဒီအဆင့်မှာ Data cleansing လုပ်ကာ data များကို သန့်စင်အောင်လုပ်ပြီး ပါက အချို့ data များကို တခါတည်း ပြုပြင် ပေးရန် (transform) လိုအပ်ပါတယ်။ အဘယ့်ကြောင့်ဆိုသော ဥပမာ ရက်စွဲ ထည့်သွင်းခြင်းပြုလုပ်ချိန်တွင် အချို့က ရက်လနှစ် ပုံစံဖြင့် ၁-၃-၂၀၂၂ ဟု ရေးကြပြီး အချို့က ၁/၃/၂၀၂၂ ဟု လည်းကောင်း ၂၀၂၂ ခုနှစ် မတ်လ ၁ ရက် ဟုလည်းကောင်း ထည့်သွင်း ခြင်းမျိုးများရှိနိုင်ပါတယ်။ ထိုသို့သော အခြေအနေမျိုးများကြုံတွေ့လာရပါက မိမိအနေဖြင့် standard စံသတ်မှတ်ချက်တခုခု သတ်မှတ်ပြီး transform ပြုလုပ်ပေးဖို့လိုအပ်မည်ဖြစ်ပါတယ်။

Storing

ထိုသို့ဆောင်ရွက်ပြီးသည့် Data များကို တစ်နေရာရာတွင် သိမ်းဆည်းခြင်းမျိုး ပြုလုပ်ရမည် ဖြစ်ပါတယ်။ ထိုသို့သိမ်းဆည်းရာမှာ လုပ်ငန်းလိုအပ်ချက်အပေါ်မူတည်ပြီး အချို့က local network အချို့က cloud စသည့် နေရာအမျိုးမျိုးမှာသိမ်းဆည်းကြပါတယ်။ data ပမာဏ အနည်းအများ၊ data Accessable မြန်မြန်ဆန်ဆန်လုပ်နိုင်မှု၊ အချင်းချင်းမျှဝေ အသုံးပြုနိုင်မှု စသည့် လိုအပ်ချက်အလိုက် ပုံစံအမျိုးမျိုး နဲ့ သိမ်းဆည်းကြပါတယ်။

အဆိုပါအဆင့်ငါးဆင့်လုံးမှာ အောင်မြင်စွာဆောင်ရွက်ဖို့ technical skill Communition skill management skill စသည်ဖြင့် အရည်အချင်းများလိုအပ်ပါတယ်။ အချို့ အရည်အချင်းများကို သင်တန်းများကနေတိုက်ရိုက်လေ့လာနိုင်ပေမယ့် အချို့အရည်အချင်းများကတော့ မိမိဘာသာ လေ့ကျင့်ပျိုးထောင်ယူဖို့လိုအပ်ပါတယ်။

Search This Blog

Tun Lin Mg

Data Preparation

Why data preparation

Missing values

Data preparation အဆင့်များ

Collection

Discovery

Cleansing/Transform

Storing

Comments

Post a Comment

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ