Data Preparation

What is data preparation?

မိမိတို့ရရှိသည့် Data များဟာ ချက်ခြင်း analysis လုပ်နိုင်ချင်မှ လုပ်နိုင်မှာဖြစ်ပြီး ထိုသို့ လုပ်ဖို့အတွက် ကြိုတင်ပြင်ဆင်မှုများကို လုပ်ဆောင်ရပါတယ် ထိုသို့လုပ်တဲ့အဆင့်ကို Data preparation = preprocessing လို့လည်းခေါ်ပါတယ်။

ဘာကြောင့် pre−processing လုပ်ရသနည်းဆိုပါက အကြမ်းထည် raw data များကို analysis လုပ် ရာတွင် အဆင်ပြေစေရန် ပိုမိုကောင်းမွန်သည့် ပုံစံရရှိအောင် ပြောင်းလဲ ရခြင်းဖြစ်ပါတယ်။

ဒီအဆင့်ဟာ အချိန်အလွန်ကြာမြင့်တက်ပြီး မပါမဖြင့်/မရှိမဖြစ်အဆင့်တစ်ခုဖြစ်ပါတယ် ။

ဒီလိုလုပ်မှသာ လက်ထဲမှာရှိတဲ့ ဒေတာတွေကို ပိုမို ကောင်းမွန်တဲ့ အဆင့်တစ်ခုကို ရရှိစေမှာ ဖြစ်ပါတယ်။

တခါတရံဒီအဆင့်ဟာ ထင်ထားတာထက်ပိုကြာတက်ပြီး တကယ် analysis လုပ်တဲ့အချိန်ထက် တောင်ပိုကြာတက်ပါတယ်။

Why data preparation

ဘာကြောင့် data preparation ဟာ အရေးကြီးလဲဆိုရင် အချို့ developer တွေဟာ ဆော့ဝဲတွေ ဆွဲတဲ့အခါ survey တွေကောက်တဲ့အခါ အဲဒီ မှာ entry လုပ်လိုက်တဲ့ data တွေရဲ့ သဘောသဘာဝတွေကို စီမံခန့်ခွဲရေးသမားတွေက အစပိုင်းမှာ သတိမထားမိတက်တာမျိုး ရှိတက်ပါတယ်။

အချို့ ဆော့ဝဲလ်ဆွဲသူတွေဟာ data science တွေမဟုတ်တဲ့အတွက် မိမိတို့ဆွဲတဲ့ system တွေကို data entry လုပ်ရာမှာ data analytic လုပ်ဖို့အတွက် ကြိုတင် မစဉ်းစားမိတာမျိုးတွေ ဖြစ်တက်ပါတယ်။ ဒါဆိုရင် ဒီလို data ကို data analytic လုပ်ဖို့ data preparation ကိုမဖြစ်မနေလုပ်ဖို့လိုပါတယ်။

မိမိတို့ အနေနဲ့ Data sicence ဟူသည့် အသုံးအနှုန်း မပေါ်ပေါက်မီကတည်းကပင် data အမြောက်အများကို လက်ထဲတွင်ရှိနေပြီးဖြစ်ပြီး ဖြစ်နေကြပါတယ်။

နောက်ပြီး ဒေတာတွေ error ဖြစ်နေတာတွေလည်းရှိနေတာကြောင့် ( ဥပမာ ဖုန်းနံပါတ် ဖြည့်ရမယ့်နေရာမှာ email လာထည့်ထားတာမျိုးတွေကို လည်း) ဒီအဆင့်မှာ တခါတည်းပြင်ပေး လိုက်နိုင်ပါတယ်။

ဒီလို သန့်စင်တဲ့ဒေတာတွေကို ရရှိတဲ့အတွက် ဆုံးဖြတ်ချက်ချရာမှာလည်း ပိုမိုထိရောက်စေမှာ ဖြစ်ပါတယ်။

Garbage in garbage out (GIGO) မကောင်းတဲ့ဒေတာတွေထည့်ရင် မကောင်းတဲ့ ရလဒ်တွေပဲ ရမှာဖြစ်ပါတယ်။ မှန်ကန်တိကျတဲ့ ရလာဒ်တွေ ရရှိအောင် quality ကောင်းမွန်တဲ့ အချက်အလက်တွေ ကိုအခြေခံဖို့လိုပါတယ်။

နောက်ပြီး တကယ်လိုအပ်တဲ့ အချက်အလက်တွေထက် မလိုအပ်တဲ့ အချက်အလက်တွေ များပြား နေတာဟာလည်း မဖြစ်သင့်တဲ့အချက်ပါပဲ။ data preparation လုပ်ရာမှာ အချိန်ကုန် လူပန်းဖြစ်တက်တာမို့ မိမိတို့အနေနဲ Garbage data များမတောင်းမိဖို့ အလွန်အရေးကြီးပါတယ်။

Missing values

ထိုသို့ လုပ်တဲ့အချိန်တွင် data များ ပျောက်ဆုံးနေတာမျိုးများဖြစ်နိုင်ပါတယ်။ ထိုအခြေအနေမျိုးကို missing values ဟုခေါ်ပါတယ်။ missing values ဖြစ်ပေါ်ရခြင်းမှာ data ထည့်သွင်းသူများက အချို့အချက်အလက်များကို အကြောင်းအမျိုးမျိုးကြောင်းမသွင်းဘဲ ချန်ထားခဲ့ခြင်းများကြောင့် ဖြစ်နိုင်ပါတယ်။ missing values များကိုကိုင်တွယ် ဖြေရှင်းမည့်နည်းလမ်းများကိုလည်း လေ့လာထားဖို့လိုအပ်ပါတယ်။

ထို့အပြင် Data transformation လုပ်ကြရာတွင် format မတူသည့် data များကို တူအောင် လုပ်ခြင်း၊ normalization ၊ scaling ၊ binning ၊ converting စသည့် နည်းလမ်းများဖြင့် ဆောင်ရွက်ကြရမှာဖြစ်ပါတယ်။

Data preparation တွင် အောက်ပါအတိုင်း အဆင့် (၅) ဆင့် ပါဝင်နိုင်ပါတယ် -

Data preparation အဆင့်များ

  1. Collection

  2. Discovery

  3. Cleansing

  4. Transforming

  5. Storing

Collection

data များကို collect လုပ်ရာတွင် sql စသည့် data base language များကိုသုံးပြီး စုဆောင်းခြင်း၊ excel , word စသည့် document များမှ csv ကဲ့သို့သော format များပြောင်းထုတ်ပြီး စုဆောင်းခြင်း၊ သို့မဟုတ် စာရွက် hard copy များကို OCR – optical character reconization ကဲ့သို့ သော နည်းပညာများသုံးပြီး soft copy ပြောင်းကာ စုဆောင်းခြင်း စသည့် နည်းလမ်းများ ပါဝင်ပါတယ်။

Discovery

ထို့နောက် စုဆောင်းရရှိသည့် Data များ၏ သဘောသဘာဝ များကို နားလည်အောင် လေ့လာရပါတယ်။ ထိုအဆင့်ကို discover လုပ်သည် ဟုခေါ်ပါတယ်။

ထိုသို့ Data များ သဘောသဘာဝ အခြေအနေ အရည်အချင်းများကို နားလည်ပါက Cleansing လုပ်ရပါတယ်။ နားမလည်ဘဲရှေ့ဆက်လို့ အဆင်မပြေဘူးလို့ပြောချင်ပါတယ်။

Cleansing/Transform

ဒီအဆင့်မှာ Data cleansing လုပ်ကာ data များကို သန့်စင်အောင်လုပ်ပြီး ပါက အချို့ data များကို တခါတည်း ပြုပြင် ပေးရန် (transform) လိုအပ်ပါတယ်။ အဘယ့်ကြောင့်ဆိုသော ဥပမာ ရက်စွဲ ထည့်သွင်းခြင်းပြုလုပ်ချိန်တွင် အချို့က ရက်လနှစ် ပုံစံဖြင့် ၁-၃-၂၀၂၂ ဟု ရေးကြပြီး အချို့က ၁/၃/၂၀၂၂ ဟု လည်းကောင်း ၂၀၂၂ ခုနှစ် မတ်လ ၁ ရက် ဟုလည်းကောင်း ထည့်သွင်း ခြင်းမျိုးများရှိနိုင်ပါတယ်။ ထိုသို့သော အခြေအနေမျိုးများကြုံတွေ့လာရပါက မိမိအနေဖြင့် standard စံသတ်မှတ်ချက်တခုခု သတ်မှတ်ပြီး transform ပြုလုပ်ပေးဖို့လိုအပ်မည်ဖြစ်ပါတယ်။

Storing

ထိုသို့ဆောင်ရွက်ပြီးသည့် Data များကို တစ်နေရာရာတွင် သိမ်းဆည်းခြင်းမျိုး ပြုလုပ်ရမည် ဖြစ်ပါတယ်။ ထိုသို့သိမ်းဆည်းရာမှာ လုပ်ငန်းလိုအပ်ချက်အပေါ်မူတည်ပြီး အချို့က local network အချို့က cloud စသည့် နေရာအမျိုးမျိုးမှာသိမ်းဆည်းကြပါတယ်။ data ပမာဏ အနည်းအများ၊ data Accessable မြန်မြန်ဆန်ဆန်လုပ်နိုင်မှု၊ အချင်းချင်းမျှဝေ အသုံးပြုနိုင်မှု စသည့် လိုအပ်ချက်အလိုက် ပုံစံအမျိုးမျိုး နဲ့ သိမ်းဆည်းကြပါတယ်။

အဆိုပါအဆင့်ငါးဆင့်လုံးမှာ အောင်မြင်စွာဆောင်ရွက်ဖို့ technical skill Communition skill management skill စသည်ဖြင့် အရည်အချင်းများလိုအပ်ပါတယ်။ အချို့ အရည်အချင်းများကို သင်တန်းများကနေတိုက်ရိုက်လေ့လာနိုင်ပေမယ့် အချို့အရည်အချင်းများကတော့ မိမိဘာသာ လေ့ကျင့်ပျိုးထောင်ယူဖို့လိုအပ်ပါတယ်။

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး