Data formatting

Data Pre-Processing မှာ Missing Value တွေကို ကိုင်တွယ်ဖြေရှင်းခြင်းနဲ့ Transforming ပြုလုပ်ခြင်း ဆိုပြီး နှစ်ပိုင်းရှိပြီး Transforming ပြုလုပ်ရာတွင် လည်း Formatting , Normalization, Scaling, Binning နဲ့ Converting ဆိုပြီး ထပ်မံခွဲခြားမှုပြုလုပ်နိုင်ပါတယ်။

Formatting

Data တွေသည် စာသား /text ပုံစံ၊ ဂဏန်းအက္ခရာ /integer ပုံစံ, ဓာတ်ပုံ/image, အသံ/ audio စသည့် ပုံစံအမျိုးမျိုး format အမျိုးမျိုးနှင့်ရှိနေမှာဖြစ်ပါတယ်။

ထို့အပြင် အဖွဲ့အစည်း Organization တစ်ခုမှာရှိသည့် ဌာန/department အများအပြားရှိနိုင်ပြီး သက်ဆိုင်ရာ ဌာနအလိုက် data များစုဆောင်းထားရှိမှာဖြစ်ပါတယ်။ ဥပမာ ဧည့်ကြို ဌာန၊ စီမံဌာန၊ ငွေစာရင်းဌာန၊ အရောင်းဌာန ဟု ဌာနအများအပြားရှိနိုင်ပြီး အဆိုပါဌာနများကက ဖုန်းနံပါတ် များ ရေးမှတ်ပြီး data များစုဆောင်းကြရာတွင် အချို့ က ၀၉ ကစမှတ်ပြီး အချို့က နိုင်ငံ ဧရိယာကုတ်က စမှတ်ကာ ၉၅၉ စသဖြင့်မှတ်ခြင်းမျိုးများကွဲပြားနေနိုင်ပါတယ်။

ထို့အပြင် သိမ်းဆည်းသည့် Software မတူသည့်အတွက် data format ကွဲသွားခြင်း/inconsistency ဖြစ်ခြင်း ဖြစ်နိုင်ပါတယ်။ အချို့ဌာနများက excel ဖြင့်အချက်အလက်များသိမ်းဆည်းသည့်အတွက် .xlsx file များဖြစ်နေပြီး အချို့ ဌာနများတွင် Sql format များဖြစ်နေကာ data format ကွဲလွဲတာမျိုးများရှိနေ နိုင်ပါတယ်။

သတိပြုသင့်သည့် နောက်တစ်ချက်မှာ Typo error ဟုခေါ်သည့် စာစီစာရိုက်ရာတွင် မှားယွင်းခြင်းဖြစ်ပါတယ်။ စာရင်းသွင်းသည့်သူက သုည တစ်လုံးမှားရိုက်မိတာမျိုးဟာ စာစီစာရိုက်မှားယွင်းမှုကြောင့် ဖြစ်ပါတယ်။ ဒါကြောင့် စာရင်းသွင်းရာမှာ အမှားအယွင်းမရှိအောင် Check <=> recheck <=> countercheck ဆိုပြီးအဆင့်ဆင့် စစ်ဆေးဖို့လိုပါတယ်။

မိမိတို့အနေဖြင့် Department အသီးသီးမှ application မျိုးစုံဖြင့် သိမ်းဆည်းထားသည့် အချက်အလက်များသည် ပုံသဏ္ဍာန်အမျိုးမျိုးနဲ့ Central data repository ကို ရောက်ရှိ လာမှာဖြစ်ပါတယ်။ ဒီလို ပုံသဏ္ဍာန်အမျိုးမျိုးရှိသည့် အချက်အလက်များကို ပုံစံတစ်ခုတည်း ဖြစ်သွားအောင် format လုပ်ပေးရန်လိုအပ်ပါတယ်။

Benefits of Data formatting

Data format လုပ်ခြင်းမှာ အချိန်ကြာမြင့်တက်သော်လည်း အကျိုးကျေးဇူးများစွာရှိပါတယ်။

Format လုပ်လိုက်ခြင်းအားဖြင့် အောက်ပါအကျိုးတွေရရှိပါတယ်-

  • Data process လုပ်ဖို့ လွယ်ကူသွားခြင်း

  • ရှေ့နောက်မညီဖြစ်နေသည့်အချက်အလက်များကိုလည်း တခါတည်း ဖြေရှင်းသွားနိုင်ခြင်း

  • အချက်အလက်မကိုက်ညီဖြစ်နေတာမျိုးများရှိပါကလည်း ထောက်ပြပြင်ဆင်သွားနိုင်ခြင်း

  • အချက်အလက်တွေသည် ပိုမို အဓိပ္ပါယ်ရှိလာပြီး သန့်စင်/ရှင်းလင်း/တိကျ/အသုံးဝင် လာခြင်း

  • ပိုမိုနားလည်လွယ်ကူစေခြင်း

Data formatting Methods

Data formatting တွင်အောက်ပါနည်းများပါဝင်ပါတယ်။

  • standardization : စံသတ်မှတ်ချက် လုပ်ပြီး format လုပ်ခြင်း( ဥပမာ ရန်ကုန်ကို ygn, yangon, rangoon စသည်ဖြင့် အမျိုးမျိုးထည့်သွင်း ထားခြင်းကို yangon ဟုပြင်ဆင်ခြင်း)

  • Conversion : နောက်အသုံးဝင်သည့်နည်း မှာ convert လုပ်ခြင်း (ဥပမာ လေးချိန်ကို ပေါင် (Lb) နဲ့ ဖော်ပြထားခြင်းကို ကီလိုဂရမ်(Kg) ဖြင့် တွက်ချက်ပြောင်းလဲဖော်ပြခြင်း)

  • Types: data type ပြောင်းလဲခြင်း (ဥပမာ အချို့ program များတွင် data များကို stream ပုံစံဖြင့်သိမ်းဆည်းထားရာမှ integer ပုံစံ သို့ data type ပြောင်းလဲခြင်း)

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး