Know Your Data

Data Analyst project တစ်ခုကို ကိုင်တွယ်ပြီဆိုရင် project မှာပါဝင်တဲ့ Data set တွေထဲက data တွေရဲ့ သဘောသဘာဝကို နားလည်ထားဖို့လိုအပ်ပါတယ်။ ဒါမှသာ Data တွေကိုထိရောက်စွာ ကိုင်တွယ်ဆောင်ရွက်နိုင်မှာဖြစ်ပါတယ်။

data science ဘာသာရပ်မှာ စာရင်းအင်းဘာသာရပ် statistic ဟာ မရှိမဖြစ်ပါဝင်တဲ့ ဘာသာရပ်ဖြစ်လို့ တွက်ချက်မှုတွေပြုလုပ်ရာမှာ statistical variables တွေဟာ မဖြစ်မနေပါ ဝင် လာပါတယ်။ စာရင်းအင်းပညာရပ်မှာ လည်း data တွေကို variable ဆိုပြီး အမျိုးအစားအမျိုးမျိုး ခွဲခြားထားနိုင်ပါတယ်။ လူတစ်ယောက်ရဲ့ အချက်အလက်တွေသွင်းမယ်ဆိုရင် သူ့ရဲ့ အမည်၊ အသားအရည်၊ မှတ်ပုံတင်၊ အရပ်အမြင့်၊ လိင်အမျိုးအစား၊ နေရပ်လိပ်စာ၊ ပညာအရည်အချင်းစတဲ့ အချက်အလက်တွေက သူ့ကို ထူးခြားစေတဲ့ လက္ခဏာ / property ဖြစ်ပြီး အဲဒါတွေကို variable လို့ခေါ်ပါတယ်။ ကားတစ်စီးမှာဆိုရင် လည်း တံဆပ်၊ model၊ အင်ဂျင်ပါဝါ၊ အရောင်၊ စျေးနှုန်း၊ အမြန်နှုန်း စတဲ့ variable တွေပါဝင်မှာဖြစ်ပါတယ်။ ဒီထက်ပိုများတဲ့ variable အချက်အလက်တွေ လည်း ရှိနိုင်ပါတယ်။ ဒါပေမယ့် variable တွေ ဘယ်လောက်ပဲများများ Category နဲ့ Quantity ဆိုပြီး အမျိုးအစားနှစ်ခုပဲရှိပါတယ်။ တံဆိပ် မော်ဒယ် အရောင် စသဖြင့်အစုလိုက်အဖွဲ့လိုက် ဖွဲ့ထားလို့ရတဲ့ variable ကို category variable လို့ခေါ်ပြီး ဂီယာအချက်အရေအတွက်၊ မြန်နှုန်း၊ စျေးနှုန်း၊ အင်ဂျင်ပါဝါ စသဖြင့် တစ် နှစ် သုံး လေး ရေတွက်လို့ရတဲ့ variable အမျိုးအစားတွေကို Quantity variable လို့ခေါ်ပါတယ်။

Category variable

category variable အောက်မှာ nominal variable နဲ့ Ordinal variable ဆိုပြီး နှစ်မျိုးရှိပါတယ်။ ကားအရောင်၊ တံဆိပ်၊ မော်ဒယ် စတာတွေကို nominal variable လို့ဆိုနိုင်ပါတယ်။ နောက်ပြီး Ordinal variable အောက်မှာ ကောင်း၊ သင့်၊ ညံ့ ဆိုပြီး ခွဲခြားရေတွက်တဲ့ စနစ်ကို Condition အမျိုးမျိုးသတ်မှတ်ပြီးခွဲခြားတာမျိုးကို Condition/Order variable လို့ခေါ်ပါတယ်။ ဒါအပြင် Ordinal variable အောက်မှာ ပဲ ရှိသမျှကားအကုန်လုံး rank သတ်မှတ်ကာ အစီး ၁၀၀ ရှိရင် အစီး ၁၀၀ လုံး ၁ ကနေ ၁၀၀ အထိ မှတ်စဉ် သတ်မှတ်ပြီး အကောင်းအဆိုး စီထားတာမျိုးကို Ranking variable လို့ခေါ်ပါတယ်။

Quantity variable

ရေတွက်လို့ရတဲ့ variable တွေကို Quantity variable လို့ခေါ်ပါတယ်။

Quantity variable အောက်မှာမှ စျေးနှုန်းတို့ အင်ဂျင်ပါဝါတို့ ဂီယာအရေအတွက်တို့လို အချက်တွေဟာ တစ်နှစ် သုံး လေး ရေတွက်လို့ရပြီး ပြောင်းလဲမှုလဲမရှိ (တသမတ်တည်းသတ်မှတ်ထားလို့ရ) တဲ့ အတွက် Discreate Variable လို့ခေါ်ပါတယ်။

လူတစ်ယောက်ရဲ့ အရပ်အမြင့်တို့၊ ကားရဲ့မြန်နှုန်းတို့၊ နေရာဒေသတစ်ခုရဲ့ မိုးရေချိန်ပမာဏတို့လို variable တွေဟာ အချိန်အခါပေါ်မူတည်၍ အပြောင်းအလဲရှိ (တသမတ်တည်း သတ်မှတ်ထားလို့မရ)နိုင်ပြီး အသေးငယ်ဆုံးယူနစ်တွေအထိ ထပ်ပြီး ခွဲစိပ်ဖော်ပြလို့ရနိုင်တဲ့အတွက် Continuous variable လို့ခေါ်ပါတယ်။

ဒါကြောင့်မှု variable တွေကို အောက်ပါအတိုင်းအကြမ်း အားဖြင့် ခွဲခြားထားနိုင်ပါတယ်။

variable အသေးစိတ်ကို နောက်ခန်းများမှာဆက်လက် ရှင်းပြပေးသွားပါမယ်။

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး