Handling Categorical Variables

 Handling Categorical Variables –

Handling Categorical Variables ဆိုသည်မှာ စာရင်းကောက်ယူထားသည့် Categori ပုံစံ Data များ (ဥပမာ ကျား/မ စသည်) ကို Data analytic လုပ်သည့်နေရာမှ လွယ်ကူစေရန် Numeric ပုံစံပြောင်းခြင်း ဖြစ်ပါတယ်။ Category ပုံစံ ဖြစ်နေသည့် Data များကို Quantitative data ဟုခေါ်ပြီး ယင်း data များကို Categorical data အဖြစ်ပြောင်းလဲခြင်းကို encoding လုပ်ခြင်းဟုခေါ်ပါတယ်။

Statistic ၏ Data variable ပိုင်းတွင် Category နဲ့ Quantity Data များကို အောက်ပါအတိုင်း ခွဲခြားနိုင်ပါတယ်။

လက္ခဏာ/သဘော သဘာဝ တူညီတဲ့ အချက်အလက်တွေကို အောက်ပါအတိုင်း Category အနေဖြင့် စုထားနိုင်ပါတယ်။

လိင်အမျိုးအစား - ကျား/မ

ကားအမျိုးအစား - Honda, Nissan, Audi, BMW

သွေးအမျိုးအစား - A , B, AB, O

ဥပမာ Data Set တစ်ခုအတွင်း လိင်အမျိုးအစားများကို ကျား/မ ။ သွေးအမျိုးအစားများကို A/B/AB/O

Data analytic လုပ်ရန်သုံးသည့် Algorithm အတော်များများသည် သင်္ချာဘာသာရပ်ကိုအခြေခံပြီး တွက်ချက်ကြခြင်းကြောင့် စာသားများကို ကိုင်တွယ်ခြင်းထက် ဂဏန်း များဖြင့်သာ ကိုင်တွယ်ဖြေရှင်းရန် ပုံစံ ထုတ်ထားကြပါတယ်။ ထို့ကြောင့် တွက်ချက်ခြင်းများပြုလုပ်သည့်အခါ ကျား/မ စသည့် category စာသားများကို တွက်ချက်ခြင်းထက် ပိုမို လွယ်ကူစေရန် 0, 1 စသည့် numeric များအဖြစ်ပြောင်းကာ တွက်ချက်ပါက ပိုမို လွယ်ကူပါတယ်။ ထို့အပြင်ယနေ့ ခေတ် ကွန်ပျူတာများတွင်လည်း စာသားများကို တွက်ချက်ခြင်းထက် ဂဏန်းများကို တွက်ချက်ခြင်းက ပိုမိုမြန်ဆန်ပါတယ်။ အဆိုပါအကြောင်းများကြောင့် Categorical data များကို numerical data များအဖြင့် ပြောင်းလဲတွက်ချက်သင့်ပါတယ်။

One – Hot Encoding

One – Hot Encoding ဆိုသည်မှာ မိမိတိုကောက်ယူထားသည့် ကျား/မ စသည့် data များကို ကျား=၀, မ=၁ စသည်ဖြင့်အစားထိုးတွက်ချက်ခြင်းဖြစ်ပါတယ်။ ထိုသို့တွက်ချက်ခြင်းကို Assign dummy value (ယာယီတန်ဖိုးများထည့်သွင်းခြင်း) ဟု ခေါ်ဆိုပါတယ်။

အချုပ်အားဖြင့် Categorial Variable တွေကို ကိုင်တွယ်ရာမှာ အခက်အခဲကန့်သတ်ချက်တွေကိုကျော်လွှားဖို့ numeric value အဖြစ်ပြောင်းလဲပြီး quantitave variable တွေအနေနဲ့ ကိုင်တွယ်ဖို့လိုအပ်ပါတယ်။ ဒီလိုလုပ်ဖို့ဆို one hot encoding ဆိုတဲ့နည်းကိုအသုံးပြုပြီး ဆောင်ရွက်နိုင်ပါတယ်။

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး