Handling Categorical Variables
Handling Categorical Variables –
Handling Categorical Variables ဆိုသည်မှာ စာရင်းကောက်ယူထားသည့် Categori ပုံစံ Data များ (ဥပမာ ကျား/မ စသည်) ကို Data analytic လုပ်သည့်နေရာမှ လွယ်ကူစေရန် Numeric ပုံစံပြောင်းခြင်း ဖြစ်ပါတယ်။ Category ပုံစံ ဖြစ်နေသည့် Data များကို Quantitative data ဟုခေါ်ပြီး ယင်း data များကို Categorical data အဖြစ်ပြောင်းလဲခြင်းကို encoding လုပ်ခြင်းဟုခေါ်ပါတယ်။
Statistic ၏ Data variable ပိုင်းတွင် Category နဲ့ Quantity Data များကို အောက်ပါအတိုင်း ခွဲခြားနိုင်ပါတယ်။
လက္ခဏာ/သဘော သဘာဝ တူညီတဲ့ အချက်အလက်တွေကို အောက်ပါအတိုင်း Category အနေဖြင့် စုထားနိုင်ပါတယ်။
လိင်အမျိုးအစား - ကျား/မ
ကားအမျိုးအစား - Honda, Nissan, Audi, BMW
သွေးအမျိုးအစား - A , B, AB, O
ဥပမာ Data Set တစ်ခုအတွင်း လိင်အမျိုးအစားများကို ကျား/မ ။ သွေးအမျိုးအစားများကို A/B/AB/O
Data analytic လုပ်ရန်သုံးသည့် Algorithm အတော်များများသည် သင်္ချာဘာသာရပ်ကိုအခြေခံပြီး တွက်ချက်ကြခြင်းကြောင့် စာသားများကို ကိုင်တွယ်ခြင်းထက် ဂဏန်း များဖြင့်သာ ကိုင်တွယ်ဖြေရှင်းရန် ပုံစံ ထုတ်ထားကြပါတယ်။ ထို့ကြောင့် တွက်ချက်ခြင်းများပြုလုပ်သည့်အခါ ကျား/မ စသည့် category စာသားများကို တွက်ချက်ခြင်းထက် ပိုမို လွယ်ကူစေရန် 0, 1 စသည့် numeric များအဖြစ်ပြောင်းကာ တွက်ချက်ပါက ပိုမို လွယ်ကူပါတယ်။ ထို့အပြင်ယနေ့ ခေတ် ကွန်ပျူတာများတွင်လည်း စာသားများကို တွက်ချက်ခြင်းထက် ဂဏန်းများကို တွက်ချက်ခြင်းက ပိုမိုမြန်ဆန်ပါတယ်။ အဆိုပါအကြောင်းများကြောင့် Categorical data များကို numerical data များအဖြင့် ပြောင်းလဲတွက်ချက်သင့်ပါတယ်။
One – Hot Encoding
One – Hot Encoding ဆိုသည်မှာ မိမိတိုကောက်ယူထားသည့် ကျား/မ စသည့် data များကို ကျား=၀, မ=၁ စသည်ဖြင့်အစားထိုးတွက်ချက်ခြင်းဖြစ်ပါတယ်။ ထိုသို့တွက်ချက်ခြင်းကို Assign dummy value (ယာယီတန်ဖိုးများထည့်သွင်းခြင်း) ဟု ခေါ်ဆိုပါတယ်။
အချုပ်အားဖြင့် Categorial Variable တွေကို ကိုင်တွယ်ရာမှာ အခက်အခဲကန့်သတ်ချက်တွေကိုကျော်လွှားဖို့ numeric value အဖြစ်ပြောင်းလဲပြီး quantitave variable တွေအနေနဲ့ ကိုင်တွယ်ဖို့လိုအပ်ပါတယ်။ ဒီလိုလုပ်ဖို့ဆို one hot encoding ဆိုတဲ့နည်းကိုအသုံးပြုပြီး ဆောင်ရွက်နိုင်ပါတယ်။



Comments
Post a Comment