Introduction to Regression Analysis

What is Regression Analysic?

Regression Analysic ဆိုတာ Data နှစ်ခု ဘယ်လိုဆက်နွယ်မှုရှိသလဲဆိုတာ ရှာတာဖြစ်ပါတယ်။

ကျွန်တော်တို့ ကျောင်းမှာသင်ခဲ့ရတဲ့ (x,y) ဆိုတဲ့ data set မှာ x တန်ဖိုးပေးထားပြီး y တန်ဖိုးရှာခိုင်းတာမျိုးလို့ အလွယ်မှတ်ထားနိုင်ပါတယ်။

Regression Analysic in AI Technology

AI နည်းပညာမှာဆိုရင် Regression Model ဆိုပြီး တွေ့နိုင်ပါတယ်။ စက်ကို ခွေးပုံ ကြောင်ပုံတွေပြပြီး လေ့ကျင့် (train) ထားမယ်ဆိုရင် နောက်ကျရင် စက်က ဘယ်ဟာခွေး ဘယ်ဟာကြောင်ဆိုပြီး သူဘာသာသူ ခွဲတက်သွားပါမယ်။

Regression Model ဆိုတာက machine learning ရဲ့ Supervised Learning အမျိုးအစားတစ်ပါ။ Supervised Learning ဆိုတာတော့ ခုနဏ ခွေးနဲ့ကြောင်ခွဲသလို ခွဲတက်အောင် အရင်ဆုံးစက်ကို သင်ပေးရပါတယ်။ Model ကို Learn လုပ်ခိုင်းတဲ့ Training Data ထဲမှာ မှန်တဲ့အဖြေကိုပေးထားပြီး သင်ယူခိုင်းတာမျိုးပါ။

Training data and testing data

Technical Term တွေအနေနဲ့ စက်ကို သင်ယူဖို့အတွက် အသုံးပြုတဲ့ data ကို training data လို့ခေါ်ပါတယ်။

training data နဲ့ Train ပြီး ရလာတဲ့ သူ့ Model ရဲ့ ရလဒ်တွေကို စစ်ဖို့အတွက်အသုံးပြုတဲ့ data ကို testing data လို့ခေါ်တယ်။ အဲဒီမှာ Model ကောင်းကောင်းအလုပ်လုပ်ဖို့ဆို Training data ပမာဏ ဘယ်လောက်လိုပြီး Testing Data ပမာဏ ဘယ်လောက်လိုတယ် ဆိုတာတွေတော့ ရှိပါတယ်။

Input and Output variable

ဒီမှာ Input နဲ့ Output ဆိုတဲ့ variable တွေရှိလာပါတယ်။ output ထွက်လာဖို့အတွက် input data ထည့်ဖို့လိုပါတယ်။

Input variable ကို “feature” လို့ခေါ်ပြီး ထွက်လာတဲ့ output ကို “target variable” လို့ပြောကြပါတယ်။ ဒီတော့ input variable ကို independent variable “x” လို့ ပြောမယ်ဆို output variable က ပေးလိုက်တဲ့ input variable ပေါ် မှီတည်နေတာဖြစ်လို့ dependent variable “y” လို့ပြောပါမယ်။

Best fit line of Regression

Regression ဆိုတာ Statistical method ဖြစ်ပြီးတော့ dependent variable “y” နဲ့ independent variables “x” ရဲ့ ကြားက Relationship line ကနေတဆင့် ခန့်မှန်းချင်တဲ့ y value ကို ခန့်မှန်းတာပါ။ Relationship line ကိုယူတဲ့နေရာမှာလည်း x နဲ့ y တန်ဖိုးတွေရဲ့ best fit အဖြစ်ဆုံး line ကိုရှာတာပါ။

အောက်ကပုံမှာ Engine Size (အင်ဂျင်အရွယ်အစား) (x) နဲ့ CO2 emission (ကာဘွန်ဒိုင် အောက်ဆိုက် ထုတ်လွတ်မှု) (y) ရဲ့ အချိုး တန်ဖိုးတွေရဲ့ fit ဖြစ်တဲ့ line အနီရောင်ကိုကြည့်ပါ။ အဲ့ best fit line ကနေပြီးတော့မှ နောက်ထပ် Engine Size တန်ဖိုးတစ်ခုပေးရင် အဲ့အတွက် CO2 Emission ကိုခန့်မှန်းနိုင်မှာဖြစ်ပါတယ်။

Example of Slope formula

ကျွန်တော်တို့ ငယ်ငယ်က သင်ဖူးတဲ့ Slope formula မှာ “y = m x + c” ကို အခြေခံပြီး line တခု ထုတ်လို့ရ တာကိုမှတ်မိမလား မသိဘူး။ target value “y” ကို လိုချင်ရင် m နဲ့ independent variable “x” နဲ့မြှောက်ပြီး y-intercept ဖြစ်တဲ့ c နဲ့ ပေါင်းတာကို Base ခံပါတယ်။ ပြသနာရှိလာတာက relationship line ထုတ်ဖို့ x ရှိပေမဲ့ parameter m နဲ့ c လိုလာပါတယ်။ Relationship line ကို error အနည်းဆုံးနဲ့ အမှန်ကန်ဆုံး best fit အဖြစ်ဆုံးထုတ်ပေးနိုင်တဲ့ parameters တွေကို ရွေးချယ်ဖို့ Algorithm သုံးပါတယ်။ အဲဒါကို Optimization Algorithm လို့ခေါ်တယ်။ Optimization Algorithm တွေအကြောင်းနောက် အချိန်ရမှ ဆွေးနွေးကြပါမယ်။

Other Regression models

Regression models မှာ Relationship line linear တခုပဲ ရှိတာတော့ မဟုတ်ပါဘူး။ နားလည်လွယ်အောင်လို့ ဒီတစ်ခုပဲရှင်းပြတာပါ။ Non-linear regression models ဆိုတာတွေလည်း ရှိပါတယ်။

နောက် features variable ဖြစ်တဲ့ x က တစ်ခုပဲ ရှိနိုင်သလို တစ်ခုထက်ပိုတာလည်း ဖြစ်နိုင်ပါတယ်။ features (x) တစ်ခုတည်းနဲ့ output (y) ကို ခန့်မှန်း တာကို “Simple Linear Regression” လို ပြောပြီး features တစ်ခုထက်များရင် “Multiple Linear Regression” လို့ပြောပါတယ်။ Simple , Multiple , Non-Linear အားလုံးဟာ အခုပြောခဲ့ပြီးတဲ့ အခြေခံကို မူတည်ကြပါတယ်။ Linear နဲ့ ပတ်သက်တဲ့ Regression တွေ အပါအဝင် အောက်ပါ အတိုင်း ထပ်မံ ခွဲခြားနိုင်ပါတယ် -

  • Linear Regression

    • Simple Linear Regression

    • Multiple Linear Regression

    • Non-Linear Linear Regression

  • Polynomial Regression

  • Logistic Regression

  • Ridge Regression

  • Lasso Regression

  • Quantile Regression

  • Bayesian Linear Regression

  • Principal Components Regression

  • Partial Least Squares Regression

  • Elastic Net Regression

အခြား Model တွေလည်းရှိနိုင်ဦးမှာပါ။ ခုတော့ ဒီလောက်ပါပဲ။



 

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး