Introduction to Regression Analysis
What is Regression Analysic?
Regression Analysic in AI Technology
AI နည်းပညာမှာဆိုရင် Regression Model ဆိုပြီး တွေ့နိုင်ပါတယ်။ စက်ကို ခွေးပုံ ကြောင်ပုံတွေပြပြီး လေ့ကျင့် (train) ထားမယ်ဆိုရင် နောက်ကျရင် စက်က ဘယ်ဟာခွေး ဘယ်ဟာကြောင်ဆိုပြီး သူဘာသာသူ ခွဲတက်သွားပါမယ်။
Regression Model ဆိုတာက machine learning ရဲ့ Supervised Learning အမျိုးအစားတစ်ပါ။ Supervised Learning ဆိုတာတော့ ခုနဏ ခွေးနဲ့ကြောင်ခွဲသလို ခွဲတက်အောင် အရင်ဆုံးစက်ကို သင်ပေးရပါတယ်။ Model ကို Learn လုပ်ခိုင်းတဲ့ Training Data ထဲမှာ မှန်တဲ့အဖြေကိုပေးထားပြီး သင်ယူခိုင်းတာမျိုးပါ။
Training data and testing data
Technical Term တွေအနေနဲ့ စက်ကို သင်ယူဖို့အတွက် အသုံးပြုတဲ့ data ကို training data လို့ခေါ်ပါတယ်။
training data နဲ့ Train ပြီး ရလာတဲ့ သူ့ Model ရဲ့ ရလဒ်တွေကို စစ်ဖို့အတွက်အသုံးပြုတဲ့ data ကို testing data လို့ခေါ်တယ်။ အဲဒီမှာ Model ကောင်းကောင်းအလုပ်လုပ်ဖို့ဆို Training data ပမာဏ ဘယ်လောက်လိုပြီး Testing Data ပမာဏ ဘယ်လောက်လိုတယ် ဆိုတာတွေတော့ ရှိပါတယ်။
Input and Output variable
ဒီမှာ Input နဲ့ Output ဆိုတဲ့ variable တွေရှိလာပါတယ်။ output ထွက်လာဖို့အတွက် input data ထည့်ဖို့လိုပါတယ်။
Input variable ကို “feature” လို့ခေါ်ပြီး ထွက်လာတဲ့ output ကို “target variable” လို့ပြောကြပါတယ်။ ဒီတော့ input variable ကို independent variable “x” လို့ ပြောမယ်ဆို output variable က ပေးလိုက်တဲ့ input variable ပေါ် မှီတည်နေတာဖြစ်လို့ dependent variable “y” လို့ပြောပါမယ်။
Best fit line of Regression
Regression ဆိုတာ Statistical method ဖြစ်ပြီးတော့ dependent variable “y” နဲ့ independent variables “x” ရဲ့ ကြားက Relationship line ကနေတဆင့် ခန့်မှန်းချင်တဲ့ y value ကို ခန့်မှန်းတာပါ။ Relationship line ကိုယူတဲ့နေရာမှာလည်း x နဲ့ y တန်ဖိုးတွေရဲ့ best fit အဖြစ်ဆုံး line ကိုရှာတာပါ။
အောက်ကပုံမှာ Engine Size (အင်ဂျင်အရွယ်အစား) (x) နဲ့ CO2 emission (ကာဘွန်ဒိုင် အောက်ဆိုက် ထုတ်လွတ်မှု) (y) ရဲ့ အချိုး တန်ဖိုးတွေရဲ့ fit ဖြစ်တဲ့ line အနီရောင်ကိုကြည့်ပါ။ အဲ့ best fit line ကနေပြီးတော့မှ နောက်ထပ် Engine Size တန်ဖိုးတစ်ခုပေးရင် အဲ့အတွက် CO2 Emission ကိုခန့်မှန်းနိုင်မှာဖြစ်ပါတယ်။
ကျွန်တော်တို့ ငယ်ငယ်က သင်ဖူးတဲ့ Slope formula မှာ “y = m x + c” ကို အခြေခံပြီး line တခု ထုတ်လို့ရ တာကိုမှတ်မိမလား မသိဘူး။ target value “y” ကို လိုချင်ရင် m နဲ့ independent variable “x” နဲ့မြှောက်ပြီး y-intercept ဖြစ်တဲ့ c နဲ့ ပေါင်းတာကို Base ခံပါတယ်။ ပြသနာရှိလာတာက relationship line ထုတ်ဖို့ x ရှိပေမဲ့ parameter m နဲ့ c လိုလာပါတယ်။ Relationship line ကို error အနည်းဆုံးနဲ့ အမှန်ကန်ဆုံး best fit အဖြစ်ဆုံးထုတ်ပေးနိုင်တဲ့ parameters တွေကို ရွေးချယ်ဖို့ Algorithm သုံးပါတယ်။ အဲဒါကို Optimization Algorithm လို့ခေါ်တယ်။ Optimization Algorithm တွေအကြောင်းနောက် အချိန်ရမှ ဆွေးနွေးကြပါမယ်။
Other Regression models
Regression models မှာ Relationship line linear တခုပဲ ရှိတာတော့ မဟုတ်ပါဘူး။ နားလည်လွယ်အောင်လို့ ဒီတစ်ခုပဲရှင်းပြတာပါ။ Non-linear regression models ဆိုတာတွေလည်း ရှိပါတယ်။
နောက် features variable ဖြစ်တဲ့ x က တစ်ခုပဲ ရှိနိုင်သလို တစ်ခုထက်ပိုတာလည်း ဖြစ်နိုင်ပါတယ်။ features (x) တစ်ခုတည်းနဲ့ output (y) ကို ခန့်မှန်း တာကို “Simple Linear Regression” လို ပြောပြီး features တစ်ခုထက်များရင် “Multiple Linear Regression” လို့ပြောပါတယ်။ Simple , Multiple , Non-Linear အားလုံးဟာ အခုပြောခဲ့ပြီးတဲ့ အခြေခံကို မူတည်ကြပါတယ်။ Linear နဲ့ ပတ်သက်တဲ့ Regression တွေ အပါအဝင် အောက်ပါ အတိုင်း ထပ်မံ ခွဲခြားနိုင်ပါတယ် -
Linear Regression
Simple Linear Regression
Multiple Linear Regression
Non-Linear Linear Regression
Polynomial Regression
Logistic Regression
Ridge Regression
Lasso Regression
Quantile Regression
Bayesian Linear Regression
Principal Components Regression
Partial Least Squares Regression
Elastic Net Regression
အခြား Model တွေလည်းရှိနိုင်ဦးမှာပါ။ ခုတော့ ဒီလောက်ပါပဲ။

Comments
Post a Comment