Posts

Showing posts from July, 2025

Introduction to Regression Analysis

Image
What is Regression Analysic? Regression Analysic ဆိုတာ Data နှစ်ခု ဘယ်လိုဆက်နွယ်မှုရှိသလဲဆိုတာ ရှာတာဖြစ်ပါတယ်။ ကျွန်တော်တို့ ကျောင်းမှာသင်ခဲ့ရတဲ့ (x,y) ဆိုတဲ့ data set မှာ x တန်ဖိုးပေးထားပြီး y တန်ဖိုးရှာခိုင်းတာမျိုးလို့ အလွယ်မှတ်ထားနိုင်ပါတယ်။

ANOVA Test

What is ANOVA? Analysis of variable (ANOVA) ဆိုတာ data များကို အုပ်စုခွဲကာ နှိုင်းယှဉ်လေ့လာခြင်းကို ခေါ်ဆိုခြင်းဖြစ်ပါတယ်။ မတူညီတဲ့ Categorical value တွေထဲက Correlation ကို ရှာဖွေဖို့အသုံးပြုတဲ့ နည်းလမ်းတစ်ခုပါ။ နောက်ပြီး Analysis of variable (ANOVA) ဆိုတာ z score တို့၊ R value တို့လို statistical test တစ်မျိုးဖြစ်ပါတယ်။ F-Test Score & P-Value Analysis of variable (ANOVA) test ကို ဆောင်ရွက်မယ်ဆိုရင် F-Test Score နဲ့ P-Value ဆိုတဲ့ တန်ဖိုးနှစ်ခုရလာပါတယ်။ F-Test Score ဆိုတာ statistical test Score တစ်ခုဖြစ်ပြီး P-Value ဆိုတာ ရရှိလာတဲ့ statistical test ကိုဘယ်လောက်မှန်ကန်နိုင်လဲ ဆိုတာ ဖော်ပြတဲ့ကိန်း ဖြစ်ပါတယ်။ အင်္ဂလိပ်လိုပြောရရင် (How Confidence on our Test Score) ပေါ့။ အများသောအားဖြင့် P-Value က ၀.၀၅ ထက်နည်းလို့ရှိရင် ကျွန်တော်တို့ ရရှိထားတဲ့ Test Score ကို ကောင်းကောင်းယုံကြည်နိုင်တယ် လို့ ယျေဘုယျမှတ်ယူနိုင်ပါတယ်။ F-Test Score ကိုအောက်ပါအတိုင်းတွက်နိုင်ပါတယ်- Formula => F-Test Score = (Variation between sample Group Mean) / (Variation within sample Group Mean) ဒါက F-Test Score တွက...

Correlation Coefficient

Image
Correlation မှာ Coverience ကို ရှာဖွေပြီးသည့်အချိန်တွင် Data အချင်းချင်း မည်မျှ ခိုင်မာစွာချိတ်ဆက်သည်ကို ထပ်မံလေ့လာ ရန် ယင်းကိုအခြေခံ ကာ Coefficient ကို ထပ်မံတွက်ထုတ်နိုင်ပါသည်။ Correlation ကို r value ဟုလည်း ခေါ်ဝေါ်သုံးနှုန်းကြပါသည်။ R value အမျိုးမျိုးရှိနိုင်ပြီး Correlation ပုံစံလည်း အမျိုးမျိုးကွဲပြားခြားနားနိုင်ပါသည်။ Data x နှင့် y ၏ Correlation (r value) Cor(x,y) ကို တွက်လိုပါက Coverience /Cov(x,y)ကို တည် Standard Deviations နှစ်ခု (Sx,Sy) မြောက်လဒ်နှင့်စားပေးရပါမည်။ Coverience တန်ဖိုး Cov(x,y) ကို အခြေခံပြီး Correlation တန်ဖိုး Corr(x,y) ကို အောက်ပါဖော်မြူလာဖြင့်တွက်ထုတ်နိုင်ပါသည်။

Relationship Between Variables

Image
Data set တစ်ခုတွင် Variable များပါဝင်ပြီး အဆိုပါ Variable များကြားတွင် Relationship ဟူသည့် ဆက်သွယ်မှု ရှိနိုင်ပါသည်။ ဥပမာ လုပ်ငန်းအတွေ့အကြုံ များလာပါက လစာ ပိုမိုများပြားလာခြင်း၊ အသက်အရွယ်ကြီး လာသည်နှင့်အမျှ ပင်ပန်းခံနိုင်မှုကျဆင်းလာခြင်း၊ ရာသီဥတုပူပြင်းလာသည်နှင့်အမျှ အအေးရောင်းချမှု မြင့်လာပြီး ကော်ဖီရောင်းချမှုကျဆင်းခြင်း စသည့်ဆက်နွယ်မှုများရှိနိုင်ပါသည်။

Discrete Binning/Bucketing

Image
Data တွေကို preprocessing လုပ်ရာမှာ Binning/Bucketing ဆိုတဲ့ method လည်း ကို သိရှိထားဖို့လိုပါတယ်။ ကျွန်တော်တို့ ကွန်ပျူတာတွေမှာ မလိုတဲ့ဟာတွေကို တစ်နေရာမှာစုထားဖို့ Recycle Bin ဆိုတဲ့ အမှိုက်ပုံးလိုဟာလေးတစ်ခုရှိပါတယ်။ Bin ဆိုတာ ပုံးလေးတစ်ခုလို့သတ်မှတ်လို့ရပါတယ်။ ဒီနေရာမှာတော့ မလိုတဲ့ဟာတွေကို စုထားဖို့မဟုတ်ပါဘူး။ အမျိုးအစားတူတဲ့data တွေကိုစုထားဖို့ အတွက်ပါ။

Handling Categorical Variables

Image
  Handling Categorical Variables – Handling Categorical Variables ဆိုသည်မှာ စာရင်းကောက်ယူထားသည့် Categori ပုံစံ Data များ (ဥပမာ ကျား/မ စသည်) ကို Data analytic လုပ်သည့်နေရာမှ လွယ်ကူစေရန် Numeric ပုံစံပြောင်းခြင်း ဖြစ်ပါတယ်။ Category ပုံစံ ဖြစ်နေသည့် Data များကို Quantitative data ဟုခေါ်ပြီး ယင်း data များကို Categorical data အဖြစ်ပြောင်းလဲခြင်းကို encoding လုပ်ခြင်းဟုခေါ်ပါတယ်။