Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ
Data science မလေ့လာမီ data science နယ်ပယ်တွင်အသုံးများနေတဲ့ ဝေါဟာရများကို အကြောင်း ပြောချင်ပါတယ်။ Data science အသုံးအနှုန်းလို့ ပြောပေမယ့် အချို့ အသုံးအနှုန်းတွေဟာ AI လိုနည်းပညာတွေမှာပါ သုံးနှုန်းနေတဲ့အသုံးအနှုန်းတွေဖြစ်ပြီး data scienceနဲ့ တိုက်ရိုက်မပတ်သက်သော်လည်း သိရှိထားဖို့လိုအပ်တာကြောင့် ထည့်သွင်း လိုက်ရပါတယ်။
နည်းပညာနယ်ပယ်မှ အချို့ဝေါဟာရများဟာ မိမိ မိခင်ဘာသာရပ်အတိုင်း နားလည်အောင် ပြန်ဆိုရန် အခက်အခဲရှိပြီး အဆိုပါ စကားလုံးများကို နားမလည်ပါက လေ့လာမှုပိုင်းတွင် ကြီးစွာ အနှောက်အယှက်ဖြစ်စေနိုင်ပါတယ်။ ဘာသာရပ်တစ်ခုကို လေ့လာတော့မှယ်ဆိုရင် အဆိုပါ ဘာသာရပ်နဲ့ ပတ်သက်တဲ့ စကားလုံးဝေါဟာရအချို့ကို ကြိုတင်လေ့လာထားရန်လိုအပ်ပါတယ်။
Database:
data များစုဝေးထားသည့် အစုအဝေးကို Database ဟုခေါ်ပါတယ်။ database ထဲမှ data များ တွေကို query language အမျိုးမျိုးကိုအသုံးပြုပြီး ဆွဲယူအသုံးပြု ကြရပါတယ်။ MySQL, MsSQL, MariaDB, progaster, MongoDB စသဖြင့် Language အများအပြားရှိပြီး စံသတ်မှတ်ချက်အပေါ်မူ တည်ပြီး SQL (Standard Query Language), NoSQL (Not Only Standard Query Language) စသဖြင့် database အမျိုးအစားကွဲပြားကြပါတယ်။
Data set:
အဖွဲ့အစည်းတစ်ခုရဲ့ သိမ်းဆည်းထားတဲ့ data structure ကို data set လို့ခေါ်ပါတယ်။ အဲဒီမှာ excel, csv နဲ့ sql စတဲ့ ဖိုင်အမျိုးအစားတွေပါဝင် နိုင်ပြီး အရောင်းစာရင်းတွေ ဝန်ထမ်းကိုယ်ရေးအချက်အလက်တွေ စသည်ဖြင့်အဖွဲ့အစည်းအလိုက် ကွာခြားနိုင်ပါတယ်။
Dependent/Independent Variable:
Dependent variable ဟူသည်မှာ မိမိ data set တွင် ပါဝင်တဲ့ data များအပေါ်မူတည်ပြီး တန်ဖိုးပြောင်းလဲနိုင်သည့် ကိန်းရှင် ဖြစ်ပါတယ်။ Independent Variable ဆိုတာ ကတော့ ပြောင်းပြန်ပါ။ data များအပေါ်မူတည်ပြီး တန်ဖိုး မပြောင်းလဲနိုင်သည့် ကိန်းရှင် ဖြစ်ပါတယ်။
Dummy Variable:
Data set တစ်ခုအတွင်း တွက်ချက်ရလွယ်ကူစေရန် Data analyst က ပြောင်းလဲသတ်မှတ် ထားတဲ့ variable တွေကို Dummy Variable လို့ခေါ်ပါတယ်။
Business Analyst:
Data science များဖော်ထုတ်ထားသည့် နည်းလမ်းများကိုမြေပြင်တွင် အသုံးချ ၍ ထွက်ပေါ်လာသည့် ရလဒ်များကို တင်ပြခြင်း ကို Business Analyst လို့ခေါ်ပါတယ်။
Data Engineer: Business Analyst နှင့် Data scientist များ data များကို ကိုင်တွယ်ရာတွင် လုံခြုံ လွယ်ကူ စွာဆောင်ရွက်နိုင်ရန် ထိမ်းသိမ်းမွန်းမံပေးသူကို data engineer ဟုခေါ်ပါတယ်။
Data Government:
data များကို public သို့ပြမည် သို့မဟုတ် private ထားမည်၊ လုံခြုံအောင် မည်သို့ထားမည်၊ သတင်းအချက်အလက်မြန်ဆန်ရေး မည်သို့ဆောင်ရွက်မည် စသည့် policy များကို ချမှတ်ပြီး management လုပ် စီမံခန့်ခွဲ သူများကို Data government ဟုခေါ်ပါတယ်။
Data Mining: Data များအတွင်း အသုံးမဝင်သည့်အချက်အလက်များကို ဖယ်ရှားပြီး အသုံးဝင်သည့် အချက်အလက်များကို စစ်ထုတ်ယူခြင်း၊ မှားယွင်းပြီး စနစ်တကျမရှိသည့် အချက်အလက်များကို ပြန်လည် ပြင်ဆင်ခြင်းများ ပြုလုပ်ခြင်းကို Data Mining လုပ်သည်ဟု ခေါ်ပါတယ်။
Data wrangling:
ETL (Extract, Transform, Load) လို့လည်း သိရှိကြပါတယ်။ ETL (Extract=လိုအပ်သည့် data များကို ဆွဲထုတ်ယူကာအသုံးချခြင်း , Transform=format မမှန်သည့် data များကို လွယ်ကူစွာ ကိုင်တွယ်ဆောင်ရွက်နိုင်သည့် ပုံစံရောက်ရှိသည်အထိ ပြုပြင် ပြောင်းလဲခြင်း, Load=အသင့်ဖြစ်သည့် data များကို system အတွင်းထည့်သွင်းခြင်း)
Data cleaning:
raw data တွေကို data analysis လုပ်ရန်အတွက် clean လုပ်တာ သင့်လျော်သော data format ကိုပြောင်းတာ (e.g., handling missing data, dealing with outliers) အစရှိသည်များက Data cleaning and wrangling process ထဲမှာပါတယ်။ data analytics, data science လုပ်ငန်းစဉ်တွေထဲမှာ အချိန်အကြာဆုံး လုပ်ငန်းစဉ်ဖြစ်တယ်။ ဒီအဆင့်ကို ကောင်းကောင်းမွန်မွန် ဆောင်ရွက်ခဲ့မှသာ နောက်ပိုင်းလုပ်ငန်းတွေကို အောင်အောင်မြင်မြင် ထိထိရောက်ရောက် ဆောင်ရွက်နိုင်မှာဖြစ်ပါတယ်။
Data Visualization:
data များကို ပိုမို ထင်သာမြင်သာဖြစ်အောင် (Graph/chard) များသုံးတင်ပြခြင်းကို Data Visualization လုပ်တယ်လို့ခေါ်ပါတယ်။
Data Modeling:
data set တစ်ခုအတွင်း ရှိ storagical data အဟောင်းတွေကနေ နောင်ဖြစ်လာမည့် အခြေအနေတွေကို ကြိုတင်ခန့်မှန်းတွက်ချက်နိုင်တဲ့ (ဉာဏ်ရည်တုအစွမ်းရှိ) model တည်ဆောက်ခြင်း ကို Data Modeling လုပ်တယ်လို့ခေါ်ပါတယ်။
Big Data:
အလွန်မြောက်များသည့် data များကို ကိုင်တွယ်ရသည့်အခါ သုံးသည့် ဝေါဟာရ ဖြစ်သည်။ သို့သော် data ပမာဏ မည်မျှ လောက်ရှိလျင် big data ဟုခေါ်တွင်နိုင်မည်ဆိုသည် မှာ ပညာရှင်များအကြား အငြင်းပွားဆဲဖြစ်ပါတယ်။ ဒါပေမယ့် သတိပြုစရာက analytic ကောင်းတစ်ယောက်ဖြစ်လာရန် data ကိုင်တွယ်မှု အနည်းအများနှင့်မဆိုင်ဘဲ analytic လုပ်သည့် နည်းလမ်း မှန်ကန် ကောင်းမွန်မှု နှင့် သာသက်ဆိုင်ပါတယ် ဆိုတဲ့အချက်ပါပဲ။
Statistics:
သင်္ချာ ရဲ့ အလှ တရားတစ်ခုဖြစ်ပြီး data ကို information အဖြစ် အသွင်ပြောင်း ပေးတာဖြစ်ပါတယ်။ အခုခေတ်စားနေတဲ့ AI နည်းပညာမှာလည်း Statistics သင်္ချာဟာ အရမ်းအရေးပါတဲ့ နေရာကနေပါဝင်ပါတယ်။
Statistics မှာ အခြေခံအားဖြင့် Descriptive Statistics နဲ့ Inferential statistics ဆိုပြီး ရှိပါတယ်။
Descriptive statistics:
Descriptive Statistics ကို dataset တစ်ခုကို ရိုးရှင်းပြီး နားလည်ရလွယ်သောနည်းလမ်းများဖြင့် အကျဉ်းချုပ်ဖော်ပြ (summarize) လုပ်တဲ့နေရာမှာ အသုံးပြုကြတယ်။ အဲ့နည်းလမ်းတွေကနေ dataset တစ်ခုရဲ့ အရေးကြီးတဲ့ လက္ခဏာများ (characteristics) တွေကို ဖော်ပြပြီး ပုံဖော်နိုင်ပါတယ်။ measures of central tendency (mean, median, and mode) and the measures of variability (range and standard deviation) စသည်ဖြင့် dataset တွေကို အမျိုးမျိုးဖော်ပြနိုင်ပါတယ်။
Central tendency:
dataset တစ်ခုရဲ့ များသောအားဖြင့် ဖြစ်လေ့ရှိတဲ့ typical value or ဗဟိုတန်ဖိုး central value ကိုရည်ညွန်းတဲ့အခါတွေမှာ Central tendency ကို အသုံးပြုကြပါတယ်။ လူအတော်များများဟာ Central tendency ကို technically မရင်းနှီးကြပေမယ့် လူမှုဘဝမှာ အများအပြားထိတွေ့နေကြရပါတယ်။
အသုံးအများဆုံး Central tendency measures တွေကတော့
mean(ပျမ်းမျှ),
median(အလယ်အလတ်),
mode (အကြိမ်ရေအများဆုံး) တို့ပဲဖြစ်ပါတယ်။
Measures of variability:
dataset တစ်ခုကိုပုံဖော်ရာမှ Central tendency နဲ့တင် မလုံလောက်တက်ပါဘူး။ data တန်ဖိုး (values) တွေက တစ်ခုနဲ့ တစ်ခုကြား ဘယ်လောက် ကွာခြားသလဲဆိုတာကို တိုင်းတာခြင်တဲ့အခါမှာ Measures of variability ကိုအသုံးပြုရပါတယ်။ အသုံးအများဆုံး measures နှစ်ခုကတော့ range(အကြီးဆုံးနဲ့ အသေးဆုံးကြားက ကွာခြားချက် difference) နဲ့ standard deviation(dataset အတွင်းက တန်ဖိုးတွေက mean or average တန်ဖိုးနဲ့ ဘယ်လောက် သွေဖယ် deviate ဖြစ်လဲ တိုင်းတာခြင်း) တို့ပဲဖြစ်ပါတယ်။
Inferential statistics:
Inferential Statistics ဆိုတာ သေးငယ်သော smaller sample dataset တစ်ခုအပေါ် အခြေခံ၍ ပိုမိုများပြားသော larger population အတွက် ခန့်မှန်းချက်များ သို့မဟုတ် generalizations ယေဘူယျဖော်ပြချက်များ ပြုလုပ်နိုင်ရန် ကူညီပေးသည့် statistical methods ဖြစ်ပါတယ်။
ဥပမာအားဖြင့် ကျွန်တော်တို့က မြန်မာမှာရှိတဲ့ လူအားလုံးရဲ့ ပျမ်းမျှအရပ်အမြင့်ကို သိချင်တယ်ဆိုပါစို့။ အဲ့ကျရင် နိုင်ငံထဲမှာ ရှိသမျှလူတွေရဲ့ အရပ်ကို လိုက်တိုင်းဖို့ဆိုတာ မဖြစ်နိုင်ဘူး။ အဲ့တော့ နမူနာ sample dataset တစ်ခုကိုယူပြီး population တစ်ခုလုံးအတွက် ပျမ်းမျှအရပ်ကို ခန့်မှန်းတယ်။ ပြီးတဲ့အခါ ကျွန်တော်တို့ရဲ့ ခန့်မှန်းချက်တွေအပေါ် confidence ဘယ်လောက်ရှိမရှိတွက်ချက်နိုင်ပြီး ဒီတွေ့ရှိချက်တွေက statistically significant ဖြစ်တာလား ဒါမှမဟုတ် chance အရ random ဖြစ်နေတာလားစသည် ဆုံးဖြတ်နိုင်ပါတယ်။
Inferential statistics ကို နေရာတော်တော်များများ fields တော်တော်များများ (business , social sciences, scientific research, market research etc.) တွေမှာ အသုံးချကြတယ်။ ဒီ statistical methods တွေကို သုံးခြင်းဖြင့် အရေးကြီးတဲ့ decisions တွေချတဲ့အခါမှာ intuitions or assumptions စိတ်မှန်းတွေနဲ့ မဟုတ်ပဲ တစ်ကယ့် အချက်အလက် data တွေအပေါ်အခြေခံပြီးမှရလာတဲ့ informed decisions တွေဖြစ်စေဖို့ ကူညီပေးတယ်။
Hypothesis testing:
Hypothesis testing က Inferential statistics ရဲ့ အခြေခံကျသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ သူက population တစ်ခုနဲ့ပတ်သက်ပြီး ခန့်မှန်းချက် ယူဆချက် hypothesis တစ်ခုဟာ မှန်ကန်ခြင်း ရှိမရှိဆုံးဖြတ်ရန်ကူညီပေးသော statistical နည်းလမ်းတစ်ခုဖြစ်တယ်။
Business Intelligence:
data analysis tools တွေ techniques တွေကိုကိုသုံးပြီးတော့ raw data ကနေ meaningful ဖြစ်တဲ့ insights တွေပေးပြီး business တွေကို informed decision တွေချမှတ်နိုင်ရန် ကူညီပေးတယ်။
Gradient descent: Machine Learning model တွေကို train ရာမှာ အဓိကသုံးတဲ့ learning algorithm တစ်ခုဖြစ်ပါတယ်။ အခုလက်ရှိလူသုံးအရမ်းများနေတဲ့ ChatGpt, midjourney AI အစရှိတဲ့ model တွေရဲ့ learning algorithm ဟာလဲ gradient descent variant တွေပဲဖြစ်ပါတယ်။
Backpropagation:
Backpropagation က neural network layer တွေရဲ့ weights တွေကို ပိုမိုမှန်ကန်တဲ့ value တွေဖြစ်စေရန် update လုပ်ပေးတဲ့ technique တစ်ခုဖြစ်ပါတယ်။
Activation function:
activation function တွေက machine learning models တွေကို learn ဖြစ်စေရန် non-linear property ပေးဖို့အတွက် သုံးတဲ့ mathematical functions တွေပဲဖြစ်ပါတယ်။ အသုံးအများဆုံး activation functions တွေထဲမှာတော့ sigmoid, relu, tanh, softmax activation functions တွေပါဝင်ပါတယ်။
Outlier detection:
outlier ဆိုတာကတော့ ပုံမှန် data point တွေနဲ့ ကွဲထွက်နေတဲ့ ဝိသေသလက္ခဏာရှိတဲ့ data တွေကိုပြောတာပါ။ ဥပမာ။ မူလတန်း Grade ၁ အခန်း ထဲမှာ အသက်စာရင်းကောက်ကြည့်ရင် အသက်အရွယ် အားလုံးနီးပါး ဟာ ၆ နှစ် ၇ နှစ် စသည်ဖြင့် ရှိနေနိုင်ပြီး တစ်ယောက်တစ်လေ ဟာ ၁၀ နှစ် ကျော်နေတာမျိုးကို outlier လို့ခေါ်ပါတယ်။ outlier detection ကတော့ အဲ့လို ဒေတာတွေကို ရှာဖွေသတ်မှတ်တဲ့ process ပဲဖြစ်ပါတယ်။
Bias and variance: bias ဆိုတာကတော့ model တစ်ခုက အရမ်းရိုးရင်းတဲ့အတွက် data ရဲ့ complexity ကို capture မလုပ်နိုင်တဲ့အခါမှာ ဖြစ်ပေါ်လာတဲ့ error အမျိုးအစားပဲ ဖြစ်ပါတယ်။ အဲ့ဒါရဲ့ပြောင်းပြန်ကတော့ variance ဖြစ်ပြီး model ကလိုတာထက် complex ဖြစ်သွားတဲ့အခါမှာ data ကို overfit ဖြစ်ပြီး တက်တဲ့ error အမျိုးအစား ဖြစ်ပါတယ်။ Bias and variance ဟာ model performance ကောင်းကောင်းရဖို့အတွက် သေချာနားလည် သဘောပေါက်ထားရမယ့် အရေးကြီး concept တွေပဲဖြစ်ပါတယ်။
Ensemble methods:
Ensemble learning ဆိုတာကိုတော့ နှစ်ခုထက်ပိုတဲ့ machine learning model predictions တွေကို ပေါင်းပြီးတော့ ပိုမိုကောင်းမွန်တဲ့ ရလဒ်ကို ခန့်မှန်းပေးနိုင်ခြင်းကို ဆိုလိုပါတယ်။ အဲ့လိုပိုမိုကောင်းမွန်အောင် ပေါင်းပေးတဲ့ နည်းလမ်းတွေကိုတော့ ensemble methods တွေလို့ခေါ်ပါတယ်။ အသုံးများတဲ့ ensemble methods တွေထဲမှာ bagging နဲ့ boosting methods တွေပါဝင်တယ်။
အသုံးအများဆုံး performance အကောင်းဆုံး machine learning model တွေထဲမှာပါတဲ့ random forests က bagging method ကိုသုံးထားပြီး XGBoost (Extreme Gradient Boosting) ကတော့ boosting method ကို သုံးထားပါတယ်။ Ensemble learning ဟာ machine learning model တွေရဲ့ performance နဲ့ robustness ကို ပိုမိုကောင်းမွန်စေတဲ့ powerful techniques တွေဖြစ်တဲ့အတွက် သိထားသင့်ပါတယ်။
Machine Learning:
ကွန်ပျူတာမှာရှိသည့် လက်ရှိ data နှင့် တွက်ချက်မှုများ ပေါ်တွင်အခြေခံပြီး “ဘာဖြစ်လျှင် ဘာဖြစ်မည်” ဆိုသည့် ရလဒ်ထွက်အောင် ပျိုးထောင်ပေးရသည့် ပညာရပ်ဖြစ်သည်။ ကွန်ပျူတာကို မိမိဘာသာသင်ယူနိုင်စွမ်းရှိအောင် algorithm များရေးဆွဲပေးရပြီး Machine Learning ဟာ ကျယ်ပြန့်တဲ့ ဘာသာရပ်ဖြစ်ပါတယ်။ ဒါကြောင့် သူ့ကို သီးသန့် ဘာသာရပ်တစ်ခုအနေနှင့် ထပ်မံလေ့လာဖို့လိုအပ်ပါတယ်။
Deep Learning:
Deep Learning ဟာ Machine Learning ရဲ့ ဘာသာရပ်ခွဲတစ်ခုဖြစ်ပြီး ကွန်ပျူတာကို လူကဲ့သို့ စဉ်းစားနိုင်အောင် ဆောင်ရွက်ပေးရတာဖြစ်ပါတယ်။ သူ့ကိုလည်း သီးသန့် ဘာသာရပ်တစ်ခု အနေနှင့် ထပ်မံလေ့လာဖို့လိုအပ်ပါတယ်။
Supervised / Unsupervised Learning:
Supervised Learning ဟာ Machine Learning ရဲ့ ဘာသာရပ်ခွဲတစ်ခုဖြစ်ပြီး လူကိုယ်တိုင် ဦးဆောင်ပြီး ကွန်ပျူတာကို ဆောင်ရွက်စေတာမျိုးကို ခေါ်ဆိုခြင်းဖြစ် ပါတယ်။ Supervised Learning တွင် ယခင်ရှိပြီးသား Data များကိုအခြေခံပြီး ဖြစ်နိုင်ခြေကို တွက်ချက် အဖြေထုတ်ပေးပါတယ်။ လူ ကိုယ်တိုင်ဝင် ပါစရာမလိုဘဲ ကွန်ပျူတာက သူဘာသာသူ သင်ယူတွက်ချက်ပြီး အဖြေထုတ်ပေးနိုင်စွမ်းရှိအောင် ဆောင်ရွက်တဲ့ ဘာသာရပ်ကိုတော့ Unsupervised Learning ဟုခေါ်ပါတယ်။ အလွယ်မှတ်ရရင် တော့ Supervised Learning မှာ လူပါပြီး Unsupervised Learning မှာ လူမပါတော့ဘူးလို့ ပြောနိုင်ပါတယ်။
API:
Application Programming Interface ဟုခေါ်ဆိုပြီး ပရိုဂရမ်တစ်ခုက အခြားပရိုဂရမ်တစ်ခုကို data အချက်အလက်များ ယူငင်အသုံးပြုနိုင်အောင် ခွင့်ပြုပေးသည့် application တစ်ခုဖြစ်ပါတယ်။ API ကိုအသုံးပြုပြီး ပရိုဂရမ်အချင်းချင်း Data အချက်အလက်များ ဖလှယ်ကာ အသုံးပြုနိုင်ပါတယ်။ API ကိုအသုံးပြုခြင်းဖြင့် Developer တွေအနေနဲ့ Software တွေရေးသားရာမှာ ပိုမို ထိရောက်လွယ်ကူ မြန်ဆန်စွာ ရေးသားနိုင်မှာဖြစ်ပါတယ်။
Python, R, SQL:
data science နယ်ပယ်တွင် ပရိုဂရမ်ရေးဆွဲနည်းကို အနည်းဆုံး အခြေခံအဆင့်မျှ သိရှိထားရမှာဖြစ်ပြီး Python, R , SQL စသည့် ပရိုဂရမ် Language များဟာ data science နယ်ပယ်တွင် အသုံးများသည့် Language များဖြစ်ကြပါတယ်။
Pandas:
Pandas ဟာ data science အတွက်အသုံးများသည့် function များစုစည်းထားသည့် Python Library တစ်ခုဖြစ်ပါတယ်။
Comments
Post a Comment