Posts

Showing posts from March, 2025

Data normalization /scaling

Image
Normalization ကို computer science သမားများကြားဖူးပြီးသားဖြစ်ပါတယ်။ ယခု ရှင်းလင်းပြသမှုသည် data science အတွက် data normalization ပြုလုပ်ခြင်း ဖြစ်ပြီး relational database management system (RDBMS) နယ်ပယ်မှ database normalization ကိုဆိုလိုခြင်း မဟုတ်ကြောင်းနားလည်ထားရမည်ဖြစ်ပါတယ်။ Data များ တူညီမှုမရှိဖြစ်နေကြသည့်အခါ တူညီမှုရှိသွားစေရန် ပြန်လည်ပြုလုပ်ခြင်း (rescale) ဖြစ်သဖြင့် rescaling ဟုလည်းခေါ်ပါတယ်။

Data formatting

D ata Pre-Processing မှာ Missing Value တွေကို ကိုင်တွယ်ဖြေရှင်းခြင်းနဲ့ Transforming ပြုလုပ်ခြင်း ဆိုပြီး နှစ်ပိုင်းရှိပြီး Transforming ပြုလုပ်ရာတွင် လည်း Formatting , Normalization, Scaling, Binning နဲ့ Converting ဆိုပြီး ထပ်မံခွဲခြားမှုပြုလုပ်နိုင်ပါတယ်။ Formatting Data တွေသည် စာသား /text ပုံစံ၊ ဂဏန်းအက္ခရာ /integer ပုံစံ, ဓာတ်ပုံ/image, အသံ/ audio စသည့် ပုံစံအမျိုးမျိုး format အမျိုးမျိုးနှင့်ရှိနေမှာဖြစ်ပါတယ်။ ထို့အပြင် အဖွဲ့အစည်း Organization တစ်ခုမှာရှိသည့် ဌာန/department အများအပြားရှိနိုင်ပြီး သက်ဆိုင်ရာ ဌာနအလိုက် data များစုဆောင်းထားရှိမှာဖြစ်ပါတယ်။ ဥပမာ ဧည့်ကြို ဌာန၊ စီမံဌာန၊ ငွေစာရင်းဌာန၊ အရောင်းဌာန ဟု ဌာနအများအပြားရှိနိုင်ပြီး အဆိုပါဌာနများကက ဖုန်းနံပါတ် များ ရေးမှတ်ပြီး data များစုဆောင်းကြရာတွင် အချို့ က ၀၉ ကစမှတ်ပြီး အချို့က နိုင်ငံ ဧရိယာကုတ်က စမှတ်ကာ ၉၅၉ စသဖြင့်မှတ်ခြင်းမျိုးများကွဲပြားနေနိုင်ပါတယ်။ ထို့အပြင် သိမ်းဆည်းသည့် Software မတူသည့်အတွက် data format ကွဲသွားခြင်း/inconsistency ဖြစ်ခြင်း ဖြစ်နိုင်ပါတယ်။ အချို့ဌာနများက excel ဖြင့်အချက်အလက်များသိမ်းဆည်းသည့်အတွက် .xlsx...

Handling Missing Data

Data set တွေရဲ့ သက်ဆိုင်ရာ column/freature/attribute မှာ ဘာ အချက်အလက် မှ ပါမလာသည့် data များ / no data value ကို missing value ဟုခေါ်ပါတယ်။ Data ဖြည့်သည့် entry လုပ်သူများကို ဖြည့်ချင်ဖြည့် မဖြည့်ချင်နေ ဟု option ပေးထားခဲ့မိပါက အချို့ entry လုပ်သူများက မဖြည့်ဘဲ ကျော်ခဲ့ကြသည့်အခါ missing value များဖြစ်လာရပါတယ်။ ထိုအခါ Missing value များ နည်းပညာအခေါ်အဝေါ်အရ N/A အဖြစ်လည်းကောင်း “0” /zero အဖြစ်လည်းကောင်း၊ empty cell အဖြစ်လည်းကောင်းတွေ့ရနိုင်ပါတယ်။

Data Preparation

What is data preparation? မိမိတို့ရရှိသည့် Data များဟာ ချက်ခြင်း analysis လုပ်နိုင်ချင်မှ လုပ်နိုင်မှာဖြစ်ပြီး ထိုသို့ လုပ်ဖို့အတွက် ကြိုတင်ပြင်ဆင်မှုများကို လုပ်ဆောင်ရပါတယ် ထိုသို့လုပ်တဲ့အဆင့်ကို Data preparation = preprocessing လို့လည်းခေါ်ပါတယ်။ ဘာကြောင့် pre−processing လုပ်ရသနည်းဆိုပါက အကြမ်းထည် raw data များကို analysis လုပ် ရာတွင် အဆင်ပြေစေရန် ပိုမိုကောင်းမွန်သည့် ပုံစံရရှိအောင် ပြောင်းလဲ ရခြင်းဖြစ်ပါတယ်။ ဒီအဆင့်ဟာ အချိန်အလွန်ကြာမြင့်တက်ပြီး မပါမဖြင့်/မရှိမဖြစ်အဆင့်တစ်ခုဖြစ်ပါတယ် ။

SQL Database

SQL (Structured Query Language) သည် relational databases များကို စီမံခန့်ခွဲခြင်း အတွက် ကောင်းမွန်ပြီး အသုံးများသော ဘာသာစကားတစ်ခုဖြစ်သည်။ Data analytic လုပ်ငန်းများဆောင်ရွက်ရာတွင် SQL သည် ဒေတာဘေ့စ်များမှ အချက်အလက်များကို ထုတ်ယူခြင်း၊ အသွင်ပြောင်းခြင်းနှင့် ခွဲခြမ်းစိတ်ဖြာခြင်း တို့ဆောင်ရွက်ရန် အရေးကြီးသောအခန်းကဏ္ဍမှ ပါဝင်ပါသည်။ အဖွဲ့အစည်းအများစုသည် ၎င်းတို့၏ အချက်အလက်များကို relational databases များတွင် သိမ်းဆည်းထားကြပြီး SQL သည် အဆိုပါဒေတာများကို ဆွဲထုတ်ယူငင် နိုင်သဖြင့် Data analytic လုပ်ငန်းဆောင်ရွက်သူများ Data Science လုပ်ငန်းဆောင်ရွက်သူများအတွက် SQL သည် မရှိမဖြစ်လိုအပ်သော ကျွမ်းကျင်မှုတစ်ခုဖြစ်ပါသည်။

Data Sources

Data Analyst လုပ်ရာမှာ data ရရှိမှုအခြေအနေမှာမူတည်ပြီး existing Sources နဲ့ New Sources ဆိုပြီး အကြမ်းဖျဉ်းအခြေခံ နှစ်မျိုးရှိပါတယ် existing sources မှာလည်း အောက်ပါအတိုင်း format တွေ , file type တွေ အမျိုးမျိုးဖြစ်နေနိုင်ပါတယ်- Existing sources · File (CSV, Excel, Word, etc ) · Database (MySQL, MySQL, Mongodb, etc) · Web pages · On paper file type data တွေကို analysis လုပ်ရာမှာ excel တို့ CSV တို့လို ဖိုင်တွေက နေရယူရတာတွေရှိနိုင်ပေမယ် တခါတလေ Word pdf စတဲ့ ဖိုင်တွေကနေ ရယူရတာလည်း ရှိနိုင်ပါတယ်။ အားနည်းချက်အနေနဲ့ ပုံစံတွေအမျိုးမျိုးဖြစ်နေတာတွေ typing အမျိုးမျိုးဖြစ်နေတာတွေ ကြောင့် data cleansing လုပ်ရာမှာ အချိန်ပိုယူရနိုင်ပါတယ် ။ ဒီလိုမဟုတ်ဘဲ database ထဲကdata တွေကို ရယူ ရမယ်ဆိုရင် လည်း database language ကို နားလည်တဲ့ ကျွမ်းကျင်သူတွေလိုအပ်ပါတယ်။ နောက်ထပ်ဖြစ်နိုင်တာက database language မတူတာမျိုးတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ် ဒါဟာ ပြဿနာကြီးတော့မဟုတ်ပါဘူး။ Data sources တွေများစွာထဲကမှ database ဆိုတဲ့ source ဟာ data ရယူရာမှာ access , performent, security စတဲ့ အာ...

Know Your Data

Image
Data Analyst project တစ်ခုကို ကိုင်တွယ်ပြီဆိုရင် project မှာပါဝင်တဲ့ Data set တွေထဲက data တွေရဲ့ သဘောသဘာဝကို နားလည်ထားဖို့လိုအပ်ပါတယ်။ ဒါမှသာ Data တွေကိုထိရောက်စွာ ကိုင်တွယ်ဆောင်ရွက်နိုင်မှာဖြစ်ပါတယ်။ data science ဘာသာရပ်မှာ စာရင်းအင်းဘာသာရပ် statistic ဟာ မရှိမဖြစ်ပါဝင်တဲ့ ဘာသာရပ်ဖြစ်လို့ တွက်ချက်မှုတွေပြုလုပ်ရာမှာ statistical variables တွေဟာ မဖြစ်မနေပါ ဝင် လာပါတယ်။ စာရင်းအင်းပညာရပ်မှာ လည်း data တွေကို variable ဆိုပြီး အမျိုးအစားအမျိုးမျိုး ခွဲခြားထားနိုင်ပါတယ်။ လူတစ်ယောက်ရဲ့ အချက်အလက်တွေသွင်းမယ်ဆိုရင် သူ့ရဲ့ အမည်၊ အသားအရည်၊ မှတ်ပုံတင်၊ အရပ်အမြင့်၊ လိင်အမျိုးအစား၊ နေရပ်လိပ်စာ၊ ပညာအရည်အချင်းစတဲ့ အချက်အလက်တွေက သူ့ကို ထူးခြားစေတဲ့ လက္ခဏာ / property ဖြစ်ပြီး အဲဒါတွေကို variable လို့ခေါ်ပါတယ်။ ကားတစ်စီးမှာဆိုရင် လည်း တံဆပ်၊ model၊ အင်ဂျင်ပါဝါ၊ အရောင်၊ စျေးနှုန်း၊ အမြန်နှုန်း စတဲ့ variable တွေပါဝင်မှာဖြစ်ပါတယ်။ ဒီထက်ပိုများတဲ့ variable အချက်အလက်တွေ လည်း ရှိနိုင်ပါတယ်။ ဒါပေမယ့် variable တွေ ဘယ်လောက်ပဲများများ Category နဲ့ Quantity ဆိုပြီး အမျိုးအစားနှစ်ခုပဲရှိပါတယ်။ တံဆိပ် မော်ဒယ် အရောင် စသဖ...