Tun Lin Mg

Posts

Showing posts from March, 2025

Data normalization /scaling

By Htunn Linn Maung March 14, 2025

Normalization ကို computer science သမားများကြားဖူးပြီးသားဖြစ်ပါတယ်။ ယခု ရှင်းလင်းပြသမှုသည် data science အတွက် data normalization ပြုလုပ်ခြင်း ဖြစ်ပြီး relational database management system (RDBMS) နယ်ပယ်မှ database normalization ကိုဆိုလိုခြင်း မဟုတ်ကြောင်းနားလည်ထားရမည်ဖြစ်ပါတယ်။ Data များ တူညီမှုမရှိဖြစ်နေကြသည့်အခါ တူညီမှုရှိသွားစေရန် ပြန်လည်ပြုလုပ်ခြင်း (rescale) ဖြစ်သဖြင့် rescaling ဟုလည်းခေါ်ပါတယ်။

Data formatting

By Htunn Linn Maung March 11, 2025

D ata Pre-Processing မှာ Missing Value တွေကို ကိုင်တွယ်ဖြေရှင်းခြင်းနဲ့ Transforming ပြုလုပ်ခြင်း ဆိုပြီး နှစ်ပိုင်းရှိပြီး Transforming ပြုလုပ်ရာတွင် လည်း Formatting , Normalization, Scaling, Binning နဲ့ Converting ဆိုပြီး ထပ်မံခွဲခြားမှုပြုလုပ်နိုင်ပါတယ်။ Formatting Data တွေသည် စာသား /text ပုံစံ၊ ဂဏန်းအက္ခရာ /integer ပုံစံ, ဓာတ်ပုံ/image, အသံ/ audio စသည့် ပုံစံအမျိုးမျိုး format အမျိုးမျိုးနှင့်ရှိနေမှာဖြစ်ပါတယ်။ ထို့အပြင် အဖွဲ့အစည်း Organization တစ်ခုမှာရှိသည့် ဌာန/department အများအပြားရှိနိုင်ပြီး သက်ဆိုင်ရာ ဌာနအလိုက် data များစုဆောင်းထားရှိမှာဖြစ်ပါတယ်။ ဥပမာ ဧည့်ကြို ဌာန၊ စီမံဌာန၊ ငွေစာရင်းဌာန၊ အရောင်းဌာန ဟု ဌာနအများအပြားရှိနိုင်ပြီး အဆိုပါဌာနများကက ဖုန်းနံပါတ် များ ရေးမှတ်ပြီး data များစုဆောင်းကြရာတွင် အချို့ က ၀၉ ကစမှတ်ပြီး အချို့က နိုင်ငံ ဧရိယာကုတ်က စမှတ်ကာ ၉၅၉ စသဖြင့်မှတ်ခြင်းမျိုးများကွဲပြားနေနိုင်ပါတယ်။ ထို့အပြင် သိမ်းဆည်းသည့် Software မတူသည့်အတွက် data format ကွဲသွားခြင်း/inconsistency ဖြစ်ခြင်း ဖြစ်နိုင်ပါတယ်။ အချို့ဌာနများက excel ဖြင့်အချက်အလက်များသိမ်းဆည်းသည့်အတွက် .xlsx...

Handling Missing Data

By Htunn Linn Maung March 09, 2025

Data set တွေရဲ့ သက်ဆိုင်ရာ column/freature/attribute မှာ ဘာ အချက်အလက် မှ ပါမလာသည့် data များ / no data value ကို missing value ဟုခေါ်ပါတယ်။ Data ဖြည့်သည့် entry လုပ်သူများကို ဖြည့်ချင်ဖြည့် မဖြည့်ချင်နေ ဟု option ပေးထားခဲ့မိပါက အချို့ entry လုပ်သူများက မဖြည့်ဘဲ ကျော်ခဲ့ကြသည့်အခါ missing value များဖြစ်လာရပါတယ်။ ထိုအခါ Missing value များ နည်းပညာအခေါ်အဝေါ်အရ N/A အဖြစ်လည်းကောင်း “0” /zero အဖြစ်လည်းကောင်း၊ empty cell အဖြစ်လည်းကောင်းတွေ့ရနိုင်ပါတယ်။

Data Preparation

By Htunn Linn Maung March 06, 2025

What is data preparation? မိမိတို့ရရှိသည့် Data များဟာ ချက်ခြင်း analysis လုပ်နိုင်ချင်မှ လုပ်နိုင်မှာဖြစ်ပြီး ထိုသို့ လုပ်ဖို့အတွက် ကြိုတင်ပြင်ဆင်မှုများကို လုပ်ဆောင်ရပါတယ် ထိုသို့လုပ်တဲ့အဆင့်ကို Data preparation = preprocessing လို့လည်းခေါ်ပါတယ်။ ဘာကြောင့် pre−processing လုပ်ရသနည်းဆိုပါက အကြမ်းထည် raw data များကို analysis လုပ် ရာတွင် အဆင်ပြေစေရန် ပိုမိုကောင်းမွန်သည့် ပုံစံရရှိအောင် ပြောင်းလဲ ရခြင်းဖြစ်ပါတယ်။ ဒီအဆင့်ဟာ အချိန်အလွန်ကြာမြင့်တက်ပြီး မပါမဖြင့်/မရှိမဖြစ်အဆင့်တစ်ခုဖြစ်ပါတယ် ။

SQL Database

By Htunn Linn Maung March 05, 2025

SQL (Structured Query Language) သည် relational databases များကို စီမံခန့်ခွဲခြင်း အတွက် ကောင်းမွန်ပြီး အသုံးများသော ဘာသာစကားတစ်ခုဖြစ်သည်။ Data analytic လုပ်ငန်းများဆောင်ရွက်ရာတွင် SQL သည် ဒေတာဘေ့စ်များမှ အချက်အလက်များကို ထုတ်ယူခြင်း၊ အသွင်ပြောင်းခြင်းနှင့် ခွဲခြမ်းစိတ်ဖြာခြင်း တို့ဆောင်ရွက်ရန် အရေးကြီးသောအခန်းကဏ္ဍမှ ပါဝင်ပါသည်။ အဖွဲ့အစည်းအများစုသည် ၎င်းတို့၏ အချက်အလက်များကို relational databases များတွင် သိမ်းဆည်းထားကြပြီး SQL သည် အဆိုပါဒေတာများကို ဆွဲထုတ်ယူငင် နိုင်သဖြင့် Data analytic လုပ်ငန်းဆောင်ရွက်သူများ Data Science လုပ်ငန်းဆောင်ရွက်သူများအတွက် SQL သည် မရှိမဖြစ်လိုအပ်သော ကျွမ်းကျင်မှုတစ်ခုဖြစ်ပါသည်။

Data Sources

By Htunn Linn Maung March 05, 2025

Data Analyst လုပ်ရာမှာ data ရရှိမှုအခြေအနေမှာမူတည်ပြီး existing Sources နဲ့ New Sources ဆိုပြီး အကြမ်းဖျဉ်းအခြေခံ နှစ်မျိုးရှိပါတယ် existing sources မှာလည်း အောက်ပါအတိုင်း format တွေ , file type တွေ အမျိုးမျိုးဖြစ်နေနိုင်ပါတယ်- Existing sources · File (CSV, Excel, Word, etc ) · Database (MySQL, MySQL, Mongodb, etc) · Web pages · On paper file type data တွေကို analysis လုပ်ရာမှာ excel တို့ CSV တို့လို ဖိုင်တွေက နေရယူရတာတွေရှိနိုင်ပေမယ် တခါတလေ Word pdf စတဲ့ ဖိုင်တွေကနေ ရယူရတာလည်း ရှိနိုင်ပါတယ်။ အားနည်းချက်အနေနဲ့ ပုံစံတွေအမျိုးမျိုးဖြစ်နေတာတွေ typing အမျိုးမျိုးဖြစ်နေတာတွေ ကြောင့် data cleansing လုပ်ရာမှာ အချိန်ပိုယူရနိုင်ပါတယ် ။ ဒီလိုမဟုတ်ဘဲ database ထဲကdata တွေကို ရယူ ရမယ်ဆိုရင် လည်း database language ကို နားလည်တဲ့ ကျွမ်းကျင်သူတွေလိုအပ်ပါတယ်။ နောက်ထပ်ဖြစ်နိုင်တာက database language မတူတာမျိုးတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ် ဒါဟာ ပြဿနာကြီးတော့မဟုတ်ပါဘူး။ Data sources တွေများစွာထဲကမှ database ဆိုတဲ့ source ဟာ data ရယူရာမှာ access , performent, security စတဲ့ အာ...

Know Your Data

By Htunn Linn Maung March 02, 2025

Data Analyst project တစ်ခုကို ကိုင်တွယ်ပြီဆိုရင် project မှာပါဝင်တဲ့ Data set တွေထဲက data တွေရဲ့ သဘောသဘာဝကို နားလည်ထားဖို့လိုအပ်ပါတယ်။ ဒါမှသာ Data တွေကိုထိရောက်စွာ ကိုင်တွယ်ဆောင်ရွက်နိုင်မှာဖြစ်ပါတယ်။ data science ဘာသာရပ်မှာ စာရင်းအင်းဘာသာရပ် statistic ဟာ မရှိမဖြစ်ပါဝင်တဲ့ ဘာသာရပ်ဖြစ်လို့ တွက်ချက်မှုတွေပြုလုပ်ရာမှာ statistical variables တွေဟာ မဖြစ်မနေပါ ဝင် လာပါတယ်။ စာရင်းအင်းပညာရပ်မှာ လည်း data တွေကို variable ဆိုပြီး အမျိုးအစားအမျိုးမျိုး ခွဲခြားထားနိုင်ပါတယ်။ လူတစ်ယောက်ရဲ့ အချက်အလက်တွေသွင်းမယ်ဆိုရင် သူ့ရဲ့ အမည်၊ အသားအရည်၊ မှတ်ပုံတင်၊ အရပ်အမြင့်၊ လိင်အမျိုးအစား၊ နေရပ်လိပ်စာ၊ ပညာအရည်အချင်းစတဲ့ အချက်အလက်တွေက သူ့ကို ထူးခြားစေတဲ့ လက္ခဏာ / property ဖြစ်ပြီး အဲဒါတွေကို variable လို့ခေါ်ပါတယ်။ ကားတစ်စီးမှာဆိုရင် လည်း တံဆပ်၊ model၊ အင်ဂျင်ပါဝါ၊ အရောင်၊ စျေးနှုန်း၊ အမြန်နှုန်း စတဲ့ variable တွေပါဝင်မှာဖြစ်ပါတယ်။ ဒီထက်ပိုများတဲ့ variable အချက်အလက်တွေ လည်း ရှိနိုင်ပါတယ်။ ဒါပေမယ့် variable တွေ ဘယ်လောက်ပဲများများ Category နဲ့ Quantity ဆိုပြီး အမျိုးအစားနှစ်ခုပဲရှိပါတယ်။ တံဆိပ် မော်ဒယ် အရောင် စသဖ...