Data Sources

Data Analyst လုပ်ရာမှာ data ရရှိမှုအခြေအနေမှာမူတည်ပြီး existing Sources နဲ့ New Sources ဆိုပြီး အကြမ်းဖျဉ်းအခြေခံ နှစ်မျိုးရှိပါတယ်

existing sources မှာလည်း အောက်ပါအတိုင်း format တွေ , file type တွေ အမျိုးမျိုးဖြစ်နေနိုင်ပါတယ်-

Existing sources

· File (CSV, Excel, Word, etc )

· Database (MySQL, MySQL, Mongodb, etc)

· Web pages

· On paper

file type data တွေကို analysis လုပ်ရာမှာ excel တို့ CSV တို့လို ဖိုင်တွေက နေရယူရတာတွေရှိနိုင်ပေမယ် တခါတလေ Word pdf စတဲ့ ဖိုင်တွေကနေ ရယူရတာလည်း ရှိနိုင်ပါတယ်။ အားနည်းချက်အနေနဲ့ ပုံစံတွေအမျိုးမျိုးဖြစ်နေတာတွေ typing အမျိုးမျိုးဖြစ်နေတာတွေ ကြောင့် data cleansing လုပ်ရာမှာ အချိန်ပိုယူရနိုင်ပါတယ် ။

ဒီလိုမဟုတ်ဘဲ database ထဲကdata တွေကို ရယူ ရမယ်ဆိုရင် လည်း database language ကို နားလည်တဲ့ ကျွမ်းကျင်သူတွေလိုအပ်ပါတယ်။ နောက်ထပ်ဖြစ်နိုင်တာက database language မတူတာမျိုးတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ် ဒါဟာ ပြဿနာကြီးတော့မဟုတ်ပါဘူး။ Data sources တွေများစွာထဲကမှ database ဆိုတဲ့ source ဟာ data ရယူရာမှာ access , performent, security စတဲ့ အားသာချက်တွေများစွာရှိပါတယ်။ data science နယ်ပယ်မှာတော့ database language skill ဟာ မရှိမဖြစ် skill တစ်ခုဖြစ်ပါတယ်။

နောက်တစ်ခုက web page တွေက data တွေရယူတဲ့အခါမှာ web programing တွေ API တွေ scripting language တွေ နားလည်ထားဖို့လိုပါတယ်။ တစ်ခါတလေ မှာလည်း ဒီလို coding တွေနဲ့ မဟုတ်ဘဲ manual copy pase နဲ့ ရယူရတာလည်းဖြစ်နိုင်ပါတယ်။ ပုံစံအမျိုးမျို့နဲ့ website တွေပေါ်မှာ ရှိနေတဲ့ data တွေကို ရရယူရတာလည်း အချိန်ပေးရတဲ့အလုပ်တစ်ခုပဲဖြစ်ပါတယ်။

နောက်ဆုံးအဆင့်က လက်နဲ့ရေးထားတဲ့ စာရွက်ပေါ်က အချက်အလက်တွေကနေ data ပြန်ယူရတာပဲဖြစ်ပါတယ်။ (ဒီလိုယူရမယ်ဆိုရင်လည်း data တွေအသင့်ရှိတယ် လို့သာ ပြောရတာပါ သိပ်မစားသာပါဘူး။)

New Sources

ဒါပေမယ့် တစ်ခါတစ်လေ ကျွန်တော်တို့မှာ data တွေကို New Sources အဖြစ် အသစ်ကနေ ပြန်ကောက်ယူရတာမျိုးတွေ ဖြစ်လာနိုင်ပါတယ် ဒီလိုအခြေအနေ မှာ ကျွန်တော်တို့အနေနဲ့ Survey ကောက်ယူတာတွေ စစ်တမ်းကောက်ယူတာတွေကအစ ပြန်လုပ်ဖို့လိုအပ်မှာဖြစ်ပါတယ်

New Sources

· survey , questionnaire

· polls

ဒီလို စစ်တမ်းတွေ polls တွေနဲ့ ကောက်ယူရာမှာလည်း ကိုယ်လိုချင်တဲ့ အရာကို တိတိကျကျ မေးခွန်းထုတ်တက်ဖို့လိုအပ်ခြင်း၊ မွေးခွန်းမေးမြန်းရာမှာ စကားအသုံးအနှုန်း ရွေးချယ်တက်ဖို့ လိုအပ်ခြင်း၊ မေးခွန်းမေးမြန်းရမယ့် အခြေအနေအချိန်အခါတို့ကို သိနားလည်ဖို့လိုအပ်ခြင်း၊ စတဲ့ စိန်ခေါ်မှုတွေလည်းရှိပါတယ်၊ (ဥပမာအားဖြင့် စစ်တမ်းကောက်ယူရာမှာ အပျိုလား အိမ်ထောင်သည်လား အရင်မမေးဘဲ ကလေးဘယ်နှယောက် ရှိသလဲလို့ မေးခွန်းထုတ်တာမျိုးက ပြေးပေါက်ကြိုရှာထားရမယ့် အပြုအမူမျိုးဖြစ်ပါတယ်။ )

နောက်ပြီးမေးခွန်းမေးမြန်းဖို့ poll တွေပြုလုပ်ရာမှာလည်း ရွေးချယ်စရာတွေအများကြီး ပေးလို့ သိပ်အဆင်မပြေလှပါဘူး နောက် မေးခွန်းဖြေသူတွေကို other အနေနဲ့ ရွေးစရာ ပေးထားတာမျိုးဟာလည်း နောက်ပိုင်း data cleansing လုပ်ရာမှာ အခက်အခဲတွေ ဖြစ်လာနိုင်ပါတယ်။

Challenges in general

data ကောက်ယူရာမှာ အခက်အခဲမျိုးစုံ ကြုံတွေရနိုင်ပါတယ်။ နောက်ကြုံတွေ့လာနိုင်တဲ့ အခက်အခဲတွေဟာ တွေကို ပြီးစလွယ်ဖြေရှင်းလိုက်ပြီး အချက်အလက်ကေက်ယူခဲမယ်ဆိုရင်လဲ နောက်ပိုင်းမှာ မလိုလားအပ်တဲ့ ပြသနာတွေ ထပ်ဖြစ်လာနိုင်ပါတယ်။

Loss of information

· Unavailability

· Converting quantity data into category

· Involving many assumptions due to lack of accuracy

data တွေကို ကိုင်တွယ်တဲ့အခါမှာ အဆင့်မမီလို့အသုံးပြုမရတဲ့ data တွေ ဥပမာ ဆက်သွယ်ရန်လိပ်စာ ဆိုပြီးမေးမြန်းထားပေမယ့် ဖြေတဲ့သူက နေထိုင်တဲ့လိပ်စာမထည့်ဘဲ gmail တွေ ဖုန်းနံပါတ်တွေ ထည့်ထားတာမျိုး၊ ကိုယ်က အသက်အရွယ်ကိုအတိအကျလိုချင်ပေမယ့် ကိုယ် survey မှာ အသက်ကို ကို ၁၈-၃၀, ၃၀-၆၀ ဆိုပြီးအုပ်စု ခွဲထည့်ခိုင်းမိတာမျိုး၊ ရရှိလာတဲ့ အချက်အလက်ပေါ် လွဲမှားယူဆပြီး တွက်ချက် တာမျိုး စသဖြင့် loss of information ဆိုတဲ့ data ဆုံးရှုံးမှုအမျိုးမျိုး ဖြစ်လာနိုင်ပါတယ်။

Technical requirement

· Different skill sets for different situation (collection method)

နောက်ပြီး Technical requirement ဆိုတဲ့ ဒေတာကောက်ယူသူတွေရဲ့ နည်းပညာ/ လုပ်ငန်း ကျွမ်းကျင်မှုကြောင့် အခက်အခဲအချို့ ဖြစ်ပေါ်လာနိုင်ပါသေးတယ်။ ဥပမာ Excel ဖိုင်နဲ့ ဒေတာကောက်တာမှာ number တွေကို ၃ လုံး တစ်ဖြတ်ကော်မှာ ကုတ်ရမှာ ကို အော်တို မကုတ်ဘဲ ရိုက်ထည့်ထားတာမျိုးတွေဆို တကယ့်ဒေတာယူတဲ့အခါမှာ ကော်မာတွေပြန်ဖျက်ဖို့လိုပါတယ်။

Trustworthiness

· Is it real?

နောက်ဆုံးတွေ့နိုင်တာက Trustworthiness ကိုယ်ရရှိထားတဲ့ ဒေတာတွေက တကယ်ရော မှန်ကန်မှုရှိရဲ့လား ဆိုတာပါပဲ။ မှန်ကန်မှုမရှိတဲ့ အချက်အလက်တွေနဲ့ လုပ်ထားတဲ့ ANALYTIC လုပ်ငန်းစဉ်ဟာ ဘယ်လိုမှ အသုံးချလို့ရနိုင်မှာ မဟုတ်ပါဘူး။ counter check / double check စသည်ဖြင့် အထပ်ထပ် စစ်ဆေးတာတွေ လုပ်ရပါတယ်။ လိမ်လည် တင်ပြ အချက်အလက်တွေကို အသုံးမပြုမိဖို့တွေ အတွက် Data analytic လုပ်တဲ့သူတွေသာမက အုပ်ချုပ်ရေး စီမံခန့်ခွဲရေး စတဲ့ နယ်ပယ်က သူတွေပါ ပူးပေါင်း ဆောင်ရွက်ဖို့လိုအပ်မှာဖြစ်ပါတယ်။

Comments

Popular posts from this blog

Data Science နှင့် ပတ်သက်သည့် Terminology / အသုံးအနှုန်းများ

စောင့်ကြည့်လေ့လာသင့်သည့် အနာဂတ်နည်းပညာနယ်ပယ်များ

Artificial Intelligence (AI) Project များ တည်ဆောက် အကောင်အထည်ဖော်ရာတွင် ဒေတာလုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ အချက်အလက်များ လုံခြုံရေး