Data Sources
Data Analyst လုပ်ရာမှာ data ရရှိမှုအခြေအနေမှာမူတည်ပြီး existing Sources နဲ့ New Sources ဆိုပြီး အကြမ်းဖျဉ်းအခြေခံ နှစ်မျိုးရှိပါတယ်
existing sources မှာလည်း အောက်ပါအတိုင်း format တွေ , file type တွေ အမျိုးမျိုးဖြစ်နေနိုင်ပါတယ်-
file type data တွေကို analysis လုပ်ရာမှာ excel တို့ CSV တို့လို ဖိုင်တွေက နေရယူရတာတွေရှိနိုင်ပေမယ် တခါတလေ Word pdf စတဲ့ ဖိုင်တွေကနေ ရယူရတာလည်း ရှိနိုင်ပါတယ်။ အားနည်းချက်အနေနဲ့ ပုံစံတွေအမျိုးမျိုးဖြစ်နေတာတွေ typing အမျိုးမျိုးဖြစ်နေတာတွေ ကြောင့် data cleansing လုပ်ရာမှာ အချိန်ပိုယူရနိုင်ပါတယ် ။
ဒီလိုမဟုတ်ဘဲ database ထဲကdata တွေကို ရယူ ရမယ်ဆိုရင် လည်း database language ကို နားလည်တဲ့ ကျွမ်းကျင်သူတွေလိုအပ်ပါတယ်။ နောက်ထပ်ဖြစ်နိုင်တာက database language မတူတာမျိုးတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဒါပေမယ် ဒါဟာ ပြဿနာကြီးတော့မဟုတ်ပါဘူး။ Data sources တွေများစွာထဲကမှ database ဆိုတဲ့ source ဟာ data ရယူရာမှာ access , performent, security စတဲ့ အားသာချက်တွေများစွာရှိပါတယ်။ data science နယ်ပယ်မှာတော့ database language skill ဟာ မရှိမဖြစ် skill တစ်ခုဖြစ်ပါတယ်။
နောက်တစ်ခုက web page တွေက data တွေရယူတဲ့အခါမှာ web programing တွေ API တွေ scripting language တွေ နားလည်ထားဖို့လိုပါတယ်။ တစ်ခါတလေ မှာလည်း ဒီလို coding တွေနဲ့ မဟုတ်ဘဲ manual copy pase နဲ့ ရယူရတာလည်းဖြစ်နိုင်ပါတယ်။ ပုံစံအမျိုးမျို့နဲ့ website တွေပေါ်မှာ ရှိနေတဲ့ data တွေကို ရရယူရတာလည်း အချိန်ပေးရတဲ့အလုပ်တစ်ခုပဲဖြစ်ပါတယ်။
နောက်ဆုံးအဆင့်က လက်နဲ့ရေးထားတဲ့ စာရွက်ပေါ်က အချက်အလက်တွေကနေ data ပြန်ယူရတာပဲဖြစ်ပါတယ်။ (ဒီလိုယူရမယ်ဆိုရင်လည်း data တွေအသင့်ရှိတယ် လို့သာ ပြောရတာပါ သိပ်မစားသာပါဘူး။)
New Sources
ဒါပေမယ့် တစ်ခါတစ်လေ ကျွန်တော်တို့မှာ data တွေကို New Sources အဖြစ် အသစ်ကနေ ပြန်ကောက်ယူရတာမျိုးတွေ ဖြစ်လာနိုင်ပါတယ် ဒီလိုအခြေအနေ မှာ ကျွန်တော်တို့အနေနဲ့ Survey ကောက်ယူတာတွေ စစ်တမ်းကောက်ယူတာတွေကအစ ပြန်လုပ်ဖို့လိုအပ်မှာဖြစ်ပါတယ်
ဒီလို စစ်တမ်းတွေ polls တွေနဲ့ ကောက်ယူရာမှာလည်း ကိုယ်လိုချင်တဲ့ အရာကို တိတိကျကျ မေးခွန်းထုတ်တက်ဖို့လိုအပ်ခြင်း၊ မွေးခွန်းမေးမြန်းရာမှာ စကားအသုံးအနှုန်း ရွေးချယ်တက်ဖို့ လိုအပ်ခြင်း၊ မေးခွန်းမေးမြန်းရမယ့် အခြေအနေအချိန်အခါတို့ကို သိနားလည်ဖို့လိုအပ်ခြင်း၊ စတဲ့ စိန်ခေါ်မှုတွေလည်းရှိပါတယ်၊ (ဥပမာအားဖြင့် စစ်တမ်းကောက်ယူရာမှာ အပျိုလား အိမ်ထောင်သည်လား အရင်မမေးဘဲ ကလေးဘယ်နှယောက် ရှိသလဲလို့ မေးခွန်းထုတ်တာမျိုးက ပြေးပေါက်ကြိုရှာထားရမယ့် အပြုအမူမျိုးဖြစ်ပါတယ်။ )
နောက်ပြီးမေးခွန်းမေးမြန်းဖို့ poll တွေပြုလုပ်ရာမှာလည်း ရွေးချယ်စရာတွေအများကြီး ပေးလို့ သိပ်အဆင်မပြေလှပါဘူး နောက် မေးခွန်းဖြေသူတွေကို other အနေနဲ့ ရွေးစရာ ပေးထားတာမျိုးဟာလည်း နောက်ပိုင်း data cleansing လုပ်ရာမှာ အခက်အခဲတွေ ဖြစ်လာနိုင်ပါတယ်။
Challenges in general
data ကောက်ယူရာမှာ အခက်အခဲမျိုးစုံ ကြုံတွေရနိုင်ပါတယ်။ နောက်ကြုံတွေ့လာနိုင်တဲ့ အခက်အခဲတွေဟာ တွေကို ပြီးစလွယ်ဖြေရှင်းလိုက်ပြီး အချက်အလက်ကေက်ယူခဲမယ်ဆိုရင်လဲ နောက်ပိုင်းမှာ မလိုလားအပ်တဲ့ ပြသနာတွေ ထပ်ဖြစ်လာနိုင်ပါတယ်။
data တွေကို ကိုင်တွယ်တဲ့အခါမှာ အဆင့်မမီလို့အသုံးပြုမရတဲ့ data တွေ ဥပမာ ဆက်သွယ်ရန်လိပ်စာ ဆိုပြီးမေးမြန်းထားပေမယ့် ဖြေတဲ့သူက နေထိုင်တဲ့လိပ်စာမထည့်ဘဲ gmail တွေ ဖုန်းနံပါတ်တွေ ထည့်ထားတာမျိုး၊ ကိုယ်က အသက်အရွယ်ကိုအတိအကျလိုချင်ပေမယ့် ကိုယ် survey မှာ အသက်ကို ကို ၁၈-၃၀, ၃၀-၆၀ ဆိုပြီးအုပ်စု ခွဲထည့်ခိုင်းမိတာမျိုး၊ ရရှိလာတဲ့ အချက်အလက်ပေါ် လွဲမှားယူဆပြီး တွက်ချက် တာမျိုး စသဖြင့် loss of information ဆိုတဲ့ data ဆုံးရှုံးမှုအမျိုးမျိုး ဖြစ်လာနိုင်ပါတယ်။
နောက်ပြီး Technical requirement ဆိုတဲ့ ဒေတာကောက်ယူသူတွေရဲ့ နည်းပညာ/ လုပ်ငန်း ကျွမ်းကျင်မှုကြောင့် အခက်အခဲအချို့ ဖြစ်ပေါ်လာနိုင်ပါသေးတယ်။ ဥပမာ Excel ဖိုင်နဲ့ ဒေတာကောက်တာမှာ number တွေကို ၃ လုံး တစ်ဖြတ်ကော်မှာ ကုတ်ရမှာ ကို အော်တို မကုတ်ဘဲ ရိုက်ထည့်ထားတာမျိုးတွေဆို တကယ့်ဒေတာယူတဲ့အခါမှာ ကော်မာတွေပြန်ဖျက်ဖို့လိုပါတယ်။
နောက်ဆုံးတွေ့နိုင်တာက Trustworthiness ကိုယ်ရရှိထားတဲ့ ဒေတာတွေက တကယ်ရော မှန်ကန်မှုရှိရဲ့လား ဆိုတာပါပဲ။ မှန်ကန်မှုမရှိတဲ့ အချက်အလက်တွေနဲ့ လုပ်ထားတဲ့ ANALYTIC လုပ်ငန်းစဉ်ဟာ ဘယ်လိုမှ အသုံးချလို့ရနိုင်မှာ မဟုတ်ပါဘူး။ counter check / double check စသည်ဖြင့် အထပ်ထပ် စစ်ဆေးတာတွေ လုပ်ရပါတယ်။ လိမ်လည် တင်ပြ အချက်အလက်တွေကို အသုံးမပြုမိဖို့တွေ အတွက် Data analytic လုပ်တဲ့သူတွေသာမက အုပ်ချုပ်ရေး စီမံခန့်ခွဲရေး စတဲ့ နယ်ပယ်က သူတွေပါ ပူးပေါင်း ဆောင်ရွက်ဖို့လိုအပ်မှာဖြစ်ပါတယ်။
Comments
Post a Comment