Data Science Methodology
Data Science လုပ်ငန်းများဆောင်ရွက်ရာမှာ Methodology က မလိုအပ်ဘူးလို့ အတော်များများထင်တက်ကြပေမယ့် တကယ့်ပညာရှင်များကတော့ data တွေကို စနစ်တကျ ကိုင်တွယ်နိုင်ဖို့ Methodology အမှန်တကယ်လိုအပ်တယ်လို့ ပြောပါတယ်။ Methodology မကောင်းရင် အောင်မြင်တာတောင် အောင်မြင်သင့်သလောက်မအောင်မြင် ဖြစ်တက်ပါတယ်။ Marketing, producing, software developing စတဲ့ အခြားနယ်ပယ် တွေမှာလည်း လုပ်ငန်းအောင်မြင်ဖို့ အသုံးပြုတဲ့ Methodology တွေရှိတက်ပါတယ်။ အလားတူ Data Science နယ်ပယ်မှာလည်း အသုံးပြုစရာ Methodology အများအပြားရှိပြီး အဲဒီထဲကမှ Foundational Methodology (foundational methodology for data science) ဟာ အသုံးများတဲ့ Methodology တစ်ခုဖြစ်ပါတယ်။
- Stage 1: Business understanding
- Stage 2: Analytic approach
- Stage 3: Data requirements
- Stage 4: Data collection
- Stage 5: Data understanding
- Stage 6: Data preparation
- Stage 7: Modeling
- Stage 8: Evaluation
- Stage 9: Deployment
- Stage 10: Feedback
Stage
1: Business understanding
Data science အလုပ်လုပ်ကိုင်နေသူတွေဟာ သက်ဆိုင်ရာနယ်ပယ်
project အလိုက် business domain knowledge ရှိဖို့ လုပ်ငန်းကျွမ်းကျင်မှုရှိဖို့ လိုအပ်ပါတယ်။
business domain knowledge မရှိရင် ရှိအောင်အရင်ဆုံး လေ့လာရပါမယ်။ မြန်မြန်လေ့လာနိုင်လေ
ကောင်းလေပါ။ လုပ်ငန်းပမာဏ ကြီးကြီး သေးသေး domain knowledge ရှိဖို့လိုအပ်ပါတယ်။
domain knowledge များလေ လုပ်ငန်းအောင်မြင်ဖို့ ပိုသေချာလေဖြစ်ပါတယ်။ နောက်ပြီး ဒီအဆင့်မှာ
ပဲ အောက်ပါမေးခွန်းများကို ဖြေဆိုနိုင်ရပါမယ်-
·
problems?
·
objectives?
·
solution?
problems?
(ပြဿနာကဘာလဲဆိုတာ သိရပါမယ်။ ဘာကြောင့်ဒီ project ကိုလုပ်ရတာလဲ။
အရောင်းမြှင့်တင်ဖို့လား၊ ဝယ်သူတွေရဲ့ စိတ်ဝင်စားမှုကို လေ့လာမှာလား၊ စျေးကွက် ထိုးဖောက်ဖို့လား
စသဖြင့်)
objectives?
(မိမိရည်မှန်းချက်ကို သိရပါမယ်။ အရောင်းမြှင့်တင်ဖို့ဆိုရင်
ဘယ်လောက်ပမာဏလဲ၊ ဘယ် customer တွေကိုလဲ၊ ပြိုင်ဘက် ကုန်ပစ္စည်းတွေနဲ့ ယှဉ်ပြိုင်ဖို့လား
စသဖြင့်)
solution?
(ဘယ်လိုအကောင်အထည်ဖော်မှာလဲ။ ဘယ်လိုနည်းလမ်းတွေနဲ့ဆောင်ရွက်မှာလဲ။)
Stage
2: Analytic approach
ဒီလို ပြဿနာတွေကို နားလည် သဘောပေါက်ပြီဆိုရင် ဒုတိယအဆင့်အနေနဲ့ ဘယ်လို နည်းလမ်းတွေနဲ့ ချဉ်းကပ်ရမလဲစဉ်းစားရပါမယ်။ ဒီလိုစဉ်းစားရာမှာ စီးပွားရေးလိုအပ်ချက် / လုပ်ငန်း လိုအပ်ချက်တွေကို အဓိကထားရမှာဖြစ်ပြီး မိမိတို့ဆောင်ရွက်တဲ့နည်းလမ်းဟာ ထိရောက်မှုရှိမရှိလည်း ပြန်ဆန်းစစ် နေဖို့လိုပါတယ်။ စီးပွားရေးလိုအပ်ချက် / လုပ်ငန်းလိုအပ်ချက် တွေဟာ ပြဿနာတွေကို အဖြေရှာခိုင်းတာလား၊ ဖြစ်လာမယ့်အလားအလာတွေကို တင်ကြို ခန့်မှန်းခိုင်းတာလား ဆိုတာ ကွဲပြားဖို့လိုပါတယ်။
ဆောင်ရွက်မယ့် နည်းလမ်းတွေအနေနဲ့ စာရင်းအင်းပညာရပ်တွေ၊ ကွန်ပျူတာပရိုဂရမ်တွေ၊
သင်္ချာသီအိုရီတွေ စသဖြင့် လိုအပ်သလို တွဲဘက်အသုံးပြုရမှာဖြစ်ပါတယ်။ အဲဒီမှာ ကွန်ပျူတာကျွမ်းကျင်မှုတွေ၊
ပေါင်းသင်းဆက်ဆံရေးကောင်းမွန်မှု၊ အသင်းအဖွဲ့လိုက် ဆောင်ရွက်တက်မှု စတဲ့ စကေးတွေလည်း
ပါဝင်လာမှာဖြစ်ပါတယ်။
3.data
requirements
တတိယအဆင့်မှာ Data Requirement အနေနဲ့ ပါဝင်ပါတယ်။ ဒီအဆင့်မှာ
အသုံးဝင်တဲ့ Data တွေနဲ့ အသုံးမဝင်တဲ့ Data တွေကို ခွဲထုတ်ရပါမယ်။ Data လိုအပ်ချက်ဟာ
ကိုယ်ဆောင်ရွက်မယ် Project ပေါ်မှာမူတည်ပြီး အပြောင်းအလဲရှိနိုင်ပါတယ်။ ဘယ်လိုဒေတာတွေ
လိုအပ်သလဲ ဆိုတာအပြင် လိုအပ်တဲ့ data တွေရဲ့ Format ကိုပါထည့်သွင်း စဉ်းစားသတ်မှတ်ဖို့
လိုပါတယ်။
ဥပမာ။ မြို့တွေရဲ့အမည်ကို ကောက်ယူမယ်ဆိုရင် format နဲ့ရေးသားမှာလဲ။
မြန်မာလိုလား ၊ English လိုလား၊ အတိုကောက်လား၊ အရှည်လား၊ စသည်ဖြင့် တိတိကျကျသတ်မှတ်ရပါမယ်။
ဒါအပြင် file format က ဘာလဲ။ sql လား excel လားစသည်ဖြင့်၊
ဒါမှသာ နောက်လာမယ် data collection ပိုင်းနဲ့ Data cleaning
ပိုင်းတွေမှာ ပိုမိုထိရောက်စွာ ဆောင်ရွက်နိုင်မှာဖြစ်ပါတယ်/ နောက်ပြီး အချို့Data တွေဟာ
ကောက်ယူရ ခက်ခဲနိုင်ပြီး အချို့ Data တွေဟာ လိုချင်တဲ့ format ပုံစံနဲ့ရရှိမလာခဲ့ရရင်
ကိုင်တွယ်မယ့် နည်းလမ်းတွေကိုလည်း တပါတည်း စဉ်းစားထားရပါမယ်။ ဒီလိုနည်းလမ်းတွေကိုလည်း
data cleansing /data processing အဆင့်မှာ ထပ်မံရှင်းပြသွားပါမယ်။
4.data
collection
နောက် data collection အဆင့်မှာ မိမိတို့လိုအပ်သည့် data တွေကို ဘယ်ကရမှာလဲ ၊ ဘယ်လိုရမှာလဲ၊ တစ်နေရာတည်းကပဲ ရမှာလား ၊ လိုက်လံစုဆောင်းရမှာလား ၊ data တွေက ဘယ်လို format တွေနဲ့ ရမှာလဲဆိုတာ အရင်ဆုံး စဉ်းစားဖို့လိုပါတယ်။ လုပ်ငန်းအတော်များများမှာ မိမိတို့လိုအပ်တဲ့ data တွေကို data source ကနေ အကုန်တယ်လို့ အမြဲတမ်းမရှိပါဘူး။ ဒီလိုဆို Data cleaning / Data preparation အဆင့်မှာ ဘယ်လိုဆောင်ရွက်မလဲဆိုတာကို နည်းလမ်းတွေ စဉ်းစားတာဖြစ်ဖြစ် Data requirement အဆင့်ကိုပြန်သွားပြီး ပြင်ဆင်ဖို့လိုပါတယ်။ ဒါကြောင့် အဆင့်တွေဟာ အချင်းချင်းချိတ်ဆက်နေတယ်ဆိုတာ သိနိုင်ပါတယ်။
Data တွေရလာပြီးဆိုရင် Descriptive statistics နည်းလမ်း တွေနဲ့
အကြိုစမ်းစစ်မှု ပြုလုပ်နိုင်ပါတယ်။ အချို့ လုပ်ငန်းအပ်နှံသူတွေဟာ သူတို့ ဘာဖြစ်ချင်လဲဆိုတာပဲ
သိပြီး သူတို့ ဘယ်အချက်အလက်တွေကို ပေးရမလဲဆိုတာ မသိဘူးဖြစ်နေတက်ပါတယ်။ ဒါအပြင် ပေးစရာအချက်အလက်မရှိတာမျိုးနဲ့လည်း
တွေ့နိုင်ပါတယ်။ နောက်ပြီး အချို့လုပ်ငန်းတွေမှာ အချက်အလက်တွေကို အရင်ကတည်းက ကောက်ယူထားခဲ့ပေမယ့်
အရေးမကြီးဘူးထင်ပြီး Analysis လုပ်ဖို့ လိုအပ်လို့ ပြန်ရှာရမှ ခက်ခက်ခဲခဲပြန်ရှာရတာမျိုးတွေလည်း
ရှိနိုင်ပါတယ်။
5.Data
understanding
Data တွေရရှိပြီဆိုရင် ရရှိလာတဲ့ အချက်အလက်တွေကို ပြန်လည်စစ်ဆေးဖို့အတွက် Data understanding အဆင့်ကို ဆက်လက်လုပ်ဆောင်ရပါမယ်။ ဒါကြောင့် Descriptive statistics နည်းလမ်းတွေနဲ့ တွက်ချက်တာတွေ၊ ဂရပ်တွေ၊ Chart တွေ ဇယားတွေ မြေပုံတွေ တွေထုတ်ပြီး data visualization လုပ်တာတွေ လုပ်ပြီး အချက်အလက်တွေကို ပိုမို မြင်သာအောင်ဆောင်ရွက်ဖို့ လိုအပ်ပါတယ်။ ဒီလိုလုပ်ပြီး data တွေကို နားလည် ရာကနေ ရရှိလာတဲ့ အချက်အလက်တွေဟာ တွက်ချက်လို့ရရဲ့လား၊ အချက်အလက်အစုံအလင်ရရှိရဲ့လား၊ ကိုယ်လိုချင်တဲ့ format နဲ့ကိုက်ညီပြီး စနစ်တကျရှိရဲ့လား ဆိုတာတွေကို စစ်ဆေးရမှာဖြစ်ပါတယ်။ လိုအပ်တာတွေ မစုံလင်တာတွေ မကိုက်ညီတာတွေဖြစ်လာခဲ့ရင် တစ်ခါတစ်လေ data collection အဆင့်ကို ပြန်လည်ဆောင်ရွက်ရတာမျိုးရှိနိုင်ပါတယ်။
6.data
preparation
ရရှိလာတဲ့ အချက်အလက်အချို့က ချက်ချင်းသုံးလို့မရတာမျိုးတွေရှိတက်ပါတယ်။ format မှားနေတာမျိုး၊ အချက်အလက် ကျန်ခဲ့တာမျိုး၊ မှားယွင်းနေတာမျိုး စသည်ဖြင့် ချက်ချင်း သုံးလုံးမရတဲ့ dirty data တွေရလာပြီဆိုရင် နည်းလမ်း အမျိုးမျိုးနဲ့ clean လုပ်ကြရပါတယ်။ ဥပမာ Gender အချက်အလက်ကောက်တာမှာ ကျား/မ ဖြည့်ရမယ့် အစား male /female ၊ M/F စသည်ဖြင့်ပုံစံအမျိုးမျိုးနဲ့ ဖြည့်သွင်းလာတာမျိုးတွေကို ကျွန်တော်တို့အနေနဲ့ ပုံစံတစ်မျိုးတည်း ဖြစ်အောင်ပြန်လည် ပြင်ဆင်ပေးဖို့လိုအပ်ပါတယ်။ ဒါမှသာ တွက်ချက်တဲ့အခါ အဆင်ပြေမှာပါ။
ဒါကို data cleansing လုပ်တယ် data processing လုပ်တယ်လို့လည်း
ခေါ်ပါတယ်။ dirty data ပုံစံအမျိုးမျိုးရှိနေနိုင်ပါတယ်။ ရက်စွဲတွေ ပုံစံအမျိုးမျိုးဖြည့်ထားတာ။
ဖုန်းနံပါတ် ဖြည့်ရမယ့်နေရာမှာ လိပ်စာတွေမှားဖြည့်ထားတာ စသည်ဖြင့် dirty data တွေရှိနေနိုင်ပါတယ်။
လိုအပ်ရင် data တွေကို ပြန်လည်ပြင်ဆင်တာမျိုး (ETL process - Extract, Transform,
Load) Transform လုပ်ပေးရပါတယ်။ ဒီလိုလုပ်လို့မှမရရင်တော့ ဒေတာပြန်ကောက် ယူတာမျိုး
ပြန်လုပ်ရမှာ ဖြစ်ပါတယ်။
7.Modeling
Modeling ဆိုတာ ကိုယ့်မှာရှိတဲ့အချက်အလက်ပေါ်အခြေခံပြီး ပြသနာတွေကို ရှင်းလင်းအဖြေ ထုတ်ရတာဖြစ်ပါတယ်။ အဆင့် (၂) Analytic approach မှာ ပြောခဲ့တဲ့ ပြသနာတွေကို ဘယ်လိုချဉ်းကပ်ဖြေရှင်းမလဲ ဆိုတဲ့ ဆုံးဖြတ်ချက်အပေါ်မှာ မူတည်နေပါတယ်။ data အချက်အလက်တွေတစ်ခုနဲ့တစ်ခု ဆက်စပ်မှုကို ရှာဖွေတာ၊ ဒါဖြစ်ရင်ဒီလိုလည်း ဖြစ်နိုင်တယ်ဆိုတဲ့ Data တွေရဲ့ သဘောသဘာဝ အပြုအမူတွေကို ရှာဖွေတာ စတဲ့ descriptive model နဲ့ ကုန်စျေးနှုန်းအတက်အကျ၊ စျေးကွက်အခြေအနေစတာတွေကို ကြိုတင်ခန့်မှန်းတာတွေ လုပ်ဖို့ လက်ရှိဒေတာတွေပေါ်အခြေခံပြီး ဘာတွေဖြစ်လာနိုင်တယ် ဆိုတာမျိုးဟောကိန်းထုတ်တဲ့ Predictive model ဆိုပြီး နှစ်မျိုးဖြစ်နိုင်ပါတယ်။
8.evaluation
evaluation ဆိုတာ model တွေ ဘယ်လောက်ထိရောက်မှုရှိလဲ မှတ်ကျောက်တင်ကြည့်ရတဲ့ အဆင့်ဖြစ်ပါတယ်။ ဒီလိုမှတ်ကျောက်တင်တဲ့နည်းအမျိုးမျိုးရှိနိုင်ပြီး training လုပ်တာတွေ၊ testing လုပ်တာတွေ ဆိုတဲ့ လုပ်ငန်းစဉ်တွေပါဝင်လာပါတယ်။
training
model တွေကို training data တွေနဲ့ လေ့ကျင့်ရေးဆွဲ (train) ရပါတယ်။
testing
လိုချင်တဲ့ အခြေအနေရောက်ပြီဆိုရင် model ဟာ ထိရောက်မှု မှန်ကန်မှုရှိမရှိ
စမ်းသပ်ဖို့ testing data တွေထည့်သွင်း ပြီး testing ဆန်းစစ်မှုတွေ ပြုလုပ်ဖို့လိုပါတယ်။
testing data တွေထည့်သွင်းပြီး အမှန်တကယ်ရလဒ်နဲ့ ဘယ်လောက်နီးစပ်သလဲ
စစ်ဆေးခြင်း evaluation ပြုလုပ်ရပါတယ်။ evaluation လုပ်လို့ ကွာဟမှုအရမ်းများနေရင်
model တွေကို ပြန်ပြီး (အဆင့်-၇) modeling လုပ်ပေးရပါတယ်။
9.deployment
evaluation လုပ်ပြီးတဲ့ model ကို ကျေနပ်တဲ့အဆင့်ရောက်ရင် အများအသုံးပြုနိုင်အောင်
deploye လုပ်ရပါတယ်။ deploye တဲ့ပုံစံအမျိုးမျိုးရှိပါတယ်။ server ပေါ်မှာ live တင်ပြီး
လုပ်တာမျိုးကနေ အချင်းချင်း social network ကနေဝေမျှပြီး လုပ်တာမျိုးတွေလည်းရှိပါတယ်။
လုပ်ပြီးတဲ့ model ကို ဒီလို deployment လုပ်ဖို့ server သမားတွေ network သမားတွေစတဲ့
အခြားနယ်ပယ်က ပညာရှင်တွေနဲ့ပါပူးပေါင်းလုပ်ဆောင် ရတာမျိုးတွေရှိနိုင်ပါတယ်။ အချို့
အဖွဲ့အစည်းတွေအနေနဲ့ ကိုယ့်ရဲ့ model ကို publice ကို deployment မလုပ်ခင် ကိုယ့်
private မှာ အရင် deployment လုပ်ပြီး စမ်းသပ်ကြတက်ပါသေးတယ်။ အချို့ အဖွဲ့အစည်းတွေအနေနဲ့
ကိုယ့်ရဲ့ publice မှာပဲ demo အနေနဲ့ အရင် deployment လုပ်လိုက်တာမျိုးတွေ ရှိနိုင်ပါတယ်။
အချိန်ကာလ တစ်ခုအထိ demo ဗားရှင်းနဲ့ အစမ်းလွှင့်တင်ပြီးမှ အတည်ထုတ်ကြတာမျိုးက ကိုယ့်အတွက်
ပြင်ဆင်ချိန် ပိုရပါတယ်။
10.Feedback
deployment လုပ်ပြီး အသုံးပြုသူတွေဆီက feedback ကို ပြန်လည်ကောက်ယူဖို့ လိုပါတယ်။ ဒါမှသာ ပိုကောင်းမွန်အောင် ပြင်ဆင်နိုင်မှာဖြစ်ပါတယ်။ feedback တိုင်းကို လိုက်လုပ်ပေးဖို့ မလိုပေမယ့် ရရှိလာတဲ့ feedback တိုင်းကို သင့်ပါတယ်။ ဒါမှသာ ကိုယ့်မမြင်လိုက်တဲ့ အချက်တွေ ကို ပြန်လည်ပြင်ဆင်ပြီး ပိုမိုကောင်းမွန်တဲ့ data anylatic result ကို ရရှိနိုင်မှာပါ။ တကယ်တော feedback လုပ်ငန်းစဉ်ဟာ အဆင့်တစ်ခုဆိုတာထက် process တစ်ခုအနေနဲ့ကိုဖြစ်နေနိုင်ပါတယ်။ feedback တွေကို အခြေခံပြီး ပိုမိုကောင်းမွန်တဲ့ အဆင့်ထိရောက်အောင် ကျွန်တော်တို့ product ကို ပြင်ဆင်သွားရမှာပါ။ feedback တွေရလာလိုက် ပြင်လိုက် ၊ အဲဒီပြင်ဆင်ချက်အပေါ်မှာ feedback တွေထပ်ရလာရင်လဲ ထပ်ပြင်နေရဦးမှာပါပဲ။ ဒါကြောင့် process တစ်ခုဖြစ်နေတယ် လို့ပြောတာပါ။
Conclusion
ဆိုခဲ့ပါ အဆင့်ဆယ်ဆင့်မှာ before modeling ဟာ After
modeling ထက်အချိန် ပိုပေးရပါတယ်။ before modeling မှာ project timeline စုစုပေါင်းရဲ့
70% လောက်အသုံးပြုရကြောင်း ပြောကြတာသိရပါတယ်။ ကျန်တဲ့ 30% က modeling နဲ့ after
modeling အပိုင်းကို လုပ်ဆောင်ရတာလို ဆိုကြပါတယ်။
ဒီ အဆင့် (၁၀) ဆင့်ပါတဲ့ methodology ဟာ IBM ကတင်ပြခဲ့တာဖြစ်ပါတယ်။
အသေးစိတ် ကိုလည်း IBM ရဲ့ official page မှာ ရှာဖွေကြည့်ရှုနိုင်ပါတယ်။
(https://www.ibm.com/downloads/cas/WKK9DX51)
Comments
Post a Comment