ASCII code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ အင်္ဂလိပ် Character set ယာယီ ငှားသုံးခဲ့ကြခြင်းဖြစ်သည်။ ဥပမာ- မြန်မာစာ “က” သည် အင်္ဂလိပ် အက္ခရာ U (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်းဖြစ်သည်။ သို့သော် ယူနီကုဒ်တွင် “က” နှင့် "u" သည် အက္ခရာတစ်ခုစီ ကွဲပြားနေသည်။ ကွန်ပျူတာက စံတစ်ခုကို သိလာမှသာ တစ်ကမ္ဘာလုံး မည်သည့်ကွန်ပျူတာကမဆို မြန်မာစာကို နားလည်လာပါမည်။ ကွန်ပျူတာက လက်ခံနိုင်သည့် စံ ဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U + 1001 အဖြစ် ကုတ်အနေဖြင့် ပုံသေ သတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကမ္ဘာလုံးရှိ Software Developer များ သိစေရန်နှင့် တပြေးညီအသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှု ကို ISO က စံထားပြီးသတ်မှတ်ပေးသည်။
အခြေခံ မြန်မာ Unicode Character Code ကို 1998 ခုနှစ်တွင် သတ်မှတ်အတည်ပြု ပြဌာန်းခဲ့ပြီးဖြစ်ပါသည်။ သို့သော် ထိုအချိန်တွင် ယူနီကုဒ်ကို လိုက်လံအကောင်အထည်ဖော် တီထွင်ဆောင်ရွက်မည့်သူ တစ်ဦးမျှ မြန်မာနိုင်ငံတွင် မရှိခဲ့ပေ။ မြန်မာစာကို ယူနီကုဒ်အဖြစ် သတ်မှတ်ပေးခဲ့စဉ်က ယူနီကုဒ် Consortium အဖွဲ့ကြီးတွင် မြန်မာစာကို ကောင်းစွာ တတ်ကျွမ်းသူ မရှိသည့်အပြင် မြန်မာနိုင်ငံတွင်လည်း Unicode related technologies များကို နားလည်သူ တစ်ဦးမျှ ထွက်ပေါ်လာခြင်း မရှိသေးသဖြင့် ယူနီကုဒ်ဆိုသည်မှာ ချိုနှင့်လား ပြန်မေးရမည့် အချိန်ဖြစ်သည်။ ပေးကားပေး၏၊ မရသေးသည့်သဘောဖြစ်ခဲ့ပါသည်။ အခြားအခက်အခဲတစ်ခုမှာ ထိုအချိန်က Unicode Character Set တွင် မြန်မာစကားလုံး အပြည့်အစုံမပါရှိပဲ မြန်မာစာတွင် မရှိသော စကားလုံးအချို့ပါဝင်နေခဲ့သည့်အတွက် အကောင်အထည်ဖော်သူများအတွက် သတ်မှတ်ရန် စံ တစ်ခုတည်း မရှိခြင်းဖြစ်ပါသည်။
1999 ခုနှစ် နောက်ပိုင်းမှ 2002 ခုနှစ်အထိ မြန်မာစာ ယူနီကုဒ်ကို သုံးစွဲနိုင်အောင် လုပ်ဆောင်နေသူများကို လေ့လာကြည့်ရာတွင် Graphite enabled Padauk သည်သာ ထင်ရှားသော ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ မြန်မာယူနီကုဒ်နှင့် ပတ်သက်၍ ပထမဆုံးသော ကြိုးပမ်းမှုမှာ မန္တလေးပရိုဂျက်ဖြစ်မည်ဟု ယူဆရသည်။ ဩစတေးလျနိုင်ငံမှ ကိုဇော်အောင် ဦးဆောင်၍ ကမ္ဘာတစ်ဝှမ်းလုံးမှ မြန်မာများစုစည်းကာ Source forge တွင် မန္တလေးပရိုဂျက် [၁] ကို တည်ထောင်၍ Opensource Myanmar Language Processing စနစ် ကြိုးပမ်းဆောင်ရွက်ခဲ့သော်လည်း မန္တလေး ပရိုဂျက်မှာ တစ်ဝက်တစ်ပျက်ဖြင့် ရပ်တန့်နေခဲ့ ပါသည်။ မြန်မာစာလုံးအပြည့်အစုံကို ယူနီကုဒ် Consortium မှ တရားဝင်စံသတ်မှတ်ပေးရန် ထိုအဖွဲ့မှကြိုးစားခဲ့သော်လည်း ထိုစဉ်က အောင်မြင်မှု မရရှိခဲ့ပါ။
2002 ခုနှစ်၊ ဒီဇင်ဘာလ ရောက်မှ ကိုငွေထွန်း က မြစေတီ ယူနီကုဒ် စနစ်ကို တီထွင်နိုင်ခဲ့ပြီး 2003 ခုနှစ်၊ ဇန်နဝါရီလတွင် etrademyanmar.com ၌ ပထမဦးဆုံး စတင် အသုံးပြုနိုင်ခဲ့သည်။ ကိုငွေထွန်းသည် မြစေတီယူနီကုဒ်ကို ရန်ကုန်မြို့ရှိ စာချုပ်စာတမ်းများ မှတ်ပုံတင်ရုံးတွင် ကုန်အမှတ်တံဆိပ် မှတ်ပုံတင်ပြီး တရားဝင်သုံးစွဲခဲ့ကြောင်း သိရှိရသည်။
2002 ခုနှစ်တွင် မြန်မာနိုင်ငံ၌ အတည်မပြုနိုင်သေးသည့် ယူနီကုဒ်စနစ်ကို မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်မှ တာဝန်ယူ လုပ်ဆောင်ကြရန် ဝိုင်းဝန်း တိုက်တွန်းကြပါသည်။ ယူနီကုဒ်စနစ်ကို နိုင်ငံတော်စံတစ်ခုအနေဖြင့် အသုံးပြုနိုင်ရေးအတွက် လုပ်ငန်းစတင်ရန် ဘဏ္ဍာရေးအထောက်အပံ့များ စတင်ရှာဖွေခဲ့ကြသည်။ နိုင်ငံတော်အကြီးအကဲများသည် မြန်မာ့စံယူနီကုဒ်ဖြစ်မြောက်ရေးအတွက် ကျပ်သိန်း ၅၀ ကို စတင်ထောက်ပံ့ပေးခဲ့ပါသည်။ ဤသို့ဖြင့် Myanmar Unicode and NLP Research Centre ကို မြန်မာနိုင်ငံ ကွန်ပျူတာ သင်းချုပ်ကြီး၏ အစီအမံဖြင့် ဖွဲ့စည်းနိုင်ခဲ့သည်။ ထို့ကြောင့် NLP အဖွဲ့ကြီးသည် 2002 ခုနှစ်မှစတင်ပြီး နိုင်ငံတော်အတွက် ယူနီကုဒ်တာဝန်များကို အချိန်ပြည့် တာဝန်ယူ လုပ်ဆောင်ခဲ့သည် ဟု ဆိုနိုင်သည်။
Monday, July 20, 2015
About Myanmar unicode
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment