Unicode ဆိုတာ ဘာလဲ

April 26, 2023 506 views

Unicode ဆိုတာ ဘာလဲ

အခုခေတ်မှာဆို လူတိုင်းနီးပါးမှာ ကွန်ပျူတာ ဒါမှမဟုတ် ဖုန်းတစ်လုံးအနည်းဆုံးရှိကြပါတယ်။ တစ်ယောက်နဲ့တစ်ယောက်ဆက်သွယ်တာ၊ ကိုယ်သိချင်တဲ့ အကြောင်းအရာတစ်ခုကို ရှာတာ စတာတွေကို ဖုန်း ဒါမှမဟုတ် ကွန်ပျူတာကနေတစ်ဆင့်လုပ်ကြပါတယ်။ အဲသည်လို ဆက်သွယ်ရေးဘက်မှာရော ရှာဖွေရေးဘက်မှာထိရောက်ဖို့အတွက် ကျွန်တော်တို့ ရိုက်ရှာလိုက်တဲ့ စာလုံးတစ်လုံးချင်းစီကို စံသတ်မှတ်ထားဖို့လိုပါတယ်။ အဲသည်လိုစံသတ်မှတ်ထားတာကို Unicode လို့ခေါ်ပါတယ်။ Unicode ဆိုတိုင်းမြန်မာစာစနစ် တစ်ခုတည်းကို ရည်ညွန်းတာမဟုတ်ပါဘူး။ အခြားဘာသာစကားစနစ် တွေကလည်း Unicode ကိုအသုံးပြုကြပါတယ်။

နောက်ပိုင်းထွက်လာတဲ့ Operating systems (ဥပမာ - Windows 8.1နဲ့ 10၊ Android နောက်ပိုင်း Version တွေနဲ့ iOS နောက်ပိုင်း Version တွေမှာ မြန်မာ Unicode က built-in ပါလာပါတယ်။ Unicode မှာ Unicode Font နဲ့ Unicode Input ဆိုပြီးရှိပါတယ်။ Unicode Font ဆိုတာက ကျွန်တော်တို့ Computer မှာစာရိုက်လိုက်ရင် ပေါ်လာတဲ့ Font ပုံစံဖြစ်ပြီး Unicode Input ဆိုတာက ကျွန်တော်တို့ Computer Keyboard ပေါ်မှာစာရိုက်တဲ့စနစ်ဖြစ်ပါတယ်။ Unicode Input ကို Unicode Keyboard လို့လည်းခေါ်ကြပါတယ်။

ကျွန်တော်တို့ ၂၀၁၉ စက်တင်ဘာလ (၁) ရက်နေ့ကနေ စတင်ပြောင်းလဲ ခဲ့ကြတဲ့ Unicode ဟာအခုဆိုရင်လူတော်တော်များများသုံးစွဲနေကြပါပြီ။

Unicode ဆိုတာကိုမြန်မာလိုတိုက်ရိုက်ဘာသာပြန်ရင် Unique (သီးသန့်ဖြစ်သော) Code (အစုအဝေး) လို့ အဓိပ္ပါယ်ရပါတယ်။

Code ဆိုတာကတော့ ဂဏန်းအစုအဝေးလေးတွေပါ။ ကွန်ပျူတာနဲ့ရင်းနှီးတဲ့သူတွေသိကြတဲ့အတိုင်း ကွန်ပျူတာစနစ်တွေအားလုံးက Binary စနစ် နဲ့အလုပ်လုပ်တာပါ။ Binary ဆိုတာကိုတိုတိုပြောရရင် 0 နဲ့ 1 ဒါမှမဟုတ် On နဲ့ Off ၊ အပိတ်နဲ့အဖွင့်ကိုရည်ညွန်းပါတယ်။ ထပ်ပြီးတော့ 1 နဲ့ 0 ဆိုတာကို မြင်လွယ်အောင်ပြောရမယ်ဆိုရင် လျှပ်စစ်ဗို့အား ရှိခြင်း မရှိခြင်း သဘောမျိုးပါ။ လျှပ်စစ်ဗို့အားလေး ရှိနေရင် 1 မရှိနေရင် 0 ပေါ့။ ကွန်ပျူတာမှာ ကျွန်တော်တို့ A လို့ရိုက်လိုက်ရင် တကယ်တန်း ကွန်ပျူတာ Display ပေါ်မှာ ပြန်ပြဖို့ရာ A ဆိုတာ ကိုကွန်ပျူတာက မသိပါဘူး။ A အစား သူသိနားလည်တဲ့ 0 နဲ့ 1 တွေကိုဘဲ အစီအစဉ်အစုအဝေးတစ်ခုအနေနဲ့ မှတ်သားထားပါတယ်။

ဥပမာ - ကျွန်တော်တို့က A လို့ရိုက်လိုက်ရင် Computer နားလည်တာက 01000001 လို့နားလည်ပြီး ကွန်ပျူတာ Display ပေါ်မှာ A လို့ပြပေးပါတယ်။ Computer က A ဆိုတာကို 01000001 လို့သတ်မှတ်ပြီးသိမ်းထားလို့ပဲဖြစ်ပါတယ်။ ကမ္ဘာပေါ်မှာ ဘာသာစကားတွေ အများကြီးရှိပါတယ်။ ကွန်ပျူတာထဲကို အဲသည်ဘာသာစကားရဲ့ စကားလုံးတွေ ကိုသိမ်းဖို့အတွက်စနစ်တစ်ခု လိုအပ်လာပါတယ်။ စနစ်တကျ မသိမ်းဘဲကိုယ်လိုရာဆွဲသိမ်းထား ခဲ့မယ်ဆိုရင် တစ်ယောက်နဲ့တစ်ယောက်ဆက်သွယ်တဲ့အချိန် အခက်အခဲဖြစ်နေမှာပါ။

ဥပမာ - အင်္ဂလိပ်အက္ခရာ 'A' (အေ အကြီး) ကို 01000001

(Hexadecimal လို \u0041) လို့ တစ်ကမ္ဘာလုံးက သတ်မှတ်ထားပါတယ်။ 01000001 (Hexadecimal လို \u0041) ဆိုတာမြင်လိုက်တာနဲ့ တစ်ကမ္ဘာလုံးက ကွန်ပျူတာတွေ၊ ဖုန်းတွေ၊ tablet တွေ၊ MP3 player တွေ၊ DVD player တွေ၊ ဂိမ်းစက်တွေ အစရှိသဖြင့် ရှိသမျှပစ္စည်းအကုန်လုံးက အေ အကြီးဆိုတာကို သိကြပါတယ်။ အဲဒါကို တစ်ဦးတစ်ယောက်တည်းကပဲ 01000001 (Hexadecimal လို \u0041) ဆိုတာ 'B' ပါလို့ လုပ်လာရင် တစ်ကမ္ဘာလုံး Apple ဖြစ်နေချိန်မှာ သူ့တစ်ယောက်တည်းမှာပဲ Bpple ဖြစ်နေမှာပါ။ စံ ဆိုတာ သတ်မှတ်ဖို့အရေးကြီးသလို အဲဒီစံအတိုင်း လိုက်နာဖို့လည်း အရေးကြီးတယ်လို့ ဆိုလိုတာပါ။ အဲသည်လို စံစနစ်ထားလိုက်တဲ့အတွက် အာဖရိကက ကွန်ပျူတာဘဲ ဖြစ်ဖြစ်၊ အာရှကကွန်ပျူတာကဘဲ ဖြစ်ဖြစ် 01000001 (Hexadecimal လို \u0041) ဆိုရင် ကွန်ပျူတာက A ပဲ ပြရပါတော့တယ်။

အခုနကပြောပြသွားတာတွေကတော့ Unicode စနစ်ကို Binary စနစ်နဲ့အခြေခံပြီးပြောပြခဲ့တာဖြစ်ပါတယ်။ အဲသည် Binary စနစ်ကိုအခြေခံပြီးမှ အခုနက Binary ဘေးနားတွေမှာဖော်ပြသွားတဲ့ Hexadecimal စနစ်ကိုပြောင်းပြီး Developer တွေ မှတ်ရ၊ သတ်မှတ်ရလွယ်အောင် Unicode ကို (U+Hexadecimal) ပုံစံမျိုးနဲ့မှတ်သားကြပါတယ်။ အဲတာကို (8-bit Unicode Transformation Format) UTF-8 ဆိုပြီး ခေါ်ပါတယ်။

ဥပမာ - အင်္ဂလိပ်စာ စကားလုံးတစ်လုံးချင်းစီဆိုရင် - A = \u0041(U+0041), a = \u0061(U+0061)
ဝါကျတစ်ကြောင်းစီဆိုရင် - How are you? = \u0048\u006f\u0077\u0020\u0061\u0072\ u0065\u0020\u0079\u006f\u0075\u003f
Space က \u0020
ဥပမာ - မြန်မာစာ စကားလုံးတစ်လုံးချင်းစီဆိုရင် - က = \u1000(U+1000), ခ = \u1001(U+1001)
ဝါကျတစ်ကြောင်းစီဆိုရင် - နေကောင်းလား = \u1014\u1031\u1000\u1031\u102c\u1004\u103a\u1038\u101c\u1038

ကျွန်တော်တို့နှိပ်လိုက်တဲ့ Keyboard ပေါ်က Key တိုင်းမှာသတ်မှတ်ထားတဲ့ Unicode နံပါတ်တွေရှိပါတယ်။

အဲသည်နံပါတ်တွေကို U - Code Point လို့ခေါ်ဆိုပြီး အပေါ်မှာပြောခဲ့တဲ့အတိုင်း Hexadecimal စနစ်နဲ့သတ်မှတ်ထားပါတယ်။

ဥပမာ - U+1000 ဆိုတာမြန်မာအက္ခရာ “က” အတွက်ပဲဖြစ်ပါတယ်။ အဲသည် Code Point (U+1000) နေရာမှာ တစ်ခြားမြန်မာအက္ခရာ မရှိနိုင်ပါဘူး။ တစ်ခြားဘာသာစကားတွေရဲ့ အက္ခရာလည်းမရှိပါဘူး။ ဒါဟာမြန်မာအက္ခရာ “က” ရဲ့ စံသတ်မှတ်ချက်ဖြစ်ပါတယ်။

အဲတာကြောင့် Unicode ကို နည်းပညာပစ္စည်းတွေရဲ့ Font ပိုင်းမှာ စံသတ်မှတ်ချက်တစ်ခု လို့ပြောကြတာဖြစ်ပါတယ်။ အဲသည်လိုသတ်မှတ်ချက်တွေမှာ အခြားနိုင်ငံအသီးသီးက အက္ခရာနဲ့သင်္ကေတ တွေလည်းပါဝင်ပါတယ်။ ဒါဖြင့် အဲဒီ စံ ဆိုတာကြီးကို ဘယ်သူက ချပေးလဲဆိုတာ အရေးကြီးလာပါတယ်။ Unicode Consortium ဆိုတဲ့ NGO အဖွဲ့အစည်းကြီးတစ်ခုကနေ တစ်ကမ္ဘာလုံးက ဘာသာစကားတွေအတွက် စံနှုန်းကိုချပေးပါတယ်။ သူတို့သဘောနဲ့သူတို့ ချပေးတာတော့ မဟုတ်ပါဘူး။ သက်ဆိုင်ရာ နိုင်ငံအလိုက်၊ သက်ဆိုင်ရာ ဘာသာစကားအလိုက် အဖွဲ့အစည်းတွေနဲ့ ဆွေးနွေးပြီးမှ ချပေးတာပါ။ မြန်မာအက္ခရာ ကကြီး “က” ကို U+1000 လို့ သတ်မှတ်ကြမယ်၊ ခခွေး “ခ” ကိုတော့ U+1001 လို့ သတ်မှတ်ကြမယ်၊ ယပင့် “ျ” ကို U+103B လို့ သတ်မှတ်ကြမယ် အစရှိသဖြင့်ပေါ့။

Zawgyi Font, Zawgyi Keyboard Input စနစ်နဲ့ Unicode ဘာကွာလဲဆိုတော့ Zawgyi Font က Unicode စနစ်နဲ့လုပ်ထားတဲ့ Font ဖြစ်ပေမဲ့လည်း စက်တိုင်းအတွက်စံသတ်မှတ်ထားတဲ့ Unicode စနစ်နဲ့လုပ်ထားတာ မဟုတ်ပါဘူး။ အဲတာကြောင့် Zawgyi Font ကိုအမှန်ပေါ်ဖို့အတွက် ကွန်ပျူတာတွေနဲ့ ဖုန်းတွေမှာ Zawgyi Font သီးသန့်ထပ်ထည့်ပေးရပါတယ်။

Zawgyi Font ကိုဝေဖန်သုံးသပ်ရရင်တော့ Zawgyi Font Developer က Zawgyi Font ထဲမှာ မြန်မာအက္ခရာ “က” ကနေ “အ” အထိ Font File ထဲထည့်သွင်းထားပါတယ်။ Unicode Keyboard ကိုသုံးပြီး Zawgyi Font ကိုရိုက်တဲ့အခါ “က” နေ “အ” အထိတော့ မှန်နေတာပါပဲ။ အဓိကပြဿနာကတော့ စာစီစနစ်ပါ။ ဥပမာ - Zawgyi Font မှာ အကြမ်းအားဖြင့် ရရစ်က (၄) မျိုး၊ အောက်ကမြင့်က (၃) မျိုး စသဖြင့် ရှိပါတယ်။ Unicode မှာတော့ ရရစ် နဲ့ အောက်ကမြင့်က (၁) မျိုးစီပဲရှိပါတယ်။
အဓိက ဘယ်မှာစပြီးပြဿနာတက်လဲဆိုတော့ ကျွန်တော်တို့ Internet ပေါ်မှာ စာတွေဒါမှမဟုတ် အကြောင်းအရာတစ်ခုခုကို ရှာတဲ့အခါရှာမရဖြစ်တတ်တာပါပဲ။ ဥပမာပြောရမယ်ဆိုရင် - 'နိုင်' ဆိုတာကို (န + ိ + ု + င + ်) လို့ ရိုက်လို့ ရသလို (န + ု + ိ + င + ်) လို့လည်း ရိုက်လို့ ရနေပါတယ်။ အဲတာကြောင့် ကိုယ် ရိုက်ထားတဲ့ စာပိုဒ်ထဲမှာ အဲသည် 'နိုင်' ကို ရှာချင်ရင်သော်လည်းကောင်း၊ အနိမ့်ဆုံး Microsoft Excel လို database မျိုးမှာ ရှာချင်ရင်သော်လည်းကောင်း ရှာတဲ့သူက ပထမ စာလုံးပေါင်းပုံစံ အတိုင်းရှာရင် ဒုတိယ စာလုံးပေါင်းပုံစံအတိုင်း ရိုက်သွင်းထားတဲ့ 'နိုင်' ကိုရှာ မတွေ့နိုင်ပါဘူး။ ပြီးတော့ “အဝါရောင်” ဆိုတာကိုရိုက်မယ်ဆိုရင် Zawgyi မှာဆို သုညကိုလည်း ရေးချ (ါ) ပေးပြီး “အဝါရောင်” လို့ရေးနိုင်ပါသေးတယ်။ Unicode မှာက “အဝါရောင်” ဆိုတာကိုရေးမယ်ဆိုရင် သုညကို ရေးချ (ါ) ခွင့်မပေးပါဘူး။ သုညကို ရေးချပေးရင် “အဝ◌ါရောင်” ဆိုပြီးဖြစ်သွားပါမယ်။

မြန်မာ Unicode နဲ့ မြန်မာစာရိုက်ရင် အသံထွက်အတိုင်းရိုက်ရပါမယ် ဥပမာ - မြန်မာ့ လို့ရိုက်ရင် (မ+ြ+န+်+မ+ာ+့) လို့ရိုက်ရပါမယ်။ Zawgyi နဲ့ရိုက်ရင်တော့ (ြ+မ+န+်+မ+ာ+့) လို့ရိုက်ရမှာပါ။ ရရစ်ကိုအရင်ရိုက်ရပါတယ်။ အဲတာတင်မကသေးပါဘူး အောက်ကမြင့်အတွက် ဘယ်နေရာကသင့်တော်လဲလို့ရွေးရိုက်ရပါသေးတယ်။
အခု စာဖတ်သူသုံးနေတာ ယူနီကုဒ်လား၊ ဇော်ဂျီလားလို့ စစ်ကြည့်ကြပါမယ်။

my.wikipedia.org ကို သွားကြည့်ပါမယ်။ Wikipedia ဆိုတာကတော့ တစ်ကမ္ဘာလုံးကလူတွေ ဝိုင်းရေး၊ ဝိုင်းဖတ်ကြတဲ့ စွယ်စုံကျမ်းကြီးပါ။ သူ့မှာလည်း သက်ဆိုင်ရာဘာသာစကားအလိုက် အကြောင်းအရာတွေကို ရေးသားထားပါတယ်။ မြန်မာစာအတွက်လည်း ပါပါတယ်။ Unicode စံစနစ် ကိုအသုံးပြုထားကြောင်း ရေးထားပါတယ်။ အဲဒီစာတွေကို ဖတ်ရတယ်ဆိုရင် Unicode ပါ။ ဖတ်မရဘူးဆိုရင် Zawgyi ပါ။
အားလုံး ချုပ်ရရင် Unicode က အချက်အလက် ရှာဖွေခြင်း (Searching)၊ အက္ခရာစဉ်ခြင်း (Sorting)၊ အက္ခရာ အညွှန်းပြုလုပ်နိုင်ခြင်း (Indexing) စတာတွေ၊ အဆင်ပြေတဲ့ မြန်မာစာစံ စနစ်တစ်ခုဖြစ်တဲ့အတွက် နောက်နောင် ဘာသာစကား ဘာသာပြန်ဆိုခြင်း (Language Translation) ၊ လက်ရေး အက္ခရာ မှတ်၊ သိနိုင်ခြင်း (Optical Character Recognition) စတဲ့ နည်းစနစ်တွေကို အဆင်ပြေပြေ သုံးစွဲနိုင်ဖို့ တစ်ချိန်မဟုတ် တစ်ချိန် Unicode ကို ပြောင်းလဲသုံးစွဲဖို့ လိုအပ်လာပါလိမ့်မယ်။ ပြီးတော့နောက်ပိုင်းထွက်လာတဲ့ ကွန်ပျူတာ ဒါမှမဟုတ် ဖုန်းဝယ်တိုင်း “မြန်မာစာလေးသွင်းချင်လို့ပါ” ဆိုတာလုံးဝ ပပျောက်သွားမှာပါ။
အားလုံးအဆင်ပြေကြပါစေ။

•••••••••••••••••

ယခုတင်ပြပေးထားသော သင်ခန်းစာသည်
#Myanmar_Pyi_Facebook_Page မှ ပြန်လည် ဖော်ပြပေးထားခြင်း ဖြစ်ပါတလ်...

Crd. မှုရင်းရေးသားသူ

Credit..photo//

ပြန်လည်ကူးယူဖော်ပြပါသည်

Related Posts