|
யூனிகோடில் தமிழ்
யூனிகோட் குறியீட்டு முறை என்பது அனைத்து உலக மொழிகளுக்கும் ஒரு பொதுவான குறியீட்டு முறை. ஒரு கணினி பூஜ்யம், ஒன்று எண்கள் அடங்கிய பைனரி எண்களைக் கொண்டுதான் செயல்படுகிறது. அதற்கு ஆங்கிலமோ, தமிழோ அல்லது வேறு எந்த மொழியுமோ புரியாது. இருப்பினும் ஒரு கணினியை இந்தத் துறையிலும் பயன்படுத்த முடியுமா என்று வியக்க வைக்கும் அளவிற்கு நம் அன்றாட வாழ்க்கையில் கணினி பயன்பட்டு வருவதை நாம் அறிவோம்.
உதாரணத்திற்கு நாம் தினமும் படிக்கும் பத்திரிகையில் இருந்து விண்ணில் செலுத்தும் செயற்கைக்கோள் வரை, கணினி பயன்படுத்தப்படுகிறது. ஆனால் எந்தத் துறையில் பயன்படுத்தினாலும் சரி அந்தத் துறைக்குத் தேவையான தகவல்களை அதாவது டேட்டாவை எண்களாகத்தான் சேமிக்க வேண்டும். கணினியை ஒரு கணிப்பானாக நாம் பயன்படுத்தும் பொழுது எந்தச் சிக்கலும் ஏற்படாது. ஏனென்றால் அதற்குத் தேவையான தகவல்கள் எண்கள்தான். அதே கணினியை நாம் அச்சுத்துறையில் பயன்படுத்தும் பொழுது நாம் ஒரு மொழியின் எழுத்துகளைத்தான் பயன்படுத்திச் சேமிக்க வேண்டும் அல்லவா! அதனால், ஒரு கணினியின் செயல்பாட்டுத் தேவையின்படி நாம் ஒவ்வொரு எழுத்தையும் ஒவ்வொரு எண்ணாக மாற்றித்தான் சேமிக்க வேண்டும். ஒரு மொழியை நாம் கணினியில் பயன்படுத்த வேண்டுமென்றால், அந்த மொழியின் ஒவ்வொரு எழுத்துக்கும் ஒவ்வொரு எண்ணை நிர்ணயிக்க வேண்டும். இவ்வாறு நிர்ணயிக்கும் முறையை நாம் குறியீட்டு முறை அதாவது காரெக்டர் என்கோடிங் என்று குறிப்பிடுகிறோம். சரி! நாம் இந்தக் குறியீட்டு முறையைப் பயன்படுத்தி ஒரு நூலின் மூலத்தைச் சேமித்துவிடுகிறோம் என்று நினைத்துக் கொள்வோம். பிறகு அதை நாம் அச்சிட்டோ அல்லது கணினியின் திரையிலோ பார்க்க விரும்பும்பொழுது அந்த எண்களை எழுத்துகளாக மாற்றித்தானே பார்க்க வேண்டும்! இதற்காக கணினி எழுத்துரு அதாவது ஃபாண்ட் என்ற ஒரு கருவியை பயன்படுத்துகிறது. இந்த எழுத்துரு ஒவ்வொரு எண்ணுக்கும் என்ன வடிவம் என்பதைக் குறிப்பிடும். ஆங்கில மொழிக்கு ஆஸ்கி (American Standard Code for Information Interchange)
அல்லது அதன் அடிப்படையில் உருவாக்கப்பட்ட விண்டோஸ் ஆன்ஸி என்ற குறியீட்டு முறையைப் பயன்படுத்துகிறார்கள்.
தமிழில் ஒவ்வொரு மென்பொருள் தயாரிப்பாளரும் ஒவ்வொரு குறியீட்டு முறையைப் பயன்படுத்தி வந்தார்கள். இதனால் ஒரு குறியீட்டு முறையைப் பயன்படுத்தி சேமித்த தகவல்களை இன்னொரு குறியீட்டு முறையை பயன்படுத்தும் மென்பொருளால் அறிய முடியாத நிலை நிலவியது. இந்த நிலையை மாற்றிட, ஆங்கிலம் போல் தமிழிலும் எல்லோரும் ஒரே குறியீட்டு முறையை பயன்படுத்த வேண்டும். சமீபத்தில் தமிழக அரசு இதற்குத் தேவையான முயற்சிகளை மேற்கொண்டு, சர்வதேச அங்கீகாரம் பெற்ற ஒரு பொதுவான குறியீட்டு முறையை அறிவித்துள்ளது. ஒரு மொழியை கணினியில் பயன்படுத்த வேண்டுமென்றால், அந்த மொழிக்கு ஒரு குறியீட்டு முறையும் அதற்கு ஏற்ற ஒரு எழுத்துருவும் இருந்தால் போதும்.
ஒரு கணினியை நாம் பயன்படுத்துவதற்கு ஆப்பரேட்டிங் சிஸ்டம் என்ற ஒரு மென்பொருள் தேவை. இதை சுருக்கமாக ஓ எஸ் என்று குறுப்பிடலாம். சில கணினிகள் விண்டோஸ் ஓ எஸ் ஐ பயன்படுத்தி செயல்படுகின்றன, ஒரு சில கணினிகள் மாக்கின்டாஷ் ஓ எஸ் ஐ பயன்படுத்துகின்றன. இன்னும் சில யூனிக்ஸ் அல்லது லினக்ஸ் ஓ எஸ் ஐ கொண்டு செயல்படுகின்றன. பொதுவாக, இந்த ஓ எஸ்சுகள் ஒரு பைட் எழுத்து முறையைப் பயன்படுத்துகின்றன. அப்படி என்றால், ஒவ்வொரு எழுத்தையும் ஒரு பைட் அல்லது எட்டு பிட்டாக சேமிக்கின்றன. ஓரு பைட்டில் பூஜ்யத்தில் இருந்து 256 வரை உள்ள எண்களை மட்டும்தான் சேமிக்க முடியும். அதனால் அதிகபட்சம் 256 எழுத்துக்களுக்கு மேல் சேமிக்க இடம் இல்லை. இதிலும் முதல் 32 இடங்களை நம்மால் பயன்படுத்த முடியாது, ஏனெனில் அது கணினியின் செயல்பாட்டுக்கு தேவைப் படுகிறது. இதைத் தவிர புள்ளி, கமா போன்ற சில சிறப்பு சின்னங்களுக்கும் இடம் ஒதுக்கிட வேண்டும். இதனால் மொழியின் எழுத்துக்களுக்கு சுமார் 215 இடங்கள்தான் இருக்கின்றன. இந்த இடம் ஆங்கிலம் போன்ற மொழிகளுக்கு போதுமானது. ஆனால் தமிழில் கிரந்த எழுத்துக்களையும் சேர்த்து மொத்தம் 313 எழுத்துக்கள் இருப்பதால், தமிழின் ஒவ்வொரு எழுத்துக்கும் ஒவ்வொரு எண் ஒதுக்கிட முடியாது.
இந்த பிரச்சனையை தீர்க்க தமிழ் எழுத்து முறையில் ஒரு சிறப்பு அம்சத்தை பயன்படுத்தலாம். ஒவ்வொரு எழுத்துக்கும் ஒவ்வொரு எண்ணை ஒதுக்கிடாமல் அந்த எழுத்துக்களை எழுதுவதற்குத் தேவையான வடிவங்களுக்கு ஒவ்வொரு எண்ணை ஒதுக்கிடலாம். உதாரணத்திற்கு ஒவ்வொரு அகரம் ஏறிய மெய் எழுத்துக்கும் 18 இடங்களை ஒதுக்கிவிட்டு, ஆகார வரிசை, எகர வரிசை, ஏகார வரிசை, ஐகார வரிசை, ஒகர வரிசை, ஓகார வரிசை மற்றும் ஒளகார வரிசையின் எழுத்துக்களை, எழுதுவதற்கு தேவையான துணைக் கால், கொம்பு போன்ற வடிவங்களுக்கு நான்கு எண்களை ஒதுக்கிவிட்டால், இந்த 22 எண்களைகொண்டு 126 தமிழ் எழுத்துகளை சேமித்துவிடலாம். இவ்வாறு எழுத்துக்குப் பதிலாக வடிவங்களுக்கு எண்களை ஒதுக்கிவிட்டால் அதனை வடிவ குறியீட்டு முறை அதாவது க்லிஃப் என்கோடிங் என்று குறிப்பிடுவார்கள். ஆஸ்கி குறியீட்டு முறையில் 'ஏ' என்ற ஆங்கில எழுத்துக்கு 65 என்ற எண்ணும், 'பி' என்ற எழுத்துக்கு 66 என்ற எண்ணும் மற்றும் ஒவ்வொரு ஆங்கில எழுத்துக்கும் வரிசையாக ஒவ்வொரு எண்ணும் ஒதுக்கப் பட்டிருக்கிறது. இதே போல் தமிழிலும் 'கி' என்ற எழுத்துக்கு 65 என்ற எண்ணும், 'ஙி' என்ற எழுத்துக்கு 66 என்ற எண்ணும் மற்றும் ஒவ்வொரு தமிழ் எழுத்திற்கும் ஒவ்வொரு எண்ணும் ஒதுக்கப் பட்டிருக்கிறது. இவ்வாறு ஒவ்வொரு மொழியிலும் பூஜ்யத்தில் இருந்து 256 வரை உள்ள எண்கள் அந்த மொழியில் உள்ள எழுத்துகளுக்கு அளிக்கப்பட்டிருக்கிறது.
இதனால் சிக்கல் ஏற்பட வாய்ப்புகள் உண்டு. உதாரணத்திற்கு ஆங்கில மொழியில் 'ஏபி' என்ற எழுத்துக்களை ஒரு கோப்பாக அதாவது ஃபைலாக சேமித்து விட்டோம் என்று நினைத்துக் கொள்வோம். இந்த கோப்பை நாம் கணினியின் திரையில் பார்க்கும் பொழுது தமிழ் மொழியின் எழுத்துருவைப் பயன்படுத்தினோமேயானால் 'ஏபி' என்ற ஆங்கில எழுத்துக்கள் 'கிஙி' என்று அல்லவா காணப்படும். இது ஒரு தேவையற்ற குழப்பம்தானே! இந்தக் குழப்பத்தைத் தடுக்க வேண்டுமென்றால் நாம், ஒவ்வொரு மொழிக்கும் வெவ்வேறு எண்களை ஒதுக்கிட வேண்டும். ஆனால் இருப்பதோ 256 இடங்கள்தான். 256 எண்கள் என்ற கட்டுப்பாட்டை நீக்க வேண்டுமென்றால் நாம் இரண்டு பைட் எழுத்து முறையைப் பயன்படுத்த வேண்டும். இவ்வாறு பயன்படுத்தினால் நமக்கு 65,536 இடங்கள் கிடைத்துவிடும். இந்த இரண்டு பைட் எழுத்து முறையைப் பயன்படுத்தித்தான் யூனிகோட் குறியீட்டுமுறை செயல்படுகிறது. இந்த யூனிகோட் குறியீட்டு முறையைப் பயன்படுத்தி உலகில் உள்ள ஒவ்வொரு மொழிக்கும் வெவ்வேறு குறியீட்டு இடங்களை அளிக்க முடியும். இதுதான் யூனிகோட் குறியீட்டு முறையின் நோக்கம்.
யூனிகோடில் ஒவ்வொரு மொழிக்கும் இடம் அளிப்பதற்காக யூனிகோட் கன்சார்டியம் என்ற அமைப்பு 1991ம் ஆண்டில் அமைக்கப் பட்டது. இந்த அமைப்பில் உலகின் முக்கிய கணிப்பொறி நிறுவனங்கள், அரசு நிறுவனங்கள், ஆராய்ச்சிக் கூடங்கள் மற்றும் தனி நபர்கள் உறுப்பினர்களாக இருக்கின்றனர். இதில் நம் தமிழக அரசும் உறுப்பினராக உள்ளது. யூனிகோடில் இடம் அளிக்கும் பொருட்டு ஒவ்வொரு மொழிக்கும் தேசிய அளவில் அங்கீகரிக்கப்பட்ட ஒரு குறியீட்டு முறை இருப்பின், அந்த முறையை அப்படியே பயன்படுத்திக் கொண்டு அதில் ஒவ்வொரு எழுத்துக்கும் உரிய குறியீட்டு எண்களை மட்டும் மாற்றிக் கொண்டார்கள். மேலும் புதிதாக ஒரு மொழிக்கு இடம் அளிக்கும் பொழுது யூனிகோடில் எழுத்துகளுக்கு மட்டும்தான் இடம் அளிக்கப் பட்டதே தவிர வடிவங்களுக்கு இடம் அளிக்கப்படவில்லை.
நம் நாட்டில், சி-டாக் என்ற மத்திய அரசாங்க நிறுவனம், இந்திய மொழிகளுக்கு தேவநகரி வரிவடிவத்தின் அடிப்படையில் இஸ்கி என்ற ஒரு இந்திய பொதுக் குறியீட்டு முறையை உருவாக்கியது.Indian Standard Code for Information Interchange
ன்பதே இஸ்கியின் விரிவாக்கமாகும். ஆனால் அரசு மையங்களைத் தவிர இந்த இஸ்கி முறை பொது மக்களிடம் பிரபலமாக வில்லை. இந்த தேவநகரி வரிவடிவ முறையின் அடிப்படையிலேயே யூனிகோடிலும் தமிழுக்கு இடம் தரப்பட்டுள்ளது. இம் முறையில் இப்போதுள்ளது போல வருங்காலத்திலும் பல பிரச்சனைகளை நாம் சந்திக்கக்கூடும். குறிப்பாக அகர வரிசை படுத்தல், தேடுதல், தகவல் சேமிப்பு, தகவல் பரிமாற்றம், குரல் உச்சரிப்பு ஆகிய துறைகளின் பிரச்சனைகள் மீண்டும் நீடிக்கும்.
தற்போதுள்ள யூனிகோட் முறையில் தமிழின் ஒரு சில எழுத்துக்களுக்கு மட்டுமே தனியாக இடமளிக்கப் பட்டுள்ளது. உயிர் எழுத்துக்கள், அகரமேறிய மெய் எழுத்துக்கள் மற்றும் உயிர் மாத்திரைகள் அதாவது வவல் மாடிஃபையர்ஸ்சுக்கு மட்டுமே இடம் ஒதுக்கப்பட்டது. அதிலும் இந்த எழுத்துகளுக்கு அகரவரிசையின் படி இடம் அளிக்கப்பட வில்லை. க்ஷ மற்றும் ஸ்ரீ என்ற பழக்கத்தில் உள்ள இரு எழுத்துகளுக்கும் இடம் அளிக்கப்பட வில்லை.
இதில் மற்றொரு குறைபாடு என்னவென்றால், ஒவ்வொரு உயிர்மெய் எழுத்துக்கும் இரண்டு எழுத்துக்களை அதாவது அகரமேறிய மெய்யும் உயிர் மாத்திரையும் பயன்படுத்தித்தான் சேமிக்க முடியும். இதனால் ஒரு கோப்பின் சேமிப்பு கொள்ளளவு அதிகமாகிறது. இது ஒரு கணினியின் செயல்பாட்டு வேகம் மற்றும் திறனைக் குறைக்கிறது. மேலும் சேமிப்புக்கான உபகரணங்களுக்கு கூடுதல் தொகை செலவிடவேண்டியுள்ளது. இந்தக் குறைபாடுகள் ஒரு பைட் எழுத்து முறை அதாவது சிங்கில் பைட் காரெக்டர் சிஸ்டத்தில் தவிர்க்கமுடியாதவை. ஆனால் யூனிகோடோ இரண்டு பைட் கொண்ட எழுத்து முறை. இதில் தமிழில் உள்ள 313 எழுத்துகளுக்கும் ஒவ்வொரு இடத்தை வரிசையாக அளித்து விட்டால் நிச்சயமாக இந்தக் குறையைத் தவிர்க்கலாம். ஆனால் இப்பொழுது யூனிகோடில் தமிழுக்கு 128 இடங்கள்தான் அளிக்கப்பட்டுள்ளன. இதிலும் 61 இடங்கள்தான் பயன்படுத்தப்பட்டுவருகிறது.
யூனிகோட் விதி முறைப்படி ஒவ்வொரு எழுத்திற்கும் வெவ்வேறு ஒலியும் வடிவமும் இருக்க வேண்டும். அதேபோல் தமிழில் ஒவ்வொரு எழுத்திற்கும் வெவ்வேறு ஒலியும் வடிவமும் இருப்பது உண்மைதானே! ஆகவே நாம் ஒவ்வொரு எழுத்திற்கும் தனிக் குறியீட்டு இடம் கேட்பது நியாயம்தானே! இந்த இட ஒதுக்கீட்டை இப்பொழுது நாம் கேட்டுப் பெறாவிட்டால் எப்பொழுதும் நாம் பெறமுடியாது. எனவே யூனிகோட் கன்சார்டியமிடம் கூடுதல் இடத்தைப் பெற நமது முயற்சியை மேற்கொள்வோம். வாழ்க தமிழ் ! வளர்க கணித்தமிழ் !
திரு. ப. செல்லப்பன் |