ভাষা রক্ষায় প্রযুক্তির উদ্যোগ

দেশে ক্ষুদ্র-নৃগোষ্ঠীর ভাষাগুলো ডিজিটাল প্লাটফর্মে খুব একটা ব্যবহার হয় না। বেশিরভাগ ক্ষেত্রে এসব ভাষার মানসম্মত দালিলিক ও প্রামাণ্য উপাদান নেই। আবার এদের মধ্যে ১৪টি ভাষা বিপন্ন অবস্থায় রয়েছে। অনেক ভাষার পর্যাপ্ত তথ্য নেই, নেই ফন্টের এনকোডিংও। সেগুলোকে লিপিতে রূপ দেয়া থেকে নানা ধরনের কাজ করছে আইসিটি মন্ত্রণালয়।

‘গবেষণা ও উন্নয়নের মাধ্যমে তথ্যপ্রযুক্তিতে বাংলা ভাষা সমৃদ্ধকরণ (ইবিএলআইসিটি)’ প্রকল্পের আওতায় চলছে এই উন্নয়ন কাজ। ১৬টি উপাদানের একটি ‘ক্ষুদ্র নৃ-গোষ্ঠীদের নিজস্ব ভাষায় কি-বোর্ড উন্নয়ন ও শব্দভা-ার’ প্রকল্পে তালিকাভুক্ত দেশের জীবিত ভাষাগুলোর এনোটেটেড নমুনা সংরক্ষিত থাকবে বলে জানা গেছে।

‘ক্ষুদ্র নৃ-গোষ্ঠী সাংস্কৃতিক প্রতিষ্ঠান আইন-২০১০’ এর গেজেটে সরকার ৫০টি নৃ-গোষ্ঠীকে তালিকাভুক্ত করেছে। যে ৪০টি ভাষা নিয়ে কাজ করা হচ্ছে এর মধ্যে ৩৪ টি ক্ষুদ্র নৃ-গোষ্ঠীর ভাষা। জানা গেছে, ৪০টি ভাষার মধে ২৬টির লিখিত রূপ আছে। এর মধ্যে ৪টি বাংলা, ১৪টি রোমান ও ৮টি ভাষা নিজস্ব বর্ণমালা ব্যবহার করে।

প্রকল্প সূত্রে জানা গেছে, সর্বশেষ নৃ-তাত্ত্বিক জরিপে ১৪টি ভাষাকে বিপন্ন হিসেবে চিহ্নিত করা হয়েছে সেগুলো হলোÑ কন্দ, খারিয়া, কোডা, সাওরিয়া, মুন্ডা, কোল, মালতো, খুমি, পাংখোয়া, রেংমিটচা, চাক, খিয়াং, লুসাই, লালেং। এগুলোর মধ্যে ‘রেংমিটচা’ ভাষায় কথা বলে মাত্র ৬ জন। বাকি সব ভাষার কোনটার ব্যবহার সম্প্রদায় পর্যায়ে এবং কোনটা পারিবারিক পর্যায়ে। এদের মধ্যে ২৬টি ভাষা বিভিন্ন লিপিতে লেখা হয়। সেগুলো হলো আবেং, আত্তং, মিগাম, বম, লুসাই, পাংখোয়া, খিয়াং, খুমি, ককবরক, ম্রো, মারমা, রাখাইন, চাক, বিষ্ণুপ্রিয়া মনিপুরী, মৈতৈ মনিপুরী, হাজং, চাকমা, তঞ্চঙ্গা, সাদরি, উর্দু, মাহালি, কোল, কোডা, খাসিয়া, লিংগাম।

জানা যায়, লিখিত রূপ থাকা ভাষাগুলোর মধ্যে বাংলা বর্ণমালা ব্যবহার করে হাজং, সাদরি, কোডা, বিষ্ণুপ্রিয়া মনিপুরী। নিজস্ব লিপি ব্যবহার করে মৈতৈ মনিপুরী, চাক, চাকমা, তঞ্চঙ্গ মারমা, রাখাইন, উর্দু, ও ম্রো। আর রোমান লিপি ব্যবহার করে যথা, বম, কোল, ককবরক, খাসিয়া, গারো, লুসাই, মাহালি, পাংখোয়া, আবেং, আত্তং, মিগাম, কোচ, খিয়াং, খুমি। হিসাবমতে ২৬টি ভাষার লিখিত রূপ আছে, অর্থাৎ ১৪টি ভাষা এখনও লিখিত রূপহীন মৌখিক পর্যায়েই রয়ে গেছে।

একইসঙ্গে লিখিতরূপ থাকা চাক, কোডা, কোল ও পাংখোয়ার মতো কিছু ভাষাও হারিয়ে যাওয়ার মুখে। প্রকল্প সংশ্লিষ্টরা মনে করেন, লিখিত ও অলিখিত সমস্ত ভাষাকে সঠিক উপায়ে সংগ্রহ ও সংরক্ষণ করা না হলে আগামীতে ভাষাগুলো হারিয়ে যেতে পারে।

প্রকল্পের আওতায় বাংলাদেশের ৪০টি ভাষার এনোটেটেড নমুনা সংরক্ষিত থাকবে বলে জানিয়েছেন ইবিএলআইসিটি প্রকল্প পরিচালক (পিডি) প্রকৌশলী মো. মাহবুব করিম। তিনি সংবাদকে বলেন, ‘ভাষা সংরক্ষণে আইসিটি বিভাগের উদ্যোগ জাতীয় পর্যায়ে ক্ষুদ্র নৃ-গোষ্ঠী ভাষাসহ দেশের সবগুলো ভাষা সংরক্ষণে তৈরি হচ্ছে ভাষাবিষয়ক ডিজিটাল রিসোর্স রিপোজিটোরি বা জাদুঘর। যেখানে সব ভাষা সংরক্ষিত থাকবে।’

তিনি বলেন, ‘দেশের ১৪টি ভাষা বিপন্নপ্রায় ভাষাসহ বাকি ভাষাগুলোর যদি হারিয়ে যাওয়া রোধ করা না যায় তবে অল্প কয়েক বছরের মধ্যেই এই ভাষাগুলো হারিয়ে যাবে।’

এমতাবস্থায় ভাষাগুলোর বৈজ্ঞানিক ডকুমেন্টেশন ও সংরক্ষণের জন্য এই উদ্যোগ হাতে নেয়া হয়েছে। এটি বাংলাদেশের ভাষা সম্পর্কে নতুন ও প্রামাণ্য জ্ঞান তৈরি করে দেবে। সংশ্লিষ্ট ভাষাভাষী মানুষেরা তাদের ভাষা সংরক্ষণ করতে পারবেন এবং ভবিষ্যত প্রজন্মের কাছে ভাষার নমুনা হাজির করে ভাষা পুনরুজ্জীবনের উপায় বের করবেন বলে মনে করেন তিনি।

এ বিষয়ে পরামর্শক প্রতিষ্ঠান ড্রিম ৭১ বাংলাদেশ লিমিটেডের ব্যবস্থাপনা পরিচালক (এমডি) এবং বেসিসের পরিচালক রাশাদ কবির বলেন, ‘ক্ষুদ্র নৃ গোষ্ঠীদের ভাষা নিয়ে কাজ করার সুযোগ হচ্ছে এই কাজের মাধ্যমে। ৪০টি ভাষার ওপর মোট ১২ হাজার মিনিটের অডিও নমুনা সংগহ করা হবে। এর মধে ৮ হাজার মিনিট পূর্ব নির্ধারিত এবং ৪ হাজার মিনিট স্বতঃস্ফূর্ত যার অডিও এবং ভিডিও স্পিচ সংগ্রহ করা হবে।’

তিনি আরও বলেন, ‘আন্তর্জাতিক মাতৃভাষা ইনস্টিটিউট কর্তৃক বলা হয়েছে ক্ষুদ্র নৃ-গোষ্ঠী যেসব ভাষার লিখিত রূপ পাওয়া যায় সেসব ভাষার কিবোর্ড তৈরি করা হবে। এছাড়া যদি নতুন কোন ভাষার আক্ষরিক বা লিখন পদ্ধতি পাওয়া যায় তারও কিবোর্ড তৈরি করা হবে।’

তিনি জানান, ‘পুরো কার্যক্রম বৈজ্ঞানিক পদ্ধতিতে ভাষাভাষী কমিউনিটি ও অংশীজনদের মতামত ও অংশগ্রহণের মাধ্যমে পরিচালিত হবে। ডেটা সংগ্রহ করা হবে নিজেদের তৈরি সফটওয়্যারের মাধ্যমে। তৈরিকৃত সফটওয়্যারটি পৃথিবীর যেকোন ভাষা সংরক্ষণের জন্য ব্যবহার করা যাবে। এথনোগ্রাফি ও পাটিসিপেটরি পদ্ধতি ব্যবহার করে বাংলাদেশের ৪০টি ভাষার অডিও ও টেক্সুয়াল ডেটা সংগ্রহের জন্য নৃতাত্ত্বিক-ভাষা বিশেষজ্ঞ, ভাষাবিজ্ঞানী, গবেষক, নেটিভ ভেলিডেটর বা সংশ্লিষ্ট ভাষার যাচাইকারী, সফটওয়্যার প্রকৌশলী, এনকোডিং এক্সপার্ট, টেস্টার বা পরীক্ষক, ডকুমেন্টেশন এক্সপার্ট প্রমুখের সমন্বয়ে গঠিত টিম কাজ করবে।’

ইউনেসকোর মতে, ‘একটি ভাষা তখনই হারিয়ে যায়, যখন সেই ভাষায় কথা বলার লোক হারিয়ে যায় কিংবা তারা অন্য ভাষায় কথা বলতে শুরু করে।’

২০১০ সালে ইউনেসকো কর্তৃক প্রকাশিত ‘অ্যাটলাস অব দ্য ওয়ার্ল্ডস ল্যাংগুয়েজ ইন ডেঞ্জার’ শীর্ষক বইয়ে প্রায় আড়াই হাজার বিপন্ন ভাষার একটি তালিকা আছে। চলতি শতাব্দীর শেষে এই সংখ্যা তিন হাজারে গিয়ে পৌঁছাবে বলে পূর্বাভাস দিয়েছেন গবেষকরা।

এই ভাষাগুলোর কোন লিখিত রূপ বা বর্ণমালা না থাকায় এগুলোর সংরক্ষণ বেশ কঠিন হয়ে পড়েছে। এর মধ্যে এই ভাষাভাষী লোকের সংখ্যাও কমেছে এবং সংশ্লিষ্ট সম্প্রদায়ের পরবর্তী প্রজন্ম এ ভাষা আর শিখছে না বা ব্যবহার করছে না।

শনিবার, ১৪ মে ২০২২ , ৩১ বৈশাখ ১৪২৮ ১২ শাওয়াল ১৪৪৩

ভাষা রক্ষায় প্রযুক্তির উদ্যোগ

শাফিউল ইমরান

দেশে ক্ষুদ্র-নৃগোষ্ঠীর ভাষাগুলো ডিজিটাল প্লাটফর্মে খুব একটা ব্যবহার হয় না। বেশিরভাগ ক্ষেত্রে এসব ভাষার মানসম্মত দালিলিক ও প্রামাণ্য উপাদান নেই। আবার এদের মধ্যে ১৪টি ভাষা বিপন্ন অবস্থায় রয়েছে। অনেক ভাষার পর্যাপ্ত তথ্য নেই, নেই ফন্টের এনকোডিংও। সেগুলোকে লিপিতে রূপ দেয়া থেকে নানা ধরনের কাজ করছে আইসিটি মন্ত্রণালয়।

‘গবেষণা ও উন্নয়নের মাধ্যমে তথ্যপ্রযুক্তিতে বাংলা ভাষা সমৃদ্ধকরণ (ইবিএলআইসিটি)’ প্রকল্পের আওতায় চলছে এই উন্নয়ন কাজ। ১৬টি উপাদানের একটি ‘ক্ষুদ্র নৃ-গোষ্ঠীদের নিজস্ব ভাষায় কি-বোর্ড উন্নয়ন ও শব্দভা-ার’ প্রকল্পে তালিকাভুক্ত দেশের জীবিত ভাষাগুলোর এনোটেটেড নমুনা সংরক্ষিত থাকবে বলে জানা গেছে।

‘ক্ষুদ্র নৃ-গোষ্ঠী সাংস্কৃতিক প্রতিষ্ঠান আইন-২০১০’ এর গেজেটে সরকার ৫০টি নৃ-গোষ্ঠীকে তালিকাভুক্ত করেছে। যে ৪০টি ভাষা নিয়ে কাজ করা হচ্ছে এর মধ্যে ৩৪ টি ক্ষুদ্র নৃ-গোষ্ঠীর ভাষা। জানা গেছে, ৪০টি ভাষার মধে ২৬টির লিখিত রূপ আছে। এর মধ্যে ৪টি বাংলা, ১৪টি রোমান ও ৮টি ভাষা নিজস্ব বর্ণমালা ব্যবহার করে।

প্রকল্প সূত্রে জানা গেছে, সর্বশেষ নৃ-তাত্ত্বিক জরিপে ১৪টি ভাষাকে বিপন্ন হিসেবে চিহ্নিত করা হয়েছে সেগুলো হলোÑ কন্দ, খারিয়া, কোডা, সাওরিয়া, মুন্ডা, কোল, মালতো, খুমি, পাংখোয়া, রেংমিটচা, চাক, খিয়াং, লুসাই, লালেং। এগুলোর মধ্যে ‘রেংমিটচা’ ভাষায় কথা বলে মাত্র ৬ জন। বাকি সব ভাষার কোনটার ব্যবহার সম্প্রদায় পর্যায়ে এবং কোনটা পারিবারিক পর্যায়ে। এদের মধ্যে ২৬টি ভাষা বিভিন্ন লিপিতে লেখা হয়। সেগুলো হলো আবেং, আত্তং, মিগাম, বম, লুসাই, পাংখোয়া, খিয়াং, খুমি, ককবরক, ম্রো, মারমা, রাখাইন, চাক, বিষ্ণুপ্রিয়া মনিপুরী, মৈতৈ মনিপুরী, হাজং, চাকমা, তঞ্চঙ্গা, সাদরি, উর্দু, মাহালি, কোল, কোডা, খাসিয়া, লিংগাম।

জানা যায়, লিখিত রূপ থাকা ভাষাগুলোর মধ্যে বাংলা বর্ণমালা ব্যবহার করে হাজং, সাদরি, কোডা, বিষ্ণুপ্রিয়া মনিপুরী। নিজস্ব লিপি ব্যবহার করে মৈতৈ মনিপুরী, চাক, চাকমা, তঞ্চঙ্গ মারমা, রাখাইন, উর্দু, ও ম্রো। আর রোমান লিপি ব্যবহার করে যথা, বম, কোল, ককবরক, খাসিয়া, গারো, লুসাই, মাহালি, পাংখোয়া, আবেং, আত্তং, মিগাম, কোচ, খিয়াং, খুমি। হিসাবমতে ২৬টি ভাষার লিখিত রূপ আছে, অর্থাৎ ১৪টি ভাষা এখনও লিখিত রূপহীন মৌখিক পর্যায়েই রয়ে গেছে।

একইসঙ্গে লিখিতরূপ থাকা চাক, কোডা, কোল ও পাংখোয়ার মতো কিছু ভাষাও হারিয়ে যাওয়ার মুখে। প্রকল্প সংশ্লিষ্টরা মনে করেন, লিখিত ও অলিখিত সমস্ত ভাষাকে সঠিক উপায়ে সংগ্রহ ও সংরক্ষণ করা না হলে আগামীতে ভাষাগুলো হারিয়ে যেতে পারে।

প্রকল্পের আওতায় বাংলাদেশের ৪০টি ভাষার এনোটেটেড নমুনা সংরক্ষিত থাকবে বলে জানিয়েছেন ইবিএলআইসিটি প্রকল্প পরিচালক (পিডি) প্রকৌশলী মো. মাহবুব করিম। তিনি সংবাদকে বলেন, ‘ভাষা সংরক্ষণে আইসিটি বিভাগের উদ্যোগ জাতীয় পর্যায়ে ক্ষুদ্র নৃ-গোষ্ঠী ভাষাসহ দেশের সবগুলো ভাষা সংরক্ষণে তৈরি হচ্ছে ভাষাবিষয়ক ডিজিটাল রিসোর্স রিপোজিটোরি বা জাদুঘর। যেখানে সব ভাষা সংরক্ষিত থাকবে।’

তিনি বলেন, ‘দেশের ১৪টি ভাষা বিপন্নপ্রায় ভাষাসহ বাকি ভাষাগুলোর যদি হারিয়ে যাওয়া রোধ করা না যায় তবে অল্প কয়েক বছরের মধ্যেই এই ভাষাগুলো হারিয়ে যাবে।’

এমতাবস্থায় ভাষাগুলোর বৈজ্ঞানিক ডকুমেন্টেশন ও সংরক্ষণের জন্য এই উদ্যোগ হাতে নেয়া হয়েছে। এটি বাংলাদেশের ভাষা সম্পর্কে নতুন ও প্রামাণ্য জ্ঞান তৈরি করে দেবে। সংশ্লিষ্ট ভাষাভাষী মানুষেরা তাদের ভাষা সংরক্ষণ করতে পারবেন এবং ভবিষ্যত প্রজন্মের কাছে ভাষার নমুনা হাজির করে ভাষা পুনরুজ্জীবনের উপায় বের করবেন বলে মনে করেন তিনি।

এ বিষয়ে পরামর্শক প্রতিষ্ঠান ড্রিম ৭১ বাংলাদেশ লিমিটেডের ব্যবস্থাপনা পরিচালক (এমডি) এবং বেসিসের পরিচালক রাশাদ কবির বলেন, ‘ক্ষুদ্র নৃ গোষ্ঠীদের ভাষা নিয়ে কাজ করার সুযোগ হচ্ছে এই কাজের মাধ্যমে। ৪০টি ভাষার ওপর মোট ১২ হাজার মিনিটের অডিও নমুনা সংগহ করা হবে। এর মধে ৮ হাজার মিনিট পূর্ব নির্ধারিত এবং ৪ হাজার মিনিট স্বতঃস্ফূর্ত যার অডিও এবং ভিডিও স্পিচ সংগ্রহ করা হবে।’

তিনি আরও বলেন, ‘আন্তর্জাতিক মাতৃভাষা ইনস্টিটিউট কর্তৃক বলা হয়েছে ক্ষুদ্র নৃ-গোষ্ঠী যেসব ভাষার লিখিত রূপ পাওয়া যায় সেসব ভাষার কিবোর্ড তৈরি করা হবে। এছাড়া যদি নতুন কোন ভাষার আক্ষরিক বা লিখন পদ্ধতি পাওয়া যায় তারও কিবোর্ড তৈরি করা হবে।’

তিনি জানান, ‘পুরো কার্যক্রম বৈজ্ঞানিক পদ্ধতিতে ভাষাভাষী কমিউনিটি ও অংশীজনদের মতামত ও অংশগ্রহণের মাধ্যমে পরিচালিত হবে। ডেটা সংগ্রহ করা হবে নিজেদের তৈরি সফটওয়্যারের মাধ্যমে। তৈরিকৃত সফটওয়্যারটি পৃথিবীর যেকোন ভাষা সংরক্ষণের জন্য ব্যবহার করা যাবে। এথনোগ্রাফি ও পাটিসিপেটরি পদ্ধতি ব্যবহার করে বাংলাদেশের ৪০টি ভাষার অডিও ও টেক্সুয়াল ডেটা সংগ্রহের জন্য নৃতাত্ত্বিক-ভাষা বিশেষজ্ঞ, ভাষাবিজ্ঞানী, গবেষক, নেটিভ ভেলিডেটর বা সংশ্লিষ্ট ভাষার যাচাইকারী, সফটওয়্যার প্রকৌশলী, এনকোডিং এক্সপার্ট, টেস্টার বা পরীক্ষক, ডকুমেন্টেশন এক্সপার্ট প্রমুখের সমন্বয়ে গঠিত টিম কাজ করবে।’

ইউনেসকোর মতে, ‘একটি ভাষা তখনই হারিয়ে যায়, যখন সেই ভাষায় কথা বলার লোক হারিয়ে যায় কিংবা তারা অন্য ভাষায় কথা বলতে শুরু করে।’

২০১০ সালে ইউনেসকো কর্তৃক প্রকাশিত ‘অ্যাটলাস অব দ্য ওয়ার্ল্ডস ল্যাংগুয়েজ ইন ডেঞ্জার’ শীর্ষক বইয়ে প্রায় আড়াই হাজার বিপন্ন ভাষার একটি তালিকা আছে। চলতি শতাব্দীর শেষে এই সংখ্যা তিন হাজারে গিয়ে পৌঁছাবে বলে পূর্বাভাস দিয়েছেন গবেষকরা।

এই ভাষাগুলোর কোন লিখিত রূপ বা বর্ণমালা না থাকায় এগুলোর সংরক্ষণ বেশ কঠিন হয়ে পড়েছে। এর মধ্যে এই ভাষাভাষী লোকের সংখ্যাও কমেছে এবং সংশ্লিষ্ট সম্প্রদায়ের পরবর্তী প্রজন্ম এ ভাষা আর শিখছে না বা ব্যবহার করছে না।