কেন বইটা লিখতে চাইলাম?
শুরু করতে হবে এখনই
The best time to plant a tree was 20 years ago. The second best time is now.
– Chinese Proverb
আমার লেখালেখির শুরু সেই ক্যাডেট কলেজ থেকে। শুরুটা দেয়ালপত্রিকা দিয়ে। এরপর কলমবন্ধু, তারপর ডায়েরি। ধীরে ধীরে ওয়েবলগ, যেহেতু ইন্টারনেটে থাকা হতো প্রায় অনেক কাজে। বিশেষ করে রেডিও অ্যান্টেনা তৈরির বিষয়গুলো নিয়ে। তবে শুরুতে কম্পিউটার (১৯৮৬ সাল এবং বন্ধুর একটা কমোডোর ১২৮) চালাতে হতো অডিও ক্যাসেট দিয়ে। অসাধারণ একটা সময় কেটেছে তখন।
এরপর এলো মোডেম, পাইন (ইমেইল অ্যাপ্লিকেশন), অফলাইন ইউইউসিপি ইন্টারনেট, এবং বুলেটিন বোর্ড। বাংলায় সাপোর্টের সমস্যার কারণে ইংরেজিতে ওয়েবলগ লিখেই (যার পরিবর্তিত নাম ব্লগ) বন্ধুবান্ধব গড়ে উঠলো বিশ্বব্যাপী। তবে, বয়স বাড়ার সাথে সাথে ফিরতে হলো নিজের মাতৃভাষায়। শেকড়ের খোঁজে। সমস্যা একটাই। এখনও প্রযুক্তির ভাষা হয়ে ওঠেনি বাংলা। আর তাই শুরু হলো নতুন যুদ্ধ। কিভাবে সবকিছু করা যায় বাংলায়?
২০০০ সাল। হঠাৎ করেই বড় রকমের সমস্যায় পড়লাম চোখ নিয়ে। হাসপাতালে থাকতে হলো একটা লম্বা সময়। শেষমেষ করতে হলো লেজার সার্জারি। তবে, বোঝা গেল সমস্যাটা ঠিক হবার নয়। তবে, ঠেকাতে হবে এটা যাতে বার বার না ঘটে। স্বভাবতই কমে গেল স্ক্রিনটাইম। তবে আমার কম্পিউটার নির্ভর কাজগুলোকে অনেকটাই পাল্টে নিলাম ভয়েস রেকগনিশনের কিছু ইমপ্লিমেন্টেশন নিয়ে। শুরু হলো নতুন যাত্রা।
পৃথিবীর বৃহত্তর ভাষাগুলোতে এ ব্যাপারে ব্যাপক কাজ হলেও বাংলায় সেটা ঘটেনি। শুরুতে ড্রাগনের 'ন্যাচারালি স্পিকিং' সফটওয়্যারটি দিয়ে শুরু করলেও আস্তে আস্তে চলে গেলাম ওপেনসোর্স ধারনায়। ডক্টর জেমস বেকার এবং তার স্ত্রী ডক্টর জ্যানেট বেকার অসাধারণ একটা যাত্রা শুরু করেন ১৯৮২তে হিডেন মার্কভ মডেল দিয়ে যা টেম্পোরাল প্যাটার্ন রেকগনিশনের জন্য একটি ভালো প্রবাবিলিস্টিক পদ্ধতি। সেটা এখন ৮টা বৃহত্তর ভাষাতে অসাধারণ কাজ করছে।
তবে ওপেনসোর্সের ধারনায় "কালডি" একটা অসাধারণ 'এএসআর', অর্থাৎ স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম যেটা শব্দের প্রি-প্রসেসিং এবং ফিচার এক্সট্রেকশনে বেশ ভালো কাজ করে। এর শুরুতে যে অ্যাক্যুস্টিক মডেলটা ব্যবহার করা হয়, সেটাতে আগে ‘গোসিয়ান মিক্সচার মডেল’ (জিএমএম) ব্যবহার হলেও সেটা ধীরে ধীরে চলে আসছে নিউরাল নেটওয়ার্কের আওতায়। আর, সেই নিউরাল নেটওয়ার্ক নিয়ে আমাদের কাজ হবে এই বইটাতে।
ফাস্ট ফরওয়ার্ড ২০১৫ সাল। চলে এলো মেশিন লার্নিং এর যুগ যা প্রায় সব জায়গায় ব্যবহার করা যায়। ভয়েস রিকগনিশন অর্থাৎ ভয়েস সেন্ট্রিক অ্যাপ্লিকেশন ঘিরে ফেলছে আমাদের জীবন। আমরা এখনও কোন কিছু খুঁজতে হাতে লিখে গুগল সার্চ করলেও আমাদের পরবর্তী প্রজন্ম ভয়েস সার্চে অভ্যস্ত। আমার বাচ্চারা বাসার অনেককিছুই চালায় গুগল অ্যাসিস্ট্যান্ট, অ্যালেক্সা, সিরি দিয়ে। তবে সেটা বাংলায় আসছে না - যতক্ষণ পর্যন্ত আমরা বাংলা ভাষাভাষী সেটার ব্যাপারে নিজে জড়িত হচ্ছি।
পৃথিবীতে এমুহুর্তে ‘ইনফর্মেশন ওভারলোড’ একটা বড় সমস্যা। আমাদেরকে খুঁজে পেতে হবে ‘আসল তথ্য’ এই খড়ের গাদা থেকে। বাংলায় বই অথবা বড় ডকুমেন্টের একটা সামারি, বাঁচিয়ে দিতে পারে অনেক সময়। ধরুন, সরকারের একটা সিদ্ধান্ত জনগণ কিভাবে নিচ্ছে তার একটা ভালো ধারণা পাওয়া যায় সোশ্যাল মিডিয়া থেকে। বাংলায় ‘সেন্টিমেন্ট অ্যানালাইসিস’ টুলগুলো ঠিকমতো কাজ করলে এ ধরনের কাজগুলো থেকে ভালো ধারণা কোন সমস্যাই নয়। এখন হয়তোবা কাজগুলো শুরু হয়েছে ‘প্রমিত বাংলা’য় তবে সেটার স্থানভিত্তিক ‘লোকালাইজেশন’ প্রয়োজন।
আমাদের মত জনবহুল দেশে সরকারি সেবা সহজীকরনে জনগণের প্রতিনিয়ত: সমস্যাগুলোর সমাধান দিতে পারে এই ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’। আইনগত ডকুমেন্টভিত্তিক সাহায্যের জন্য অনেক কাজ হয়েছে এই ডোমেইনে। আর সেকারণে অন্যান্য বৃহত্তর ভাষাগুলোর মতো বাংলায় ‘ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং’য়ের কাজগুলোর জন্যই আমার এই ছোট প্রচেষ্টা। যেকোন ল্যাঙ্গুয়েজ মডেল ভালোভাবে কাজ করবে, যখন সেই ভাষার প্রচুর ডাটা ওপেনসোর্স ডোমেইনে থাকবে। বাংলাকে অন্যান্য বৃহত্তর ভাষাগুলোর পাশাপাশি রাখতে আমাদের সবাইকে জড়িত হওয়া প্রয়োজন। তবে, বাংলা ভাষা নিয়ে কাজ না করলে আমাদের ভবিষ্যত প্রজন্ম বোঝার জন্য 'ইন্টারনালাইজেশন' করতে পারবে না।
সেই ধারণাটাকে মাথায় রেখে লিখেছিলাম ‘হাতে কলমে পাইথন ডিপ লার্নিং’ বইটি। পর্যাপ্ত ভাষাতত্ত্ব জ্ঞান ছাড়াই বাংলায় ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’ ব্যাপারটি জানার আগে ‘নিউরাল নেটওয়ার্ক’ নিয়ে কাজ করার প্রয়োজন বলে সেই বইটিতে দুটো বিষয়ই নিয়ে আলাপ করেছিলাম। তবে, বইয়ের কলেবর বেড়ে যাওয়াতে সেটাকে কমিয়ে আনতে হয়েছিল এক পর্যায়ে। তবে, আমার মনে হয়েছে, ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’য়ের মতো জটিল ধারণাটাকে আরো ‘বেসিক’ থেকে শুরু করলে সবাই এর প্রায়োগিক বিষয়টি নিয়ে কাজ করতে পারতেন। আর সে কারণেই এই বইটিকে আগের ‘ডিপ লার্নিং’ বইয়ের সহযোগী বই হিসেবে লিখেছি।
আমার ধারণা, বাংলায় ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’য়ের একটা বড় প্রয়োগ থাকবে সরকারি সেবা সহজীকরনে। গ্লোবাল প্রেডিকশন বলছে, ২০২৫ সালের মধ্যে ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং'য়ের বাজার ৪১ বিলিয়ন ডলার ছাড়িয়ে যাবে। সেই নতুন বাজার ধরতে, যে ধরনের ‘স্কিলসেট’ প্রয়োজন - তার ‘বেসিক’ ধারনা চলে আসবে এ দুটো বই থেকে। শুরু হোক বাংলা নিয়ে আমাদের কাজ, প্রতিটা ক্ষেত্রে।
আমার লেখা বইগুলোর ক্রম
মেশিন লার্নিং বইগুলোর ক্রম
১. ├── হাতেকলমে মেশিন লার্নিং (দ্বিতীয় সংস্করণ)
২. ├── শূন্য থেকে পাইথন মেশিন লার্নিং (দ্বিতীয় সংস্করণ)
৩. ├── হাতেকলমে পাইথন ডিপ লার্নিং (দ্বিতীয় সংস্করণ) (পাইথনে লার্নিং ধারণা অথবা ২ নম্বর বইটা প্রয়োজন)
৪. └── হাতেকলমে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, শুরুর ধারণা (ডিপ লার্নিং ধারণা অথবা ৩ নম্বর বইটা প্রয়োজন)