কনটেন্টে যান

শব্দের এমবেডিং প্রজেক্টর, ঘটনার সিগনেচার

মানুষের মন, ‘নিউরোসাইন্স’ এবং ‘নিউরাল নেটওয়ার্ক'

মানুষের মন নিয়ে আমি কখনো ‘এক্সপেরিমেন্ট’ করতে চাইনি। তবে সেটাতে একজন মানুষ কী চিন্তা করছেন আর সেটা উনি না বলা পর্যন্ত আমরা এখনও সেভাবে জানতে পারি না। উনি ‘যেটা বলছেন না’ সেটা উনাদের ‘ব্রেইন স্ক্যান’ না করলে বোঝা অনেকটাই অসম্ভব। তবে, এই ব্রেইন স্ক্যানের অংশটুকু এখনো শুরুর পর্যায়ে মানে ঘষামাজার মধ্যে রয়েছে। মানুষের মনের উত্তেজনা, দুঃখ জিনিসগুলোর কিছু ‘ভিজ্যুয়াল’ আসছে সেই ‘প্রি-ফ্রন্ট্রাল কর্টেক্স’ স্ক্যানে। ব্যপারটা বোঝানো বেশ কঠিন - বিশেষ করে ‘নিউরোসাইন্স’ আমার বিশেষত্ব নয়।

তবে, সেটার কিছুটা ‘স্নিকপিক’ অর্থাৎ ছিটেফোঁটা ধারণা পাই যখন ‘নিউরাল নেটওয়ার্ক’ নিয়ে কাজ করছি। একজন অথবা একটা গোষ্ঠির মানুষ সামনে কী করবে সেটা বের করতে চাচ্ছে মানুষ। সেটার সামাজিক চাহিদা এবং ব্যবসায়িক ইমপ্লিকেশন চলে গেছে আরো সামনে। সেগুলোর কিছু ধারণা পাই আমাদের ডিজিটাল ডিভাইসে। আমি যা সার্চ করতে চাই (যা এখনও আমাদের মনের মধ্যে আছে) সেটাও চলে আসছে লেখার আগেই। আমি কী মুভি, ভিডিওটা দেখতে চাই অথবা কাকে এবং সেই ইমেইলে কী লিখবো সেটার অনেককিছুই লেখা হয়ে যাচ্ছে আগে থেকে।

ক্যামব্রিজ অ্যানালিটিকা'র ধারণা

You aren’t necessarily aware that when you tell me what music you listen to or what TV shows you watch, you are telling me some of your deepest and most personal attributes.

-- Christopher Wylie, the Cambridge Analytica whistleblower

প্রেডিকশন এবং প্রেডিকশন

সত্যি বলতে এ ধরনের কিছু অ্যাপ্লিকেশন আমরা এখনই দেখছি কাজে লাগছে। আপনি কোন জিনিসটা কালকে অর্ডার করবেন অথবা কোন মানুষটা কি ধরনের মানসিক সমস্যার মধ্যে দিয়ে যাচ্ছেন এবং সেই মানুষটা সামনে অন্যান্য সবার জন্য বিপদজনক হতে পারেন কিনা সে ধরনের মানসিক এনালাইসিস নিয়ে কাজ চলছে বহুদিন ধরে। একটা মানুষ কখন তার নিজের জীবন নিয়ে নিতে পারেন - সেটা আগে থেকে ধারণা করে তাকে সাহায্য করার কাজ শুরু হয়ে গেছে অনেক জায়গায়। এর পাশাপাশি, আপনি সাধারণত যাকে ভোট দিয়ে থাকেন এবং আপনার কোথায় কাজ করলে আপনি সেই অন্যকে ভোট দেবেন স্বেচ্ছায়, সে ধরনের কাজ দেখেছি অনেক জায়গায়। তবে, মানুষ কি কারনে কি ধরনের সিদ্ধান্ত নেন অথবা পাল্টান সেটার ট্রিগার পয়েন্টগুলো বুঝলে এই কাজগুলো বোঝা আরো সহজ হয়। সেক্ষেত্রে ‘নাজ’ অর্থনীতি খারাপ নয়। সেটা নিয়ে লিখেছি আরেক জায়গায়।

‘মাইন্ড’ ম্যাপিং এবং মনের স্বাধীনতা

তবে, অনেকে পুরো পৃথিবীর কষ্টের ‘বোঝা’ মাথায় নিয়ে ঘুরে বেড়ালেও তাকে সাহায্য করতে পারি না, উনি যদি সাহায্য না চান। তার মানে - মানুষটা কি চিন্তা করছেন সেটাকে ‘উনি যতক্ষণ পর্যন্ত না বলছেন’ ততক্ষণ পর্যন্ত আমরা জানতে পারছি না উনি কি চিন্তা করছেন। সেটা একটা বড় সমস্যা। যদি উনি কিছু করে ফেলেন? তবে, চিন্তার একটা ভালো প্রতিফলন আসে তার লেখায়। মানুষের মন পড়তে না পারলেও তার বিক্ষিপ্ত অর্থাৎ লেখার ছিটেফোঁটা থেকেও অনেক কিছু বোঝা যায়। সেকারণে মানুষের মনের ভেতরে সরাসরি না ঢোকার চেষ্টা করে তার লেখা দিয়ে ঢোকার চেষ্টা করা যায়।পৃথিবীর বড় বড় বিপজ্জনক লোকগুলোর কাজগুলো ঘটার পরে তার ডিজিটাল ‘ট্রেস’ দেখে বোঝা গেছে সে সেই দুর্ঘটনা ঘটানোর জন্য চিন্তা-ভাবনা করছিল অনেক আগে থেকেই। আমরা সম্পর্কিত ‘ডটগুলোকে কানেক্ট’ করতে পারিনি।

আমি অসম্ভবকে সম্ভব করতে বলছি না। এখানে যে অংশটুকু সম্ভব অর্থাৎ যেই ‘ভাষা’ আমরা এবং মেশিন পড়তে পারে সেটার কথা বলছি। মানুষের ভাষার ব্যাপারটা এখনও কমপ্লেক্স হলেও যেটা সম্ভব সেটার কিছু ধারণা নিয়ে আলাপ করতে চাই। মানুষ কী বলছেন এবং সেটাকে কতোটুকু আক্ষরিক অর্থে বোঝাতে চাচ্ছেন সেটা বের করা সম্ভব যখন কথার সাথে তার গলার টোনের ফ্রিকোয়েন্সি’র ওঠানামা অ্যানালাইসিস করলে সেটার ‘কোরিলেশন’ ভালো ধারণা দেয়। আমি ‘পলিগ্রাফ’ টেস্ট করতে বসিনি।

যন্ত্র, ভাষা, হেয়ালি এবং অংক

আর তাই, ভয়েস অ্যানালাইসিসকে ফেলে দিতে চাই যেহেতু সেটার ‘কমপ্লেক্সিটি’ আমাদের আজকের আলাপের বাইরে। তবে, শুধুমাত্র টেক্সট অর্থাৎ মানুষের কথার লিখিত অংশটাকে অ্যানালাইসিস করলে অনেক ধারণা পাওয়া যায়। মানুষ কথার মধ্যে অনেক ‘হেয়ালি’ করে সেটা যন্ত্রকে দিয়ে করানো প্রায় অসম্ভব। ভাষা জিনিসটাই অনেক কমপ্লেক্স, তবে যন্ত্রকে যখন এই ভাষাকে দিয়ে যোগাযোগ করার জন্য কাজ করতে গেলাম - সেখানে দেখলাম ভাষার পেছনের পুরো অংশটাই অংক। ভাষার পেছনে সংখ্যা হবার কারণ হচ্ছে, যন্ত্র সংখ্যা ছাড়া কিছু বোঝে না। আগে যন্ত্র কিভাবে কাজ করে সেটা অনেকটাই স্বচ্ছ হলেও সেটা আস্তে আস্তে মানুষের বোঝার বাইরে চলে যাচ্ছে। আর, সেখানে ভাষার শব্দগুলোকে বিভিন্ন ‘এক্সিসে’ প্লট করতে গিয়ে দেখি ভেতরের অনেক গল্প। শব্দগুলো একসাথে হয়ে যেন কিছু বলার চেষ্টা করছে। এবং মজার কথা, তারা সেটা বলছেও।

সোশ্যাল মিডিয়া

I’m not a supporter of #DeleteFacebook because it’s like saying if you don’t want to get electrocuted, get rid of electricity. It’s stupid. No, demand better standards for your electricity so you don’t get electrocuted… the solution is not to delete these platforms or attack them and make them the enemy, it’s to make sure they are doing their job to make a safe environment for people.

-- Christopher Wylie

শব্দকে ‘ভিজুয়ালাইজেশন’ - অনেক ডাইমেনশনে

ব্যাপারটা একটু খুলে বলি। আমাদের প্রতিটা শব্দ - ধরুন, বাংলা শব্দকে সংখ্যায় নিয়ে যাবার আগে সেটাকে টোকেনে ভাগ করে ফেলি। মানুষ এই শব্দগুলোকে ঠিকমতো বুঝতে চাইলে সেটাকে প্লট করতে হবে। মনে আছে গ্রাফে প্লট করার কথা? আমরা মেশিন লার্নিং এর যেকোনো জিনিস বুঝতে চাইলে সেটাকে শুরুতে ‘ভিজুয়ালাইজ’ করার জন্য আমরা দুই ডাইমেনশনে প্লট করি। মানুষের মাথা - বিশেষ করে মাথার ‘নিউরাল নেটওয়ার্ক’ এতটাই চমৎকার যে - যে কোনো ডাটাকে ঠিকমতো প্লটিং করতে পারলে সেটার মধ্যে প্যাটার্ন খুঁজে বের করে ফেলবে আমাদের অসাধারণ মাথা। তবে সেই ডাটা অনেক মানে অনেক বেশি হলে খালি চোখে সেটা কয়েক ডাইমেনশনে দেখা কষ্টকর।

তবে, এই শব্দগুলোকে সংখ্যায় পরিবর্তন করলে সেগুলোকে অনেকগুলো ডাইমেনশনে অর্থাৎ শতাধিক এক্সিসে প্লট করলে সম্পর্কের ভালো ধারণা পাওয়া যায়। সেখানে প্রতিটা শব্দের সাথে আরেকটা শব্দের সম্পর্ক, কে কার কাছে এবং দুরে - অথবা কে কার থেকে কতো দুরে, আপেক্ষিক এবং আসল কাছে দুরের ধারণা থেকে অসাধারণ প্রজ্ঞা পাওয়া যায়। ধরুন, গত ২০ বছরের পুরো বাংলাদেশের নামকরা বাংলা খবরের কাগজের প্রতিটা শব্দকে আমরা যদি ১২৮ ডাইমেনশনে (যতো বেশি, ততো বেশি প্রসেসিং ক্ষমতা দরকার) প্লট করি, তখন সেই শব্দগুলোর মধ্যে কোন শব্দগুলো বারবার ঘুরে ফিরে আসছে এবং কোন শব্দগুলো আরেকটা শব্দের সাথে প্রথাগত সম্পর্কিত না হলেও সেখানে ওই ঘটনার জন্য একটা সম্পর্কের হিসেব মানুষকে অন্যভাবে চিন্তা করতে বাধ্য করছে। এটা নতুন জিনিস।

শব্দের ‘এমবেডিং প্রজেক্টর’ এবং সম্পর্ক, বায়াস, কী মিস করলাম?

শব্দের সম্পর্ক

Machine learning researchers and developers often need to explore the properties of a specific embedding to understand the behavior of their model. An engineer who creates an embedding of songs for a recommendation system might want to verify that the nearest neighbors of "Stairway to Heaven" include "Whole Lotta Love" and not "Let It Go" from Frozen.

-- Embedding Projector: Interactive Visualization and Interpretation of Embeddings, Google Brain Team

যখন কয়েক কোটি শব্দকে একটা শব্দের ‘এমবেডিং প্রজেক্টরে’ ফেলবেন তখন অনেকেই অবাক হবেন এর বিশালতা দেখে। ডাটা সাইন্সের যুগে এধরনের ‘এমবেডিং প্রজেক্টর’ চলে আসছে প্রতিটা ডিপ লার্নিং লাইব্রেরিগুলোতে। এই ‘কানেক্টেড’ অর্থাৎ সম্পর্কিত ডাটা দেখে আমার গতানুগতিক চিন্তাভাবনা পাল্টেছে গত পাঁচ বছরে। আমরা যেভাবে ধরে নিচ্ছি - এই ঘটনাটা এভাবে ঘটার কথা - কিন্তু সেই ঘটনাগুলো আসলে ঘটছে অন্যভাবে। সে মুহূর্তে মানুষ ‘ক্লু’ না পেলেও পরে সেই ডাটা অ্যানালাইসিস করে দেখা গেছে ভেতরের ঘটনা অন্য। অর্থাৎ, সেই লিড না পেলে আমরা ভাবতাম ঘটনাটা গতানুগতিক ভাবে ঘটেছে।

তবে, আমি আরো একটু ভেতরে ঢুকতে চাই। অনেকদিন থেকে কোন ঘটনাগুলো মানুষের চিন্তা ভাবনা পাল্টে দিচ্ছে - সেগুলো ঠিকমতো অ্যানালাইসিস করা গেলে অনেক সময় সেটাকে ‘আইসবার্গের টিপে’র মতো মনে হবে। অনেক ভেতরের ধারণা পাওয়া যাবে সেটা ঘটবে সামনের ৫-১০ বছরে। সেগুলোকে কিছু ধারণা এখনই আসছে গত ২০, ৩০ বছরের ঘটনাগুলোকে ‘ওভারলে’র মতো করে প্লট করে। একেকটা শব্দের স্পেসের কাছের গ্রুপের মধ্যে অন্য ধরনের শব্দ পেলে সেটাই পাল্টে দিচ্ছে আমাদের মানে অ্যানালিস্টদের গতানুগতিক চিন্তা ভাবনা। আমরা তখন ভাবি ‘এভাবে তো কখনও চিন্তা করা হয়নি’ - তাহলে এটা কিভাবে এখানে এলো? এখানে অসংগতিটা কেন এলো? আমরা কি মিস করেছি? এখানে এতো ‘বায়াস’ কেন? এই ‘বায়াসের’ পেছনে ‘ইন্টারলিংকড’ ঘটনা কী? 'কনটেক্সট' কিভাবে এলো?

ঘটনা/দুর্ঘটনার ইউনিক ‘সিগনেচার’, আরেকটা ঘটনার যোগসুত্র

এর পাশাপাশি এই শব্দগুলোর ‘অ্যাসোসিয়েশন’ অনেক কিছু গতানুগতিক ধারণাকে ভেঙ্গে দেয়। যে কোন দুর্ঘটনা - সেটা কেন ঘটল অথবা সেই দুর্ঘটনার পেছনে কি কারণ হতে পারে অথবা এধরনের দুর্ঘটনা সামনে আবার হবার সম্ভাবনা কতটুকু? এগুলো নিয়ে সেই শব্দের ‘এমবেডিং প্রজেক্টর’ আমাদেরকে অনেক নতুন ধারণা দিচ্ছে যা অসম্ভব ছিলো কয়েক বছর আগে, ডাটা এবং শক্তিশালী প্রসেসরের অভাবে। প্রতিটা ঘটনা/দুর্ঘটনার একেকটা ‘সিগনেচার’ থাকে যা বোঝা যায় ডাটাকে বড় স্কেলে ফেললে। সেগুলোকে যোগ, বিয়োগ, গুন অথবা ভাগ করলে তৈরি করা যায় আরেকটা ‘ভবিষ্য’ ঘটনা। কেন একটা ঘটনা 'কনটেক্সচুয়ালাইজেশন' করার জন্য আগের সিগনেচার অনেক কাজে দেয়। একটা কথা মনে রাখতে হবে, যন্ত্রের মনে রাখার অর্থাৎ লম্বা অভিজ্ঞতার ‘লাইফ স্প্যান’ সাহায্য করছে ভবিষ্যত তৈরি করতে, যা আমরা চাই। সেটার জন্য দরকার ডাটা। খারাপ ঘটনাকে আটকাতে।