কনটেন্টে যান

ডিস্ট্রিবিউশনের বিভিন্ন শেপ এবং হিস্টোগ্রাম নিয়ে ধারণা

ডিস্ট্রিবিউশনের বিভিন্ন শেপ

আমরা যখন ডাটাকে প্লট করি, তখন সেই ডিসট্রিবিউশনগুলো বিভিন্ন আকারে আসতে পারে। কিছু কিছু ডিসট্রিবিউশন অনেকটাই সিম্মেট্রিক্যাল যেখানে তার ভ্যালুগুলো পুরো জায়গা ধরে সমানভাবে ডিস্ট্রিবিউটেড থাকে তার মধ্যকে কেন্দ্র করে। এদিকে আবার অনেক সময় এই ডিস্ট্রিবিউশনের মধ্যে একটা ‘পজিটিভ স্কিউ’, অর্থাৎ একদিকে ডাটার ক্লাস্টার ঘেষা থাকে যেটাকে পজিটিভের ক্ষেত্রে ‘ডান দিকে’ আমরা ধরে নেই। সেদিক থেকে যখন এই ডিস্ট্রিবিউশনের ডাটাগুলো ক্লাস্টার থেকে কিছুটা বামে থাকে তখন সেটাকে আমরা “নেগেটিভ স্কিউ” বলি।

নিচে একটা উদাহরন নিয়ে আলাপ করি। ধরে নেই, আমাদের কাছে তিনটা আলাদা আলাদা গ্রুপের মানুষের উচ্চতার হিসেব আছে যার মাধ্যমে আমরা নিচের একটা হিস্টোগ্রাম তৈরি করেছি। ৩ গ্রুপের জন্য আলাদা আলাদা হিস্টোগ্রাম আমরা দেখতে পাচ্ছি নিচে।

হিস্টোগ্রাম

আমরা দেখতে পাচ্ছি এখানকার ডিস্ট্রিবিউশনের বাস্কেট অর্থাৎ বিন সাইজ হচ্ছে ২.৯৫ ইঞ্চি। ফলে এখানে মানুষের উচ্চতা ভ্যালুগুলোকে “বিনিং” অর্থাৎ বাক্সবন্দী করা হয়েছে ৫৯-৬১.৯৫, ৬২-৬৪.৯৫ ... এভাবে চলে আসবে সবার জন্য। চলুন, আমরা এই হিস্টোগ্রামকে কাছে থেকে একটু বুঝে আসি।

সিম্মেট্রিক্যাল ডিস্ট্রিবিউশন

আমাদের সেই মানুষের উচ্চতার গ্রুপে যদি ডাটাগুলো দেখি, তাহলে একটা গ্রুপ অনেকটাই সিমেট্রিক্যাল, কারণ আমরা যখন এই পুরো হিস্টোগ্রামকে দুই পাশে কাল্পনিকভাবে ভাঁজ করব, তখন এটা দুটো অংশ পাশাপাশি সমান জায়গা নিয়ে ‘ম্যাচ’ করবে সুন্দরভাবে। এ ধরনের সিমেট্রিক্যাল ডিস্ট্রিবিউশনে ডাটার ক্লাস্টারে ঠিক মাঝখানটাতে এর ‘মিন’ অর্থাৎ গড়টা থাকে। এর পাশাপাশি তাঁর ‘মিডিয়ান’ অংশ - যেখানে সম্পূর্ণ ভ্যালুগুলোর মধ্যের আসল মধ্যম পয়েন্ট, কাছাকাছি থাকে কারণ এই দুটো ভ্যালুর ‘আউটকাম’ প্রায় সমান সমান। সে কারণে এই ডাটার বিশেষ করে দুই ধরনের ভ্যালুর মধ্যম জায়গা এবং তার ‘ডিসপারশন’ অর্থাৎ ডাটাটা কিভাবে ছড়িয়ে আছে দুই পাশে সেটাও প্রায় সমান সমান হয়। নিচের ছবিটা দেখুন।

সিমেট্রিক্যাল ডিসট্রিবিউশন এর ছবি

“পজিটিভ স্কিউ” ডিসট্রিবিউশন

পৃথিবীর বেশিরভাগ ডাটায় ঠিকমত সিমেট্রি তৈরি করে না বলে ডাটার ঠিকমতো ডিস্ট্রিবিউশন নিয়ে কাজ করতে গেলে এর ভেতরে দু'ধরনের অর্থাৎ ডান এবং বাম ঘেষা ডাটা পাওয়া যায়। ছবি দেখুন। ডান দিকে ঘেষা বিশেষ করে যদি ডাটার ডিস্ট্রিবিউশন পজিটিভ দিকে যায় তাহলে সেটাকে “পজিটিভ স্কিউ” বলি আমরা। এটা পজিটিভ বলছি এ কারণে যেখানে ডাটাকে কিছুটা টেনে লম্বা দেখানো হচ্ছে ডানদিকে। ডানদিকে এর ‘ডিসপারশন’ বেশি। যদি ডাটার ‘ডিস্ট্রিবিউশন স্কিউ’ পজিটিভ দিকে হয় তখন মিডিয়ান গড় অথবা ‘মিন’ থেকে ছোট হয়।

তবে, এখানেও কিছু সমস্যা আছে। একটা শহরের সবার গড় আয় মাঝামাঝি থাকলেও সেখানে যদি কয়েকজন কোটিপতি থাকে তাহলে সেই কোটিপতিদের কারণে পুরো শহরের গড় ইনকাম একদিকে মানে কিছুটা উপরে চলে যাবে। এজন্যই এ ধরনের কাজে কোটিপতিদের হিসেব একদিকে টানলেও পুরো শহরের জনগণের আয়ের আসল হিসাব চাইলে গড় এর পরিবর্তে ‘মিডিয়ান’ আয় ভালো কাজ করবে।

আমরা যখন আমাদের দ্বিতীয় গ্রুপের উচ্চতার ডাটা দেখছি সেখানে তিনজন ব্যক্তির কারণে বাকি সবার জন্য ডাটাটা পজিটিভ স্কিউ অর্থাৎ ডান দিকে ঘেঁষে গেছে। তিনজনের উচ্চতা আমরা এখানে দেখতে পাচ্ছি প্রায় ৬ ফুট অথবা তার কাছাকাছি। এই তিনজনের উচ্চতা বাকি সব ডাটা গড়কে আরো উপরে নিয়ে গেছে। এজন্য এখানে বিশেষ করে, এই গ্রুপের জন্য মিডিয়ান ভ্যালু নেওয়াটাই সবার জন্য সঠিক রিপ্রেজেন্টেশন হবে।

ছবি

“নেগেটিভ স্কিউ” ডিস্ট্রিবিউশন

অ্যাসিমেট্রিক্যাল ডিস্ট্রিবিউশনের আরেকটা ভাগ হচ্ছে “নেগেটিভ স্কিউ” ডিসট্রিবিউশন - যেখানে ডাটার ক্লাস্টারে ডাটার একটা বড় অংশ নেগেটিভ দিকে টেনে নিয়ে আসা হয়। এই ধরনের ডাটা ‘ডিসপারশন’ যখন বামদিকে বেশি চলে যায় তখন এটাকে “নেগেটিভ স্কিউ” বলা হয়। অর্থাৎ এর বামদিকের ডাটার অংশটা বেশি এবং লম্বা। যখন আমাদের ডিসট্রিবিউশন নেগেটিভ দিকে স্কিউ হয় তখন ডাটার মিডিয়ান ডাটার গড় থেকে বড় হয়।

একটা উদাহরণ দেয়া যাক। ২০ জনের একটা ক্লাস আছে যখন দুই জন ছাত্র কখনোই যদি ক্লাসে না আসে অথবা অ্যাসাইনমেন্ট জমা না দেয়, তাহলে কি হতে পারে? তাদের ফাইনাল গ্রেড অবশ্যই শূন্য হবে। আর এই দুজন ছাত্রের কারণে পুরো ২০ জনের ছাত্রের ক্লাসে সবার ফাইনাল গ্রেডের গড় নেওয়া হয় তখন সেটা আসল গড় থেকে বেশ কিছুটা নিচে নেমে যাবে। আর সে কারণে ২০ জন ছাত্রের ফাইনাল গ্রেডের সত্তিকারের রিপ্রেজেন্টেশন চাইলে এখানে গ্রেডের ‘মিডিয়ান’ ভ্যালু এখানে ভালো ‘আউটকাম’ দেবে।

আমাদের আগের ডাটা অনুযায়ী যখন তিনটা গ্রুপের ছাত্রদের উচ্চতার ডাটা হিসাব করছি, সেখানে তৃতীয় গ্রুপটা কিছুটা নেগেটিভ স্কিউ, কারণ এখানে একজন ব্যক্তি আছেন যার উচ্চতা ৫ ফুটের কম। সে কারণে তাদের আসল গড় উচ্চতা একটু কমে গেছে, সেকারণে এর ‘ডিসপারশন’ একদিকে অর্থাৎ বামদিকে বেশি ঘেঁষার কারণে হয়েছে। ছবি দেখুন।

ছবি