শুরুর উদাহরন: বক্স প্লট
শুরুর উদাহরন: বক্স প্লট
(কিছু তাত্ত্বিক জিনিস বইয়ের লেখায় ভালো, অন্যদিকে ছবিগুলোকে আমরা যখন প্লট করবো - তখন ভিডিও ভালো। আর সে কারণেই শুধুমাত্র বক্স প্লট নিয়ে কাগজ-কলমে বোঝানোর চেষ্টা করছি। বাকিগুলো আসছে ভিডিওতে)
কন্টিনিউয়াস ভেরিয়েবলের ডিস্ট্রিবিউশন: বক্স প্লট
এই অংশে আমরা চেষ্টা করব কিভাবে কিছু ভ্যারিয়েবলের ডিস্ট্রিবিউশন বিভিন্ন অ্যাঙ্গেল থেকে দেখা যায়? আর এ কারণে আমরা এই মুহূর্তে একটা খুব প্রয়োজনীয় গ্রাফ নিয়ে আলোচনা করব, যাকে আমরা সাধারণত “বক্স প্লট” বলে থাকি। বক্স প্লট এ একটা সুবিধা হচ্ছে কিভাবে একটা ডাটা সেটের ডিস্ট্রিবিউশন সহজে এবং কম জায়গায় দেখা যায়। এখানে সবচেয়ে বড় ব্যাপার হচ্ছে, এর ভেতরে ডাটার বিভিন্ন বৈশিষ্ট্য খুব সহজে বোঝা যায়। শুরুতেই একটা বক্স প্লটে যেই বাক্সটা প্লটিং এর ভেতরে থাকে সেটা আসলে ৫০% মধ্যম অর্থাৎ ঠিক মাঝখানে থাকে। এই বক্সটা শুরু হয় ২৫% পার্সেন্টাইল থেকে ৭৫% পার্সেন্টাইল পর্যন্ত। এর ঠিক মাঝখানে মিডিয়ান অর্থাৎ সেটা ঘিরে থাকে ৫০ পার্সেন্টাইল লাইন ঘিরে।
“পার্সেন্টাইল” এর কাজ হচ্ছে একটা ডাটাসেটের ভেতর কিভাবে একটা জিনিসকে আরেকটার সাথে ‘কমপেয়ার’ করা যায়। এখন যদি আপনি আপনার ‘লাজুকতা’ অর্থাৎ ইন্ট্রোভার্টনেস নিয়ে যদি হিসাব করতে চাই তাহলে সেটার স্কোরিং সরাসরি বের করা কিছুটা সমস্যাজনক হবে বটে। তার বদলে আপনার ইন্ট্রোভার্টনেস যদি অন্য আরেকজনের সাথে আপেক্ষিকভাবে বের করা যায় তাহলে হয়তোবা বোঝা যাবে তার ইন্ট্রোভার্টনেসের কাছে আপনি বেশি না কম। এখানে সেটাকে মানে সেটার রিলেটিভনেসকে শতাংশ আকারে ধরে নিতে পারি। ধরা যাক, একটা কুইজ টেস্ট নেওয়া হলো যেখানে বিভিন্ন প্রশ্নের মাধ্যমে একজন মানুষ কতটুকু লাজুক, সেটা বের করতে হবে। সেখানে যদি ৬৫% বাকি কুইজ টেস্ট অংশগ্রহণকারীর স্কোর যদি আপনার থেকে কম হয়, তাহলে আপনার স্কোর হবে ৬৫তম পার্সেন্টাইল।
বক্স প্লটের ভূমির সমান্তরালে যে লাইনগুলো আছে সেগুলোকে ‘হুইসকার’ বলি আমরা। বক্স প্লটের সাথে এগুলো জোড়া দেওয়া হয় যাতে ডাটার ডিস্ট্রিবিউশন আরো ভালোভাবে বোঝা যায়। সেকারণে হুইসকার, বক্সের বক্সের বাইরে প্লট করা হয়। দেখুন, হুইচকার এর জিনিসগুলোর ডিস্ট্রিবিউশনের মধ্যে সাধারণতঃ ৫০ শতাংশের মধ্যে থাকে না - সেগুলোর বাহিরের তথ্যগুলোকে ঠিকমত বোঝা যায়। ডাটার ডিস্ট্রিবিউশনে কোনটা কতদূর গিয়েছে এবং কোনটার মধ্যে আউটলাইয়ার আর আছে সেটাও এধরনের ডিস্ট্রিবিউশনে বোঝা যায়। আমাদের দেখা মতে, এই আউটলাইয়ারগুলো সাধারণত নরমাল রেকর্ডের মত হয় না বরং এটা ডিস্ট্রিবিউশনের মধ্যম পয়েন্ট থেকে এক্সট্রিম পর্যায়ে যেতে পারে। মজার কথা হচ্ছে, আজকের এই বক্স প্লট তৈরি করা হয়েছিল ১৯৭০ সালের দিকে। মার্কিন অংকবিদ ‘জন টাকি’ এটা বানিয়েছিলেন। আমার প্রিয় একটা প্লটিং মেকানিজম।
তৈরি করি একটা বক্স প্লট
একটা বই লিখতে গেলে তার ব্যাকগ্রাউন্ডে প্রচুর বই পড়তে হয়। অনেক বেছে ডেভিড এম লেইনের বক্স প্লট চ্যাপ্টার থেকে উদাহরণটা নিয়েছি আমি। উনার মূল বইয়ের নাম হচ্ছে “ইন্ট্রোডাকশন টু স্ট্যাটিসটিকস”, যা পাবলিক ডোমেইনে পাওয়া যায়। বিনামূল্যে মানে এই নয় যে - এটা ভালো বই নয়। আমার দেখা মতে এটা একটা অসাধারণ বই। ওখানে উনি একটা ক্লাসের ৩১ জন ছাত্রদের নিয়ে একটা এক্সপেরিমেন্ট চালিয়েছিলেন। ছাত্রদেরকে ৩০টি রঙ্গিন আয়তক্ষেত্র দিয়েছিলেন, যেখানে তাদের কাজ ছিল কে কত তাড়াতাড়ি সেই রং এর নামটা বলতে পারে। নিচের টেবিলটা থেকে বোঝা যাচ্ছে তাদের সময় (আমরা সেকেন্ডে হিসেব করেছি) কিভাবে রেকর্ড করা হয়েছিল। সংখ্যাগুলোর অর্থ হচ্ছে কত সেকেন্ডে তারা রং গুলোর নাম বলতে পেরেছিল।
টেবিল
এই ডাটাসেট থেকে আমরা চেষ্টা করবো একটা বক্স প্লট তৈরি করতে। সেই বক্স প্লট তৈরি করতে এই জিনিসগুলো লাগবে সামনে:
- ডাটার পার্সেন্টাইল ক্যালকুলেট করা
- সেই পার্সেন্টাইল ধরে বক্সকে প্লট করা
- এর মাঝে স্টেপ সাইজগুলোকে নির্ধারণ করা
- ‘হুইসকার’ যোগ করা
- আউটলাইয়ার মানে বাইরের ভ্যালু প্লটিংয়ে নিয়ে আসা
পার্সেন্টাইল ক্যালকুলেশন
বক্স প্লটের ভেতরের বক্স আসলে ডাটার ২৫তম পার্সেন্টাইল থেকে ৭৫তম পার্সেন্ট পর্যন্ত ডাটাকে রিপ্রেজেন্ট করে। বুঝতে পারছেন মাঝখানের তারা আমাদের ৫০তম পার্সেন্টাইলকে বোঝায়। সবচেয়ে নিচের, বিশেষ করে বক্সের সবচেয়ে নিচের এলাকায় যেটাকে অনেকে লোয়ার হিঞ্জ বলেন, সেটা ৭৫তম পার্সেন্টাইল থেকে শুরু হয়। এর পাশাপাশি - বক্সের উপরের লাইন অর্থাৎ আপার হিঞ্জ হচ্ছে ৭৫তম পার্সেন্টাইল। না বুঝলে সমস্যা নেই, এখন আমরা ছবি দিয়ে উদাহরণে চলে আসছি।
আমাদের আগের ডাটাসেটের সবগুলো সংখ্যাকে যদি পার্সেন্টাইল মোডে ফেলি তাহলে শুরুতে সেই ৩১টা সংখ্যাকে ছোট থেকে বড় হিসেবে সাজাই।
- ছোটো থেকে বড় হিসাবে সাজানোর ছবি
ছবি
- এই ছবি ধরে আমরা তার মিডিয়ান ভ্যালু অর্থাৎ সেন্ট্রাল সংখ্যাকে খুঁজে বের করি যা শুরু এবং শেষ সংখ্যার সিকোয়েন্সের ঠিক মাঝামাঝি অংশে থাকবে। যেহেতু ৩১ সংখ্যাটা বিজোড় এ কারণে এর মধ্যম ঘরটা হচ্ছে শুরুর ১৫ এবং শেষের ১৫ এর ঠিক মাঝখানের সংখ্যা। সে কারণে আমাদের মিডিয়ান ভ্যালু হচ্ছে ১৯।
ছবি
- এখন আমাদের কাজ হচ্ছে ২৫তম পার্সেন্টাইল বের করা। এটা বেশ সহজ, কারণ আমাদের শুরু থেকে মিডিয়াম ভ্যালু পর্যন্ত যে সংখ্যা আছে তার মাঝামাঝি ভ্যালুটা হচ্ছে ২৫তম পার্সেন্টাইল। আমাদের এই ৩১টা সংখ্যার মধ্যে মিডিয়ান এবং সংখ্যাগুলোর মধ্যে প্রথম সাতটা সংখ্যার পরে এবং মিডিয়ান ভ্যালু থেকে সাতটা সংখ্যা আগে হচ্ছে এই ২৫তম পার্সেন্টাইল। এর ভ্যালু হচ্ছে ১৭।
ছবি
- আগের মত ৭৫তম পার্সেন্টাইল নির্ধারণ করি। এই ৭৫তম পার্সেন্টাইল বসে আছে মিডিয়ান এবং সবচেয়ে শেষের সংখ্যার ঠিক মাঝখানে। ৩১ সংখ্যার মধ্যে মিডিয়ান ভ্যালু থেকে ৭ সংখ্যা এবং শেষ থেকে সাত সংখ্যার মাঝে যে সংখ্যা সেটাই হচ্ছে ৭৫তম পার্সেন্টাইল। হিসেব মতে সেটা আসে সংখ্যা ২০।
বক্সকে প্লট করি পার্সেন্টাইল হিসাবে
আমাদের বক্সের নিচের যে লাইনটা আছে (লোয়ার হিঞ্জ) সেটাকে আমরা বলি ২৫তম পার্সেন্টাইল এবং উপরের লাইন অথবা আপার হিঞ্জ হচ্ছে ৭৫তম পার্সেন্টাইল। ৫০তম পার্সেন্টাইল আঁকা হয়েছে এই বক্স এর মাঝখানে। এটাই আমাদের মিডিয়ান।
৩১ টা স্কোর এর মধ্যে আমরা যেটা বুঝতে পেরেছি;
- ২৫তম পার্সেন্টাইল হচ্ছে ১৭
- পঞ্চাশতম পার্সেন্টাইল অথবা মিডিয়ান হচ্ছে ১৯
- ৭৫তম পার্সেন্টেজ হচ্ছে ২০