কনটেন্টে যান

বক্স প্লট আঁকার হিসেব

এখন বক্সটা আঁকি,

  1. ২৫তম পার্সেন্টাইল অর্থাৎ লোয়ার হিন্জে আমরা এ লাইন তৈরি করছি y-axis এর সাথে ১৭কে কানেক্ট করে

  2. পঞ্চাশতম পার্সেন্টাইল অর্থাৎ মিডিয়ানকে ধরে এ লাইন তৈরী করছি y-axis এর সাথে ১৯ নম্বরে

  3. ৭৫তম পার্সেন্টাইল অর্থাৎ আপার হিন্জে লাইন হচ্ছে ২০এর সাথে এই একই ওয়াই এক্সিসে।

আমাদের ২৫তম পার্সেন্টাইল এবং মিডিয়ান সংখ্যার মধ্যে যেই ভ্যালুটা আছে সেটাকে অনেকে “দ্বিতীয় কোয়ারটাইল” বলে থাকেন। আবার ৫১তম পার্সেন্টাইল অর্থাৎ মিডিয়ান এর পরের ভ্যালু থেকে শুরু করে ৭৫তম পার্সেন্টাইল পর্যন্ত সংখ্যাগুলোকে “তৃতীয় কোয়ারটাইল” বলা হয়ে থাকে। এবং ৭৫তম পার্সেনটাইলে উপরের সব সংখ্যাগুলোকে “চতুর্থ কোয়ারটাইল” বলতে পারি আমরা। এখানে “হুইসকার” এবং অন্যান্য লাইনগুলোকে ব্যবহার করি প্রথম এবং চতুর্থ কোয়ারটাইল ভ্যালুগুলোকে দেখানোর জন্য।

স্টেপ সাইজ নির্ধারণ করা

আমরা চেষ্টা করবো - এখন “হুইসকার” এর উপর এবং নিচে কিভাবে বাড়তি ইনফরমেশন দেওয়া যায় যাতে ডাটার ডিসট্রিবিউশন ঠিকমত বোঝা যায়। হুইসকারের প্লেসমেন্ট নির্ভর করে তার স্টেপ এর উপরে, যেখানে তার স্টেপগুলো আমরা ডিফাইন করতে পারি ১.৫ x IQR ( ইন্টার কোয়ারটাইল রেঞ্জ) দিয়ে। এটা কিছুটা কমপ্লিকেটেড মনে হতে পারে, তবে আমাদের এই “ইন্টার কোয়ারটাইল রেঞ্জ” নির্ভর করছে উপরের যেই আপার হিঞ্জ ( আমরা যাকে বলছি ৭৫তম পার্সেন্টাইল) ভ্যালু থেকে নিচের লোয়ার হিঞ্জ (যাকে বলি ২৫তম পার্সেন্টাইল) এর মধ্যে। আমাদের মনে রাখতে হবে যে - মধ্যে ৫০% ডাটা ভ্যালু এই বক্সের মধ্যে থাকছে। আমাদের এই সেটের মধ্যে আপার হিন্জ হচ্ছে ২০ এবং নিচের লোয়ার হিঞ্জ হচ্ছে ১৭। এর অর্থ হচ্ছে “ইন্টার কোয়ারটাইল রেঞ্জ” হবে ২০ - ১৭ = ৩।

এখন আমাদের স্টেপ সাইজ নির্ধারণ করতে চাইলে আমাদেরকে ১.৫কে গুণ করতে হবে ৩ দিয়ে। এর ফলাফল হচ্ছে ৪.৫, যা আমাদের স্টেপ সাইজ।

হুইসকার যোগ করা

হুইসকার যোগ করার আগে বুঝতে হবে কীভাবে এই জিনিসটাকে প্লট করা যেতে পারে এবং এর পাশাপাশি, এর কিছু টার্মস এবং তার ভ্যালুগুলোকে কিভাবে যোগ করতে হবে বিভিন্ন পজিশনে।

ভেতরের ফেন্স (উপরের এবং নিচের ফেন্স)

উপরের ভেতরের ফেন্স: আপার হিঞ্জ থেকে এক স্টেপ উপরে বসবে এটা। আমাদের ডাটা অনুযায়ী এর ভ্যালু হবে ২০ + ৪.৫ = ২৪.৫ - যা বসবে “ওয়াই এক্সিসের” উপরে।

নিচের ভেতরের ফেন্স: আগের মতই লোয়ার হিঞ্জ থেকে একটা স্টেপ নিচে বসবে এটা। এবং আমাদের ডাটা অনুযায়ী, এর ভ্যালু হবে ১৭ - ৪.৫ = ১২.৫ যা বসবে “ওয়াই এক্সিসের” উপরে।

এখানে উল্লেখ্য যে, আমাদের ফাইনাল গ্রাফে এই ট্রেন্ডসগুলো দেখা যাবে না, কারণ এগুলো তৈরি করা হয় সেই ধারণার উপর নির্ভর করে কোথায় “হুইসকার” বসবে।

ছবি

বাইরের ফেন্স (উপরের এবং নিচের ফেন্স)

উপরের বাহিরের ফেন্স: আপার হিঞ্জ থেকে দুই স্টেপ উপরে বসবে এটা। আমাদের ডাটা অনুযায়ী এর ভ্যালু হবে ২০ + ৪.৫ + ৪.৫ = ২৯ যা বসবে “ওয়াই এক্সিসে”র উপরে।

নিচের বাইরের ফেন্স: আগের মতই লোয়ার হিঞ্জ থেকে দুই স্টেপ নিচে বসবে এটা। এবং আমাদের ডাটা অনুযায়ী, এর ভ্যালু হবে ১৭ - ৪.৫ - ৪.৫ = ৮ যা বসবে “ওয়াই এক্সিসে”র উপরে। (ক্লাটার হবার ভয়ে ছবিতে আর দেখাচ্ছি না এখানে)

এখানে উল্লেখ্য যে, আমাদের ফাইনাল গ্রাফে এই ট্রেন্ডসগুলো দেখা যাবে না, কারণ এগুলো তৈরি করা হয় সেই ধারণার উপর নির্ভর করে কোথায় হুইসকার বসবে।

ছবি

আশেপাশের সংখ্যা (এডজাসেন্ট ভ্যালু)

উপরের এডজাসেন্ট সংখ্যা: মনে আছে উপরের ভেতরের ফেন্সের কথা? সেই ফেন্সের নিচের বড় সংখ্যাটাই আমাদের উপরের এডজাসেন্ট ভ্যালু। আমাদের উদাহরণে যেহেতু এই সংখ্যাটা ২৪, সেকারণে এর ভ্যালু হচ্ছে ২৪, এবং এটা বসবে “ওয়াই এক্সিসে”র উপরে।

নিচের এডজাসেন্ট সংখ্যা: নিচের ভেতরের ফেন্সের নিচে সবচেয়ে ছোট সংখ্যাটি হচ্ছে নিচের “এডজাসেন্ট” সংখ্যা। আমাদের উদাহরণে এই সংখ্যা ছিল ১৩, তাই এর ভ্যালু হচ্ছে ১৩, এবং সেটা বসবে “ওয়াই এক্সিসে”র উপরে।

আউটলাইয়ার ভ্যালু নিয়ে ধারণা

আউটলাইয়ার এর জন্য বাইরের ভ্যালু: এটা এমন ধরনের একটা সংখ্যা হতে পারে যা ভেতরের ফেন্সের বাইরে থাকতে পারে তবে সেটা বাইরের ফেন্সের ভেতরে থাকবে। আমাদের ডাটা সেটে সেরকম একটা ভ্যালু আমরা পাচ্ছি যা হচ্ছে সংখ্যা ২৯, এবং এই সংখ্যাটা বসবে “ওয়াই এক্সিসে”র উপরে।

একদম দূরের ভ্যালু: এরকম একটা ভ্যালু যা বাহিরের ফেন্সের একদম বাইরে থাকতে পারে। আমাদের উদাহরণে এধরনের ভ্যালু নেই বলে আমরা এখানে সেটা দেখাচ্ছি না।

ছবি

তাহলে আমাদের “হুইসকার” কোথায় বসতে পারে?

হুইসকারগুলো সাধারণতঃ আঁকা হয় উপরের হিঞ্জ থেকে উপরের এডজাসেন্ট সংখ্যা পর্যন্ত, এবং নিচের হিঞ্জ থেকে নিচের এডজাসেন্ট সংখ্যা পর্যন্ত। ছবি দেখুন। একটা কথা মনে রাখবেন যে, আমরা সাধারণত “হুইসকার” আঁকি না, যেগুলোর ভ্যালু একটা রেঞ্জের বাইরে পড়ে। তবে, আমরা সেগুলোকে বক্স প্লটের মধ্যে রিপ্রেজেন্ট করতে চাই। এই ধরনের বাইরের ভ্যালুগুলোকে আমরা সাধারণত ছোট ছোট “শূন্য” দিয়ে রিপ্রেজেন্ট করি। ছবি দেখুন। এর পাশাপাশি যে ভ্যালুগুলো একদম দূরের, তাদেরকে “তারকা চিহ্ন” দিয়ে দেখিয়ে দেই।

আমাদের ডাটাসেটের ইনপুট নিয়ে যে কথাটা বলা যায়, “হুইসকার” শুরু হয় উপরের হিঞ্জ ভ্যালু (২০) থেকে, যা চলে যায় একদম উপরের এডজাসেন্ট সংখ্যা (২৪) পর্যন্ত। এই একই জিনিস শুরু হয় নিচের হিঞ্জ ভ্যালু (১৭) থেকে, যা চলে যায় একদম নিচের এডজাসেন্ট সংখ্যা (১৩) পর্যন্ত।

ছবি

বাইরের ভ্যালুর কি হবে?

আমাদের বাইরের ভ্যালু হচ্ছে যেটা ভেতরের ফেন্সের বাইরে তবে বাইরের ফেন্সের ভেতরে। বলুন তো - সে ধরনের সংখ্যা কতগুলো আছে? আমরা ঠিকমত হিসেব করলে দেখা যাবে যে একটামাত্র ভ্যালু যেটা বাইরের ফেন্সের সাথে যাচ্ছে তবে এর বাইরে নয়। সেই সংখ্যাটা হচ্ছে ২৯। এই সংখ্যাকে ঠিকমতো দেখানোর জন্য আমরা একটা ছোট “0” আকৃতির ছবি এঁকে দিতে পারি। আমাদের ডাটা এনালাইসিস সফটওয়্যার নিজে থেকেই করে দেবে। এভাবেই আমাদের বক্স প্লট তৈরি শেষ। শুরুতে একটু মাথা খারাপের মত হতে পারে, তবে ছবির সাথে নিজে একবার প্র্যাকটিস করলে সব সহজ হয়ে যাবে।

ছবি