ট্যাবলিউ - প্রজাতির ক্লাস্টার অ্যানালাইসিস এবং মিসম্যাচ

ভালো কথা - ৬টা ডেটা ‘মিস-ম্যাচ’। এখন কী হবে? এ মুহুর্তে, আমরা জানতে চাইবো - প্রজাতির আসল ডাটা এবং ট্যাবলিউ তার এনালাইটিক্স দিয়ে যেই ক্লাস্টার করেছে তার মধ্যে কতটুকু মিস-ম্যাচ? বিশেষ করে, কোন কোন রেকর্ডে মিস-ম্যাচ, সেটা বের করতে চাইবো। এর পরিপ্রেক্ষিতে আমরা শুরুতে ক্লাস্টার ডাটা এনে ছেড়ে দেব ওয়ার্কশীটের ‘সারির’ উপরে। এতে আমাদের তিনটা ক্লাস্টার এর একটা টেবিল তৈরি করে দেবে - যেখানে এই মুহূর্তে কোন সংখ্যা থাকছে না। আমাদের এখানে যেহেতু ১ থেকে ১৫০টা রেকর্ড, সে কারণে শুরুতেই আইডিকে টেনে নিলাম সারিতে। আমরা জানতে চাইছি, প্রতিটা রেকর্ড ধরে কোন কোন রেকর্ড আসল ডাটাতে কি প্রজাতি বলেছে তবে ক্লাস্টার অ্যানালাইসিসে কোথায় কোথায় ভুল ক্লাসিফাই করেছে? এখানে তিনটা ক্লাস্টার ধরে আলাদা আলাদা করে আইডি দেখা যাচ্ছে শুরুতে।

আগের তৈরি ক্লাস্টার এবং রেকর্ড আইডি দিয়ে টেবিল

ট্যাবলিউতে আমরা যখন একটা ডাটাসেট ইমপোর্ট করে নিয়ে আসি, তখন প্রতিটা ফিচার অর্থাৎ কলামের ভ্যালুগুলোকে আনার সময় তিনটা অটো জেনারেটেড ‘মেজার’ তৈরি করে আমাদের কাজের সুবিধার জন্য। এরমধ্যে মেজার নেম, মেজার ভ্যালু এবং পুরো ডাটাসেটের রেকর্ডের একটা ‘কাউন্ট মেজার’ নিয়ে আসে। সে কারণে, যেকোনো ডাটাসেটের একটা পরিপূর্ণ ধারণা পেতে চাইলে ‘মেজার ভ্যালু’ ডাবল ক্লিক করলে সব ধরনের পার্সপেক্টিভ পাওয়া যায়। সেই ধারণা থেকে আমরা ‘মেজার ভ্যালু’ ডাবল ক্লিক করছি, যেখানে সিপাল এবং পেটাল দৈর্ঘ্য এবং প্রস্থ (মোট চারটি) এবং রেকর্ডের কাউন্ট (১ করে মোট ১৫০টি) আইডি টেবিলে পাব।

মেজার ভ্যালু দিয়ে পুরো ধারণা নিতে চাওয়া, এক টেবিলেই

আমাদের এখানে যেহেতু ‘পিটাল দৈর্ঘ্য’ এবং প্রস্থ ছাড়া বাকি মেজার এর প্রয়োজন নেই, সে কারণে আমরা রেকর্ড কাউন্ট এবং বাকি দুটো মেজার মুছে দিচ্ছি। এতে আমাদের প্রয়োজনীয় দুটো মেজার থাকছে। এখন, এই ক্লাস্টারকে তুলনা করতে হবে ডাটাসেটের আসল প্রজাতির ভ্যালুর সাথে, যেটা এখানে ‘স্পিসিস’ হিসেবে আছে। আমরা যেহেতু ভিজ্যুয়ালি এ দুটোর পার্থক্য বুঝতে চাই, সে কারণে স্পিসিস ডাইমেনশনকে টেনে আনছি, কালার এর উপরে। আমি আপনাদেরকে অনুরোধ করবো, ইচ্ছেমতো বিভিন্ন ডাইমেনশন এবং মেজারগুলোকে ওয়ার্কশীটে টেনে আনতে, যাতে আপনার ডাটা এনালাইটিক্স সম্পর্কে ভয় ভেঙে যায়। সত্যি বলছি! আপনি যা-ই করুন, ডাটা এনালাইসিস সফটওয়্যার নষ্ট করতে পারবেন না!

রঙের পার্থক্যই বলে দিচ্ছে মিস-ম্যাচ, রেকর্ড ধরে

দেখুন রেকর্ড নম্বর, ১০৭, ১২০, ১৩৪, ১৩৫, ৭১ এবং ৭৮? রংয়ের অমিল পাচ্ছেন? প্রজাতি আইরিস ভার্সিকালার এর মধ্যে চারটা এবং প্রজাতি ভার্জিনিকা এর মধ্যে দুটো ভিন্ন রংয়ের মোট ৬টি মিস-ক্লাসিফিকেশন দেখতে পাচ্ছি। তবে এই মিস-ক্লাসিফিকেশন আমরা ‘মার্কস’ থেকে গোলাকার অথবা বর্গাকার চিহ্ন দিলে আমাদের দেখার সুবিধা হবে। আপনাদের সুবিধার জন্য পুরো পাঁচটা ওয়ার্কশীট এবং একটা ড্যাশবোর্ড তৈরি করে দিয়েছি নিচের লিংকে। ডাউনলোড করে নিন আপনার ট্যাবলিউ ডেস্কটপ অথবা কপি করে নিন ওয়েব ভার্সন এর জন্য।

মানুষ হিসেবে বর্গাকার ভিজ্যুয়ালাইজেশন, আসল মিস-ম্যাচ, রেকর্ড ধরে

ওয়ার্কশিট ডাউনলোড করুন এই লিঙ্কে, https://public.tableau.com/views/-_16259206654450/sheet5 - কথা দিতে হবে, পরেরগুলো নিজেই করবেন সব!