ডিসক্রিট, কন্টিনিউয়াস ভ্যারিয়েবল এবং এগ্রিগেশন
যেহেতু ডাটার মধ্যে সংখ্যার খেলা, সে কারণে সংখ্যা নিয়ে কাজ করার সময় আমরা এর দুটো ভাগ নিয়ে কথা বলতে পারি।
ডিসক্রিট ভেরিয়েবল: ডিসক্রিট - মানে পূর্ণাঙ্গ, যেখানে সংখ্যাগুলো আলাদাভাবে ডিস্টিনক্ট অর্থাৎ এগুলো একটা পূর্ণ সংখ্যা হিসেবে বলা যেতে পারে। ধরুন, একটা বাসার সদস্য সংখ্যা আমরা যখন হিসাব করি তখন সেখানে একটা বাচ্চা অথবা তিনটা বাচ্চা হিসেবে বলতে পারি, কিন্তু কখনোই আমরা বলতে পারি না যে ৩.৪৯ বাচ্চা। এদিকে, আমরা কোন একটা জিনিসের দাম হিসেব করলে সেখানে এ ধরনের ভগ্নাংশ অবশ্যই যোগ করা যায়। আমার কথা হচ্ছে, আমরা যখন ডিসক্রিট ভ্যারিয়েবল নিয়ে কথা বলব তখন কোন ভগ্নাংশ ব্যবহার করব না যাতে সেটা ডাটা ঠিকমত রিপ্রেজেন্ট করতে পারে। কয়টা পাখি সংখ্যায় বললে সেটা ৩/৫/৭ হতে পারে, তবে বাচ্চাসহ ৩.৫ নয়।
আবার ধরা যাক, আপনাকে জিজ্ঞাসা করা হল আপনার কাছে কয়টা কলম আছে? তার উত্তরে অবশ্যই আপনি একটা ডিসক্রিট ভ্যারিয়েবেল সংখ্যা বলবেন যা হয়তোবা ৫ অথবা ৯ হতে পারে। ৫.৬ নয়।
কন্টিনিউয়াস ভ্যারিয়েবল: সংখ্যায় ব্যবহৃত এধরনের ভ্যারিয়েবলগুলো ভগ্নাংশ হয়না অর্থাৎ একটা স্টেপ থেকে আরেকটা স্টেপে যেতে সেটার মধ্যে কোন ‘ব্রেক’ থাকেনা। ব্যাপারটা এরকম যে - যখন আমরা কোন কিছু মাপতে যাই তখন দুটো সংখ্যার মধ্যে’ ইনফিনিটি’ লেভেলের স্টেপ থাকতে পারে। যেমন, আপনি যখন সময় নিয়ে আলাপ করবেন, তখন সংখ্যার একেকটা ঘণ্টার মধ্যে মিনিট এবং সেকেন্ডের দুই লেভেলের ধাপ আছে। এখন আপনি এক ঘন্টা ত্রিশ মিনিট না বলে সেটাকে ১.৫ ঘন্টাও বলা যেতে পারে। ঘন্টা ব্যাপারটা ডিসক্রিট ভেরিবল হলেও আমরা যখন সেই ঘণ্টাকে একটা ভগ্নাংশের মধ্যে অর্থাৎ সেই ঘন্টার একটা কন্টিনিউয়াস মোড হিসেব করতে যাব তখন সেটাকে কন্টিনিউয়াস ভেরিয়েবল বলা যেতে পারে। যেটা ৩ জন মানুষ এবং ৪ জন মানুষের মধ্যে আলাদা স্টেপ করে সম্ভব না। কারণ, আমরা মানুষকে ভাঙতে পারবো না।
এই একই গল্প প্রযোজ্য যখন আমরা তাপমাত্রা, দূরত্ব বা ওজন নিয়ে কথা বলবো। দূরত্ব একমাইল অথবা ১.৫ মাইল হতে পারে। এদিকে আমরা যখন ওজন নিয়ে কথা বলবো তখন যে কোন জিনিসের ওজন ২ কেজি অথবা ২.৭৫ কেজি হতে পারে। এটাকেই কন্টিনিউয়াস ভ্যারিয়েবেল হিসেবে আমরা দেখছি।
সংখ্যার আরেকটা ডাইমেনশন: এগ্রিগেশন
ডাটার এগ্রিগেশনের একটা ফর্ম হচ্ছে কিভাবে অনেকগুলো ডাটাকে এক জায়গায় এনে একটা বিশেষায়িত অ্যাঙ্গেল থেকে ঠিকমত বোঝা যায়। ধরুন, আপনি অনেকগুলো মানুষের স্যালারি নিয়ে কাজ করতে গিয়ে তাদের গড় স্যালারি একটা শহরের সব মানুষের আয়ের ব্যাপারে একটা ভাল ধারণা দেয়। এটাই এগ্রিগেশন। একটা সংখ্যা দিয়ে একটা বড় ডাটাসেটের ধারণা পাওয়া।
একটা ডাটার ভেতরে যদি ট্রেন্ড এনালাইসিস করতে হয় তাহলে এগ্রিগেশন বিশাল কাজ করে। কোয়ান্টিটেটিভ ফিল্ডগুলোকে চমৎকারভাবে এগ্রিগেট করা যায়। ট্যাবলিউ এবং মাইক্রোসফট পাওয়ার বিআইতে ডিফল্ট হিসেবে যেকোনো ডাটাকে শুরুতে ‘এগ্রিগেট’ করে। কারণ এতে শুরুতেই বড় একটা ডাটার ট্রেন্ড বোঝা যায়।
নিচের টেবিল থেকে আমরা কিছু ধারনা নেই
টেবিল
এগ্রিগেশন পদ্ধতি | বর্ণনা |
---|---|
সাম | এতে ডাটার সবগুলো ডাটা পয়েন্ট এর যোগফল বেরিয়ে আসে |
এভারেজ | সব ডাটা পয়েন্টের গড় |
মিডিয়ান | ডাটার ভেতরে বিভিন্ন ‘স্কিউনেসের’ উপর ভিত্তি করে ডাটা কোন দিকে বেশি টানছে সেটার একটা মধ্যম ভ্যালু জানিয়ে দেয় সে |
মিনিমাম | আমাদের ডাটা পয়েন্টের সবচেয়ে কম ভ্যালুটা দেখায় |
ম্যাক্সিমাম | ডাটা পয়েন্ট এর সর্বোচ্চ ভ্যালু |
কাউন্ট | ডাটার কতগুলো রেকর্ড অর্থাৎ সারি সংখ্যা |
ডাটার গ্র্যানুলারিটি
ধরা যাক, আমাদের কোম্পানিতে প্রতি বছর প্রফিট মার্জিন নিয়ে আলাপ হয়। এখানে গত বছর এবং তার আগের বছরে কত কোম্পানি কতো প্রফিট করেছে তার ধারণা আলাদা আলাদাভাবে বছর ভিত্তিক পেলেও এর ভেতরে কোন মাসে বা ১২ মাসের মধ্যে কোন কোন মাসগুলোতে প্রফিট ভালো থাকে সেটার ভিতরে গেলে এর বছরভিত্তিক প্রফিট লেভেল থেকে মাস ভিত্তিক প্রফিট লেভেলে একটা ভালো গ্র্যানুলারিটি পাওয়া যায়। এখানে ডাটাটা আর এগ্রিগেটেড থাকছে না। ফলে, ভিজুয়ালাইজেশনে ডাটাকে আরো ডিটেইল লেভেলে দেখাবে।