ডেটার বৈশিষ্ট্য এবং ভেতরের ধারণা
ডেটার বৈশিষ্ট্য কি হতে পারে? ডাটার কি কি বৈশিষ্ট্য ভালো কাজ দিতে পারে?
ডেটা লিটারেসি নিয়ে তথ্য প্রযুক্তিবিদ স্টিফেন ফিউ, এমন কিছু বৈশিষ্ট্যগুলি নিয়ে আলোচনা করেছেন যা আমাদের ডেটা নিয়ে কার্যকরভাবে কাজ করতে সাহায্য করবে। ডেটা নিয়ে কার্যকরভাবে কাজ করতে গেলে আমাদের যেভাবে বিভিন্ন বৈশিষ্ট্যের দিকে তাকাতে হয়, সেভাবে কার্যকরী ডাটার আরো কিছু বৈশিষ্ট্য রয়েছে। স্টিফেন ফিউ-এর মতে, সেরকম উচ্চ-মানের ডেটার কিছু কিছু বৈশিষ্ট্যের প্রয়োজন যা ডেটা বিশ্লেষণের একটি অপরিহার্য অংশ যা গুরুত্বপূর্ণ অন্তর্দৃষ্টি দেয়। চলুন দেখে আসি ডাটার সে ধরনের কিছু বৈশিষ্ট্য।
মিনিংফুল অর্থাৎ অর্থপূর্ণ ডাটার কিছু বৈশিষ্ট্য
স্টিফেন ফিউ, এমন কিছু বৈশিষ্ট্যের একটি তালিকা সংকলিত করেছেন যা অর্থপূর্ণ ডাটার মধ্যে পাওয়া যাবে। আমরা যখন এই বৈশিষ্ট্যগুলি পড়তে থাকবো, তখন আমাদের নিজের অভিজ্ঞতা প্রতিফলিত করতে চেষ্টা করব, বোঝার পাশাপাশি। আপনার কি মনে হয়? আমাদের ব্যক্তিগত বা কর্মজীবনে এ ধরনের উপযোগী ডেটার সম্মুখীন হয়েছিলাম কখনো? এই ডেটাগুলির মধ্যে কোন বৈশিষ্ট্য ছিল? আমরা কি এমন ডেটার মুখোমুখি হয়েছি যা আমাদের ব্যক্তিগত বা কর্মজীবনে উপযোগী ছিল না? এই বৈশিষ্ট্যের মধ্যে কোনটিতে সেই ডেটার অভাব ছিল? আপনি নিজেকে প্রশ্ন করুন এই নিচের বৈশিষ্ট্যগুলোর মধ্যে থেকে।
ডাটার ভলিউম
প্রচুর পরিমাণে প্রাসঙ্গিক, এভেলেবেল (এবং যেই ডাটা আমার কাছে আছে) ডেটার অর্থ হল আমাদের প্রশ্নের উত্তর দেওয়ার জন্য আমাদের যত ডাটা প্রয়োজন সেখানে প্রাসঙ্গিক যত ডাটা হবে ততই ভালো কাজ হবে। যত গুড় তত মিষ্টি এর মত ব্যাপারটা কিছুটা। তবে সেই ডাকে প্রাসঙ্গিক হতে হবে আমাদের প্রশ্নের সাথে। আমরা অনেক সময় প্রচুর ডাটা কালেক্ট করি, সেখানে তার প্রাসঙ্গিকতা না থাকলে পুরো জিনিসটাই ভেস্তে যায়।
ডাটার ইতিহাস
আপনার মনে আছে - সময়ের সাথে সাথে ফিরে যাওয়া ডেটা আমাদেরকে কিভাবে দেখতে দেয়? বিশেষ করে, সময়ের সাথে সাথে যেসব প্যাটার্ন তৈরি হয়েছে যার কারণে বর্তমান পরিস্থিতি কীভাবে তৈরি হয়েছে? যেমন, আমাদের ডাটা ইতিহাস প্রয়োজন - গত ১০ বছরে বিক্রয়ের প্রবণতা বৃদ্ধি বা হ্রাস দেখার জন্য। ডাটার ইতিহাস দিয়ে আমরা কিছু প্যাটার্ন বের করতে পারি যাতে ভবিষ্যতে কি হতে পারে বা তার ফোরকাস্টিং কেমন হবে সেটা বোঝা যায়।
ডাটার কনসিসটেন্সি অর্থাৎ সঙ্গতি
সময়ের সাথে অনেক ভ্যারিয়েবল পাল্টাবে, তবে সেই পরিবর্তনের সাথে সাথে, ডাটার ভেতরে কন্সিস্তেন্সি অর্থাৎ সামঞ্জস্যে না থাকলে সেই ডাটার মধ্যে অনেক ধরনের সমস্যা তৈরি হতে পারে। যেমন, মুদ্রাস্ফীতির জন্য তখনকার বেতনের সামঞ্জস্য বজায় রাখা এর একটি ভাল উদাহরণ। আপনার কাছে ১০ বছর আগের এবং পরের ডাটা তে বেতনের কোনো পরিবর্তন না থাকলে, এর অর্থ হচ্ছে সেই দেশে কোন মুদ্রাস্ফীতি ঘটেনি, যা একটা অবিশ্বাস্য ঘটনা। এর অর্থ হচ্ছে সময়ের সাথে সাথে বেতন বাড়বে সেটাই আমরা ধারণা করি। ফলে ডাটার কনসিসটেন্সি একটা বড় ইস্যু।
একাধিক ভেরিয়েবল হচ্ছে ডাটার বড় শক্তি
যেকোনো মিনিংফুল ডেটাতে পরিমাণগত (সংখ্যাসূচক পরিমাপযোগ্য) এবং গুণগত (বৈশিষ্ট্যগত, সংখ্যাসূচক পরিমাপযোগ্য নয়) ভেরিয়েবল থাকতে হবে। ডেটাতে যত বেশি ভেরিয়েবল, তত বেশি আপনি এটি থেকে নতুন নতুন ধারণা আবিষ্কার করতে পারবেন। টাইটানিক ডাটা সেটের কথাই ধরুন। ছোট ডাটা সেট তবে, এরমধ্যে পরিমাণগত এবং গুণগত আমরা বলছি কোয়ালিটেটিভ এবং কোয়ান্টিটেটিভ ডাটা থাকাতে এর থেকে ধারণা পাওয়া যায় বেশি। যত বেশি ভেরিয়েবল ততবেশি সেখান থেকে জ্ঞান থেকে পাওয়া যাবে।
সর্বনিম্ন লেভেলের বিস্তারিত ডাটা
ডেটা যত সূক্ষ্মভাবে ডিটেইলিং লেভেলে অর্থাৎ বিশদ, আমরা সেখানে বিস্তারিতভাবে বিভিন্ন স্তরে এটি পরীক্ষা করতে পারব। উদাহরণস্বরূপ, আমরা যদি পুরো দেশে ভ্যাক্সিনেশন প্রোগ্রাম ঠিকমতো চলছে কিনা সেটা জানার প্রবণতা বুঝতে চাই তাহলে এই একই কাজ শুধুমাত্র শহর না, এর পাশাপাশি পুরো বাংলাদেশব্যাপী এই কাজটা কিভাবে চলছে তার জন্য বিভাগীয় জেলা এবং উপজেলা লেভেলে কিভাবে কাজ চলছে সেটার প্রবণতাগুলোকে বোঝার জন্য সর্ব নিম্ন লেভেলের বিস্তারিত ডাটা থাকা প্রয়োজন।
ডাটা এর ভেতরে ‘ক্লিনলিনেস’ অর্থাৎ শুচিতা ঠিকমত বোঝা
আমাদেরকে ধরে নিতে হবে, ডেটা অর্থপূর্ণ হওয়ার জন্য, পুরো ডাটাকে সম্পূর্ণ হতে হবে। এরমধ্যে ডাটা ভুল বা অসম্পূর্ণ হওয়া উচিত নয়। সর্বোপরি, ডাটা এর ভেতর ত্রুটি থাকা উচিত নয়।
ডাটার ক্ল্যারিটি অর্থাৎ নির্মলতা
ডাটার ফিচারের নাম এমনভাবে লেখা উচিত যা সহজে বোঝা যায়, কোডে লিখব না। উদাহরণ হিসেবে একজন মানুষের বিভিন্ন ফিচার নিয়ে কথা বললে, বয়সের জায়গায় ইংরেজিতে এইজ, নামের জায়গায় নাম, ঠিকানার জায়গায় ঠিকানা, ইত্যাদি ইত্যাদি লেখা যেতে পারে। কিন্তু বয়সের জায়গায় বার ঠিকানার জায়গায় যদি শট করে কিছু লেখা হয় তাহলে অন্য আরেকজন এই ফিচারগুলো দেখে সহসাই বুঝবেন না। তখন তাদের জন্য আলাদা করে ডিকশনারি বানিয়ে দিতে হবে, যা আসলে সময়ের অপচয়।
ডাইমেনশন এর বিভিন্ন স্ট্রাকচার
ডাটাকে কাজ করাতে হলে সেটাকে স্ট্রাকচারাল সিস্টেমে ঢোকাতে হবে। ডেটাকে ঠিকমতো অ্যাক্সেসযোগ্য করতে হলে এটিকে দুই ভাবে স্ট্রাকচার করা যায়। ডাইমেনশন অর্থাৎ (গুণগত মান) এবং মেজার পরিমাপ (পরিমাণগত মান)। ডাটা কে ঠিকমতো ব্যাখ্যা করতে হলে একটা অর্গানিজেশনাল টেবিল স্ট্রাকচার ব্যবহার করে যাতে ডাটাকে ঠিকমত বোঝা যায়।
ডাটার সেগমেন্টেশন অর্থাৎ বিভিন্ন ভাগে ভাগ করতে পারা
একই ধরনের বৈশিষ্ট্যের উপর ভিত্তি করে বিভিন্ন ডাটাকে গ্রুপে ভাগ করা যায়। এই কাজটি করতে কিছু কিছু বৈশিষ্ট্য কে গ্রুপিং করে সেটাকে সহজ বিশ্লেষণের জন্য এক জায়গায় রাখা যেতে পারে। আমাদের কাছে একই ধরনের ডাটাগুলোকে গ্রুপিং করে নিজস্ব বাস্কেট ভিত্তিতে ফেলা যেতে পারে। উদাহরণ হিসেবে আমরা যখন চলচ্চিত্রের তথ্যগুলিকে এর জন্য বিভিন্ন জনরা কে ধরে তাকে একটা শ্রেণীবদ্ধ অর্থাৎ গ্রুপিং করা যেতে পারে (অ্যাকশন, সায়েন্স ফিকশন, রোম্যান্স, কমেডি ইত্যাদি)।
ডাটার উৎপত্তির ব্যাপারে স্বচ্ছ ধারণা, ট্রান্সপারেন্ট অরিজিন নিয়ে চিন্তা করা
ডেটা বিশ্বাস করার জন্য, আমাদেরকে জানতে হবে যে এটি একটি নির্ভরযোগ্য উৎস থেকে এসেছে এবং এটি বিশ্বাসযোগ্য উপায়ে প্রসেসিং করা হয়েছে। যে ডাটাকে আমরা বিশ্বাস করছি, তার সঠিক সোর্স এবং এর মাঝখানে কোন ম্যানুপুলেশন হয়েছে কিনা সেটা সম্বন্ধে নিশ্চিত থাকতে হবে।
এতো বৈশিস্ট্যর কারণে সমস্যা মনে হচ্ছে?