ডেটা কী এবং ডেটার সোর্স
আমরা জেনেছি যে ডাটা লিটারেসি, অর্থাৎ সাক্ষরতা হল ডেটাকে ঠিকমতো অন্বেষণ করতে পারা, সেটাকে বোঝা এবং সেই ডাটা থেকে ইনসাইট বের করে সেটাকে অন্যদের মাঝে ছড়িয়ে দেবার ক্ষমতা তৈরি করা।
কিন্তু "ডেটা" ঠিক কি জিনিস?
ডাটার কালেকশন হচ্ছে অনেকগুলো তথ্যের সন্নিবেশনে ‘ফ্যাক্ট’। আরও বিশেষভাবে বলতে গেলে, এই ‘এক্সপান্ডেড’ সংজ্ঞাটি দেখুন। জনস হপকিন্স ব্লুমবার্গের স্কুল অব পাবলিক হেলথের অধ্যাপক হিসেবে কর্মরত ডেটা বিজ্ঞানী জেফরি লিক উইকিপিডিয়া থেকে এই ‘এক্সপান্ডেড’ সংজ্ঞাটি নিয়ে বলছেন:
"ডেটা অনেকগুলো গুণগত (কোয়ালিটেটিভ) বা পরিমাণগত ( কোয়ান্টিটেটিভ) ভেরিয়েবলের মান নিয়ে তৈরি, যা ওই আইটেমের একটি সেটের অন্তর্গত।"
ঝামেলা মনে হচ্ছে? টেক্সট বইয়ের মতো? চলুন আমরা এই পুরো জিনিসটাকে ব্যবচ্ছেদ করে নিজেরা বুঝি।
আইটেমের সেট
আমরা যেই জিনিসটা নিয়ে কাজ করতে আগ্রহী, সেই আইটেমের অংশকে আমরা বেশিরভাগ সময়ে পপুলেশন অর্থাৎ জনসংখ্যা বলি। আইরিস প্রজাতির ডাটা একটা সেট হতে পারে। সেকারণে আইরিস ডেটাসেট।
ভেরিয়েবল
এটা এমন একটা পরিমাপের বৈশিষ্ট্য যা কিছু জিনিসের ইনপুট এর উপরে পরিবর্তন হতে পারে। এর বিপরীত অর্থ হচ্ছে কনস্ট্যান্ট যা কখনোই পাল্টায় না - যেমন ‘পাই’ এর মান। এদিকে তাপমাত্রা একটা ভ্যারিয়েবেল হতে পারে যা দিনের সময়ের সাথে সাথে পাল্টায়।
কোয়ালিটেটিভ ভেরিয়েবল
এটা গুণগত মানের একটা পরিমাপক, যেমন একজন মহিলা না পুরুষ, মানুষের অথবা দেশের নাম, তবে এটাপরিবর্তনশীল যা রেকর্ড এর উপরে নির্ভর করে পাল্টানো যায়। একটা ক্লাসে ৫০ জন ছাত্র-ছাত্রী থাকলে প্রতিটা সারিতে ছাত্র-ছাত্রীর নাম পাল্টাবে অর্থাৎ একটা সারিতে একেকজনের নাম হবে। এটাকে আমরা যদি একটা বাক্স ধরি, যেমন একটা দেশের নাম, তার ভেতরে তার জনগণের নাম ও কোয়ালিটেটিভ ভেরিয়েবল হবে। একটা সুপারশপে তার বিক্রিত আইটেমগুলোকে বিভিন্ন ক্যাটাগরি এবং সাব-ক্যাটাগরিতে ফেলা যেতে পারে।
কোয়ান্টিটেটিভ ভেরিয়েবল
এটাকে আমরা পরিমাণগত একটা সূচক বলতে পারি যা সংখ্যা দ্বারা নির্ধারিত। যেমন মানুষের উচ্চতা, ওজন, এবং তাপমাত্রা পর্যায়ক্রমে বয়স এবং দিনের সময়ের সাথে পাল্টায়। একটা দোকানের সেলস এর পরিমাণ, লাভ, ক্ষতি ইত্যাদি হচ্ছে কোয়ান্টিটেটিভ ভ্যারিয়েবেল এর উদাহরণ।
এখন আমরা আলাপ করি কিভাবে ডাটাকে জোগাড় করতে হয়?
ডাটা সোর্স
আমাদের দরকার মতো ডাটাকে কালেকশন করতে বিভিন্ন ধরনের পদ্ধতি ব্যবহার করি। যেমন, ১. বিভিন্ন ধরনের প্রশ্ন তৈরি করে সেখান থেকে ডাটা কালেকশন, ২. অনেকের সাথে সাক্ষাৎকার থেকে সেই ডাটাকে একটা জায়গায় নিয়ে যেয়ে সেটাকে বিশ্লেষণ, ৩. অনেকের কাছ থেকে কাগজপত্র, নথিকে একটা জায়গায় এনে সেটা থেকে বিশ্লেষণ, ৪. মেশিন থেকে লগ জেনারেট হলে সেটাকে প্রি-প্রসেসিং করে আমাদের নিজস্ব বিশ্লেষণ এবং ৫ ইদানিং আমরা ওয়েব স্ক্রাপিং এর মাধ্যমে বিভিন্ন ডাটা সংগ্রহ -- ইত্যাদি ইত্যাদি। তবে, এই অটোমেশনের যুগে সবচেয়ে বেশি ডাটা পাচ্ছি বিভিন্ন মেশিনের লগ থেকে। কারণ প্রচুর মেশিন ইদানিং আমাদেরকে ডাটা দিচ্ছে কাজকে সহজ করার জন্য। আমাদের ডাটা আসছে এই যন্ত্রের ভেতর থেকে, বিশেষ করে বিভিন্ন স্টোর হতে প্রাপ্ত ডাটা আমাদেরকে অনেক ধরনের ‘ইন্সাইট’ দিচ্ছে।
তবে আমরা যেভাবে ডাটা জোগাড় করি না কেন, এই প্রাপ্ত বা সংগৃহীত তথ্যকে আমরা বলছি ‘কাঁচা’ ডাটা অর্থাৎ ‘র’ ডাটা। যখন এ ধরনের ডাটা আমরা সরাসরি একটা প্রাথমিক সোর্স থেকে পাই, যাকে কোনভাবেই ‘ম্যানুপুলেশন’ বা আলাদা প্রসেসিং এর মধ্যে যেতে হয়নি। আমরা যেটাকে বলতে পারি একটা সত্তিকারের ডাটা সোর্স থেকে ডাটাপাবার পরে সেটাকে কোনভাবেই সামারাইজেশন, অর্থাৎ সংক্ষিপ্তকরণ, আলাদা প্রসেসিং, এবং কোন ডাটা মুছে ফেলা অর্থাৎ সরানো হয়নি তাহলে সেটাকে কাঁচা অর্থাৎ ‘র’ ডাটা বলতে পারি। আমরা সাধারণত, শুরু থেকে কাঁচা ডাটা নিয়ে কাজ করব যাতে আসল ‘ইন্সাইট’ পাওয়া যায়।
কাঁচা মানে 'র' ডাটার কিছু উদাহরণ:
সরাসরি ডাটা
১) বিভিন্ন মেশিন থেকে তৈরি বাইনারি ফাইল।
২) একদম ফরম্যাট না করা এক্সেল ফাইল, কমা সেপারেটেড ভ্যালু, ইত্যাদি যেখানে কোন ম্যানিপুলেশন করা হয়নি।
৩) বিভিন্ন এপিআই স্ক্র্যাপ করা থেকে ‘জেসন’ ডেটা।
৪) (একটা উদাহরণ হিসেবে), অণুবীক্ষণ যন্ত্রের মাধ্যমে দেখার সময় হাতে লেখা সংখ্যাগুলি সংগ্রহ করা ডাটা।
তথ্য সূত্র অর্থাৎ ডাটা সোর্স কোথা থেকে হতে পারে?
আমরা ডাটা জোগাড় করি যাতে সেই ডাটা থেকে সেটার 'এক্সপ্লোরেশন' এবং ঠিকমত বুঝে অন্য সবার মধ্যে যাতে সেটাকে কমিউনিকেট করতে পারি। আপনারা দেখবেন, আমরা 'পাওয়ার বিআই' অথবা ট্যাবলিউ যেটাই ব্যবহার করি না কেন শুরুতে আমরা ডাটা সোর্সের সাথে সেটাকে যুক্ত করে নেই। এভাবে আমরা বিভিন্ন ধরনের ডাটা সোর্স এর সাথে যুক্ত করি যাতে সেটাকে ঠিকমত এনালাইসিস করা যায়। এ ধরনের ডাটা সোর্স হিসেবে স্প্রেডশিট অর্থাৎ মাইক্রোসফট এক্সেল অথবা গুগল ওয়ার্কশীট, রিলেশনাল ডাটাবেজ যেমন, মাইএসকিউএল, ওরাকল, পোস্টগ্রেসকিউএল, ম্যাংগো ডিবি ইত্যাদি যোগ করা যায়। ক্লাউডের যোগ করার সুজক থাকার কারণে যে কোন বিজনেস অ্যানালিটিকস সফটওয়্যার সরাসরি ক্লাউডের সাথে যুক্ত হয়ে এনালাইসিস করতে পারে। এর ফলে আমাদের ডাটা এনালাইসিস টুলগুলো ডাটাকে ঠিকমত নিয়ে এসে সেটাকে ফ্ল্যাট স্ট্রাকচার অর্থাৎ রেকর্ডগুলোকে বিভিন্ন সারিতে ফেলতে পারে।