কনটেন্টে যান

ফুল তুমি কার?

ডাটা এনালাইসিস প্রথম শর্ত হচ্ছে প্রশ্নের উত্তর খুঁজে বের করা। তবে এর সাথে আর একটা শর্ত হচ্ছে, সেই প্রশ্নের উত্তর খুঁজতে সঠিক প্রশ্ন করতে পারতে হবে। তবে এটাও ঠিক যে সঠিক প্রশ্ন করতে পাড়ার আগে আমাদের অনেক ভুল প্রশ্ন করতে হতে পারে। আর এখানে আসল মজা। আমি চাই আপনারা ভুল অথবা শুদ্ধ যাই হোক না কেন, আপনাদেরকে প্রশ্ন করতে পারতে হবে। কারণ বলা যায় না, একটা ভুল প্রশ্ন করতে গিয়ে আমরা বেশকিছু ইনসাইড পেতে পারি। আর এ কারণেই আমরা কখনোই বলবো না যে প্রশ্নটা ভুল অথবা শুদ্ধ।

আমরা যে প্রতিষ্ঠানের হয়ে কাজ করি না কেন, প্রতিনিয়ত আমাদের অনেক প্রশ্নের উত্তর খুঁজতে হয়। যেমন, আমাদের একটা স্পেসিফিক প্রোডাক্ট কেন রিটার্ন হচ্ছে? অথবা, কেন একটা স্পেসিফিক লোকেশন থেকে প্রোডাক্টের রিটার্ন বেশি? পুরো বছর ধরে কেন গত দু'মাসে সেলস কমে গেল? কারা আমাদের প্রোডাক্ট এর রেটিং খারাপ দিচ্ছেন? এর পেছনের কারণটাই বা কি? কেন এই রাস্তায় দুর্ঘটনা বেশি হচ্ছে? এর পেছনে কী কারণ থাকতে পারে? কেন এই 'স্পেসিফিক' ইন্স্যুরেন্স’ বেশি ক্লেইম হচ্ছে?

আমাদের প্রশ্নের উত্তর খুঁজতে, শুরুতেই আমরা চেষ্টা করব আমাদের হাতের ডাটাকে প্লট করতে। মজার ব্যাপার হচ্ছে আমরা যখনই ডাটাকে প্লট করি, তখন চমৎকার কিছু ধারনা পাই আমরা। মানুষের মস্তিষ্ক যেহেতু নিউরাল নেটওয়ার্ক দিয়ে তৈরি, সে কারণে যেকোনো ডাটা ঠিকমতো ভিজুয়ালাইজেশন করতে পারলে - এর ভেতর থেকে প্যাটার্ন বের করা সোজা। আর এই প্যাটার্ন বুঝতে পারলে, আগের সব প্রশ্নের উত্তর বের করা সহজ। আর এ কারণেই বিজনেস অ্যানালাইটিকসের একটা পূর্বশর্ত হচ্ছে ডাটা ঠিকমতো করতে পারা।

মনে আছে আমাদের কালজয়ী আইরিশ ডাটা সেটের কথা? এই ডাটা সেটকে ব্যবচ্ছেদ করেছিলাম শূন্য থেকে পাইথন মেশিন লার্নিং বইটাতে। আইরিশ ডাটা সেট কে যখন আমরা খালি চোখে দেখেছিলাম, তখন তিনটা ফুলের প্রজাতি কিভাবে একে অপরকে আলাদা করতে পারে - সেটার কূলকিনারা করতে পারছিলাম না। তবে যখন সেটাকে আমরা প্লটিং এ ফেলে দিলাম, অর্থাৎ সবগুলো ডাটা কে এক্স এবং ওয়াই এক্সের্সিসে ভিজুয়ালাইজেশন ফেলে দিলাম, তখনই সব পরিষ্কার হয়ে গেল।

কেন ঘটনাটা ঘটছে?

সেই একই ভাবে - কোন প্রোডাক্ট রিটার্ন হচ্ছে, কেন একটা রাস্তায় বেশি দুর্ঘটনা ঘটছে, কেন গত দুই মাস সেলস কমে গিয়েছে, সমাজের কোন পর্যায়ের ক্রেতারা আমাদের প্রোডাক্ট খারাপ রেটিং দিচ্ছে, সেগুলোর ডাটা কে ঠিকমতো করলে সমস্যার কুল কিনারা পাওয়া যাবে। আমি আগেই বলেছি, মানুষের মাথার নিউরাল নেটওয়ার্ক চমৎকারভাবে যেকোনো ডাটার ভিজুয়ালাইজেশন থেকে অসংগতি বুঝতে পারে। আমরা যদি আইরিশ প্রজাতির ফুলের ডাটার প্লট থেকে তিনটা প্রজাতিকে খালি চোখে আলাদা করতে পারি, তাহলে আমরা ডাটা এনালাইসিস এর মর্ম বুঝতে পারছি। কেন এটা ওটা হচ্ছে, সেটার পেছনে কারণ খুঁজতে গেলে একারণেই প্রয়োজন ডাটার প্লটিং।

আমরা এর আগে ‘আর’ এবং পাইথন প্রোগ্রামিং এনভায়রনমেন্টে বিভিন্ন লাইব্রেরি ব্যবহার করে এই ভিজুয়ালাইজেশন করেছিলাম। আমি যেহেতু নন প্রোগ্রামারদের এই ডাটা এনালাইসিস ফিল্ডে নিয়ে আসতে চাচ্ছি, সে কারণে নতুন ব্যবস্থা। সময়ের সাথে সাথে মানুষের হাতের টুলগুলো বুদ্ধিমান হয়ে যাচ্ছে। সেই একই কাজ সম্ভব, 'ড্র্যাগ এন্ড ড্রপ' করে - বিশেষ করে, স্মার্ট টুল দিয়ে। মাইক্রোসফট এক্সেল ভালো, তবে একটা স্মার্ট টুল কিভাবে কাজ করে সেটা দেখলে ডেটার ব্যাপারে ভক্তি চলে আসবে। এর পর সেটা প্রোগ্রামিং দিয়ে করবো কিনা - সেটা আপনি বিচার করবেন।

দরকার একটা ‘অ্যাডভান্সড টুল’

আমি অনুরোধ করব, এই সুযোগে একটা ভালো ‘অ্যাডভান্সড টুল’ আমার সাথে সাথে বুঝে ফেলতে। এতে আপনাদের ডেটা অ্যানালাইসিস করার ভয়টা কেটে যাবে, সব ধরনের টুল নিয়ে; সেটা যতই অ্যাডভান্সড টুল হোক না কেন। আমি শুরুতে একটা ‘অ্যাডভান্সড টুল নিয়ে কথা বলতে চাচ্ছি যাতে, আপনারা দেখতে পারেন - ডেটা অর্থাৎ সংখ্যা দিয়ে বানানো একটা কমপ্লেক্স জিনিসকে - কিভাবে ভেঙ্গে ছোট ছোট সমস্যায় রূপান্তর করা যায়। ডেটা আমাদের কি বলতে চাইছে, সেটা বোঝা যাবে এই ‘স্টেপ বাই স্টেপ’ প্রসেসে।

চলুন, ডেটাকে ব্যবচ্ছেদ করি আমাদের নতুন টুল ট্যাবলিউ পাবলিক ওয়েব ভার্সন, অথবা “মাইক্রোসফট পাওয়ার বিআই” ওয়েব/ডেস্কটপ ভার্সন দিয়ে। পালাবেন না অনুগ্রহ করে! এই পর্যায়ে যারা দাঁত কামড়ে আমার সাথে লেগে থাকবেন, তাদের জয় নিশ্চিত।

ডাউনলোড করুন আইরিস ডেটাসেট

পাবো কোথায়? কোথায় আবার? ক্যাগলে। ডাউনলোড করতে লাগবে গুগল অ্যাকাউন্ট। মাত্র ৫ কিলোবাইট। ফাইল নাম হচ্ছে iris.csv, যা এক্সেল অথবা গুগলশীটে খোলা যায়। তবে, আমি বলবো ট্যাবলিউ পাবলিক ওয়েব ভার্সন অথবা “মাইক্রোসফট পাওয়ার বিআই” ডেস্কটপ দিয়ে খুলতে।

https://www.kaggle.com/uciml/iris

ডেটাসেট দেখতে কেমন?

চিত্র: আইরিস প্রজাতির ডেটা, শুন্য থেকে পাইথন মেশিন লার্নিং বই থেকে