ট্যাবলিউ পাবলিক 'ওয়েব ভার্সন' এবং আইরিস প্রজাতি
আইরিস প্রজাতির ডাটা নিয়ে আমাদের বিজনেস ‘কোশ্চেন’ কি ছিল?
বিজনেস কোশ্চেন
- আমরা কি খালি চোখে আইরিস প্রজাতির ফুলগুলোকে আলাদা করতে পারব কিনা?
- ধরা যাক, আপনাকে একটা নতুন ফুলের ডাটা দেয়া হলো। সেই ডেটাকে প্লট করলে সেটা কোন প্রজাতির, বের করা সম্ভব কিনা?
(ব্যাপারটা এরকম হতে পারে, আমাদের ভবিষ্যৎ কোন প্রোডাক্ট রিটার্ন হবে অথবা হবে না অথবা, আমাদের ক্রেতাদের মধ্যে কারা কারা ‘রিটার্নিং কাস্টমার’ অর্থাৎ ফিরতি ক্রেতা হতে পারেন -সেটা বের করা যাবে এই পদ্ধতিতে)
(১) চালু করুন, ট্যাবলিউ পাবলিক 'ওয়েব ভার্সন' https://public.tableau.com/s/, একদম ডানে দেখুন, মাই প্রোফাইল, ক্লিক করুন - নিজের প্রোফাইলে।
(২) ডানের বাটন, চাপ দিন [+ Create a Viz], চালু হয়ে গেল - নতুন ওয়ার্কশিট, সঙ্গে "কানেক্ট টু ডেটা"
(৩) ড্র্যাগ এন্ড ড্রপ অথবা ব্রাউজ করে দেখিয়ে দিন আগের ক্যাগল থেকে ডাউনলোড করা iris.csv ফাইল
(৪) নিচের "ডেটা" অংশে iris ক্লিক করে দেখুন, ডেটার স্ট্রাকচার, টেবিলের কলাম হেডিং, ৪টা ফিচার;
১. পেটাল দৈর্ঘ্য
২. পেটাল প্রস্থ
৩. সিপাল দৈর্ঘ্য
৪. সিপাল প্রস্থ
এবং ৫. ফুলের প্রজাতির নাম
টাইমআউট সমস্যা
ট্যাবলিউ পাবলিক 'ওয়েব ভার্সন' ক্লাউডে কাজ করে বলে ডাটাসেট নিয়ে একটা নির্দিস্ট সময় পর টাইমআউট হতে পারে। ভয় পাবেন না, আবার আপলোড করে নেবেন। সেদিক থেকে ট্যাবলিউ পাবলিক 'ডেস্কটপ ভার্সন' খারাপ নয়। একবার ইনস্টল করে নিলেই হলো।
নিচের ছবিটা ভালোভাবে লক্ষ্য করুন। এখানে ফাইনাল বিজনেস কোশ্চেন হচ্ছে প্রজাতির নাম বের করা। ফলে, দুটো ফিচার ১. পেটাল দৈর্ঘ্য ২. পেটাল প্রস্থ এর সম্পর্ক ধরে বের করবো সেটা কোন প্রজাতি হতে পারে। দুটো ফিচার ১. পেটাল দৈর্ঘ্য ২. পেটাল প্রস্থ এর কো-রিলেশন আমাদেরকে বের করে দেবে ফুলটা কোন প্রজাতির। সেই কো-রিলেশনটা দেখতে পারবো ভিজ্যুয়ালাইজেশনে।
(৫) আইরিস ডেটাসেটের কানেকশন, ডেটাসেট, টেবিল, আমাদের কাজ যেহেতু দুই ডাইমেনশনে, চারটার জায়গায় প্লট করব দুটো ফিচার। দুটো ফিচারের নাম ১. পেটাল দৈর্ঘ্য ২. পেটাল প্রস্থ, প্রতিটা প্রজাতির আলাদা করে মাপ দেয়া আছে। আমরা অন্য ফিচারগুলো নিয়েও প্লট করতে পারি। আমি অনুরোধ করবো - সেটা করার জন্য। ডেটা অ্যানালিস্টদের কাজই তো এটা। ডেটাকে খোচাখুচি করা।
(৬) এগুলোকে যদি এক্স এবং ওয়াই এক্সিসে প্লট করি, তাহলে কি হবে? ডিফল্ট হিসেবে সব ডেটা মেজারকে এগ্রিগেট করে বলে - ‘অ্যানালাইসিস’ মেন্যু থেকে কে 'আন-চেক' করে দিতে হবে। এখন খালি চোখে দেখি, আমাদের মাথা কি বলে? আমাদের মস্তিষ্ক কি এই ডাটা প্লটিং কে ঠিকমতো আলাদা করতে পারছে কিনা? আমার ধারণা, ছবি দেখে আপনারা সবাই বলবেন আমরা খালি চোখে এখানে তিনটা প্রজাতি কে আলাদা করতে পারছি। ডাটা এনালাইসিস এর এটাই সার্থকতা। সংখ্যাগুলোকে আমরা ঠিকমত বুঝতে না পারলেও, এগুলোকে দুটো এক্সিসে, এক্স এবং ওয়াই এক্সিসে অর্থাৎ দুই ডাইমেনশনে প্লট করলে - ডাটাই বলে দিচ্ছে, আমাদের সমস্যার সমাধান কি হতে পারে। ঠিক একইভাবে, কেন একটা প্রোডাক্টের রিটার্ন খুব বেশি, অথবা গত দুই মাসে প্রোডাক্টের সেলস কেন নেমে গেল - সেই ডাটাগুলোকে ঠিকমতো করতে পারলে সমস্যার সমাধান অর্থাৎ বিজনেস কোশ্চেন এর উত্তর পাওয়া সম্ভব।
নতুন একটা ফুলের ডাটা কি বলছে?
আমাদেরকে নতুন একটা ফুলের ডাটা দেওয়া হল। সেটাকে প্লটিং করা হলো। এখন আমাদের কে বলতে হবে সেটা কোন প্রজাতির হতে পারে? এটার উত্তর দেওয়া সম্ভব, কোন ধরনের বাড়তি ক্যালকুলেশন না করেই। ২য় ক্লাস্টারের কাছাকাছি বলে এটা অবশ্যই দ্বিতীয় ক্লাস্টারের প্রজাতির হবে।
(৭) এখানে 'স্পিসিস' হিসেবে রংয়ের ভাগ দেখি। অর্থাৎ আসল ডাটা প্লট করি। মানে আমাদের খালি চোখে যেভাবে ক্লাস্টার আলাদা করতে পেরেছিলাম, আসল ডাটার প্রজাতি কি একই জিনিস বলে? এটাই ডাটা এনালাইসিস এর সার্থকতা। বিভিন্ন রঙে ভাগ করার আগে আসল ডাটা এবং আমাদের খালি চোখের ডাটার বিভাজন ঠিক আছে কিনা, সেটাই আমাদের বিজনেস কোশ্চেন ছিল। আমাদের নতুন ফুলের ডাটা নিয়ে মেশিন লার্নিং মডেল করে দেখতে পারেন। শূন্য থেকে হাতে-কলমে পাইথন মেশিন লার্নিং বইটা দেখুন।
সাহায্যকারী ভিডিও
কেন একজন মানুষ মাত্রই ডেটা অ্যানালিস্ট, সেটা দেখানোর জন্য নিচের ভিডিও। প্রোগ্রামার অথবা নন-প্রোগ্রামার বলে নয়, প্যাটার্ন দেখে ডেটা এনালাইসিস করার স্টেপিং স্টোন হতে পারে এই ভিডিওটা।
তবে, শুরু থেকে বুঝতে সঙ্গে লাগবে আরেকটা বই। শুন্য থেকে পাইথন মেশিন লার্নিং বইটা।