কনটেন্টে যান

ট্রাভেল ইন্স্যুরেন্স, 'কে' এবং 'কেন' প্রশ্নের উত্তর

ডেটা অ্যানালিটিক্স নিয়ে বই লেখার আগে একটা বড় সময় দিয়েছিলাম ডেটাসেট সিলেকশন এর ব্যাপারে। প্রতিটা বই লেখার আগে এ ধরনের রিসার্চ' বেশ সময় নিলেও এতে ফলাফল ভালো আসে। আমি সেই ধরনের ডেটাসেটগুলোকে রিলিজ ‘ক্যান্ডিডেট’ হিসেবে পছন্দ করি,

একটা ডেটাসেট পছন্দ করার পন্থা

  1. যেগুলোর সাথে বর্তমান ইন্ডাস্ট্রির একটা ভালো সংযোগ আছে, বিশেষ করে ‘রেলেভেন্সি’র দিক থেকে -
  2. যেই ডেটাসেটগুলো নিয়ে পুরো পৃথিবীর একটা বিশাল অংশ আলাপ করছেন - প্রচুর রিসার্চ হয়েছে যার ওপর -
  3. ছোট ডেটাসেট, এবং বৈচিত্র বেশি - যেই ডেটাসেটগুলো আমাদের ভেতরের প্রশ্ন তৈরি করার সুযোগ করে দেয় - পথ দেখায় কিভাবে প্রশ্ন করলে সেটার সমাধান পাওয়া যাবে -

টাইটানিক ডেটাসেটের পাশাপাশি আমাদের হাতেকলমের এই অংশ শুরু হচ্ছে ‘ট্রাভেল ইন্স্যুরেন্স’ নিয়ে। এই ডেটাসেটের ভিত্তি হচ্ছে একটা সিঙ্গাপুরভিত্তিক থার্ড-পার্টি ইন্স্যুরেন্স’ সার্ভিসিং কোম্পানি, যারা ভ্রমণকারীদের কাছে একটা সময়ের জন্য ট্রাভেল ইন্স্যুরেন্স’ বিক্রি করে থাকেন। স্বভাবত:ই - এর সবচেয়ে বড় প্রশ্ন হচ্ছে, একজন ব্যবহারকারী ইন্স্যুরেন্স’ কেনার পরে সেটা ক্লেইম করবেন কিনা? বলতে গেলে - এটা অবশ্যই একটা বড় বিজনেস কোয়েশ্চেন। বিশেষ করে, যিনি বিক্রি করছেন। ইন্স্যুরেন্স’ কোম্পানির একটা একটা বড় চিন্তা থাকে যে, তাদের ইন্স্যুরেন্স’ বিক্রি করার পর সেটাকে কারা কারা ‘ক্লেইম’ করতে পারেন? সেটা যদি আগে থেকে বোঝা যায়, তাহলে একটা ভালো “বিজনেস কোয়েশ্চেন” এর সমাধান করা যায়।

আমাদের এই ডেটাসেটটা ক্যাগলে থাকলেও এর খোঁজ পাই ‘লন্ডন বিজনেস অ্যানালিটিক্স গ্রুপে’র মাধ্যমে। ছোট গ্রুপ হলেও তাদের ইন্ডাস্ট্রি স্পেসিফিক কিছু কাজ চোখে লাগার মত। সেখানে এই ডেটাসেটা নিয়ে আলাপ করেছিলেন অ্যানালিস্ট প্রগতি জৈন। ৪৫০ কিলোবাইটের এই ছোট্ট তবে বৈচিত্র্যময় ডেটাসেটটা পাওয়া যাবে নিচের এই লিঙ্কে।

https://www.kaggle.com/mhdzahier/travel-insurance

ডেটা ডিকশনারী, ‘ট্রাভেল ইন্স্যুরেন্স’ ডেটাসেট

ক্রম ফিচার/কলামের নাম মানে কী হতে পারে?
১. Agency যেই এজেন্সির মাধ্যমে ইন্স্যুরেন্স’ বিক্রি হচ্ছে, তার কোড
২. Agency Type কি ধরনের এজেন্সি, ট্রাভেল এজেন্ট নাকি এয়ারলাইন্স
৩. Distribution Channel ডিসট্রিবিউশন চ্যানেল, যেটা অনলাইন অথবা অফলাইন হতে পারে
৪. Product Name ইন্স্যুরেন্স’ প্রোডাক্টের নাম
৫. Claim ইন্স্যুরেন্স’টা ক্লেইম করা হয়েছে কিনা সেটার স্ট্যাটাস
৬. Duration কতদিনের জন্য এই ট্রাভেল ইন্স্যুরেন্স’ কাভার করবে
৭. Destination যেই গন্তব্যের জন্য ট্রাভেল ইন্স্যুরেন্স’ কেনা হয়েছে
৮. Net Sales ইন্স্যুরেন্স’টার নেট বিক্রির হিসেব
৯. Commision (in value) ইন্স্যুরেন্স’টার জন্য কত কমিশন পাওয়া গেছে
১০. Gender ভ্রমণকারী, মহিলা নাকি পুরুষ?
১১. Age ইন্স্যুরেন্স’ ক্রেতার বয়স

আমরা যখন ডেটা নিয়ে কাজ করি, তখন বিশ্বাস করতে চাই ডেটার মধ্যে একটা ‘কোহেরেন্স’ আছে, অর্থাৎ ডেটার বিভিন্ন ফিচারের মধ্যে একটা ভালো সম্পর্ক আছে। এখানে ফিচার হিসেবে প্রতিটি কলামের যেই এট্রিবিউটগুলো আছে তাদের ভেতরের ইন্টার্নাল সম্পর্কের কথা বলছি। মনে আছে টাইটানিক ডেটাসেটের কথা? টাইটানিক ডেটাসেটের মত এই ডেটাসেটেও একটা বিজনেস প্রবলেম আছে, অর্থাৎ ট্রাভেল ইন্সুরেন্স কেনার পাশাপাশি তাদের ‘ক্লেইম’ ফ্রিকোয়েন্সি কিছুটা বেশি। ইন্স্যুরেন্স’ কোম্পানীগুলো চাইবে যাতে তাদের প্রোডাক্ট এর কম ‘ক্লেইম’ হয়। সেটাই স্বাভাবিক নয় কি?

দরকার পাওয়ার বি-আই এর মতো একটা ‘অ্যাডভান্সড টুল’

এটা কিছুটা ডেটা সাইন্স সমস্যা হলেও এখানে ডেটা অ্যানালাইসিস করার ভালো স্কোপ রয়েছে। সমস্যা হচ্ছে, মানুষ যখন ডেটা অর্থাৎ সংখ্যাগুলো নিয়ে কাজ করে তখন সেই ডেটা থেকে ধারনা পাবার জন্য ‘সাইন্টিফিক টুল’ না ব্যবহার করলে এ ব্যাপারে ভেতরের সম্পর্ককে বের করা কষ্টকর হয়ে পড়ে। ছোট ডেটা হলে কথা ছিল, এখনতো বিগ-ডেটার যুগ। আর সে কারণেই, যে কোন কিছু করার আগে আমরা এই ১১টা ফিল্ড ভালো করে দেখব। এর ভেতরের রিলেশন কিভাবে বোঝা যায়?