ট্রাভেল ইন্স্যুরেন্স, 'কে' এবং 'কেন' প্রশ্নের উত্তর
ডেটা অ্যানালিটিক্স নিয়ে বই লেখার আগে একটা বড় সময় দিয়েছিলাম ডেটাসেট সিলেকশন এর ব্যাপারে। প্রতিটা বই লেখার আগে এ ধরনের রিসার্চ' বেশ সময় নিলেও এতে ফলাফল ভালো আসে। আমি সেই ধরনের ডেটাসেটগুলোকে রিলিজ ‘ক্যান্ডিডেট’ হিসেবে পছন্দ করি,
একটা ডেটাসেট পছন্দ করার পন্থা
- যেগুলোর সাথে বর্তমান ইন্ডাস্ট্রির একটা ভালো সংযোগ আছে, বিশেষ করে ‘রেলেভেন্সি’র দিক থেকে -
- যেই ডেটাসেটগুলো নিয়ে পুরো পৃথিবীর একটা বিশাল অংশ আলাপ করছেন - প্রচুর রিসার্চ হয়েছে যার ওপর -
- ছোট ডেটাসেট, এবং বৈচিত্র বেশি - যেই ডেটাসেটগুলো আমাদের ভেতরের প্রশ্ন তৈরি করার সুযোগ করে দেয় - পথ দেখায় কিভাবে প্রশ্ন করলে সেটার সমাধান পাওয়া যাবে -
টাইটানিক ডেটাসেটের পাশাপাশি আমাদের হাতেকলমের এই অংশ শুরু হচ্ছে ‘ট্রাভেল ইন্স্যুরেন্স’ নিয়ে। এই ডেটাসেটের ভিত্তি হচ্ছে একটা সিঙ্গাপুরভিত্তিক থার্ড-পার্টি ইন্স্যুরেন্স’ সার্ভিসিং কোম্পানি, যারা ভ্রমণকারীদের কাছে একটা সময়ের জন্য ট্রাভেল ইন্স্যুরেন্স’ বিক্রি করে থাকেন। স্বভাবত:ই - এর সবচেয়ে বড় প্রশ্ন হচ্ছে, একজন ব্যবহারকারী ইন্স্যুরেন্স’ কেনার পরে সেটা ক্লেইম করবেন কিনা? বলতে গেলে - এটা অবশ্যই একটা বড় বিজনেস কোয়েশ্চেন। বিশেষ করে, যিনি বিক্রি করছেন। ইন্স্যুরেন্স’ কোম্পানির একটা একটা বড় চিন্তা থাকে যে, তাদের ইন্স্যুরেন্স’ বিক্রি করার পর সেটাকে কারা কারা ‘ক্লেইম’ করতে পারেন? সেটা যদি আগে থেকে বোঝা যায়, তাহলে একটা ভালো “বিজনেস কোয়েশ্চেন” এর সমাধান করা যায়।
আমাদের এই ডেটাসেটটা ক্যাগলে থাকলেও এর খোঁজ পাই ‘লন্ডন বিজনেস অ্যানালিটিক্স গ্রুপে’র মাধ্যমে। ছোট গ্রুপ হলেও তাদের ইন্ডাস্ট্রি স্পেসিফিক কিছু কাজ চোখে লাগার মত। সেখানে এই ডেটাসেটা নিয়ে আলাপ করেছিলেন অ্যানালিস্ট প্রগতি জৈন। ৪৫০ কিলোবাইটের এই ছোট্ট তবে বৈচিত্র্যময় ডেটাসেটটা পাওয়া যাবে নিচের এই লিঙ্কে।
https://www.kaggle.com/mhdzahier/travel-insurance
ডেটা ডিকশনারী, ‘ট্রাভেল ইন্স্যুরেন্স’ ডেটাসেট
ক্রম | ফিচার/কলামের নাম | মানে কী হতে পারে? |
---|---|---|
১. | Agency | যেই এজেন্সির মাধ্যমে ইন্স্যুরেন্স’ বিক্রি হচ্ছে, তার কোড |
২. | Agency Type | কি ধরনের এজেন্সি, ট্রাভেল এজেন্ট নাকি এয়ারলাইন্স |
৩. | Distribution Channel | ডিসট্রিবিউশন চ্যানেল, যেটা অনলাইন অথবা অফলাইন হতে পারে |
৪. | Product Name | ইন্স্যুরেন্স’ প্রোডাক্টের নাম |
৫. | Claim | ইন্স্যুরেন্স’টা ক্লেইম করা হয়েছে কিনা সেটার স্ট্যাটাস |
৬. | Duration | কতদিনের জন্য এই ট্রাভেল ইন্স্যুরেন্স’ কাভার করবে |
৭. | Destination | যেই গন্তব্যের জন্য ট্রাভেল ইন্স্যুরেন্স’ কেনা হয়েছে |
৮. | Net Sales | ইন্স্যুরেন্স’টার নেট বিক্রির হিসেব |
৯. | Commision (in value) | ইন্স্যুরেন্স’টার জন্য কত কমিশন পাওয়া গেছে |
১০. | Gender | ভ্রমণকারী, মহিলা নাকি পুরুষ? |
১১. | Age | ইন্স্যুরেন্স’ ক্রেতার বয়স |
আমরা যখন ডেটা নিয়ে কাজ করি, তখন বিশ্বাস করতে চাই ডেটার মধ্যে একটা ‘কোহেরেন্স’ আছে, অর্থাৎ ডেটার বিভিন্ন ফিচারের মধ্যে একটা ভালো সম্পর্ক আছে। এখানে ফিচার হিসেবে প্রতিটি কলামের যেই এট্রিবিউটগুলো আছে তাদের ভেতরের ইন্টার্নাল সম্পর্কের কথা বলছি। মনে আছে টাইটানিক ডেটাসেটের কথা? টাইটানিক ডেটাসেটের মত এই ডেটাসেটেও একটা বিজনেস প্রবলেম আছে, অর্থাৎ ট্রাভেল ইন্সুরেন্স কেনার পাশাপাশি তাদের ‘ক্লেইম’ ফ্রিকোয়েন্সি কিছুটা বেশি। ইন্স্যুরেন্স’ কোম্পানীগুলো চাইবে যাতে তাদের প্রোডাক্ট এর কম ‘ক্লেইম’ হয়। সেটাই স্বাভাবিক নয় কি?
দরকার পাওয়ার বি-আই এর মতো একটা ‘অ্যাডভান্সড টুল’
এটা কিছুটা ডেটা সাইন্স সমস্যা হলেও এখানে ডেটা অ্যানালাইসিস করার ভালো স্কোপ রয়েছে। সমস্যা হচ্ছে, মানুষ যখন ডেটা অর্থাৎ সংখ্যাগুলো নিয়ে কাজ করে তখন সেই ডেটা থেকে ধারনা পাবার জন্য ‘সাইন্টিফিক টুল’ না ব্যবহার করলে এ ব্যাপারে ভেতরের সম্পর্ককে বের করা কষ্টকর হয়ে পড়ে। ছোট ডেটা হলে কথা ছিল, এখনতো বিগ-ডেটার যুগ। আর সে কারণেই, যে কোন কিছু করার আগে আমরা এই ১১টা ফিল্ড ভালো করে দেখব। এর ভেতরের রিলেশন কিভাবে বোঝা যায়?