অপরাধ সনাক্তকরণ পদ্ধতি, ক্রাইম ডাটা
পুলিশের হাতিয়ার, ডাটা
The new crime-fighting weapon of choice for a growing number of police forces around the world isn't a gun, a taser or pepper spray - it's data.
-- Can we predict when and where a crime will take place? [BBC News]
তিনটা সম্পর্কিত গল্প।
যখন বড় হচ্ছিলাম যখন যে জিনিসটা দেখে মেনে নিয়েছিলাম যে সব বড় জিনিসগুলো করে সরকার। আর সরকার ছাড়া গতিও ছিলো না কারণ বড় ফান্ডের যোগানদাতা ছিল সরকারগুলো। বড় জিনিসগুলো মানে বলতে চাচ্ছিলাম যেগুলো করতে প্রচুর ফান্ডিং লাগে যা প্রাইভেট সেক্টরের কাছে অসম্ভব ছিল। দেখুন, সরকারি ডারপা’র ফান্ডিং না থাকলে আসত না ইন্টারনেট। হতো না চন্দ্র বিজয়।
প্রোডাক্ট অপটিমাইজেশনে প্রাইভেট সেক্টর
তবে কয়েক দশকে পাল্টে গেছে ধারনা। আমাদের নিজস্ব স্যাটেলাইট তৈরি এবং অরবিটে বসানোর কাজে পুরোটাই সহায়তা করেছে প্রাইভেট সেক্টর। এর পেছনে আছে উদ্ভাবনা। এই ‘ইনোভেশন’ অর্থাৎ উদ্ভাবনী ধ্যান ধারণা এখন অনেক বড় কোম্পানির জন্ম দিয়েছে, যাদের উৎপত্তি হয়েছে একটা বাসার পেছনের গ্যারেজে। এই কোম্পানিগুলোর বাৎসরিক টার্নওভার অনেক দেশের জিডিপি আয় থেকেও বেশি। কারণ, সরকারগুলো দেশের ভিতরে যত প্রযুক্তি ব্যবহার করে তার প্রায় শতভাগই আসে এই ধরনের প্রযুক্তিনির্ভর কোম্পানিগুলো থেকে। রিসার্চ এখন প্রাইভেট সেক্টরের অংশ। কারণ, অপটিমাইজেশনে প্রাইভেট সেক্টর দুর্দান্ত।
‘ক্রাইম প্রেডিকশন’, অপরাধ না হলে কেমন হয়?
অনেক আগে একটা ভিডিও দেখছিলাম ‘আইবিএম’-এর। ‘ক্রাইম প্রেডিকশন’ নিয়ে। একজন ডাকাত অনেক প্ল্যান প্রোগ্রাম করে যাবে একটা শপিং মলে, ডাকাতি করতে। এদিকে পুলিশ ডিপার্টমেন্টও তার আগের কার্যকলাপ ঘেঁটে প্রেডিকশন করে ধারণা করেছে কবে সেই ডাকাত যাবে ওই শপিংমলে। সত্যি বলতে, ডিপার্টমেন্টে প্রেডিকশন অ্যালগরিদম চলে সবসময়ে।
নির্ধারিত দিনে ডাকাত শপিংমলে হাজির। এসে দেখলো দূরে একটা পুলিশ কার দাঁড়িয়ে। সামনে দাড়ানো পুলিশ অফিসার তাকে দেখে টুপি খুলে নড করলেন। সন্মানিত নাগরিককে সন্মান দেবার কায়দায়। ডাকাত যা বোঝার বুঝে ফেলল ওই মুহূর্তেই। পকেটের পিস্তল রইলো পকেটেই। পুলিশ অফিসারকে ফিরতি একটা স্মিত হাসি উপহার দিয়ে ফেরত চলে গেল তার ডেরায়। একটা অপরাধ ঘটবার আগেই সেটাকে দমন করার পদ্ধতি একটা।
ডাটা আমাদের হাতে
Cut crime, save time and optimize resources by using data driven insights to help know what’s coming. Take advantage of structured and unstructured data sources — including incident reports, surveillance, sensor and social media content.
-- Crime Prediction and Prevention, Public Safety and Policing, IBM
’দা মাইনোরিটি রিপোর্ট’
১৯৫৬ সালের একটা সাইন্স ফিকশন বই থেকে মুভিটা তৈরি হয়েছিল ২০০২ সালে। ’দা মাইনোরিটি রিপোর্ট’। ব্যাপারটা ছিল ‘প্রি-ক্রাইম’ নিয়ে। যে অপরাধটা সামনে ঘটতে পারে সেটার ব্যাপারে আগে থেকেই একটা 'প্রিভেন্টিভ' ধারণা অর্থাৎ সেটা যাতে না হয় সেটার একটা ব্যবস্থা নেয়া। ব্যাপারটা এরকম হতে পারে আপনি একটা কার পার্কিং ঘেঁষে অন্ধকার রাস্তায় হাঁটছেন রাতে। হঠাৎ মনে হতে পারে কেউ আপনার দিকেই এগিয়ে আসছে। আর ঠিক তখনই আপনার পাশ দিয়ে আস্তে আস্তে একটা পুলিশ কার চলে গেল। গাড়ির ভেতর থেকে হাত নাড়িয়ে অভিবাদনের মতো সাইন ল্যাঙ্গুয়েজে একটা কমিউনিকেশন ঘটলো আপনার সাথে। ব্যাপারটা নিরীহ মানে আকস্মিক মনে হতে পারে, তবে ডাটা ধরে পুলিশের ওই মুহুর্তের টহলটা 'প্রি-ডেজিগনেটেড' ছিলো। অপরাধ ঘটার আগেই তার প্রিভেন্টিভ একটা ব্যবস্থা চলে এলো। বিশেষ করে ওই মানুষটার ক্ষেত্রে - একটা অপরাধ করা থেকে বেচেঁ গেলো সে। মানবিক রাষ্ট্রের একটা স্ন্যাপশট বলতে পারেন এই ঘটনাগুলোকে।
অপরাধ করলে সেটার শাস্তি পেতেই হবে। তবে সেটার মানবিক দিক হচ্ছে অপরাধ করার আগেই সেই ধারণাটাকে ধরে তাকে কাউন্সেল করলে সেই অপরাধ করার শাস্তি পেতে হয় না সেই মানুষটাকে। আর সেকারণে অনেক উন্নত দেশে উঠে যাচ্ছে জেল-জরিমানা। কারণ, মানুষ সেগুলো করছে না। এর বড় কারন হচ্ছে প্রকৃত শিক্ষা, নাগরিক অনুশাসন জানা। যে শিক্ষাকে ভর করে রাষ্ট্র হয়ে যাচ্ছে মানবিক, দিচ্ছে ইউনিভার্সাল হেলথকেয়ার, দিচ্ছে অনেক ধরনের ভাতা। তবে এই পরিবর্তনের একটা বড় অংশ আসছে তাদের গণমুখী শিক্ষাব্যবস্থা থেকে। মানবিক হবার একটা বড় ইনডিকেটর হচ্ছে বিচার ব্যবস্থায় দীর্ঘসূত্রিতা না থাকা। আর সেকারণে এই বইটাতে প্রাধান্য পেয়েছে শিক্ষা এবং সরকারি সেবা সহজীকরন।
এই ব্যাপারটা এতদিন সাইন্স ফিকশন হিসেবে থাকলেও বর্তমান কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং এর বদৌলতে এই জিনিসগুলো চলে এসেছে আমাদের সময়ে। ‘প্রেড-পোল’ নামের একটি কোম্পানি - যার মানে হচ্ছে ‘প্রেডিকশন পুলিসিং’, এই ব্যাপারে কিছু ডাটা অ্যানালিটিক্স অ্যালগরিদম নিয়ে নেমেছে যা বর্তমান ‘ক্রাইম ডিটেকশন’ মানে অপরাধ সনাক্তকরণ পদ্ধতিতে নিয়ে এসেছে আমূল পরিবর্তন। বেড়েছে ক্রাইম ডিটেকশন এর হার। সাধারণ সময়ের থেকে অনেক ভালো ধারণা নিয়ে।
সামনের ১২ ঘন্টার অপরাধ আগে দেখা
এর পুরো সিস্টেমটাই কাজ করে অনেক বছরের হিস্টোরিক্যাল মানে আগের ডাটা নিয়ে, যেখানে অপরাধের ধরন, তার সময় এবং কোথায় অপরাধটা হয়েছে, এর পাশাপাশি ওই এলাকা স্পেসিফিক তথ্য, পাশাপাশি সম্পর্কিত আর্থ-সামাজিক তথ্যকে ঠিকমতো ‘কোরিলেট’ করলে সেই এলাকার ভবিষ্যৎ অপরাধের ব্যাপারে ভালো ধারণা পাওয়া যায়। এই সফটওয়্যারটার একটা বিশেষত্ব হলো সে চেষ্টা করবে সামনের ১২ ঘন্টায় কোথায় এবং কখন একটা স্পেসিফিক অপরাধ ঘটবে সেটার একটা প্রেডিকটিভ মডেল বের করা। বর্তমান সময়ের টাইমলাইনের সাথে মিলিয়ে এর অ্যালগরিদম আপডেট হতে থাকবে নতুন ডাটা পাবার সাথে সাথে।
অপরাধ ঘটার আগে বন্ধ করা
Predictive policing refers to the usage of mathematical, predictive analytics, and other analytical techniques in law enforcement to identify potential criminal activity. Predictive policing methods fall into four general categories: methods for predicting crimes, methods for predicting offenders, methods for predicting perpetrators' identities, and methods for predicting victims of crime.
The technology has been described in the media as a revolutionary innovation capable of "stopping crime before it starts".
-- Predictive policing, Wikipedia
মনে আছে গল্পের শুরুতে সরকার এবং প্রাইভেট কোম্পানিগুলোর মধ্যে ফারাকের কথা? তাদের মধ্যে ফান্ডিং এবং জ্ঞানের ফারাক বাড়াতে সরকারগুলো সাহায্য নিচ্ছে প্রাইভেট কোম্পানিগুলোর। সরকার কাজ করছে জননিরাপত্তার স্বার্থে, সেখানে প্রজ্ঞা দিয়ে সাহায্য করছে এই ‘প্রেড-পোল’ এর মতো অ্যানালাইটিক্স কোম্পানিগুলো। ‘উইন-উইন’ অবস্থা। এই ‘প্রেড-পোলে’র জন্ম হয় ইউনিভার্সিটি অফ ক্যালিফোর্নিয়াতে যখন তারা কাজ করছিলেন লস অ্যাঞ্জেলসের পুলিশ ডিপার্টমেন্টের সাথে। ডাটা থাকে সরকারের কাছে, তবে সেটার সঠিক ব্যবহার আসে প্রাইভেট সেক্টরের জ্ঞান থেকে। তখনকার ডাটা বলছিল এই ধরনের প্রেডিকটিভ অ্যানালাইটিক্স দ্বিগুণ মাত্রার অপরাধ প্রেডিকশন করতে পারছিল যখন ফিল্ডে নেওয়া হলো শেষে। পরের বছরে অপরাধের মাত্রা কমে এলো দ্বিগুনেরও কম।
বাংলাদেশ প্রস্তাবনা, সম্ভব দেশের ভেতরেই
বাংলাদেশের সম্ভব? অবশ্যই। দরকার বছর ধরে সঠিক ক্রাইম ডাটা। অ্যালগরিদম বানানো সমস্যা নয়। আর সেটার জন্য দরকার দেশের ভেতরে প্রাইভেট পাবলিক পার্টনারশীপ। বাকিটা করবে কৃত্রিম বুদ্ধিমত্তা। সব সম্ভব আমাদের দেশেই। এই ধরনের সফটওয়্যারগুলোর আউটপুটগুলো খুবই সহজবোধ্য যেখানে আইটি জ্ঞান না থাকলেও চলে। শুরুতেই ধরে নিন এটা একটা গুগল ম্যাপ যা যে কেউ নেভিগেট করতে পারে। পুরনো ডাটা থেকে বিশেষ করে হিস্টোরিক্যাল ডাটা থেকে সময়, লোকেশন, আগের ক্রাইমের বিভিন্ন প্যাটার্ন থেকে প্রোবালিটি স্ট্যাটিসটিক্যাল ইনপুট নিয়ে সেটার প্রেডিকশন হিসেবে একটা ৫০০ বর্গফুটের একটা ‘ক্রাইম জোন’ হিসেবে সে বলে দেবে। এ ধরনের ক্রাইম জোনকে অনেক সময়ে আমরা হটস্পট হিসেবে ধরি যেখানে অন্যান্য জায়গা থেকে সেই জায়গায় অপরাধপ্রবণতার হার বেশি।
তখন সেই জোনকে বাড়তি নজরদারি করা পুলিশের দায়িত্ব। যেহেতু সবকিছুই ডাটা ডিপেন্ডেন্ট, অর্থাৎ ভালো ডাটা ইনপুট হলে আউটপুট ততো রিয়েলিস্টিক হবে। আমার গত ১০ বছরের ধারণা বলে - যতদিন যাবে ততো এধরনের মডেল পরিপক্কতা পাবে। শুরুতে এ ধরনের ডাটা না থাকাতে এধরনের মডেল থেকে ভালো আউটপুট পাবার সম্ভাবনা নেই, সে কারণে পুরনো ডাটা যত সম্ভব সঠিক হওয়া প্রয়োজন। এর পাশাপাশি আগের হটস্পট এবং নতুন হটস্পট এর মধ্যে একটা কোরিলেশন চলে আসবে। ফলে পুলিশ অন্যান্য জায়গার নজরদারির পাশাপাশি এ ধরনের হটস্পট গুলোকে কিছু বাড়তি নজরদারি করলেই অপরাধ প্রবণতা কমে আসবে।
আমি প্রচুর বিদেশী সফটওয়্যার দেখেছি এ ব্যাপারে, এদের সবারই কাজ প্রায় একই। পাশাপাশি 'প্রুফ অফ কনসেপ্ট' এবং ডেমোতে চমত্কার কাজ করে - যেহেতু তাদের ডাটা অনেকটাই 'প্রি-প্রসেসড'। অভিজ্ঞতা বলে - আমাদের মতো দেশে বাইরে থেকে সফটওয়্যার নিয়ে এসে কাজ করা হয় বটে, তবে সেটার 'কাস্টমাইজেশন' অনেক ক্ষেত্রেই আমাদের কাজে বাধাগ্রস্থ করে। তখন আমরা আগের সফটওয়্যারটা ফেলে দিয়ে নতুনভাবে আরেকটা সফটওয়্যার কিনি যা কিনা আমাদের বৈদেশিক মুদ্রার অপচয় করে। সেদিক থেকে দেশীয় সফটওয়্যার কোম্পানি সরকারি প্রনোদনা এবং ভালো ডাটা পেলে এ ধরনের কাজ তুলে দিতে পারবে। এখানে সফটওয়ারের মুন্সিয়ানা থেকে ভালো ডাটার দরকার বেশি। এব্যাপারে স্থানীয় সফটওয়্যার এসোসিয়েশনের সাথে কথা বলা যেতে পারে।
এই ধরনের প্রযুক্তিতে ব্যাকগ্রাউন্ডে কাজ করে মেশিন লার্নিং যা আগের ডাটাকে এনালাইসিস করে বিভিন্ন ডাটা সোর্সের মধ্যে সংযোগ তৈরি করে। সেগুলোর মধ্যে একটা অংকের‘কোরিলেশন’ সেটাই একটা সিদ্ধান্ত বের করে দেয় যা মানুষ 'এনালিস্ট' থেকে পাওয়া অসম্ভব। মানুষের কাজও না সেটা। ধরুন, লার্জস্কেল ডাটাসেটে কয়েক বিলিয়ন রেকর্ড, সেগুলোর প্রসেস করা সম্ভব নয় মানুষের পক্ষে। আমরাও চাইছি না সেগুলো করুক, মানুষ। বিশাল ‘ক্রেনে’র কাজও তো করে না মানুষ। তবে, যন্ত্রের দক্ষতা এ ধরনের বিশাল বিশাল ক্রাইম ডাটাতে। যেকোন ভালো 'ডাটা সায়েন্টিস্ট'কে গত পাঁচ বছরের নির্ভুল ডাটা দিলে সে সামনের দিনগুলোর ভালো অ্যাক্যুরেসির প্রেডিকশন দিতে পারবে। আর সেখানে ভুল হবে কেন, পুরোটাই তো অংকের খেলা।
আমি নিজেও ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিংয়ের বিশাল ডাটাসেট থেকে যে ধরনের ‘ইনসাইট’ পেয়েছি যা সাধারণ এনালিস্ট থেকে পাওয়া অসম্ভব। এটাই স্বাভাবিক। সনাতন হটস্পট এনালাইসিসে আমরা একটা ম্যাপের ওপর পুরনো সব ডাটা ফেলে (ওভারলে) দেখতে চাই কেন ঘটনাটা ঘটেছে। এব্যাপারগুলোর আউটকাম থাকে না - সামনে কী কী ঘটতে পারে বরং আমরা বের করার চেষ্টা করি 'কেন ঘটনাটা ঘটেছে?'। কিন্তু কৃত্রিম বুদ্ধিমত্তা আমাদেরকে বলছে সামনে কবে কখন কি ধরনের ঘটনা ঘটতে পারে। এটাই বড় পার্থক্য। মানুষ এক্সপার্ট এবং ম্যাথমেটিক্যাল মডেল মানুষের 'পারসেপশন' থেকে অনেক ভালো কাজ করতে পারে।
ডাটার সাহায্যে মানুষকে সমাজে ফিরিয়ে আনা
আমার ব্যক্তিগত অভিজ্ঞতা হচ্ছে যারা জেলে আছেন, তাদেরকে কিভাবে সমাজে ফিরিয়ে আনা যায় সেটার জন্য ডাটা দিয়ে মডেলিং করলে অনেক ভালো ধারণা পাওয়া যাবে। মানুষ খারাপ হয়ে জন্ম নেন না, বরং ক্রিমিনাল ডাটা ঘাটলে বোঝা যায়, পারিপার্শ্বিক অবস্থার কারণে অনেকে বিভিন্ন ধরনের অপরাধের সাথে জড়িয়ে পড়েন। ওইসব ব্যক্তিদের ব্যাপারে তাদের পেছনের পুরনো ডাটা ব্যবহার করলে জানা যাবে কারা এখনই সমাজে ফিরতে পারবেন। মানুষকে সাজা দেবার অর্থ তাকে শাস্তি দেওয়া নয়, বরং এই কাজ যাতে ভবিষ্যতে সে না করে সেটার ব্যবস্থা করা। পুরনো ডাটা এবং ঠিকমতো মনস্তাত্ত্বিক কাউন্সেলিং করলে অনেক অপরাধীকে তার সাজার সময় শেষ হবার আগে সমাজে ফিরিয়ে আনা সম্ভব। ক্রাইম ডাটা নিয়ে কাজ করার সময়ে এ ব্যাপারটা অনেক ভাবিয়েছে আমাকে। অনেক দেশে অপরাধী না পাওয়ায় জেল ইনফ্রাস্ট্রাকচার উঠে যাচ্ছে।