কনটেন্টে যান

গুগল কোলাব এবং গিটহাবের ব্যবহার

কনসেপ্ট হেভি, কোড লাইট এবং এক্সট্রাক্ট, ট্রানসফর্ম এবং লোড পদ্ধতি

মেশিন এবং ডিপ লার্নিং হাতেকলমে সিরিজের বইগুলোর সবচেয়ে বড় ফিচার হচ্ছে প্রতিটা ‘এন্ড টু এন্ড’ প্রডাক্ট তৈরি ক্ষেত্রে সেই পাইপলাইনের প্রতিটা ট্রানসফর্মেশন, প্রসেসিং অথবা প্রি-প্রসেসিং নিজের হাতে করে আত্মস্থ করার আইডিয়ার ব্যবহার। এতে কনসেপ্ট বুঝলে সেটার জন্য কোড প্রয়োজন হয় কম। সেটাই “কনসেপ্ট হেভি, কোড লাইট” ধারণার সুবিধা। সফটওয়ারের ‘ইটিএল’ প্রসেস অর্থাৎ এক্সট্রাক্ট, ট্রানসফর্ম এবং লোড পদ্ধতি ব্যবহার করে সফটওয়ারের শুরু থেকে শেষ পর্যন্ত দেখার এই সুযোগ পাওয়া যাবে আমাদের প্রতিটা পাইথন জুপিটার নোটবুকে। আমার ব্যক্তিগত অভিজ্ঞতা হচ্ছে, ডাটাকে বিভিন্ন ফরম্যাটে যেমন ‘এক্সএমএল’ অথবা ‘জেসন’, ‘সিএসভি’ ইত্যাদি ফাইল থেকে ‘এক্সট্রাক্ট’ করে সেই তথ্যগুলোকে বিভিন্ন ট্রান্সফরমেশনের মধ্যে দিয়ে যাবার সময় প্রতিটা ধাপে কিভাবে ‘ডাটা ক্লিনিং’ অথবা ডাটাগুলোকে একে অপরের সাথে যোগ অথবা ‘সর্টিং’ এবং বিভিন্ন ধরনের ডাটা ভ্যালিডেশন নিজের চোখে দেখা দরকার আমাদের।

দামী কম্পিউটারে ইনভেস্ট নয় এখনই

আমার সবগুলো মেশিন অথবা ডিপ লার্নিং বইগুলোর জন্য আলাদা করে কম্পিউটার রিসোর্স, বিশেষ করে দামি কম্পিউটার অথবা ‘জিপিইউ’ প্রয়োজন নেই। বইগুলো থেকে শেখার জন্য একটা ওয়েব ব্রাউজারে ‘গুগল কোলাবোরেটরি’ টুলই যথেষ্ট। আপনার মোবাইলের সাথে একটি ইউএসবি থেকে এইচডিএমআই/ভিজিএ কনভার্টার কিনে সরাসরি লাগিয়ে দিতে পারেন মনিটরে। অথবা, বাসায় ‘রাসবেরি পাই’ থাকলে সেটাতেও চালানো যেতে পারে গুগল কোলাবোরেটরি টুল। আপনার প্রয়োজন একটি ব্রাউজার এবং সাধারণ মানের ইন্টারনেট কানেকশন।

গুগল কোলাবোরেটরি টুল, গিটহাব এবং ক্যাগলের ব্যাকএন্ডে হাইস্পিড সংযোগ

আমাদের প্রয়োজনীয় সব ধরনের ডাটা রয়েছে গিটহাব অথবা ক্যাগলে। যেহেতু ‘গুগল কোলাবোরেটরি' টুল (কোলাব) একেকটা ‘লিনাক্স ভার্চুয়াল মেশিন’, সেখানে সব ধরনের ডাটা সরাসরি ডাউনলোড সম্ভব কোলাবের ভার্চুয়াল মেশিনে - যা সংযুক্ত রয়েছে আলাদা শেলে, আপনার ব্যক্তিগত একাউন্টের সাথে। বইগুলোর রিসোর্সগুলোকে এমনভাবে সাজানো হয়েছে যাতে গিটহাব অথবা ক্যাগল থেকে সরাসরি ট্রেনিং ডাটাগুলোকে ডাউনলোড করা যায় কোলাবের লিনাক্স ভার্চুয়াল মেশিনে। আমার অভিজ্ঞতায় বলে এ ধরনের ব্যাকএন্ডে ডাউনলোডে স্পিড পাওয়া যায় ১০০ মেগাবাইট/সেকেন্ডের বেশি যা কখনোই সম্ভব নয় নিজস্ব কম্পিউটারে।

গুগল কোলাব এবং গুগল ড্রাইভ, ডাটা রাখুন নিজের কাছে

যেহেতু গুগল কোলাবের মধ্যে বিনামূল্যে অসাধারণ কিছু ‘জিপিইউ’ এবং র্যাম এবং পাশাপাশি ভালো প্রসেসর স্পিড পাওয়া যায়, ফলে আপনি মেশিন অথবা ডিপ লার্নিং কাজগুলো পাঠিয়ে দিতে পারেন এই ভার্চুয়াল মেশিনগুলোতে। যেহেতু ১২ ঘন্টার পর এই ভার্চুয়াল মেশিনগুলোর ডাটাকে ‘রিসেট’ করা হয়, তাই আপনার ডাটাগুলোকে গুগল ড্রাইভে সংযোগ করে ডাটাগুলোকে গুগল ড্রাইভ থেকে অন্য কোথাও সরিয়ে নিতে পারেন। যেসব ডিপ লার্নিং মডেলে ১২ ঘণ্টার বেশি কম্পিউটেশনাল রিসোর্স প্রয়োজন হয়, সেগুলোর ওয়েটগুলোকে স্টোর করে রাখা যায় ড্রাইভে, যাতে কোলাবের ভার্চুয়াল মেশিন ‘রিসেট’ করলেও নতুন করে শুরু করা যায় মাঝপথ থেকে।

গুগল ড্রাইভে গুগল কোলাব এই লিংক দিয়ে শুরু করা যায়
alt alt
গুগল কোলাব থেকে নতুন নোটবুক কোথায় সেভ করতে পারবেন
alt alt

ফর্ক করে নিন নোটবুক গিটহাব রেপোজিটোরি

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিংয়ের জন্য যতগুলো পাইথন জুপিটার নোটবুক তৈরি করা হয়েছে সে গুলোকে নিজের একাউন্টে নিয়ে প্র্যাকটিস করার জন্য নিচের গিটহাব লিংক টা কে ফর্ক করে নিন আপনার নিজস্ব গিটহাব একাউন্টে। গিটহাব লিংকটাকে ফর্ক করার উদ্দেশ্য হচ্ছে নোটবুক গুলোকে আপনার মত করে মডিফাই করে চালানো।

লিংক: https://github.com/raqueeb/nlp_bangla/

গুগল কোলাব ব্যবহারের ধারণা

জুপিটার নোটবুকের সব ফিচার আছে গুগল কোলাবে। এর পাশাপাশি, যেকোনো নতুন নোটবুক সরাসরি কোলাবে আপলোড অথবা গুগল ড্রাইভ থেকে লোড করা যায়। কাজ শেষে নোটবুকগুলোকে ‘সেভ’ করে রাখা যায় গিটহাব অথবা গুগল ড্রাইভে। চাইলে ডাউনলোড করে রাখতে পারেন আপনার কম্পিউটারে। সবচেয়ে বড় কথা হচ্ছে এখানে বড় ধরনের কোনো লিমিটেশন নেই। শেখার জন্য প্রয়োজনীয় সব ডাটা এবং নোটবুক রাখা যেতে পারে গুগল ড্রাইভে।

  1. গুগোল কলাব ব্যবহার করতে যেতে হবে এড্রেসে। লিংক: http://colab.research.google.com/

  2. আপনার ফর্ক করা নিজস্ব অ্যাড্রেস থেকে নোটবুকগুলোকেকে লোড করে নিন নিচের ছবির মত করে।

  3. গুগল কোলাবে জিপিইউ ব্যবহারের সুবিধা পাবেন 'নোটবুক সেটিংস' থেকে।

নোটবুক লোড করুন গুগল কোলাবে গুগল কোলাবে জিপিইউ ব্যবহারের সেটিংস
alt alt