মেশিন লার্নিং এর আজকের টপিকে আমরা আজ ডাটা সেট নিয়ে আলোচনা করার চেষ্টা করব। মেশিন লার্নিং এর মূল উদ্দেশ্য হচ্ছে ডাটা গুলো কে অ্যাানালাইসিস করে আমাদের একটা আউটপুট হিসেবে কিছু তথ্য দেওয়া।
তাই বুঝতেই পারছি যে আমাদের কে অবশ্যই কিছু ডাটা মেশিন কে অর্থাৎ আমাদের অ্যালগোরিদম কে দিতে হবে, এবং মেশিন ওই ডাটা গুলো কে আমাদের তৈরি করা মডেলের মাধ্যমে প্রসেস করে আউটপুট হিসেবে কিছু তথ্য দিবে।
আমরা আমাদের ডাটা গুলো কে বিভিন্ন ডাটা ফরম্যাটে করে মেশিনে ব্যবহার করতে পারব। এই ডাটা গুলোই হচ্ছে ডাটা সেট।
সুতরাং মেশিন লার্নিং এর শুরুতেই আমাদের কে ডাটা সেট নিয়ে কাজ করতে হবে।
ডাটা সেট গুলো সাধারনত কিছু কলাম, ও কিছু রো নিয়ে গঠিত হয়। এই কলাম বা রো গুলো কে ২টি ভাগে ভাগ করা যায়।
১. Independent ভ্যারিয়েবল।
২. Dependent ভ্যারিয়েবল।
Independent ভ্যারিয়েবলঃ
এই টাইপের ডাটা গুলো Independent থাকবে। অন্য কোনো ডাটার উপরে এদের নির্ভরশীলতা থাকবে নাহ। এবং Independent ডাটা গুলোর মাধ্যমে অবশ্যই Dependent ভ্যারিয়েবল গুলো predict করা যাবে।
Dependent ভ্যারিয়েবলঃ
এই টাইপের ডাটা গুলো Independent ভ্যারিয়েবলের উপরে Dependent থাকবে।
মনে করি আমাদের কাছে একটি CSV ডাটা ফাইল রয়েছে। এই ফাইল টির মধ্যে ৪টি কলাম রয়েছে। ১ম কলাম টি হচ্ছে country, ২য় কলাম হচ্ছে Age, ৩য় কলাম হচ্ছে Salary, এবং ৪র্থ কলাম হচ্ছে purchased।
সো country, Age, Salary, এই ৩টি কলাম হচ্ছে আমাদের এই ক্ষেত্রে Independent ভ্যারিয়েবল। এবং এই ৩টি ভ্যারিয়েবলের উপর ডিপেন্ড করে আমাদের ৪র্থ কলামটি যা হচ্ছে এই ক্ষেত্রে Dependent ভ্যারিয়েবল।
অনলাইনে আমরা অনেক ভাবে ডাটাসেট গুলো পেতে পারি।
যেমনঃ Kaggle Dataset, Amazon Dataset, Microsoft Dataset, Lionbridge AI Datasets ইত্যাদি আরো অনেক ওয়েব সাইট রয়েছে যেখান থেকে আমরা আরো অনেক ডাটাসেট পেতে পাড়ি।
আজ তাহলে এই পর্যন্তই। পরবর্তি টপিকে আমরা ডাটাসেট Import নিয়ে আলোচলনা করব। সেই পর্যন্ত টাটা বাই বাই।