مجموعه داده های یادگیری ماشین و ایده های پروژه
یکی از دشواری های محققان یافتن مجموعه داده مناسب در حین تحقیق برای پروژه های یادگیری ماشین یا علم داده، است. و محققان برای ساخت مدل های دقیق، به حجم عظیمی از داده ها نیاز دارید. بسیاری از محققان، سازمان ها و افراد هستند که کار خود را به اشتراک گذاشته اند و ما می توانیم از مجموعه داده های آنها در پروژه های خود استفاده کنیم. در ادامه بیش از 70 مجموعه داده یادگیری ماشینی را مورد بحث قرار خواهیم داد که می توانید از آنها برای ساخت پروژه علمی داده خود استفاده کنید.
برای مشاهده همه داده های کلیک کنید
1. مجموعه داده مشتریان مرکز خرید
مجموعه داده مشتریان مرکز خرید حاوی اطلاعاتی درباره افرادی است که از مرکز خرید بازدید می کنند. مجموعه داده دارای جنسیت، شناسه مشتری، سن، درآمد سالانه و امتیاز هزینه است. بینش را از داده ها جمع آوری می کند و مشتریان را بر اساس رفتار آنها گروه بندی می کند.
1.1 لینک: مجموعه داده مشتریان مرکز خرید
1.2 ایده پروژه علم داده: مشتریان را بر اساس سن، جنسیت، علاقه تقسیم کنید. تقسیم بندی مشتری یک روش مهم برای تقسیم مشتریان به گروه های فردی است که مشابه هستند. در بازاریابی سفارشی مفید است.
2. Iris Dataset
مجموعه داده Iris یک مجموعه داده ساده و مبتدی است که حاوی اطلاعاتی درباره اندازه گلبرگ و کاسبرگ گل است. مجموعه داده دارای 3 کلاس با 50 نمونه در هر کلاس است، بنابراین شامل 150 ردیف با تنها 4 ستون است.
2.2 ایده پروژه علم داده: یک طبقه بندی یادگیری ماشینی یا مدل رگرسیون را روی مجموعه داده پیاده سازی کنید. طبقه بندی وظیفه جداسازی اقلام به کلاس مربوطه آن است.
3. مجموعه داده MNIST
این یک پایگاه داده از ارقام دست نویس است. این شامل 60000 تصویر آموزشی و 10000 تصویر آزمایشی است. این یک مجموعه داده عالی برای شروع پیاده سازی طبقه بندی تصویر است که در آن می توانید یک رقم از 0 تا 9 را طبقه بندی کنید.
3.2 ایده پروژه علم داده: یک الگوریتم طبقه بندی یادگیری ماشین را روی تصویر برای تشخیص ارقام دست نویس از یک کاغذ پیاده سازی کنید.
3.3 کد منبع: تشخیص رقم دست نویس با یادگیری عمیق