زمان تخمینی مطالعه: 5 دقیقه
بینایی کامپیوتر در زمینه هوش مصنوعی زمینهای بسیار مهم است. این مفهوم کامپیوترها را قادر میسازد تا سیستم بینایی انسان را تکرار کنند و از اطلاعات تصاویر و ویدیوها برای شناسایی و طبقهبندی اشیا استفاده میکند. اگرچه ما تعداد زیادی زبان برنامه نویسی برای بینایی ماشین داریم، اما پرکاربردترین آنها شامل ++C و Python است. دادهها در ساخت مدلهای بینایی کامپیوتری بسیار مهم هستند و در این مقاله به 10 مجموعه داده تصویر بزرگ برای کامپیوتر ویژن میپردازیم.
دیتاستهای تصویر برای بینایی کامپیوتر
- CIFAR-10 و CIFAR-100: دیتاست CIFAR-10 شامل 60000 تصویر رنگی 32×32 در 10 کلاس با 6000 تصویر در هر کلاس است. در مجموع دارای 50000 تصویر آموزشی و 10000 تصویر تستی است که به پنج دسته آموزشی و یک دسته تستی تقسیم میشود که هر کدام دارای 10000 تصویر است. CIFAR-100 دارای 60000 تصویر رنگی 32×32 در 100 کلاس با 600 تصویر در هر کلاس است. 100 کلاس به 20 کلاس فوق العاده با یک برچسب خوب برای نشان دادن کلاس آن و یک برچسب درشت برای نشان دادن ابر کلاسی که به آن تعلق دارد، گروه بندی میشوند.
- ImageNet: مجموعه دادهای از تصاویر است که بر اساس سلسله مراتب WordNet سازماندهی شدهاند. دارای 1000 کلاس شی و شامل 1281167 تصویر آموزشی، 50000 تصویر اعتبارسنجی و 100000 تصویر تستی است. برای دانلود این دیتاست، باید به وب سایت مراجعه کرده و برای دسترسی به آن وارد شوید.
- MS Coco: مجموعه دادههای Microsoft Common Objects in Context (MS Coco) شامل 328000 تصویر بصری با کیفیت بالا از اشیاء روزمره و انسان است که اغلب به عنوان استانداردی برای مقایسه عملکرد الگوریتمها در تشخیص اشیا بلادرنگ استفاده میشود.
- Flickr 30k: مجموعه داده فلیکر شامل 31000 تصویر جمع آوری شده از فلیکر به همراه 5 جمله مرجع ارائه شده توسط حاشیه نویسان انسانی است. این مجموعه داده تصویر برای توصیف تصویر مبتنی بر جمله، به یک معیار استاندارد تبدیل شده است.
- IMDB- Wiki: این مجموعه داده بزرگترین مجموعه داده موجود به صورت عمومی است. این شامل بیش از 500000 تصویر از چهره انسان با جنسیت، سن و نام است.
- برکلی دیپ درایو: دیتاست BDD110K بزرگترین مجموعه ویدیویی رانندگی با تنوع بالا است، با 100000 ویدیو که برای ده کار مختلف درک رانندگی مستقل حاشیهنویسی شده است. برای دانلود مجموعه داده لطفا به وب سایت مراجعه کرده و برای دانلود وارد شوید.
- LSUN: این مجموعه داده طبقهبندی LSUN دارای 10 دسته صحنه و 20 دسته شی است. هر دسته در دادههای آموزشی دارای تعداد قابل توجهی عکس است که از حدود 120000 تا 3000000 متغیر است. در اینجا برخی از جزئیات اضافی در مورد مجموعه داده LSUN آمده است:
- دسته بندی صحنه (اتاق خواب، پل، کلاس درس، اتاق کنفرانس، اتاق نشیمن، رستوران، برج، اتاق غذاخوری، آشپزخانه و کلیسا در فضای باز).
- دسته بندی اشیاء (هواپیما، دوچرخه، پرنده، قایق، بطری، اتوبوس، ماشین، گربه، صندلی، گاو، میز ناهارخوری، سگ، اسب، موتور، شخص، گیاه گلدانی، گوسفند، مبل، قطار، مانیتور تلویزیون).
برای دسترسی به مجموعه داده، به GitHub مراجعه کنید.
- Kinetics 700: دیتاست Kinetics 700 یک مجموعه داده ویدیویی از 650000 کلیپ رسانهای است که از 700 کلاس از کلاسهای عمل انسانی تشکیل شده است. برخی از این تعاملات عبارتند از: دست دادن و در آغوش گرفتن حداقل 700 کلیپ رسانهای در هر کلاس اکشن دارد و از این رو Kinetics 700 نامیده میشود. هر کلیپ تقریباً ده ثانیه است و به صورت دستی با یک کلاس اکشن برچسب گذاری شده است.برای دانلود مجموعه داده، روی گزینه دانلود کلیک کنید.
- MPII Human Pose: این مجموعه داده ژست انسانی یک استاندارد مدرن برای ارزیابی تخمین ژست انسان است. مجموعه داده شامل 25 هزار تصویر است که از یک ویدیوی YouTube حاوی بیش از 40 هزار نفر با مفاصل بدن مشروح استخراج شده است که 410 فعالیت انسانی را پوشش میدهد و هر تصویر با یک برچسب فعالیت نمایش داده میشود.
- LabelMe-12-50k: اول از همه، این مجموعه داده یک کار چالش برانگیز برای سیستمهای تشخیص اشیا است، زیرا نمونههای هر کلاس شی تنوع زیادی در ظاهر، نور و زوایای دید دارند. مجموعه داده شامل 50000 عکس JPEG است که هر کدام 256×256 پیکسل هستند (40000 برای آموزش و 100000 برای تست)
نتیجه گیری
بینایی کامپیوتری میتواند در کارهایی مانند تشخیص چهره و تجزیه و تحلیل تصویر کمک کننده باشد. خوشبختانه مجموعه داده تصویر دارای انواع مختلفی است و برای دانلود و استفاده آزادانه برای همه در دسترس است. در این مقاله تیم الکتروهایو تلاش کرده که تعدادی از بهترین دیتاستهای تصویر را برای مخاطبین عزیز معرفی نماید.