زمان تخمینی مطالعه: 4 دقیقه
COCO یک مجموعه داده بصری است که نقش مهمی در بینایی رایانه ایفا میکند. در این مقاله، همه چیزهایی را که باید در مورد مجموعه داده محبوب COCO مایکروسافت بدانید که به طور گسترده برای پروژههای یادگیری ماشینی استفاده میشود، پوشش خواهیم داد. در این نوشته یاد میگیریم که با دیتاست COCO چه کاری میتوانیم انجام دهیم و چه چیزی آن را از جایگزینهای دیگر مانند OID Google (Open Images Dataset) متفاوت میکند.
دیتاست COCO
مجموعه داده MS COCO یک مجموعه داده تشخیص اشیاء، بخشبندی تصویر و زیرنویس در مقیاس بزرگ است که توسط مایکروسافت منتشر شده است. مهندسان یادگیری ماشین و بینایی کامپیوتر معمولاً از دیتاست COCO برای پروژههای مختلف بینایی رایانه استفاده میکنند. درک صحنههای بصری هدف اصلی بینایی کامپیوتری است. این شامل تشخیص اینکه چه اشیایی در صحنه وجود دارند، محلیسازی اشیاء به صورت دو بعدی و سه بعدی، تعیین ویژگیهای شی، و مشخص کردن رابطه بین اشیاء است. بنابراین، الگوریتمهای تشخیص شی و طبقهبندی شی را میتوان با استفاده از مجموعه داده آموزش داد.
COCO مخفف Common Objects in Context است، زیرا مجموعه داده تصویر با هدف ارتقای تشخیص تصویر ایجاد شده است. مجموعه داده COCO شامل مجموعه دادههای بصری چالش برانگیز و با کیفیت برای بینایی کامپیوتری است که عمدتاً شبکههای عصبی پیشرفته هستند. به عنوان مثال، COCO اغلب برای معیار الگوریتمها برای مقایسه عملکرد تشخیص اشیاء در زمان واقعی استفاده میشود. قالب مجموعه داده COCO به طور خودکار توسط کتابخانههای شبکه عصبی پیشرفته تفسیر میشود.
ویژگیهای دیتاست COCO
در زیر مجموعهای از ویژگیهای دیتاست MS COCO آورده شده است:
- بخشبندی شی با حاشیهنویسی نمونه دقیق
- شناسایی در زمینه(Context)
- بخشبندی اشیاء در حد سوپرپیکسل
- دارای بیش از 200000 تصویر برچسبگذاری شده از مجموع 330000 تصویر
- 1.5 میلیون نمونه شی
- 80 دسته مختلف برای اشیاء، “کلاسهای COCO”، که شامل “چیزهایی” است که نمونههای فردی را میتوان به راحتی برچسبگذاری کرد (شخص، ماشین، صندلی و غیره)
- 91 دسته موارد(Stuff)، که در آن «stuff COCO» شامل مواد و اشیاء بدون مرز مشخص (آسمان، خیابان، چمن، و غیره) است که اطلاعات زمینهای قابل توجهی را ارائه میکنند.
- 5 زیرنویس(کپشن) در هر تصویر
- 250000 نفر با 17 نقطه کلیدی مختلف که به طور رایج برای تخمین موقعیت(pose) استفاده میشود
حاشیهنویسی تصاویر دیتاست COCO
مجموعه داده بزرگ شامل عکسهای حاشیهنویسی از صحنههای روزمره اشیاء معمولی در زمینه(Context) طبیعی آنها است. این اشیاء با استفاده از کلاسهای از پیش تعریف شده مانند “صندلی” یا “موز” برچسبگذاری میشوند.
فرآیند برچسبگذاری که به آن حاشیهنویسی تصویر نیز گفته میشود و یک تکنیک بسیار محبوب در بینایی کامپیوتر است. در حالی که سایر مجموعههای داده شناسایی اشیاء بر 1) طبقهبندی تصویر، 2) محلیسازی جعبه محدودکننده شی، یا 3) تقسیمبندی معنایی در سطح پیکسل متمرکز شدهاند – مجموعه داده MS COCO بر روی 4) تقسیمبندی نمونههای شی منفرد تمرکز دارد.