زمان تخمینی مطالعه: 6 دقیقه
شناسایی مجدد افراد (Re-ID) برای بازیابی شخص مورد علاقه در چندین دوربین غیر همپوشان استفاده میشود. با پیشرفت شبکههای عصبی عمیق و افزایش تقاضا برای نظارت تصویری هوشمند، این مشکل به طور عمده توجه بیشتری را در جامعه بینایی کامپیوتر به دست آورده است.
مشکل شناسایی مجدد افراد
شناسایی مجدد افراد یک مشکل خاص در بازیابی افراد در دوربینهای غیرمتداخل و مجزا است. هدف Re-ID تعیین این است که آیا شخص مورد علاقه در یک زمان مشخص در مکان دیگری ظاهر شده است که توسط دوربین دیگری یا حتی همان دوربین در یک لحظه زمانی متفاوت گرفته شده است. پرس و جوی یک شخص را میتوان با یک تصویر، یک توالی ویدیو و حتی یک توضیح متنی نشان داد. حوزه شناسایی مجدد یک زمینه تحقیقاتی گسترده است. در حال حاظر با تقاضای فوری برای ایمنی عمومی و افزایش تعداد دوربینهای نظارتی، شناسایی مجدد افراد نیز یک هدف مهم و با اهمیت عملی بالا است.
چالشهای شناسایی مجدد افراد
شناسایی مجدد به دلیل دیدگاههای مختلف، وضوح تصویر کم، تغییرات نور، ژستهای نامحدود، انسداد، مدالیتههای ناهمگن، محیطهای پیچیده دوربین، درهمرفتگی پسزمینه، تولید جعبههای مرزی غیرقابل اعتماد و موارد دیگر چالشبرانگیز است. همه این عوامل منجر به تنظیمات و عدم اطمینان بسیار متفاوت میشود. علاوه بر این، برای استقرار مدل عملی، شبکه دوربین بهروزرسانی پویا، یک گالری در مقیاس بزرگ با بازیابی کارآمد، عدم قطعیت گروهی، سناریوهای تست نشده، بهروزرسانی تدریجی مدل و تعویض لباس نیز مشکلات را به شدت افزایش میدهد. این چالش ها دلیل اصلی این است که شناسایی مجدد هنوز به عنوان یک مشکل حل نشده برای برنامه های کاربردی دنیای واقعی در نظر گرفته میشود.
شناسایی مجدد افراد با یادگیری عمیق
روشها رویکردهای اولیه عمدتاً بر ساخت ویژگیهای دستساز با ساختار بدن یا یادگیری متریک از راه دور متمرکز هستند. با این حال، با پیشرفت یادگیری عمیق، شناسایی مجدد افراد عملکرد امیدوارکنندهای را در معیارهای محبوب به دست آورده است. با این حال، هنوز شکاف بزرگی بین سناریوهای پژوهش محور و کاربردهای شناسایی مجدد در چشم انداز عملی وجود دارد.
شناسایی مجدد با یادگیری عمیق چگونه کار میکند
در زیر مفهوم سیستم شناسایی مجدد افراد عملی برای حل مشکل بازیابی عابر پیاده در دوربینهای نظارتی متعدد نشان داده شده است. به طور کلی، ساختن یک سیستم شناسایی مجدد افراد مستلزم پنج مرحله اصلی است:
- جمع آوری داده های ویدئویی: شرط اولیه در دسترس بودن دادههای ویدیویی خام از دوربینهای نظارتی است. چنین دوربینهایی معمولاً در مکانهای مختلف در محیطهای مختلف قرار میگیرند. اغلب، دادههای بصری خام حاوی مقدار زیادی آشفتگی و پسزمینه پیچیده و پر نویز هستند.
- تولید جعبههای مرزی: افراد موجود در دادههای ویدیویی با استفاده از الگوریتمهای تشخیص و ردیابی شخص شناسایی میشوند. جعبههای محدود کننده و مرزی که حاوی تصاویر شخص هستند از دادههای ویدیویی استخراج میشوند.
- حاشیهنویسی دادههای آموزشی: برچسبهای متقابل دوربین دارای حاشیهنویسی هستند. حاشیهنویسی دادههای آموزشی معمولا برای یادگیری مدل شناسایی مجدد متمایز به دلیل تغییرات زیاد بین دوربین ضروری است. برای جابجایی دامنههای بزرگ، دادههای آموزشی معمولاً باید در هر سناریوی جدیدی حاشیهنویسی شوند.
- آموزش مدل: در مرحله آموزش، یک مدل Re-ID متمایز و قوی با تصاویر یا ویدیوهای شخصی که قبلاً شرح داده شده است آموزش داده میشود. این هسته اصلی توسعه یک سیستم شناسایی مجدد است و به طور گسترده مورد تحقیق قرار گرفته است. مدلهای گستردهای برای رسیدگی به چالشهای مختلف، با تمرکز بر یادگیری بازنمایی ویژگیها، یادگیری متریک از راه دور یا ترکیبهای آنها توسعه یافتهاند.
- بازیابی عابر پیاده: مرحله آزمایش، بازیابی عابر پیاده را انجام میدهد. با توجه به یک پرس و جو برای یک فرد مورد علاقه و یک مجموعه گالری، مدل Re-ID بازنماییهای ویژگیهای آموخته شده در مرحله قبل را استخراج میکند. یک لیست رتبهبندی با مرتبسازی شباهت پرس و جو به گالری محاسبه شده (احتمال تطابق ID) به دست میآید.
شناسایی مجدد افراد مدرن به حالت جهان بسته
محیط «جهان بسته» که به طور گسترده مورد مطالعه دانشمندان قرار گرفته است، معمولاً تحت فرضیات تحقیقاتی اعمال میشود و با استفاده از تکنیکهای یادگیری عمیق در چندین مجموعه داده، به پیشرفتهای مرتبطی دست یافته است. به طور معمول، یک سیستم استاندارد Re-ID جهان بسته شامل سه جزء اصلی است:
- آموزش بازنمایی ویژگی: که بر توسعه استراتژیهای ساخت ویژگی تمرکز دارد.
- یادگیری متریک عمیق: برای طراحی اهداف آموزشی با توابع مختلف از دست دادن(loss function) یا استراتژیهای نمونه گیری.
- بهینهسازی رتبهبندی: برای بهینهسازی لیست رتبهبندی بازیابی شده.
شناسایی مجدد در جهان باز
با اشباع عملکرد در یک محیط جهان بسته، تمرکز تحقیقات برای شناسایی شخص(Re-ID) اخیراً به محیط جهان باز منتقل شده است و با مسائل چالش برانگیزتری مواجه است:
- شناسایی مجدد ناهمگن با تطبیق تصاویر افراد در روشهای ناهمگن. این مورد شامل شناسایی مجدد بین عمق و تصاویر RGB، شناسایی مجدد متن به تصویر، شناسایی مجدد مرئی به مادون قرمز و شناسایی مجدد با وضوح متقابل است.
- شناسه مجدد انتها به انتها از تصاویر یا ویدیوهای خام. این مورد اتکا به مرحله اضافی برای تولید جعبه محدود را کاهش میدهد.
- Re-ID مقاوم در برابر نویز. این مورد شامل Re-ID جزئی با انسداد شدید، Re-ID با نویز نمونه ناشی از خطاهای تشخیص یا ردیابی، و Re-ID با نویز برچسب ناشی از خطای حاشیهنویسی است.
- شناسایی شخص در مجموعه باز: هنگامی که تطابق صحیح در گالری رخ نمیدهد، باز شناسایی مجدد معمولاً به عنوان یک مشکل تأیید شخص فرمولبندی میشود، مانند تشخیص اینکه آیا تصاویر دو شخص به یک هویت تعلق دارند یا خیر.
- شناسه مجدد نیمه یا بدون نظارت با برچسبهای حاشیهنویسی شده محدود یا خارج از دسترس.