ارزیابی مدل بینایی کامپیوتر چگونه است؟

زمان تخمینی مطالعه: 16 دقیقه

بینایی کامپیوتر به سرعت به یکی از اجزای اساسی فناوری مدرن تبدیل شده است و صنایعی مانند خرده فروشی، لجستیک، مراقبت‌های بهداشتی، رباتیک و وسایل نقلیه خودران را متحول کرده است. همانطور که این مدل‌ها به تکامل خود ادامه می‌دهند، ارزیابی مدل بینایی کامپیوتر و کارآمدی آنها بسیار مهم است.

معیارهای کلیدی ارزیابی مدل بینایی کامپیوتر

برای ارزیابی یک مدل بینایی کامپیوتر، باید چندین معیار عملکرد کلیدی را درک کنیم. پس از معرفی مفاهیم کلیدی، فهرستی از زمان استفاده برای هر یک از معیار‌های عملکرد ارائه خواهیم داد.

Precision: مفهوم Precision دقت یک معیار عملکرد است که میزان دقت یک مدل را در انجام پیش‌بینی‌های مثبت به صورت کمی نمایش می‌دهد. این مفهوم به عنوان نسبت پیش‌بینی‌های مثبت واقعی (نمونه‌های مثبت شناسایی شده به درستی-True Positive) به مجموع موارد مثبت واقعی و مثبت کاذب (مواردی که به اشتباه به عنوان مثبت شناسایی شده‌اند- False Positive) تعریف می‌شود. زمانی که هزینه مثبت کاذب بالا باشد یا هدف به حداقل رساندن تشخیص‌های غلط باشد، دقت اهمیت دارد.
Recall: معیار Recall به عنوان حساسیت یا نرخ مثبت واقعی(True Positive) شناخته می‌شود، که یک معیار کلیدی در ارزیابی بینایی کامپیوتری و مدل مربوطه است. این معیار به عنوان نسبت پیش‌بینی‌های مثبت واقعی (نمونه‌های مثبت شناسایی شده به درستی) در بین تمام نمونه‌های مرتبط (مجموع مثبت‌های واقعی و منفی‌های کاذب، که نمونه‌های مثبتی هستند که مدل نتوانسته است شناسایی کند) تعریف می‌شود. اهمیت Recall در توانایی آن برای اندازه‌گیری توانایی مدل برای تشخیص همه موارد مثبت است، و آن را به یک معیار مهم در موقعیت‌هایی تبدیل می‌کند که موارد مثبت از دست رفته می‌تواند پیامدهای مهمی داشته باشد.
امتیاز F1: امتیاز F1 یک معیار عملکرد است که Precision و Recall را در یک مقدار واحد ترکیب می‌کند و معیار متعادلی از عملکرد یک مدل بینایی کامپیوتری را ارائه می‌دهد. این معیار به عنوان میانگین هارمونیک Precision و Recall تعریف می‌شود. اهمیت امتیاز F1 ناشی از سودمندی آن در سناریوهایی با توزیع کلاسی نابرابر یا زمانی که مثبت کاذب و منفی کاذب هزینه‌های متفاوتی را به همراه دارند. با در نظر گرفتن Precision(دقت پیش‌بینی‌های مثبت) و Recall(توانایی شناسایی همه موارد مثبت)، امتیاز F1 ارزیابی جامعی از عملکرد یک مدل ارائه می‌کند، به‌ویژه زمانی که تعادل بین مثبت کاذب و منفی کاذب بسیار مهم است.
Accuracy: مفهوم Accuracy یک معیار عملکرد اساسی است که در ارزیابی عملکرد بینایی کامپیوتری استفاده می‌شود. این معیار به عنوان نسبت پیش‌بینی‌های صحیح (هم مثبت و هم منفی واقعی) در بین همه نمونه‌ها در یک مجموعه داده مشخص تعریف می‌شود. به عبارت دیگر، درصد نمونه‌هایی را که مدل به درستی طبقه‌بندی کرده است، با در نظر گرفتن طبقات مثبت و منفی اندازه‌گیری می‌کند. اهمیت Accuracy از توانایی آن در ارائه معیاری ساده از عملکرد کلی مدل ناشی می‌شود. این یک ایده کلی از عملکرد مدل در یک کار مشخص، مانند تشخیص شیء، طبقه‌بندی تصویر، یا بخش‌بندی می‌دهد.
Intersection over Union: معیار IoU به عنوان شاخص جاکارد(Jaccard) شناخته می‌شود، که معیار مهمی در ارزیابی عملکردی بینایی کامپیوتری استفاده می‌شود. این امر به ویژه برای وظایف تشخیص اشیاء و محلی‌سازی مهم است. IoU به عنوان نسبت مساحت همپوشانی بین جعبه مرزی پیش‌بینی شده و جعبه مرزی حقیقت زمینه(ground truth) به مساحت اتحاد آنها تعریف می‌شود. به عبارت ساده، IoU درجه همپوشانی بین پیش‌بینی مدل و هدف واقعی را اندازه‌گیری می‌کند، که به صورت مقداری بین 0 و 1 بیان می‌شود، که 0 نشان‌دهنده عدم همپوشانی و 1 نشان‌دهنده تطابق کامل است. اهمیت IoU در توانایی آن برای ارزیابی دقت محلی‌سازی مدل، ثبت هر دو جنبه تشخیص و موقعیت یک شی در یک تصویر است. با کمی کردن میزان همپوشانی بین جعبه‌های مرزی حقیقت پیش‌بینی‌شده و زمینه، IoU بینش‌هایی درباره اثربخشی مدل در شناسایی و بومی‌سازی اشیاء با دقت ارائه می‌دهد.
میانگین خطای مطلق (MAE): میانگین خطای مطلق معیاری است که برای اندازه‌گیری عملکرد مدل‌های یادگیری ماشین، مانند مدل‌های مورد استفاده در بینایی کامپیوتر، با کمی کردن تفاوت بین مقادیر پیش‌بینی‌شده و مقادیر واقعی استفاده می‌شود. MAE میانگین تفاوت‌های مطلق بین پیش‌بینی‌ها و مقادیر واقعی است. MAE با گرفتن تفاوت مطلق بین مقادیر پیش‌بینی شده و واقعی برای هر نقطه داده محاسبه می‌شود و سپس میانگین این تفاوت‌ها در تمام نقاط در مجموعه داده محاسبه می‌گردد. میانگین خطای مطلق با ارائه یک مقدار واحد که نشان دهنده میانگین خطا در پیش‌بینی‌های مدل است، به ارزیابی دقت مدل بینایی کامپیوتر کمک می‌کند. مقادیر کمتر MAE نشان دهنده عملکرد بهتر مدل است. از آنجایی که MAE یک معیار خطای مطلق است، تفسیر و درک آن در مقایسه با معیارهای دیگر مانند میانگین مربعات خطا (MSE) آسان‌تر است.

تکنیک‌های ارزیابی مدل بینایی کامپیوتر

چندین تکنیک ارزیابی به درک بهتر عملکرد مدل یادگیری ماشین کمک می‌کند که در ادامه ذکر شده است:

ماتریس کانفیوژن: ماتریس Confusion ابزار ارزشمندی برای ارزیابی عملکرد مدل‌های طبقه‌بندی، از جمله مدل‌هایی است که در وظایف بینایی کامپیوتر استفاده می‌شوند. این ماتریس جدولی است که تعداد پیش‌بینی‌های مثبت واقعی (TP)، منفی واقعی (TN)، مثبت کاذب (FP) و منفی کاذب (FN) را نشان می‌دهد که توسط مدل انجام شده است. این چهار جزء نشان می‌دهد که چگونه نمونه‌ها در کلاس‌های مختلف طبقه‌بندی شده‌اند.

ماتریس Confusion طبقه‌بندی باینری.

موارد مثبت واقعی (TP) مواردی هستند که به درستی مثبت شناسایی شده‌اند و موارد منفی واقعی (TN) مواردی هستند که به درستی به عنوان منفی شناسایی شده‌اند. موارد مثبت کاذب (FP) نمونه‌هایی را نشان می‌دهد که به اشتباه به عنوان مثبت شناسایی شده‌اند، در حالی که منفی‌های کاذب (FN) مواردی هستند که به اشتباه به عنوان منفی شناسایی شده‌اند. تجسم ماتریس Confusion به عنوان یک نقشه حرارتی می‌تواند تفسیر عملکرد مدل را آسان‌تر کند. در یک نقشه حرارتی، شدت رنگ هر سلول نشان‌دهنده تعداد نمونه‌های ترکیبی مربوط به کلاس‌های پیش‌بینی‌شده و واقعی است. این تجسم به شناسایی سریع الگوها و مناطقی که مدل ممکن است در آن در حال مبارزه یا برتری باشد کمک می‌کند.

نمونه‌ای از نقشه حرارتی ماتریس Confusion.

مشخصه عملیاتی گیرنده (ROC): منحنی مشخصه عملیاتی گیرنده (ROC) یک معیار عملکردی است که در ارزیابی مدل بینایی کامپیوتری، عمدتاً برای کارهای طبقه‌بندی استفاده می‌شود. این معیار به عنوان نموداری از نرخ مثبت واقعی (حساسیت) در برابر نرخ مثبت کاذب برای آستانه‌های طبقه‌بندی مختلف تعریف می‌شود. با نشان دادن مبادله بین حساسیت و ویژگی، منحنی ROC بینشی در مورد عملکرد مدل در طیف وسیعی از آستانه‌ها ارائه می‌دهد. برای ایجاد منحنی ROC، آستانه طبقه‌بندی متغیر است و نرخ مثبت واقعی و نرخ مثبت کاذب در هر آستانه محاسبه می‌شود. منحنی با ترسیم این مقادیر ایجاد می‌شود و امکان تجزیه و تحلیل بصری عملکرد مدل را در تمایز بین موارد مثبت و منفی فراهم می‌کند.

منحنی ROC که قدرت تمایز بالایی را نشان می‌دهد

مساحت زیر منحنی (AUC) یک مقیاس خلاصه است که از منحنی ROC مشتق شده است و عملکرد مدل را در تمام آستانه‌ها نشان می‌دهد. مقدار AUC بالاتر نشان‌دهنده یک مدل با عملکرد بهتر است، زیرا نشان می‌دهد که مدل می‌تواند به طور موثر بین موارد مثبت و منفی در آستانه‌های مختلف تمایز قائل شود. در کاربردهای دنیای واقعی، مانند سیستم تشخیص سرطان، منحنی ROC می‌تواند به شناسایی آستانه بهینه برای طبقه‌بندی بدخیم یا خوش‌خیم بودن تومور کمک کند. این منحنی به تعیین بهترین آستانه کمک می‌کند که نیاز به شناسایی صحیح تومورهای بدخیم (حساسیت بالا) را متعادل می‌کند و در عین حال موارد مثبت کاذب و منفی کاذب را به حداقل می‌رساند.

منحنی Precision-Recall: منحنی Precision-Recall یک روش ارزیابی عملکرد است که مبادله بین دقت و یادآوری را برای آستانه‌های طبقه‌بندی مختلف نشان می‌دهد. این مفهوم به تجسم توازن بین توانایی مدل برای پیش‌بینی‌های مثبت صحیح (precision) و توانایی آن برای شناسایی همه موارد مثبت (Recall) در آستانه‌های مختلف کمک می‌کند. برای رسم منحنی، آستانه طبقه‌بندی متفاوت است و precision و Recall در هر آستانه محاسبه می‌شود. این منحنی عملکرد مدل را در کل محدوده آستانه‌ها نمایش می‌دهد، و نشان می دهد که چگونه precision و Recall با تغییر آستانه تحت تأثیر قرار می‌گیرند.

نمونه‌ای از منحنی Precision-Recall

میانگین دقت (Average Precision) یک مقیاس خلاصه است که عملکرد مدل را در تمام آستانه‌ها کمی می‌کند. مقدار AP بالاتر نشان‌دهنده یک مدل با عملکرد بهتر است، که نشان‌دهنده توانایی آن برای دستیابی به precision بالا و Recall همزمان است. AP به ویژه برای مقایسه عملکرد مدل‌های مختلف یا تنظیم پارامترهای مدل برای دستیابی به عملکرد بهینه مفید است. یک مثال واقعی از کاربرد عملی منحنی Precision-Recall را می‌توان در سیستم‌های تشخیص هرزنامه یافت. با تجزیه و تحلیل منحنی، توسعه‌دهندگان می‌توانند آستانه بهینه برای طبقه‌بندی ایمیل‌ها به عنوان هرزنامه را تعیین کنند، در حالی که بین مثبت‌های کاذب (ایمیل‌های قانونی که به‌عنوان هرزنامه علامت‌گذاری شده‌اند) و منفی‌های نادرست (ایمیل‌های هرزنامه که شناسایی نمی‌شوند) تعادل برقرار کنند.

ملاحظات مربوط به دیتاست

ارزیابی مدل بینایی کامپیوتر و میزان عملکرد آن مستلزم بررسی دقیق دیتاست آن مدل را می‌طلبد:

– تقسیم دیتاست به بخش آموزش و اعتبارسنجی

تقسیم دیتاست کلی به بخش‌های آموزش و اعتبار سنجی گامی حیاتی در توسعه و ارزیابی مدل بینایی کامپیوتر است. تقسیم مجموعه داده به زیرمجموعه‌های جداگانه برای آموزش و اعتبار سنجی به تخمین عملکرد مدل در داده‌های دیده نشده کمک می‌کند. همچنین این کار به رفع مشکل بیش‌برازش نیز کمک می‌کند و اطمینان می‌دهد که مدل یادگیری ماشین به خوبی بر داده‌های جدید تعمیم می‌یابد. سه مجموعه داده شامل مجموعه آموزش، اعتبار سنجی و مجموعه تست، اجزای اساسی فرآیند توسعه مدل یادگیری ماشین هستند:

مجموعه آموزشی Training: مجموعه‌ای از نقاط داده برچسب‌گذاری شده که برای آموزش مدل، تنظیم پارامترها و الگوهای یادگیری و ویژگی‌های آن استفاده می‌شود.
مجموعه اعتبار سنجی Validation: یک مجموعه داده جداگانه برای ارزیابی مدل در طول توسعه، که برای تنظیم هایپرپارامتر و انتخاب مدل بدون معرفی بایاس از مجموعه تست استفاده می‌شود.
مجموعه تست Test: یک مجموعه داده مستقل برای ارزیابی عملکرد نهایی مدل و توانایی تعمیم در داده‌های دیده نشده.

تقسیم مجموعه داده‌های یادگیری ماشین برای جلوگیری از آموزش مدل بر روی همان داده‌هایی که بر روی آن ارزیابی می‌شود، مهم است. این موضوع منجر به یک برآورد مغرضانه و بیش از حد خوش بینانه از عملکرد مدل می‌شود. نسبت‌های تقسیم متداول برای تقسیم مجموعه داده‌ها 70:30، 80:20 یا 90:10 هستند، که در آن بخش بزرگ‌تر برای آموزش و بخش کوچک‌تر برای اعتبارسنجی استفاده می‌شود.

چندین تکنیک برای تقسیم داده‌ها وجود دارد:

نمونه‌گیری تصادفی Random: نقاط داده به طور تصادفی به مجموعه آموزشی یا اعتبارسنجی اختصاص داده می‌شوند و توزیع کلی داده را حفظ می‌کنند.
نمونه‌گیری طبقه‌ای Stratified sampling: نقاط داده به مجموعه آموزشی یا اعتبارسنجی اختصاص داده می‌شوند و در عین حال توزیع کلاس در هر دو زیر مجموعه حفظ می‌شود و اطمینان حاصل می‌شود که هر کلاس به خوبی نمایش داده می‌شود.
اعتبار سنجی متقاطع K-fold: مجموعه داده به k زیرمجموعه با اندازه مساوی تقسیم می‌شود، و مدل k بار آموزش و اعتبارسنجی می‌شود، از هر زیر مجموعه به عنوان مجموعه اعتبار سنجی یک بار و زیر مجموعه‌های باقی مانده برای آموزش استفاده می‌شود. عملکرد نهایی در تکرار k به طور میانگین محاسبه می‌شود.

– تقویت داده

تقویت داده‌ها تکنیکی است که برای تولید نمونه‌های آموزشی جدید با اعمال تبدیل‌های مختلف بر روی تصاویر و داده‌های اصلی استفاده می‌شود. این فرآیند با افزایش تنوع داده‌های آموزشی به بهبود قابلیت‌های تعمیم مدل کمک می‌کند و مدل را در برابر تغییرات داده‌های ورودی قوی‌تر می‌کند. تکنیک‌های رایج افزایش داده‌ها شامل چرخش، مقیاس‌بندی، چرخش و لرزش رنگ است. همه آن تکنیک‌ها بدون تغییر محتوای زیربنایی تصاویر، تنوع را ایجاد می‌کنند.

نمایش اجمالی روش‌های تقویت داده بینایی کامپیوتر.

– رسیدگی به عدم تعادل کلاس(Class imbalance)

عدم تعادل کلاس(Class imbalance) می‌تواند منجر به عملکرد مغرضانه مدل شود، که در آن مدل در کلاس اکثریت عملکرد خوبی دارد اما در کلاس اقلیت ضعیف است. پرداختن به عدم تعادل کلاس برای دستیابی به عملکرد مدل دقیق و قابل اعتماد بسیار مهم است. استراتژی‌های مدیریت عدم تعادل کلاس شامل نمونه‌گیری مجدد است که شامل نمونه‌برداری بیش از حد از طبقه اقلیت، کم‌نمونه‌سازی طبقه اکثریت یا ترکیبی از هر دو است. تکنیک‌های تولید داده‌های مصنوعی، مانند تکنیک نمونه‌برداری بیش از حد اقلیت مصنوعی (SMOTE) نیز می‌تواند مورد استفاده قرار گیرد. علاوه بر این، تنظیم فرآیند یادگیری مدل، به عنوان مثال، از طریق وزن دهی کلاس، می‌تواند به کاهش اثرات عدم تعادل کلاس کمک کند.

محک‌ها و مقایسه مدل‌ها

یک ارزیابی کامل باید شامل معیارهای سنجش و عملکرد برای مقایسه مدل‌های مختلف یادگیری ماشین باشد:

– اهمیت محک‌زدن(benchmarking)

بنچمارک برای مقایسه مدل‌ها استفاده می‌شود زیرا یک روش استاندارد و عینی برای ارزیابی عملکرد آنها ارائه می‌دهد و توسعه‌دهندگان را قادر می‌سازد تا مناسب‌ترین مدل را برای یک کار یا برنامه خاص شناسایی کنند. با مقایسه مدل‌ها بر روی مجموعه داده‌های رایج و معیارهای ارزیابی، بنچمارک کردن تصمیم‌گیری آگاهانه را تسهیل می‌کند و بهبود مستمر در توسعه مدل بینایی کامپیوتری را ارتقا می‌دهد.

– دیتاست‌های عمومی محبوب برای محک زدن

مجموعه داده‌های عمومی محبوب برای محک‌زدن مدل‌های بینایی رایانه وظایف مختلفی مانند طبقه‌بندی تصویر، تشخیص اشیاء و تقسیم‌بندی را پوشش می‌دهد. برخی از مجموعه داده‌های پرکاربرد در این حوزه عبارتند از:

ImageNet: مجموعه داده‌ای در مقیاس بزرگ که حاوی میلیون‌ها تصویر برچسب‌گذاری شده در هزاران کلاس است که در درجه اول برای طبقه‌بندی تصاویر و انتقال وظایف یادگیری استفاده می‌شود.
COCO (اشیاء مشترک در زمینه): MS COCO یک مجموعه داده پرطرفدار با تصاویر متنوع است که دارای چندین شیء در هر تصویر است که برای کارهای تشخیص اشیاء، بخش‌بندی و وظایف زیرنویس استفاده می‌شود.
Pascal VOC (کلاس‌های شیء بصری): این مجموعه داده مهم حاوی تصاویری با اشیاء مشروح متعلق به 20 کلاس است که برای طبقه‌بندی و تشخیص اشیاء استفاده می‌شود.
MNIST (مؤسسه ملی استاندارد و فناوری اصلاح شده): مجموعه داده‌ای از ارقام دست‌نویس که معمولاً برای طبقه‌بندی تصویر و محک‌زدن در یادگیری ماشین استفاده می‌شود.
CIFAR-10/100 (موسسه تحقیقات پیشرفته کانادا): دو مجموعه داده متشکل از 60000 تصویر برچسب‌دار، تقسیم شده به 10 یا 100 کلاس، که برای کارهای طبقه‌بندی تصاویر استفاده می‌شود.
ADE20K: مجموعه داده‌ای با تصاویر حاشیه‌نویسی برای تجزیه صحنه، که برای آموزش مدل‌ها برای وظایف تقسیم‌بندی معنایی استفاده می‌شود.
Cityscapes: مجموعه داده‌ای حاوی صحنه‌های خیابان شهری با حاشیه‌نویسی در سطح پیکسل، که عمدتاً برای بخش‌بندی معنایی و تشخیص اشیاء در برنامه‌های رانندگی مستقل استفاده می‌شود.
LFW (تصاویر برچسب‌دار در صحنه): مجموعه داده‌ای از تصاویر چهره جمع آوری شده از اینترنت که برای تشخیص چهره و کارهای تأیید استفاده می‌شود.

مقایسه معیارهای عملکرد

ارزیابی چندین مدل شامل مقایسه معیارهای عملکرد آنها (به عنوان مثال، Precision، Recall، امتیاز F1 و AUC) است که برای تعیین اینکه کدام مدل به بهترین وجه نیازهای خاص یک برنامه خاص را برآورده می‌کند انجام می‌شود. در زیر جدولی برای راهنمایی در مورد نحوه مقایسه معیارها وجود دارد:

معیار	هدف	مقدار ایده‌آل	اهمیت
Precision	پیش‌بینی‌های مثبت را اصلاح می‌کند	بالا	زمانی که هزینه‌های مثبت کاذب زیاد است یا زمانی که به حداقل رساندن تشخیص‌های کاذب مورد نظر است، بسیار مهم است.
Recall	همه موارد مثبت را شناسایی کنید	بالا	زمانی که از دست دادن موارد مثبت پرهزینه است یا زمانی که تشخیص همه موارد مثبت حیاتی است، ضروری است.
F1 Score	عملکرد متعادل	بالا	هنگامی که با مجموعه داده‌های نامتعادل سروکار داریم یا زمانی که مثبت کاذب و منفی کاذب هزینه‌های متفاوتی دارند مفید است.
AUC	عملکرد طبقه‌بندی کلی	بالا	برای ارزیابی عملکرد مدل در آستانه‌های طبقه‌بندی مختلف و هنگام مقایسه مدل‌های مختلف مهم است.

نتیجه گیری

در این مقاله در سایت الکتروهایو، اهمیت ارزیابی مدل بینایی کامپیوتر و بررسی عملکرد آن را برجسته کردیم که معیارهای عملکرد ضروری، تکنیک‌های ارزیابی، عوامل مجموعه‌ای و شیوه‌های محک را پوشش می‌دهد. ارزیابی دقیق و مستمر برای پیشرفت و اصلاح مدل‌های بینایی کامپیوتر حیاتی است. به عنوان یک دانشمند داده، درک این روش‌های ارزیابی برای تصمیم‌گیری آگاهانه هنگام انتخاب و بهینه‌سازی مدل‌ها برای مورد استفاده خاص شما کلیدی است. با استفاده از معیارهای عملکردی متعدد و در نظر گرفتن فاکتورهای مجموعه داده، می‌توانید اطمینان حاصل کنید که مدل‌های بینایی کامپیوتری شما به سطوح عملکرد مطلوب دست می‌یابند و به پیشرفت این زمینه دگرگون‌کننده کمک می‌کنند. مهم است که مدل‌های خود را برای دستیابی به بهترین نتایج ممکن در برنامه‌های بینایی کامپیوتر خود تکرار و اصلاح کنید.

برچسب خوردهکامپیوتر ویژن, ماتریس درهم‌ریختگی, ماشین ویژن