زمان تخمینی مطالعه: 8 دقیقه
یادگیری بدون ناظر در هوش مصنوعی نوعی یادگیری ماشینی است که از دادههای بدون نظارت انسان یاد میگیرد. برخلاف یادگیری با نظارت، در مدلهای یادگیری بدون نظارت دادههای بدون برچسب به مدل داده میشوند و اجازه داده میشود تا الگوها و بینشهایی را بدون هیچ راهنمایی یا دستورالعمل صریحی کشف کنند.
هوش مصنوعی و یادگیری ماشین بر همه جنبههای زندگی روزمره تأثیر میگذارند و به تبدیل دادهها به آگاهی کمک میکنند که میتواند کارایی را بهبود بخشد، هزینهها را کاهش دهد و تصمیمگیری را بهتر اطلاعرسانی کند. امروزه، کسبوکارها از الگوریتمهای یادگیری ماشینی برای کمک به توصیههای شخصیسازی شده، ترجمههای همزمان یا حتی تولید خودکار متن، تصاویر و انواع دیگر محتوا استفاده میکنند. در این مقاله، ما اصول اولیه یادگیری ماشینی بدون ناظر، نحوه کارکرد آن و برخی از کاربردهای معمولی آن را در زندگی واقعی پوشش خواهیم داد.
یادگیری بدون ناظر چگونه کار میکند؟
همانطور که از نام آن پیداست، یادگیری بدون ناظر از الگوریتمهای خودآموز استفاده میکند که بدون هیچ برچسب یا آموزش قبلی یاد میگیرند. در عوض، به مدل دادههای خام و بدون برچسب داده میشود و باید قوانین خود را استنباط کند و اطلاعات را بر اساس شباهتها، تفاوتها و الگوها بدون دستورالعملهای صریح در مورد نحوه کار با هر قطعه داده، ساختاربندی کند. الگوریتمهای یادگیری بدون نظارت برای کارهای پردازشی پیچیدهتر، مانند سازماندهی مجموعههای داده بزرگ در خوشهها، بسیار مناسب هستند. آنها برای شناسایی الگوهای شناسایی نشده قبلی در دادهها مفید هستند و میتوانند به شناسایی ویژگیهای مفید برای دستهبندی دادهها کمک کنند.
تصور کنید که یک مجموعه داده بزرگ در مورد آب و هوا دارید. یک الگوریتم یادگیری بدون ناظر بر روی دادهها اعمال شده و الگوهای موجود در نقاط داده را شناسایی میکند. به عنوان مثال، ممکن است دادهها را بر اساس دما یا الگوهای آب و هوایی مشابه گروهبندی کند. در حالی که الگوریتم خود این الگوها را بر اساس اطلاعات قبلی که ارائه کردهاید درک نمیکند، سپس میتوانید گروهبندی دادهها را مرور کنید و سعی کنید آنها را بر اساس درک خود از مجموعه داده طبقهبندی کنید. به عنوان مثال، ممکن است تشخیص دهید که گروههای دمایی مختلف نشان دهنده هر چهار فصل هستند یا اینکه الگوهای آب و هوا به انواع مختلف آب و هوا، مانند باران، برف یا برف تقسیم میشوند.
روشهای یادگیری ماشینی بدون ناظر
به طور کلی، سه نوع کار یادگیری بدون نظارت وجود دارد: خوشهبندی، قوانین همبستگی و کاهش ابعاد. در ادامه کمی عمیقتر به هر نوع تکنیک یادگیری بدون ناظر خواهیم پرداخت.
- خوشهبندی Clustering: خوشهبندی تکنیکی برای کاوش دادههای خام و بدون برچسب و تقسیم آنها به گروهها (یا خوشهها) بر اساس شباهتها یا تفاوتها است. در برنامههای مختلفی از جمله بخشبندی مشتری، تشخیص تقلب و تجزیه و تحلیل تصویر استفاده میشود. الگوریتمهای خوشهبندی دادهها را با یافتن ساختارها یا الگوهای مشابه در دادههای دستهبندی نشده به گروههای طبیعی تقسیم میکنند. خوشهبندی یکی از محبوبترین رویکردهای یادگیری ماشینی بدون ناظر است. انواع مختلفی از الگوریتمهای یادگیری بدون نظارت وجود دارد که برای خوشهبندی استفاده میشود که شامل انحصاری(Exclusive)، همپوشانی(Overlapping)، سلسله مراتبی(Hierarchical) و احتمالاتی(Probabilistic) است.
- خوشهبندی انحصاری: دادهها به گونهای گروهبندی میشوند که یک نقطه داده تنها میتواند در یک خوشه وجود داشته باشد. به این نوع خوشهبندی “سخت” نیز گفته میشود. یک مثال رایج از خوشهبندی انحصاری، الگوریتم خوشهبندی K-means است که نقاط داده را به تعداد K از خوشههای تعریفشده توسط کاربر تقسیم میکند.
- خوشهبندی همپوشانی: دادهها به گونهای گروهبندی میشوند که یک نقطه داده واحد میتواند در دو یا چند خوشه با درجات مختلف عضویت وجود داشته باشد. به این خوشهبندی “نرم” نیز گفته میشود.
- خوشهبندی سلسله مراتبی: دادهها بر اساس شباهتها به خوشههای مجزا تقسیم میشوند که سپس به طور مکرر ادغام و بر اساس روابط سلسله مراتبی خود سازماندهی میشوند. دو نوع اصلی خوشهبندی سلسله مراتبی وجود دارد: خوشهبندی تجمعی و تقسیمی. از این روش به عنوان تحلیل خوشهای سلسله مراتبی HAC نیز یاد میشود.
- خوشهبندی احتمالی: دادهها بر اساس احتمال تعلق هر نقطه داده به هر خوشه به خوشهها گروهبندی میشوند. این رویکرد با روشهای دیگر، که نقاط داده را بر اساس شباهتهایشان با سایر روشها در یک خوشه گروهبندی میکنند، متفاوت است.
- همبستگی Association: قانون کاوی همبستگی یک رویکرد مبتنی بر قانون برای آشکار کردن روابط جالب بین نقاط داده در مجموعه دادههای بزرگ است. الگوریتمهای یادگیری بدون ناظر، پیوندهای مکرر if-then – که قوانین نیز نامیده میشوند – را جستجو میکنند تا همبستگیها و اتفاقات همزمان در دادهها و ارتباطات مختلف بین اشیاء داده را کشف کنند. معمولاً برای تجزیه و تحلیل سبدهای خرده فروشی یا مجموعه دادههای تراکنشی استفاده میشود تا نشان دهد چند وقت یکبار اقلام خاصی با هم خریداری میشوند. این الگوریتمها الگوهای خرید مشتری و روابط پنهان قبلی بین محصولات را آشکار میکنند که به اطلاعرسانی موتورهای توصیه یا سایر فرصتهای فروش متقابل کمک میکند. قوانین همبستگی همچنین اغلب برای سازماندهی مجموعه دادههای پزشکی برای تشخیصهای بالینی استفاده میشود. استفاده از قوانین همبستگی و یادگیری ماشینی بدون نظارت میتواند به پزشکان کمک کند تا با مقایسه روابط بین علائم موارد قبلی بیماران، احتمال تشخیص خاص را شناسایی کنند. به طور معمول، الگوریتمهای Apriori بیشترین کاربرد را برای یادگیری قوانین مرتبط برای شناسایی مجموعههای مرتبط از آیتمها یا مجموعههایی از آیتمها دارند. با این حال، انواع دیگری مانند الگوریتمهای Eclat و FP-growth استفاده میشود.
- کاهش ابعاد Dimensionality reduction: کاهش ابعاد یک تکنیک یادگیری بدون ناظر است که تعداد ویژگیها یا ابعاد را در یک مجموعه داده کاهش میدهد. دادههای بیشتر عموماً برای یادگیری ماشینی بهتر است، اما میتواند تجسم دادهها را نیز چالشبرانگیزتر کند. کاهش ابعاد، ویژگیهای مهمی را از مجموعه داده استخراج میکند و تعداد ویژگیهای نامربوط یا تصادفی موجود را کاهش میدهد. این روش از الگوریتمهای تجزیه و تحلیل مؤلفههای اصلی (PCA) و تجزیه ارزش منفرد (SVD) برای کاهش تعداد ورودیهای داده بدون به خطر انداختن یکپارچگی خصوصیات در دادههای اصلی استفاده میکند.
نمونههای یادگیری بدون ناظر در دنیای واقعی
اکنون که اصول اولیه نحوه عملکرد یادگیری بدون نظارت را درک کردهاید، بیایید به رایجترین موارد استفاده که به کسبوکارها کمک میکند تا حجم زیادی از دادهها را به سرعت کشف کنند، بررسی کنیم. در اینجا چند نمونه یادگیری بدون نظارت در دنیای واقعی آورده شده است:
- تشخیص ناهنجاری Anomaly detection: خوشهبندی بدون نظارت میتواند مجموعه دادههای بزرگ را پردازش کند و نقاط دادهای را که در یک مجموعه داده غیرمعمول هستند، کشف کند.
- موتورهای توصیه Recommendation engines: با استفاده از قوانین همبستگی، یادگیری ماشینی بدون ناظر میتواند به کاوش دادههای تراکنش برای کشف الگوها یا روندهایی که میتوانند برای ارائه توصیههای شخصیشده برای خردهفروشان آنلاین استفاده شوند، کمک کند.
- بخشبندی مشتری Customer segmentation: یادگیری بدون نظارت نیز معمولاً برای ایجاد نمایههای شخصیت خریدار با خوشهبندی ویژگیهای مشترک مشتریان یا رفتارهای خرید استفاده میشود. سپس میتوان از این پروفایلها برای هدایت بازاریابی و سایر استراتژیهای تجاری استفاده کرد.
- تشخیص تقلب Fraud detection: یادگیری بدون ناظر برای تشخیص ناهنجاری مفید است و نقاط داده غیرمعمول را در مجموعه دادهها آشکار میکند. این بینشها میتواند به کشف رویدادها یا رفتارهایی که از الگوهای عادی در دادهها منحرف میشوند، آشکار کردن تراکنشهای جعلی یا رفتار غیرعادی مانند فعالیت رباتها کمک کند.
- پردازش زبان طبیعی (NLP): یادگیری بدون ناظر معمولاً برای کاربردهای مختلف NLP، مانند دستهبندی مقالات در بخشهای خبری، ترجمه و طبقهبندی متن، یا شناسایی گفتار در اینترفیسهای مکالمه استفاده میشود.
- تحقیقات ژنتیکی Genetic research: خوشهبندی ژنتیکی یکی دیگر از نمونههای رایج یادگیری بدون ناظر است. الگوریتمهای خوشهبندی سلسله مراتبی اغلب برای تجزیه و تحلیل الگوهای DNA و آشکارسازی روابط تکاملی استفاده میشوند.
یادگیری بدون ناظر برای کارهایی که نیاز به کاوش در مقادیر زیادی از دادههای بدون برچسب دارند مناسب است. این رویکرد کسب بینش را برای کسبوکارها از دادهها در زمانی که هیچ برچسبی وجود ندارد آسانتر میکند و به آنها کمک میکند تا ساختار زیربنایی یک مجموعه داده را درک کنند و الگوها و روابط بین مجموعههای داده را بدون نیاز به آموزش انسانی به آنها شناسایی کنند.
یادگیری با نظارت در مقابل یادگیری بدون ناظر
تفاوت اصلی بین یادگیری با نظارت و یادگیری بدون ناظر، نوع دادههای ورودی است که استفاده میکنید. برخلاف الگوریتمهای یادگیری ماشینی بدون نظارت، یادگیری نظارتشده به دادههای آموزشی برچسبگذاریشده متکی است تا تشخیص دهد که آیا تشخیص الگو در یک مجموعه داده دقیق است یا خیر. اهداف مدلهای یادگیری با نظارت نیز از پیش تعیین شده است، به این معنی که نوع خروجی یک مدل قبل از اعمال الگوریتمها مشخص است. به عبارت دیگر، ورودی بر اساس دادههای آموزشی به خروجی نگاشت میشود.