زمان تخمینی مطالعه: 8 دقیقه
مدلهای بنیادی هوش مصنوعی
مدلهای بنیادی هوش مصنوعی مدل یادگیری ماشینی (ML) است که برای انجام طیف وسیعی از وظایف از قبل آموزش دیده است. تا همین اواخر، سیستمهای هوش مصنوعی (AI) ابزارهای تخصصی بودند، به این معنی که یک مدل ML برای یک برنامه خاص یا مورد استفاده تکهدفه آموزش داده میشد. اصطلاح مدل بنیادی (همچنین به عنوان مدل پایه شناخته میشود) زمانی وارد فرهنگ لغت ما شد که کارشناسان متوجه 2 روند در زمینه یادگیری ماشین شدند:
- تعداد کمی از معماریهای یادگیری عمیق برای دستیابی به نتایج برای طیف گستردهای از وظایف استفاده میشد.
- مفاهیم جدیدی میتوانند از یک مدل هوش مصنوعی (AI) بیرون بیایند که در ابتدا در آموزش آن در نظر گرفته نشده بود.
مدلهای بنیاد(foundation models) طوری برنامهریزی شدهاند که با درک زمینهای کلی از الگوها، ساختارها و بازنماییها عمل کنند. این درک اساسی از نحوه برقراری ارتباط و شناسایی الگوها، پایهای از دانش را ایجاد میکند که میتواند بیشتر اصلاح شود، یا تنظیم دقیق شود، تا وظایف خاص حوزه را برای تقریباً هر صنعتی انجام دهد.
مدلهای بنیادی چگونه کار میکنند؟
دو ویژگی تعیینکننده که مدلهای بنیادی را قادر به عملکرد میکنند، انتقال یادگیری و مقیاس هستند. انتقال یادگیری به توانایی یک مدل برای اعمال اطلاعات در مورد یک موقعیت در موقعیت دیگر و ایجاد دانش درونی آن اشاره دارد. مقیاس به سختافزار به طور خاص، واحدهای پردازش گرافیکی (GPU) اشاره دارد که به مدل اجازه میدهد تا چندین محاسبه را به طور همزمان انجام دهد، همچنین این مفهوم به عنوان پردازش موازی نیز شناخته میشود. پردازندههای گرافیکی برای آموزش و استقرار مدلهای یادگیری عمیق، از جمله مدلهای پایه(بنیادی)، حیاتی هستند، زیرا توانایی پردازش سریع دادهها و انجام محاسبات آماری پیچیده را ارائه میدهند.
– یادگیری عمیق و مدلهای بنیادی
بسیاری از مدلهای بنیادی در هوش مصنوعی، بهویژه آنهایی که در پردازش زبان طبیعی (NLP)، بینایی کامپیوتری و پردازش صدا استفاده میشوند، با استفاده از تکنیکهای یادگیری عمیق از قبل آموزش داده شدهاند. یادگیری عمیق یک فناوری است که زیربنای بسیاری از مدلهای پایه (اما نه همه) است و نیروی محرکه بسیاری از پیشرفتها در این زمینه بوده است. یادگیری عمیق، که به عنوان یادگیری عمیق عصبی یا شبکه عصبی عمیق نیز شناخته میشود، به رایانهها میآموزد که از طریق مشاهده یاد بگیرند، و از روشی که انسانها دانش را به دست میآورند تقلید میکنند.
– ترانسفورماتورها(Transformers) و مدلهای بنیادی
در حالی که همه مدلهای بنیادی از ترانسفورماتور استفاده نمیکنند، معماری ترانسفورماتور روشی محبوب برای ساخت مدلهای پایه است که شامل سیستمهای مبتنی بر متن مانند ChatGPT، BERT و DALL-E 2 است.ترانسفورماتورها توانایی مدلهای ML را با این امکان افزایش میدهند که روابط متنی و وابستگیهای بین عناصر را در دنبالهای از دادهها پیدا میکنند. ترانسفورماتورها نوعی شبکه عصبی مصنوعی (ANN) هستند و برای مدلهای NLP استفاده میشوند، با این حال، آنها معمولاً در مدلهای ML که بهطور مجزا از مدلهای بینایی رایانه یا پردازش گفتار استفاده میکنند، استفاده نمیشوند.
کاربردهای مدلهای بنیادی در هوش مصنوعی
پس از آموزش یک مدل بنیادی، این مدل میتواند برای کمک به حل مشکلات بر دانش به دست آمده از مجموعههای عظیم داده تکیه کند – مهارتی که میتواند بینشها و مشارکتهای ارزشمندی را از طرق مختلف به سازمانها ارائه دهد. برخی از وظایف کلی که یک مدل پایه میتواند انجام دهد عبارتند از:
– پردازش زبان طبیعی (NLP)
با شناخت متن، گرامر و ساختارهای زبانی، یک مدل بنیادی آموزش دیده در NLP میتواند اطلاعاتی را از دادههایی که با آنها آموزش میبیند تولید و استخراج کند. تنظیم دقیق مدل NLP با آموزش آن برای مرتبط کردن متن با احساسات (مثبت، منفی، خنثی) میتواند برای شرکتهایی که به دنبال تجزیه و تحلیل پیامهای مکتوب مانند بازخورد مشتری، بررسی آنلاین یا پستهای رسانههای اجتماعی هستند مفید باشد. NLP حوزه وسیع تری است که توسعه و کاربرد مدل های زبان بزرگ (LLM) را در بر میگیرد.
– بینایی کامپیوتر
زمانی که مدل بتواند اشکال و ویژگیهای اصلی را تشخیص دهد، میتواند شروع به شناسایی الگوها کند. تنظیم دقیق بیشتر مدلهای بینایی هوش مصنوعی در کامپیوتر میتواند به تعدیل خودکار محتوا، تشخیص چهره و طبقهبندی تصویر منجر شود. مدلها همچنین میتوانند تصاویر جدیدی را بر اساس الگوهای آموخته شده تولید کنند.
– پردازش صدا و گفتار
هنگامی که یک مدل بتواند عناصر آوایی را تشخیص دهد، میتواند از صدای انسان معنا را استخراج کند که این موضوع میتواند منجر به ارتباطات کارآمدتر و فراگیرتر با ماشینها شود. دستیارهای مجازی، پشتیبانی چند زبانه، فرمانهای صوتی و ویژگیهایی مانند رونویسی، دسترسی و بهرهوری را ارتقا میدهند. با تنظیم دقیق، سازمانها میتوانند سیستمهای یادگیری ماشینی تخصصی بیشتری را برای رفع نیازهای خاص صنعت مانند تشخیص تقلب برای مؤسسات مالی، توالییابی ژن برای مراقبتهای بهداشتی، رباتهای چت برای خدمات مشتری و موارد دیگر طراحی کنند.
چرا استفاده از مدلهای بنیادی هوش مصنوعی برای سازمانها مفید است؟
مدلهای بنیادی دسترسی و سطحی از پیچیدگی را در قلمرو هوش مصنوعی فراهم میکنند که بسیاری از سازمانها منابع لازم برای دستیابی به آن را ندارند. با اتخاذ و ایجاد مدلهای پایه، شرکتها میتوانند بر موانع رایج به شرح زیر غلبه کنند:
- دسترسی محدود به دادههای با کیفیت: مدلهای بنیادی مدلی را ارائه میکنند که بر اساس دادههایی ساخته شده است که اکثر سازمانها به آن دسترسی ندارند.
- عملکرد و دقت مدل: مدلهای بنیادی کیفیتی از دقت را بهعنوان پایه ارائه میکنند که ممکن است ماهها یا حتی سالها تلاش برای ایجاد سازمان نیاز داشته باشد.
- تبدیل زمان به ارزش: آموزش یک مدل یادگیری ماشینی میتواند زمان و منابع زیادی نیاز داشته باشد. مدلهای بنیادی، دارای زمینهای اولیه هستند که که سازمانها میتوانند هر زمان برای دستیابی به یک نتیجه سفارشی، آنها را تنظیم مجدد کنند.
- استعدادهای محدود: مدلهای بنیادی راهی را برای سازمانها فراهم میکند تا از AI/ML بدون سرمایهگذاری هنگفت در منابع علم داده استفاده کنند.
- مدیریت هزینه: استفاده از مدل پایه نیاز به سخت افزار گران قیمتی را که برای آموزش اولیه مورد نیاز است، کاهش میدهد. در حالی که هنوز هزینهای در ارتباط با سرویس و تنظیم دقیق مدل نهایی وجود دارد، اما تنها کسری از هزینه آموزش مربوط به خود مدل پایه است.
برخی از چالشهای استفاده از مدلهای بنیادی هوش مصنوعی در سازمانها
در حالی که کاربردهای هیجان انگیز زیادی برای مدلهای بنیادی وجود دارد، تعدادی چالش بالقوه نیز وجود دارد که باید به آنها توجه داشت:
- هزینه: مدلهای بنیادی به منابع قابل توجهی برای توسعه، آموزش و استقرار نیاز دارند. مرحله آموزش اولیه مدلهای پایه به مقادیر زیادی داده عمومی نیاز دارد، دهها هزار GPU مصرف میکند و اغلب به گروهی از مهندسان یادگیری ماشین و دانشمندان داده نیاز دارد.
- تفسیر پذیری: مفهوم “جعبه سیاه” به زمانی اشاره دارد که یک برنامه هوش مصنوعی وظیفهای را در شبکه عصبی خود انجام میدهد و دلیل تصمیم گیری خود را به طور واضح نشان نمیدهد. این سناریویی را ایجاد میکند که در آن هیچکس – از جمله دانشمندان داده و مهندسانی که الگوریتم را ایجاد کردهاند – قادر به توضیح دقیق چگونگی رسیدن مدل به یک خروجی خاص نیست. فقدان تفسیرپذیری در مدلهای جعبه سیاه میتواند پیامدهای مضری را هنگام استفاده برای تصمیمگیریهای پرمخاطره، بهویژه در صنایعی مانند مراقبتهای بهداشتی، عدالت کیفری، یا امور مالی ایجاد کند. این اثر جعبه سیاه میتواند با هر مدل مبتنی بر شبکه عصبی نه فقط مدلهای پایه رخ دهد.
- حریم خصوصی و امنیت: مدلهای بنیادی نیاز به دسترسی به اطلاعات زیادی دارند، و گاهی اوقات این اطلاعات شامل اطلاعات مشتری یا دادههای تجاری اختصاصی میشود. اگر این مدل توسط فراهم کنندگان شخص ثالث مستقر شده باشد یا به آن دسترسی داشته باشند، باید مراقب این موضوع بود که دادهها لو نروند.
- دقت و تعصب(Bias): اگر یک مدل یادگیری عمیق بر روی دادههایی آموزش داده شود که از نظر آماری سوگیری(Bias) دارند، یا نمایش دقیقی از جامعه ارائه نمیدهند، خروجی میتواند ناقص باشد. متأسفانه، سوگیری انسانی موجود اغلب به هوش مصنوعی منتقل میشود، بنابراین خطری برای الگوریتمهای تبعیضآمیز و خروجیهای جهت دار ایجاد میکند. از آنجایی که سازمانها به استفاده از هوش مصنوعی برای بهبود بهرهوری و عملکرد ادامه میدهند، بسیار مهم است که استراتژیهایی برای به حداقل رساندن سوگیری در نظر گرفته شوند. این با فرآیندهای طراحی فراگیر و در نظر گرفتن متفکرانهتر از تنوع نماینده در دادههای جمع آوری شده آغاز میشود.