الکتروهایو

هوش مصنوعی / الکترونیک / برنامه‌نویسی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

با چارچوب و مجموعه داده AboutMe در زمینه هوش مصنوعی آشنا شوید!!

چارچوب و مجموعه داده AboutMe در الکتروهایو
در این مقاله می‌خوانید:

زمان تخمینی مطالعه: 4 دقیقه

با پیشرفت در پردازش زبان طبیعی و تولید زبان طبیعی، مدل‌های زبان بزرگ (LLM) اغلب در برنامه‌های کاربردی دنیای واقعی استفاده می‌شوند. این مدل‌ها با توانایی خود در تقلید از رفتار انسان، با ماهیت همه منظوره خود در هر زمینه و حوزه‌ای قدم گذاشته‌اند. اگرچه این مدل‌ها توجه قابل توجهی را به خود جلب کرده‌اند، اما این مدل‌ها مجموعه‌ای محدود و جدا از دیدگاه‌ها و دانش انسانی را نشان می‌دهند. ترکیب داده‌های پیش‌آموزشی دلیل این سوگیری است زیرا تأثیر زیادی بر رفتار مدل دارد. در این مقاله به ظهور چارچوب و مجموعه داده AboutMe در الکتروهایو خواهیم پرداخت.

محققان تلاش کرده‌اند تا قبل از پیش‌آموزش، تمرکز بیشتری بر درک و مستندسازی تغییرات ایجاد شده در داده‌ها داشته باشند. تنظیم داده‌های پیش‌آموزشی یک فرآیند چند مرحله‌ای با چندین نقطه تصمیم است که اغلب بر اساس قضاوت‌های ذهنی کیفیت متن یا عملکرد در برابر معیارها است. در یک مطالعه اخیر، تیمی از محققان موسسه آلن برای هوش مصنوعی، دانشگاه کالیفرنیا، برکلی، دانشگاه اموری، دانشگاه کارنگی ملون و دانشگاه واشنگتن، چارچوب و مجموعه داده AboutMe را معرفی کردند. این مطالعه مفروضات بی‌چون و چرای متعددی را که در گردش‌های کاری داده‌ها وجود دارد، برجسته می‌کند. با فریم ورک AboutMe، تیم تلاش کرده است اثرات فیلتر کردن داده‌ها را بر روی متنی که ریشه در زمینه‌های اجتماعی و جغرافیایی دارد، مستند کند.

فقدان داده‌های اجتماعی جمعیت‌شناختی گسترده و خودگزارش‌شده مرتبط با داده‌های زبان یکی از مشکلاتی است که تحلیل‌های زبانی اجتماعی در پردازش زبان طبیعی با آن مواجه است. متن را می‌توان در منابع عمومی مانند ویکی پدیا ردیابی کرد، اما در سطح دقیق تر، اغلب ناشناخته است که چه کسی اطلاعات را ایجاد کرده است. تیم در این مطالعه با استفاده از الگوهای از قبل موجود در داده‌های وب، وب سایت‌ها، به ویژه صفحات «درباره من» را پیدا کرده است. این امر اجازه می‌دهد تا درک بی‌سابقه‌ای از زبان افرادی که در متن وب نشان داده می‌شود، داشته باشید. این تیم با استفاده از داده‌های بخش «درباره من» وب‌سایت‌ها، تجزیه و تحلیل‌های زبان‌شناختی اجتماعی را برای اندازه‌گیری علایق موضوعی، تعیین موقعیت افراد یا سازمان‌ها، نقش‌های اجتماعی خود شناسایی‌شده و مکان‌های جغرافیایی مرتبط نویسندگان وب‌سایت انجام داده‌اند. ده فیلتر با کیفیت و شناسه انگلیسی حاصل از تحقیقات قبلی در مورد توسعه LLM در این صفحات وب برای بررسی تأثیر فیلتر کردن بر روی صفحات نگهداری شده یا حذف شده استفاده شده است.

هدف اصلی این تیم تحقیقاتی یافتن روندهایی در رفتار مرتبط با مبدا وب سایت هم در داخل و هم بین فیلترها بود. نتایج نشان داده‌اند که ترجیحات ضمنی برای حوزه‌های موضوعی خاص توسط فیلترهای کیفیت مبتنی بر مدل نمایش داده می‌شوند، که باعث می‌شود متن مربوط به حرفه‌ها و حرفه‌های مختلف با نرخ‌های مختلف حذف شود. علاوه بر این، تکنیک‌های فیلتری که صفحات را تک زبانه فرض می‌کنند ممکن است ناخواسته محتوا را از بخش‌های غیرانگلیسی جهان حذف کنند. در نتیجه، این تحقیق پیچیدگی‌های موجود در فیلتر کردن داده‌ها در طول توسعه LLM و پیامدهای آن برای به تصویر کشیدن دیدگاه‌های متنوع در مدل‌های زبانی را برجسته کرده است.

هدف اصلی این مطالعه افزایش آگاهی در مورد جزئیات پیچیده‌ای است که در فرآیندهای پیش آموزشی داده‌ها، به ویژه در مورد عوامل اجتماعی در نظر گرفته می‌شود. این تیم بر نیاز به تحقیقات بیشتر در مورد روش‌های پیش‌آموزشی داده‌ها و پیامدهای اجتماعی آن تاکید کرده‌اند. چارچوب و مجموعه داده AboutMe ابزاری جدید است و نیاز به اثبات خود در آینده دارد.

لوگو الکتروهایو

الکتروهایو در خدمت مخاطبان عزیز می‌باشد. ما در تیم الکتروهایو در تلاش برای تهیه مقالات و مطالب به روز هستیم. لطفا برای مطالب و مقالات بیشتر با ما همراه باشید.

مطالب مرتبط:

داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی و تفسیر آن در بسیاری از زمینه‌ها از جمله آمار، علوم کامپیوتر، روانشناسی و بازاریابی ضروری است. این مقاله ویژگی‌ها، کاربردها و تفاوت‌های داده‌های اسمی

ادامه مطلب »
حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. حاشیه‌نویسی‌ها برچسب‌هایی هستند که داده‌ها را شناسایی و طبقه‌بندی می‌کنند یا قطعات مختلف اطلاعات را با یکدیگر مرتبط می‌کنند. الگوریتم‌های هوش مصنوعی از آنها به

ادامه مطلب »
هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و متنوع بودند. برخی از آنها کاملاً عشایری بودند و مرتباً موقعیت خود را تغییر می‌دادند. برخی از آنها فواصل بسیار زیادی را مهاجرت کردند، در

ادامه مطلب »
با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده در اطراف اشیاء شناسایی شده، مکان یک شی را در یک تصویر شناسایی و مکان‌یابی می‌کند. اهمیت تشخیص اشیاء را نمی‌توان به اندازه کافی بیان

ادامه مطلب »
با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی - سایت الکتروهایو

با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی

یادگیری ماشین (Machine Learning) و علم داده (Data Science) موضوعاتی هستند که در تمامی بخش‌های فناوری اطلاعات در مورد آن بحث و گفتگو وجود دارد. امروزه همه چیز در حال خودکار شدن است، و برنامه‌های کاربردی نیز به سرعت در

ادامه مطلب »
داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی ...

حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. ...

هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و ...

با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده ...

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی - سایت الکتروهایو

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی

تصویربرداری چند طیفی تکنیکی است که نور را در طیف وسیعی از باندهای طیفی، فراتر ...