متا روز پنجشنبه نسل بعدی مدلهای هوش مصنوعی (AI) خود را با نامهای Llama 3 8B و 70B معرفی کرد. Llama 3 که برای Meta AI مدل Large Language کوتاه شده است، دارای قابلیتهای بهبود یافته نسبت به نسخه قبلی خود است.
این شرکت همچنین روشهای آموزشی جدیدی را برای بهینهسازی کارایی مدلها اتخاذ کرد. جالب اینجاست که با Llama 2، بزرگترین مدل 70B بود، اما این بار این شرکت گفت که مدل های بزرگ آن بیش از 400 میلیارد پارامتر دارند. شایان ذکر است، گزارشی در هفته گذشته نشان داد که متا از مدلهای کوچکتر هوش مصنوعی خود در ماه آوریل و مدلهای بزرگتر خود در اواخر تابستان رونمایی خواهد کرد.
متا Llama 3 در دسترس است
کسانی که علاقه مند به آزمایش مدل های جدید هوش مصنوعی هستند خوش شانس هستند زیرا متا رویکرد جامعه اول را با متا Llama 3 در پیش گرفته است. مدل های پایه جدید درست مانند مدل های قبلی منبع باز خواهند بود. متا در پست وبلاگ خود اظهار داشت: مدل های Llama 3 بهزودی در AWS، Databricks، Google Cloud، Hugging Face، Kaggle، IBM WatsonX، Microsoft Azure، NVIDIA NIM و Snowflake و با پشتیبانی از پلتفرم های سخت افزاری ارائه شده توسط AMD، AWS، Dell، Intel، NVIDIA و Qualcomm دردسترس است.
مارک زاکربرگ متا کوئست ۳ را بهتر از اپل ویژن پرو می داند.
این لیست شامل تمامی پلتفرمهای ابری، میزبانی و سختافزاری اصلی میشود که میتواند دستان علاقهمندان به مدلهای هوش مصنوعی را آسانتر کند. علاوه بر این، متا همچنین Llama 3 را با هوش مصنوعی متا خود ادغام کرده است که می تواند از طریق مسنجر فیس بوک، اینستاگرام و واتس اپ در کشورهای پشتیبانی شده قابل دسترسی باشد.
عملکرد و معماری متا لاما 3
با آمدن به عملکرد، غول رسانه های اجتماعی امتیازات معیار Llama 3 را هم برای مدل های از پیش آموزش دیده و هم مدل های آموزشی خود به اشتراک گذاشت. به عنوان مرجع، هوش مصنوعی مکالمه ای از قبل آموزش دیده است، در حالی که مدل های آموزشی با هدف تکمیل وظایف خاص هستند. مدل از پیش آموزش دیده Llama 3 70B در معیارهای MMLU (79.5 در مقابل 71.8)، BIG-Bench Hard (81.3 در مقابل 75.0) و DROP (79.7 در مقابل 74.1) از Gemini 1.0 Pro گوگل پیشی گرفت. مدل 1.5 Pro در معیارهای MMLU، HumanEval و GSM-8K، بر اساس داده های به اشتراک گذاشته شده توسط شرکت.
متا برای مدلهای جدید هوش مصنوعی معماری ترانسفورماتور فقط رمزگشا را انتخاب کرده است، اما نسبت به مدلهای قبلی پیشرفتهای زیادی داشته است. Llama 3 اکنون از یک توکن ساز با واژگانی از 128 هزار توکن استفاده می کند و این شرکت توجه پرس و جو گروهی (GQA) را برای بهبود کارایی استنتاج اتخاذ کرده است. GQA به بهبود توجه هوش مصنوعی کمک می کند تا هنگام پاسخ دادن به پرس و جوها خارج از چارچوب تعیین شده خود حرکت نکند. این غول رسانه های اجتماعی مدل ها را با بیش از 15T توکن از قبل آموزش داده است که ادعا می کند آنها را از داده های در دسترس عموم تهیه کرده است.