دوتا فاکتور اساسی در رتبه بندی مدل های زبانی اهمیت دارن
🌕 میزان هزینه و پارامترها
🌕 نوع عملکردش
به طور کلی تا الان برای اینکه ما مدل هایی داشته باشیم که عملکرد بهتری دارن مجبور بودیم که تعداد پارامترهارو بیشتر کنیم و افزایش تعداد پارامتر هم یعنی افزایش هزینه های اون مدل
اما چند وقت پیش میسترال مدلی رو داد که به این مدل ها میگن MOE یا Mixture of experts منظور این هست که این مدل ها در آن واحد از همه پارامتر ها استفاده نمیکنن و براساس نیاز کاربر یک سری از پارامتر هارو فعال میکنن
این رویکرد باعث کاهش هزینه ها میشه
میسترال مدل قبلی که این سبکی داد 8×7b بود حالا اخیرا مدل 8×22b رو منتشر کرده که با افزایش خیلی کم در تعداد پارامترها و هزینه ها عملکرد بسیار بهتری داره!
توی بنچ مارک ها این مدل عملکرد بسیاااز خوبی نشون داده و از LLaMA 2 70B بسیار بهتر بوده با هزینه و پارامتری بسیار کمتر
چیزی که مشخصه هر روز داریم به سمتی میریم که هوش مصنوعی های اوپن سورس بیشتر و بیشتر در دسترس عموم قرار بگیرن و نیاز نباشه برای استفاده ازشون از کامپیوترهای خیلی قوی استفاده کرد
همون ترندی که توی اغلب تکنولوژی ها قبلا هم شاهد بودیم مثل ابزارهای ذخیره سازی داده که قبلا توی یه کامیون جا میشدن و الان توی جیب!
منتهی این سری روند این تغییرات خیلی سریع تر از تکنولوژی های قبلی هست
🌕 میزان هزینه و پارامترها
🌕 نوع عملکردش
به طور کلی تا الان برای اینکه ما مدل هایی داشته باشیم که عملکرد بهتری دارن مجبور بودیم که تعداد پارامترهارو بیشتر کنیم و افزایش تعداد پارامتر هم یعنی افزایش هزینه های اون مدل
اما چند وقت پیش میسترال مدلی رو داد که به این مدل ها میگن MOE یا Mixture of experts منظور این هست که این مدل ها در آن واحد از همه پارامتر ها استفاده نمیکنن و براساس نیاز کاربر یک سری از پارامتر هارو فعال میکنن
این رویکرد باعث کاهش هزینه ها میشه
میسترال مدل قبلی که این سبکی داد 8×7b بود حالا اخیرا مدل 8×22b رو منتشر کرده که با افزایش خیلی کم در تعداد پارامترها و هزینه ها عملکرد بسیار بهتری داره!
توی بنچ مارک ها این مدل عملکرد بسیاااز خوبی نشون داده و از LLaMA 2 70B بسیار بهتر بوده با هزینه و پارامتری بسیار کمتر
چیزی که مشخصه هر روز داریم به سمتی میریم که هوش مصنوعی های اوپن سورس بیشتر و بیشتر در دسترس عموم قرار بگیرن و نیاز نباشه برای استفاده ازشون از کامپیوترهای خیلی قوی استفاده کرد
همون ترندی که توی اغلب تکنولوژی ها قبلا هم شاهد بودیم مثل ابزارهای ذخیره سازی داده که قبلا توی یه کامیون جا میشدن و الان توی جیب!
منتهی این سری روند این تغییرات خیلی سریع تر از تکنولوژی های قبلی هست