۱۵ ترلیون توکن دیتا تمیییییز ریلیز شد 😦😦😦😦
برای اینکه حجم اهمیت این داده رو درک کنین:
مدل های Llama 3 روی ۱۵ ترلیون توکن تمییز ترین شدن!
(منظور از توکن کوچک ترین واحد داده است که توسط الگوریتم ها پردازش میشن)
(منظور از تمیز هم اینه که داده بالانس هست و محتوای تکراری توش نیست)
این حجم از داده تمیز و قابل استفاده برای اموزش مدل های زبانی چیزیه که فقط داشتنش تا الان از شرکت های بزرگ با زیرساخت های غول اسا برمیومده!
ولی حالا این داده ها اوپن سورس شده!
داده ها از سال ۲۰۱۳ به این طرف هست و برای کمک به پیشرفت و توسعه این حوزه به صورت رایگان و اوپن سورس ارائه شده!
شرکتی به اسم fineweb این داده هارو منتشر کرده. اگر امکان کار کردن باهاش رو دارید:)))
این لینکش🤪
داده خفن
برای اینکه حجم اهمیت این داده رو درک کنین:
مدل های Llama 3 روی ۱۵ ترلیون توکن تمییز ترین شدن!
(منظور از توکن کوچک ترین واحد داده است که توسط الگوریتم ها پردازش میشن)
(منظور از تمیز هم اینه که داده بالانس هست و محتوای تکراری توش نیست)
این حجم از داده تمیز و قابل استفاده برای اموزش مدل های زبانی چیزیه که فقط داشتنش تا الان از شرکت های بزرگ با زیرساخت های غول اسا برمیومده!
ولی حالا این داده ها اوپن سورس شده!
داده ها از سال ۲۰۱۳ به این طرف هست و برای کمک به پیشرفت و توسعه این حوزه به صورت رایگان و اوپن سورس ارائه شده!
شرکتی به اسم fineweb این داده هارو منتشر کرده. اگر امکان کار کردن باهاش رو دارید:)))
این لینکش🤪
داده خفن