FreeWilly, veliki, snažan i fino instruiran LLM iz Stability AI-a

24. srpnja 2023.

2 Mins Read

1.4K Views

FreeWilly, veliki, snažan i fino instruiran LLM iz Stability AI-a

Stability AI te njihov inhouse laboratorij CarperAI nedavnu su predstavili FreeWilly1 i FreeWilly2.

Oba su to nova, slobodno dostupna, velika jezična modela (LLM).

FreeWilly1 koristi originalni temeljni model LLaMA 65B i pažljivo je te fino podešen s novim sintetički generiranim skupom podataka.

Slično tome, FreeWilly2 koristi temeljni model LLaMA 2 70B i postiže performanse koje se mogu usporediti s GPT-3.5 za neke zadatke.

Ovi modeli su eksperimenti u istraživanju i pušteni su u svrhu poticanja otvorenog istraživanja pod nekomercijalnom licencom.

Iako su kreatori proveli unutarnje crveno testiranje kako bi osigurali da model ostane pristojan i bezopasan, dobrodošla je povratna informacija zajednice i pomoć u daljnjem crvenom testiranju.

Generiranje i prikupljanje podataka za FreeWilly modele bilo je izravno inspirirano metodologijom koju je Microsoft pionirski razvio u svom radu: “Orca: Progresivno učenje iz složenih tragova objašnjenja GPT-4.” Iako je njihov proces generiranja podataka sličan, razlikuje se u izvorima podataka.

Njihova varijanta skupa podataka, koja sadrži 600.000 podatkovnih točaka (otprilike 10% veličine skupa podataka koji je originalno koristio Orca), stvorena je poticanjem jezičnih modela visokokvalitetnim uputama iz sljedećih skupova podataka koje je stvorio Enrico Shippole: COT Submix Original, NIV2 Submix Original, FLAN 2021 Submix Original, T0 Submix Original.

S ovim pristupom generirali su 500.000 primjera s jednostavnijim modelom LLM i dodatnih 100.000 s sofisticiranijim modelom LLM.

Da bi osigurali poštene usporedbe, pažljivo su filtrirali ove skupove podataka i uklonili primjere koji potječu iz evaluacijskih mjerila.

Unatoč tome što su trenirali na desetini veličine uzorka originalnog rada Orca (što značajno smanjuje troškove i ugljični otisak treniranja modela u usporedbi s originalnim radom), rezultirajući FreeWilly modeli pokazuju izvanredne performanse na različitim mjerilima – potvrđujući njihov pristup sintetički generiranim skupovima podataka.

Za unutarnju evaluaciju ovih modela koristili su EleutherAI-ov lm-eval-harness, na koji su dodali AGIEval.

Oba FreeWilly modela izvrsno se snalaze na mnogim područjima, uključujući složeno rasuđivanje, razumijevanje jezičnih suptilnosti i odgovaranje na složena pitanja vezana za specijalizirane domene, npr. pravo i matematičko rješavanje problema.

FreeWilly1 i FreeWilly2 postavljaju novi standard u polju slobodno dostupnih velikih jezičnih modela.

Oba značajno unapređuju istraživanje, poboljšavaju razumijevanje prirodnog jezika i omogućavaju složene zadatke.