Το έγγραφο παραθέτει την εξέλιξη των βασικών LLMs από το GPT-2 έως σήμερα.
Το GPT-3 (175B παραμέτρους) εκπαιδεύτηκε σε περίπου 400 δισεκατομμύρια tokens.
Το LLaMA παρουσίασε μεγέθη από 7B έως 65B, ενώ το Llama-3.1 έφτασε τις 405B παραμέτρους με συνολικά 3,67T tokens.
Η τεχνική ανάσχισης (annealing) και ο σχεδιασμός Mixture-of-Experts (MoE) χρησιμοποιούνται για τη βελτίωση της απόδοσης των μοντέλων.
Νέα MoE μοντέλα (π.χ. Mixtral, DeepSeek-V3, DBRX) προσφέρουν εκατοντάδες δισεκατομμύρια παραμέτρους με ενεργοποίηση μικρότερου πλήθους.
Η διαθεσιμότητα ανοικτών MoE μοντέλων επιταχύνει την πρόσβαση σε μεγάλους LLMs από ευρύτερο κοινό.
Υπάρχουν αβεβαιότητες για τη σύγκριση MoE με πυκνά μοντέλα, ενώ νέες αρχιτεκτονικές και τεχνικές synthetic data αναμένονται να διαμορφώσουν το μέλλον των LLMs.
Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"