RL per i LLM è un’estensione semplice del fine-tuning supervisionato con l’aggiunta di esempi negativi e perdita di divergenza KL.
Il fine-tuning supervisionato (SFT) è in realtà un sottoinsieme del RL e diventa RL non appena si usano esempi negativi.
Le varianti DPO e GRPO implementano RL usando coppie o gruppi di risposte con pesi scalati per premiare o penalizzare in modo diverso ogni risposta.
+4 more insights
LinkedIn premia la mediocrità tossica con contenuti sovraprodotti e privi di sostanza.
L’algoritmo favorisce l’engagement superficiale a scapito dei post di valore.
Postare costantemente nonsense per ottenere like non incide davvero sulla carriera.
+3 more insights
L’autore ha inizialmente provato Electric con PGlite per avere PostgreSQL in browser ma ha riscontrato avvii lenti e instabilità con le query live.
Per un’app di note single-player è sufficiente un motore di sincronizzazione minimale basato su polling JSON e tracciamento delle modifiche.
La sincronizzazione invia periodicamente al server i record con updated_at più recenti e segna le modifiche tramite un flag booleano.
+1 more insights
Wan2.2 introduce un’architettura Mixture-of-Experts (MoE) per aumentare la capacità del modello mantenendo costi di calcolo invariati.
Wan2.2 utilizza dati estetici curati con etichette dettagliate per controllare stili cinematografici.
Il modello è addestrato con +65,6% di immagini e +83,2% di video rispetto alla versione precedente, migliorando movimento e qualità .
+3 more insights
La Corte Suprema degli Stati Uniti ha autorizzato le città a punire chi dorme all'aperto.
San Francisco è stata tra le più aggressive nell'applicazione di questa nuova norma.
Le autorità locali hanno intensificato lo smantellamento degli accampamenti di senzatetto.
Node.js v22.18.0 abilita per default la rimozione dei tipi TypeScript, consentendo di eseguire file .ts senza configurazioni aggiuntive.
La funzione sperimentale di type stripping può essere disabilitata con il flag --no-experimental-strip-types.
È stato implementato import.meta.main per i moduli ESM.
+6 more insights
Jim Sanborn descrive la sua scultura Kryptos alla CIA come un’opera di spionaggio oltre che d’arte.
Il codice inciso su Kryptos rimane in gran parte irrisolto dopo 35 anni.
Secondo l’artista, il mistero del codice ha causato divorzi, minacce e visite indesiderate.
+2 more insights
X-CMD è uno script POSIX leggero che consente di gestire oltre 500 strumenti open source in un'unica interfaccia.
Offre estensioni interattive TUI per comandi standard come ls, ps, cd, stat, path, docker e git.
Non richiede privilegi root e ha un core di soli 1,1 MB, con download on demand degli strumenti.
+2 more insights
Il Dipartimento dell’Energia USA potrebbe far pagare ai consumatori 3,1 miliardi di dollari all’anno per mantenere attive le centrali a combustibili fossili.
La stima si basa sul costo medio di 89 315 $/MW-anno ricavato da contratti di affidabilità recenti.
Gli stati con i costi potenziali più alti entro il 2029 sono California, Texas, Colorado, Michigan, Louisiana e Illinois.
+2 more insights
Hyundai offre agli acquirenti di Ioniq 5 un aggiornamento software e hardware opzionale per patch di sicurezza al costo di £49.
La patch serve a contrastare dispositivi hardware che sfruttano protocolli wireless per aprire a distanza veicoli come Ioniq 5, EV6 e GV60.
L’offerta è disponibile nel Regno Unito, mentre negli Stati Uniti non esiste un’opzione analoga.
+3 more insights