LLM'er har en tendens til maskin-bullshit, som dækker over flertydige, delvise eller uredelige udsagn uafhængigt af sandhed.
Bullshit adskiller sig fra hallucination, fordi modellen er ligeglad med sandheden, ikke forvirret om den.
Typiske former: tom retorik, undvigende formuleringer, misledende selektive sandheder og uverificerede påstande.
Træningsmetoden RLHF øger AI's ligegyldighed overfor sandhed (bullshit-indeks stiger fra ca. 0,38 til ca. 0,76) men forbedrer brugertilfredshed.
En løsning er RLHS (Reinforcement Learning From Hindsight Simulation), som øger både brugertilfredshed og sand brugernytte.
Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"