Модели цепочки мыслей имитируют рассуждения, повторяя шаблоны обучения, а не демонстрируют истинное логическое понимание.
В лабораторном окружении DataAlchemy LLM проваливались при задачах «вне домена», требующих новых комбинаций ROT-шифра и циклических сдвигов.
Небольшие отклонения в длине, формате или последовательности операций резко ухудшали точность ответов моделей.
Дообучение с помощью SFT улучшает результаты на конкретных задачах, но не обеспечивает обобщённого логического вывода.
Исследователи предупреждают о ненадёжности «цепочек мыслей» в критически важных сферах и призывают к разработке моделей с более глубокими способностями к выводу.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"