Дон Кнут провел эксперимент с ChatGPT, задав 20 разнообразных вопросов для оценки его способностей.
Модель продемонстрировала высокий уровень стилистического мастерства, но допускала существенные фактические ошибки.
Наблюдались случаи уверенных, но полностью вымышленных ответов (галлюцинаций), например по биномиальным коэффициентам и структуре романа «The Haj».
Ответы на однородные вопросы часто включали одинаковые шаблоны, что выявило слабую оригинальность в отдельных местах.
Тестирование подтвердило разнообразие навыков модели: от поэтического письма до кулинарных рецептов, но с разной степенью точности.
По данным Дон Кнута и его коллег, GPT-4 показал ещё более впечатляющие результаты, но доступен за платой.
Эксперимент подчеркивает важность проверки фактов при использовании ИИ и риски распространения неправдоподобных «компьютерных вымыселов».
Дон Кнут призывает продолжать исследования в области разработки честных и достоверных методов в вычислительных науках.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"