Ускорение аудио (2x–3x) через ffmpeg перед отправкой на транскрипцию сокращает длительность файла и количество аудио-токенов.
Использование yt-dlp для извлечения аудио из видео, ffmpeg для повышения скорости и OpenAI API (gpt-4o-transcribe) позволяет быстро получить качественный текст.
При скорости 2x и 3x качество транскрипции остаётся приемлемым, а стоимость снижается примерно на 23–33% по сравнению с обычной скоростью.
Четвёртая скорость (4x) слишком высокая и приводит к ошибкам в распознавании.
Мозг человека и модели ИИ компенсируют пропущенные при ускорении звуки, сохраняя смысловую целостность текста.
Экономия достигается за счёт уменьшения числа аудио-токенов (цена $6 за 1 млн аудио-токенов) при неизменном объёме выходных текстовых токенов (цена $10 за 1 млн текстовых токенов).
Get notified when new stories are published for "🇷🇺 Hacker News Русский"