Ускорение аудио для экономной транскрипции

Ускорение аудио (2x–3x) через ffmpeg перед отправкой на транскрипцию сокращает длительность файла и количество аудио-токенов.

Использование yt-dlp для извлечения аудио из видео, ffmpeg для повышения скорости и OpenAI API (gpt-4o-transcribe) позволяет быстро получить качественный текст.

•

🇷🇺 Hacker News Русский•June 25, 2025 at 05:59 PM

Ускорение аудио для экономной транскрипции

При скорости 2x и 3x качество транскрипции остаётся приемлемым, а стоимость снижается примерно на 23–33% по сравнению с обычной скоростью.

Четвёртая скорость (4x) слишком высокая и приводит к ошибкам в распознавании.

Мозг человека и модели ИИ компенсируют пропущенные при ускорении звуки, сохраняя смысловую целостность текста.

Экономия достигается за счёт уменьшения числа аудио-токенов (цена $6 за 1 млн аудио-токенов) при неизменном объёме выходных текстовых токенов (цена $10 за 1 млн текстовых токенов).

Subscribe to Similar Stories

Get notified when new stories are published for "🇷🇺 Hacker News Русский"

No Sign-In needed. One-Click Subscribe.