Accélérer l’audio (2x ou 3x) avec ffmpeg avant transcription permet de réduire la durée en secondes et le nombre de tokens facturés, tout en conservant une qualité satisfaisante.
L’API OpenAI (gpt-4o-transcribe) limite la durée à 25 minutes, mais en doublant ou triplant la vitesse on respecte cette contrainte sans couper le contenu.
Les coûts de transcription se composent de tokens audio (6 $ par million) et de tokens texte (10 $ par million) ; réduire la durée audio de 33 % avec 3x entraîne une économie notable.
Les tests montrent que 2x et 3x offrent un bon compromis entre fidélité et économie, alors que le 4x devient rapidement inutilisable.
Le coût par 40 minutes passe d’environ 0,24 $ à 0,08 $ en 3x, soit une économie de 67 % par rapport à whisper-1 pour un fichier ajusté à la limite.
Cette méthode est simple à mettre en œuvre avec yt-dlp, ffmpeg et l’API OpenAI, et peut être appliquée à tout contenu audio ou vidéo.
Get notified when new stories are published for "🇫🇷 Hacker News Français"