Aumentar a velocidade do áudio para 2x ou 3x antes de enviar à OpenAI reduz a duração do ficheiro e, consequentemente, o custo da transcrição.
Ferramentas usadas incluem yt-dlp para extração de áudio, ffmpeg para aceleração e compactação, e a API de transcrição gpt-4o-transcribe da OpenAI.
A cobrança do modelo gpt-4o-transcribe baseia-se em tokens de áudio (input) e tokens de saída, pelo que menos segundos de áudio resultam em menos tokens e menor preço.
Velocidades de 2x e 3x mantêm uma qualidade de transcrição quase idêntica, enquanto 4x causa perdas significativas de fidelidade.
Comparativamente, o modelo whisper-1 é tarifado por minuto de áudio processado, mas o método de aceleração também pode reduzir custos nesse caso.
Get notified when new stories are published for "🇵🇹 Hacker News Português"