OpenAI nalicza opłaty za transkrypcję na podstawie długości nagrania lub liczby tokenów.
Przyspieszenie audio do 2× lub 3× przed wysłaniem do API zmniejsza liczbę tokenów audio i koszty transkrypcji.
Jakość transkrypcji przy 2×–3× spadła minimalnie i pozostaje wystarczająca do zrozumienia treści.
Model gpt-4o-transcribe ma limit 25 minut nagrania, więc przyspieszenie audio pozwala zmieścić dłuższe pliki.
Przyspieszenie do 3× przyniosło oszczędność około 23% kosztów w porównaniu do transkrypcji 1×.
Przekroczenie 3× (np. 4×) powoduje znaczne zniekształcenia i pogorszenie jakości transkrypcji.
Autor udostępnia skrypt wykorzystujący yt-dlp, ffmpeg i API OpenAI do automatyzacji procesu.
Ludzki mózg i modele AI tolerują utratę niektórych dźwięków przy przyspieszonym odtwarzaniu.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"