Les fichiers WAV en langage simple
Un fichier WAV est, dans le cas standard, de l’audio PCM brut non compressé avec un petit en-tête au-dessus. Il n’y a pas de codec, pas de modèle perceptuel, pas de compression. Les octets dans le fichier sont l’enregistrement. Cette simplicité est la raison pour laquelle chaque DAW et enregistreur de terrain sur la planète peut exporter WAV sans négociation, et c’est aussi pourquoi les fichiers WAV sont beaucoup plus volumineux que les fichiers MP3 ou M4A de même longueur.
Pourquoi le WAV est si volumineux
La taille du fichier est déterminée presque entièrement par trois chiffres : le taux d’échantillonnage (combien d’échantillons par seconde), la profondeur de bits (combien de bits par échantillon) et le nombre de canaux (mono ou stéréo). Un enregistrement stéréo de qualité CD d’une minute (44,1 kHz, 16 bits, deux canaux) fait 10,1 Mo. Un enregistrement de terrain 24 bits 96 kHz d’une minute fait environ 33 Mo. Un master stéréo 32 bits flottant d’une heure à 48 kHz peut atteindre environ 1,4 Go. Le WAV ne compresse pas, donc ces chiffres évoluent linéairement avec la durée.
Ce que cela signifie pour la reconnaissance vocale
Whisper large-v3 (le modèle que nous utilisons) rééchantillonne tout ce que vous lui donnez à 16 kHz mono avant la première étape d’inférence. Un WAV multicanal 32 bits flottant 192 kHz finit par être façonné exactement de la même manière qu’un appel téléphonique mono 16 kHz par le modèle. Dans nos tests, la différence de qualité de transcription entre un WAV mono 16 kHz et un WAV stéréo 96 kHz 24 bits du même discours est statistiquement nulle. Ce qui change, c’est votre temps de téléchargement et votre budget de taille de fichier.
Quand le non compressé aide vraiment
Il y a une situation où le WAV bat un MP3 à faible débit pour la transcription : l’audio marginal. Voix très faibles, bruit ambiant important, coupures d’un micro-cravate défectueux. Les encodeurs MP3 à faible débit éliminent exactement la queue haute fréquence que Whisper utilise parfois pour désambiguïser les fricatives (sons s, f, sh). Si vous avez déjà un enregistrement qui se transcrit mal en MP3, la version WAV récupère parfois des mots que la copie compressée a manqués. Pour l’audio de studio propre à tout débit raisonnable, vous ne verrez pas la différence.
La variante Broadcast Wave (BWF)
Les enregistreurs de terrain professionnels (Sound Devices, Zaxcom, modèles pro récents de Tascam et Zoom) écrivent des Broadcast Wave, qui sont des WAV réguliers avec des morceaux de métadonnées supplémentaires : le morceau bext contient le timecode et les informations d’origine, iXML transporte les numéros de scène et de prise, parfois il y a un morceau chna pour le nommage multicanal. Mictoo lit les fichiers BWF de la même manière que tout autre WAV. Les métadonnées sont ignorées à des fins de transcription, l’audio est transcrit, et votre fichier original sur votre disque n’est jamais touché ou réécrit.