blog bestandsformaten

BLOG

Hertz en bit

Geluid kent in feite maar twee parameters:

1) toonhoogte (hoog en laag)

2) luidheid (hard en zacht).

In een WAV-bestand gaat de sample-frequentie (Hertz) over nummer 1, en de bit-diepte over nummer 2.

Met 48 kHz (48.000 Hertz) kun je het volledige frequentiebereik van het menselijk oor opnemen en weergeven. Dus van de laagste tot de hoogste hoorbare toonhoogte.

Met een bit-diepte van 16-bit is het dynamische bereik 96 decibel. Dynamisch bereik is simpel gezegd de afstand tussen hoe hard en hoe zacht het kan. Voor voice-over-opnames is dat ruim voldoende. Voor muziek in principe ook want alle audio-cd's werken met 16-bit. Tegenwoordig is 24-bit steeds meer gangbaar aan het worden. Daarmee is het dynamische bereik vergroot naar 144 decibel. Dat betekent dat je geluid digitaal kunt opnemen en weergeven van onhoorbaar zacht tot voorbij de pijngrens.

Als je die waardes verhoogt, bijvoorbeeld 96 kHz en 32-bit, zullen weinig mensen verschil in kwaliteit horen. Als je de waardes verlaagt, zal het kwaliteitsverschil wel snel opgemerkt worden. Met de meeste DAW's kun je dat zelf uitproberen door te bouncen of exporteren in bijvoorbeeld 22000 Hz en 8-bit. Wat je vooral zult merken: hoe lager de sample-frequentie hoe minder hoge tonen je zult horen.

Maar 8000 Hertz en 8-bit voor een telefoonlijn is dan hartstikke laag toch? Dat is toch slechte kwaliteit? Wel als je het over goede luidsprekers afluistert ja. Maar via een telefoon zijn we niet anders gewend. Het essentiële toonhoogtegebied van spraak, waar de verstaanbaarheid zit, kan voldoende worden weergegeven met 8000 Hertz sample-frequentie.

Laten we nog even wat dieper duiken in die sample-frequentie. Die wordt uitgedrukt in Hertz (Hz) en kiloHertz (kHz). Om het hele hoorbare spectrum te kunnen opnemen en weergeven, moet die minimaal 40.000 Hertz, oftewel 40 kHz zijn. In praktijk werken we met 44.1 khz en 48 kHz (waarom precies die getallen doet er nu even niet toe).

Een sample is in dit geval een soort digitale 'foto van het geluid'. Bij 48 kHz worden er 48.000 samples (geluidsfoto's) per seconde opgenomen/afgespeeld.

Waar verwarring over kan ontstaan: de trilling van een klinkende toon drukken we óók uit in Hertz. Een stemvork (A) is 440 Hertz en trilt dus 440 keer per seconde, en de bekende sinus-testtoon van 1000 Hertz laat de conus van je luidspreker, het membraan van je microfoon en de trommelvliezen in je oren precies duizend keer per seconde trillen.

Die frequentie van dat trillen van die toon is wezenlijk wat anders dan het aantal samples dat per seconde wordt gemaakt. Beide worden uitgedrukt in Hertz, maar ze zijn dus niet hetzelfde.

Een toon met een toonhoogte van 1000 Hertz kun je opnemen met een sample-frequentie van 48.000 Hertz. Die toon trilt dus 1000 keer per seconde en daar maken we 48.000 keer per seconde een sample van.

Wat heb je als voice-over of opdrachtgever aan al deze informatie?

'Goede geluidskwaliteit' is minimaal 44.1 kHz / 16-bit. Dat is gelijk aan cd-audio.
Lagere kwaliteit dan 44.1 kHz en 16-bit wordt alleen gebruikt bij telefoonsystemen en sommige internet-toepassingen en games.
44.1 kHz is van oudsher de cd-norm en wordt vooral bij muziektoepassingen gebruikt. 48 kHz is meer toegepast in de (digitale) video-wereld en daardoor is het gebruikelijk om voice-over-opnames die gebruikt worden in video- of tv-toepassing aan te leveren in 48 kHz.
24-bit biedt een groter dynamisch bereik dan 16-bit. Voor reguliere voice-over-toepassingen zijn beide geschikt, maar op het moment is 24-bit meer gangbaar aan het worden. In sommige telefoonsystemen wordt 8-bit gebruikt.
Voice-over wordt vrijwel altijd opgenomen met 1 microfoon op 1 spoor en is daarmee dus mono. Daarom is het gebruikelijk voice-over-opnames aan te leveren als mono-bestand (1 spoor).

gangbare bestandsformaten

De bestandsformaten die voor geluid op dit moment het meest worden gebruikt, zijn: WAV en MP3.

Het formaat AIF (of AIFF) wordt ook nog wel gebruikt, maar is niet meer zo populair als het was. Oorspronkelijk werd AIFF gebruikt op Apple computers en WAV op PC-Windows computers. Maar sinds de audio-software op Mac met WAV-bestanden net zo kon omgaan als met de AIF’s, verviel de noodzaak om de twee bestanden naast elkaar te handhaven.

Er is geen kwaliteitsverschil tussen een WAV en een AIFF, zolang ze dezelfde specificaties hebben. Dus een WAV van 44.1 kHz / 16-bit klinkt precies even goed als een AIFF van 44.1 kHZ / 16-bit. Dit zijn de specificaties van een audio-cd, en dit wordt daarom ook cd-kwaliteit genoemd.

Een WAV-bestand volgens cd-specificaties en een minuut lengte, heeft een bestandsgrootte van 5 MB. Per spoor. Dus een stereobestand (twee sporen) heeft een grootte van 10 MB per minuut lengte. Dat betekent dat een gemiddeld popliedje van 3 tot 4 minuten een bestandsgrootte heeft van 30 tot 40 MB.

Dat was in de jaren negentig van de vorige eeuw, toen dit in zwang kwam, een gigantisch groot bestand. Daarom werd er een nieuw bestandsformaat voor geluid ontwikkeld: de MP3.

Een MP3 was maar een tiende van de grootte van een WAV-bestand, terwijl de geluidskwaliteit niet heel veel slechter was. Wie goede oren, en goede luidsprekers heeft, en een WAV met een MP3 naast elkaar vergelijkt, hoort echt wel verschil; maar voor veel toepassingen was een MP3 goed genoeg tot ruim voldoende. Om te mailen bijvoorbeeld, en te up/downloaden.

Toch is niet elke MP3 even goed van kwaliteit. Het maken (encoderen) van een MP3 wordt via software gedaan. En niet alle software doet dat even goed.

Verder kun je kiezen voor verschillende bit-rates waarmee de MP3 wordt aangemaakt. In het begin was 128 kbps (kilobit per seconde) de standaard. Later werden de hogere kwaliteiten als 192 kbps, 256 kbps en 320 kbps meer gangbaar. Hoe hoger die bit-rate, hoe beter de kwaliteit. 320 kbps is het hoogst, maar levert ook de grootste bestanden op. Een MP3 van 1 minuut op 320 kbps heeft een bestandsgrootte van 2,40 MB. Ongeveer een kwart van de grootte van een WAV dus.

wanneer welk formaat?

In de meeste situaties wordt een stemopname gedaan in het bestandsformaat WAV. Daarbij wordt per project bepaald of er in 44.1 of 48 kHz wordt opgenomen, en in 16 of 24 bit. Een heel enkele keer vraagt een studio om een hogere sample-frequentie, zoals 88,2 of 96 of zelfs 192 kHz maar dit komt echt maar zelden voor.

De gouden regel is om zo weinig mogelijk te converteren. Als de opname gebruikt gaat worden in een video waarbij de geluidsinstellingen op 48 kHz / 24-bit staan ingesteld, dan ligt het voor de hand om de stemopname volgens diezelfde waardes te doen.

Aanleveren als WAV-bestand is gebruikelijk bij radio, tv, video-producties, muziekproducties en voice-response-systemen (telefoonlijnen).

Het aanleveren in MP3-formaat wordt gedaan voor sommige telefoonsystemen en voor toepassingen waar het van belang is dat de bestandsgrootte zo klein mogelijk is. Met name bij games, apps en internet-toepassingen kan dat een rol spelen.

Belangrijk om te weten: MP3 is een gecomprimeerd formaat en heeft een lagere geluidskwaliteit dan een WAV. Dat kwaliteitsverlies is blijvend. Het is dus niet zo dat de kwaliteit die verloren is gegaan weer hersteld wordt als de MP3 wordt terug-geconverteerd naar WAV.

Samenvattend

als bestandsgrootte geen rol speelt, gebruik dan altijd WAV (minstens 44.1 kHz / 16-bit). Als bestandsgrootte wel een rol speelt, en een WAV op 44.1 kHz / 16-bit te groot is, dan is het raadzaam om de WAV te converteren naar een MP3.

Een MP3 met een resolutie van minimaal 160 kbps heeft een betere geluidskwaliteit dan een WAV met een lagere sample-frequentie dan 44.1 kHz.

30 september 2020

terug naar blog-overzicht

willem@topvoice.nl

+31652395778