Czego ucho nie słyszy...

Do zapisu i transmisji dźwięku w formacie MP3 wykorzystywana jest interesująca metoda stratnej kompresji danych, opracowana w rezultacie wnikliwych badań ludzkiego słuchu.

Cyfrowy zapis oraz transmisja dźwięków i ruchomych obrazów stanowi podstawowy problem technologiczny w systemach telewizji satelitarnej i DVD. Duża ilość danych oraz konieczność ich przesyłania i obrabiania w czasie rzeczywistym wymusiły zastosowanie efektywnych algorytmów kompresji nawet kosztem strat informacji. Popularny format kodowania dźwięku, znany jako MP3, jest w istocie przykładem zastosowania standardów MPEG, opracowanych głównie na użytek telewizji cyfrowej.

Wysoka wierność

Przypomnijmy sobie kilka podstawowych faktów, dotyczących naszego zmysłu słuchu. Powszechnie wiadomo, że słyszymy dźwięki o częstotliwości od 20 Hz do 20 kHz, przy czym z wiekiem wyraźnie pogarsza się słyszenie wyższych tonów (powyżej 14-16 kHz). Ucho ludzkie jest najbardziej czułe na częstotliwości od 2 do 4 kHz. Logarytmicznie wyrażony stosunek maksymalnego natężenia dźwięku (wywołującego już ból) do najcichszego, jeszcze słyszalnego dźwięku, nazywany jest dynamiką. Osiągnięcie przez sprzęt grający dynamiki 96 dB i pasma przenoszenia od 20 Hz do 20 kHz jest jednym z wymogów na spełnienie norm hi-fi.

Cyfrowy zapis dźwięku bez kompresji, stosowany na płytach CD, wykonywany jest po spróbkowaniu sygnału analogowego z częstotliwością 44 100 Hz (wybraną zgodnie z tzw. kryterium Nyquista) za pomocą 16-bitowego przetwornika A/C. Jeżeli nagrywamy dwa osobne kanały stereo, łatwo obliczyć, że do zapisania 1 minuty muzyki musimy wykorzystać ponad 10 MB pamięci. Szybkość transmisji, niezbędna do zapisania i odtworzenia danych w czasie rzeczywistym, wynosi ponad 1,4 Mb/s (2 kanały x 44 100 próbek x 16 bitów).

Akustyka elektryczna

Dźwięk przetworzony na sygnał elektryczny jest zmiennym w czasie przebiegiem napięcia. Jego wartość chwilowa (poziom tzw. obwiedni sygnału) stanowi złożenie teoretycznie nieskończonej liczby składowych sinusoidalnych (harmonicznych). Poszczególne składowe można wydzielić z sygnału za pomocą selektywnych filtrów albo wyliczyć je matematycznie, znając przebieg sygnału w określonym czasie. Poddając obwiednię sygnału akustycznego próbkowaniu, uzyskujemy dane, dzięki którym możliwe jest wydzielenie z niego częstotliwości składowych. Najbardziej znanym algorytmem realizującym to zadanie jest szybka transformata Fouriera (FFT).

Taka analiza sygnału powoduje powstanie dość obszernego zbioru informacji, pozornie więc nie prowadzi to do kompresji. Sekret zmniejszenia ilości informacji leży w możliwości wyeliminowania z tego zbioru danych zbędnych, odpowiadających dźwiękom nie słyszanym przez większość potencjalnych odbiorców.

—

Info
Grupy dyskusyjne
Uwagi i komentarze do artykułu:
#
Pytania techniczne:
#
Internet:
Serwisy dotyczące MP3
http://mp3.com.pl/
http://mp3.wp.pl/
http://www.mp3-tech.org/
Testy koderów MP3
http://www-stud.fht-esslingen.de/~alkoit00/mp3enc/
http://www.lion-art.com.pl/mp3/test.html
http://www.tecchannel.de/multimedia/186/
http://friko4.onet.pl/ld/aewich/mtest.html
Na CHIP-CD w dziale Software| Kodery MP3 znajduje się większość testowanych programów, arkusz z wynikami testów i danymi dotyczącymi producentów poszczególnych narzędzi oraz specyfikacja formatu MPEG-1 layer 3.