pl | en

TECHNIKA

 

PLIKI HI-RES – niezbędny krok do nirwany czy nadmiarowy gadżet?

Czy pliki wysokiej częstotliwości to nadzieja świata audio? Jak działa nasz słuch i co z tym wspólnego ma wysoka częstotliwość próbkowania. O tym i o innych zagadnieniach współczesnej techniki opowie pan Paweł Piwowarski.

Kontakt: tel. 507 238 290

infado.com

POLSKA


liki wysokiej rozdzielczości (hi-res) są równie wielką nadzieją (przynajmniej znacznej części audiofilów) na wyraźne polepszenie jakości dźwięku, co przedmiotem bardzo sceptycznych opinii, szczególnie na gruncie techniki i fizjologii słuchu. W ramach tego artykułu temat materiału audio wysokiej rozdzielczości jest potraktowany z kilku różnych perspektyw, począwszy od komentarza dotyczącego słyszalności, poprzez nakreślenie kontekstu dotyczącego przełożenia parametrów audio na jakość dźwięku do finalnego spojrzenia od strony technologicznej. Jest też pierwszą częścią szerszego cyklu dotyczącego najciekawszych aspektów technologii współczesnego audio.

Jeden z lepszych systemów służących do odtwarzania wyłącznie plyt Compact Dics – transport CD Reimyo CDP-777 i przetwornik cyfrowo-analogowy DAP-999EX TOKU High Fidelity Edition

Materiał hi-res w naturze i jego słyszalność przez ucho – 44 100 Hz (CD) jednak nie wystarcza?

Opinia, wedle której pasmo powyżej 10 kHz, a tym bardziej powyżej 20 kHz zawiera niewielką ilość informacji muzycznej, jest mocno zakorzeniona. A jednak… Z badań naukowych wynika, że na przykład transjenty cymbałów zawierają znaczące składowe częstotliwościowe rozciągające się nawet powyżej 60 kHz. W transjentach trąbki grającej fortissimo występują składowe na poziomie 40 kHz, a w przypadku skrzypiec pojawiają się nawet przejściowe częstotliwości rzędu 100 kHz (por. Physical and perceptual considerations for high-resolution audio, czytaj TUTAJ [dostęp 19.09.2016]).

Jak więc widać niemało informacji muzycznej jest zawarte w częstotliwościach powyżej 20 kHz. Oczywiście natychmiast pojawia się pytanie: „Czy jesteśmy to w stanie usłyszeć ?” Aby na nie odpowiedzieć warto wspomnieć o rzadko poruszanej kwestii. Powszechnie cytowana słyszalność częstotliwości do 20 kHz wywodzi się z klasycznych badań słuchu, które opierają się na słyszalności tonów prostych. A przecież istnieje alternatywne spojrzenie na to zagadnienie od strony bardziej „dynamicznej”, to jest rozdzielczości czasowej ucha, a nie „statycznej” zawartości harmonicznych i słyszalności czystych tonów sinusoidalnych.

To spojrzenie może być bardziej adekwatne w przypadku sygnałów muzycznych niż perspektywa tonów prostych, ponieważ rzeczywiste sygnały muzyczne mają bardzo złożony przebieg w wyniku nałożenia się ataku i wybrzmiewania wielu instrumentów. Co ważniejsze ich spektrum częstotliwości bardzo różni się pomiędzy krótkim okresem początkowym ataku, czyli narastania dźwięku np. w wyniku szarpniętej struny lub uderzonego klawisza, a następującym po nim, dużo dłuższym czasem wybrzmiewania.

Istnieje duża grupa instrumentów, która cechuje się bardzo „transjentowym”, dynamicznym charakterem początkowej fazy wybrzmiewania dźwięku. Ksylofon, trąbka, cymbały czy uderzenia bębna osiągają poziomy dynamiczne pomiędzy 120 a 130 dB w przeciągu 10 μs lub poniżej [patrz: Specific Hearing Loss in Young Percussion and Brass Wind Players Due to Music Noise Exposures]. Jedno więc możemy stwierdzić na pewno - nie ma możliwości aby sample w jakości CD rozrzucone co 22,7 μs miały możliwość poprawnego oddania fazy ataku instrumentów muzycznych, która mieści się w połowie odległości pomiędzy dwoma kolejnymi samplami.

A faza ataku jest bardzo ważna dla odbioru dźwięku. W eksperymentach w których spreparowano próbki dźwięku instrumentów dętych w taki sposób, że połączono krótki czas ataku jednego instrumentu z długim wybrzmiewaniem innego instrumentu słuchacze rozpoznawali dźwięk jako pochodzący z instrumentu, z którego pochodził krótki fragment ataku.

Obwiednia dźwięku cymbałów uderzonych pałeczką – narastanie dźwięku jest praktycznie natychmiastowe, po którym następuje długie wybrzmiewanie o dość jednorodnym charakterze.

Patrząc od strony mechanizmów słyszenia można znaleźć informacje wskazujące, że sygnały o charakterze impulsowym (czyli generalnie transjenty), w odróżnieniu od tonów prostych, pobudzają znacznie większe obszary komórek słuchowych niż czyste tony sinusoidalne. W przypadku impulsów możliwa rozdzielczość czasowa ludzkiego ucha może sięgać 10 mikrosekund, co odpowiada częstotliwościom rzędu 100 kHz (więcej TUTAJ http://biology.stackexchange.com/questions/27662/what-is-the-human-ears-temporal-resolution [dostęp 19.09.2016]).

Powyższe informacje znajdują też potwierdzenie w opiniach uznanych praktyków. Art Dudley z magazynu „Stereophile” w ciekawym wywiadzie z cyklu The Editors jest zdania, że częstotliwość Nyquista nie ma zastosowania przy pracy filtrów decymacyjnych i rekonstrukcyjnych złożonego sygnału muzycznego (więcej TUTAJ). Jego zdaniem dwie próbki mogą być użyte do opisania pojedynczej częstotliwości, nie dają jednak wystarczającej gęstości próbek, aby opisać prędkość, z jaką sygnał narasta lub się zmniejsza – a to jest kluczowe dla rozróżnienia miedzy muzyką i zwykłym dźwiękiem.

Pliki hi-res a granica między sprzętem masowym i sprzętem audiofilskim

To pewnie może wydać się w pierwszym momencie zaskakujące, ale temat dotyczący plików hi-res to jednocześnie dyskusja o granicy pomiędzy masowym sprzętem audio i sprzętem audiofilskim. Jeżeli wziąć pod uwagę typowe parametry techniczne audio, czyli głównie pasmo przenoszenia i dynamikę (odstęp sygnału od szumu) możemy łatwo dojść do wniosku że, pomijając zmienne związane z fizjologią słuchu, nie potrzebujemy plików hi-res. Jednakże rozumując na dokładnie tej samej zasadzie urządzenia audiofilskie nie powinny się od siebie różnić, a tym bardziej wyróżniać dźwiękowo w stosunku do urządzeń audio z rynku masowego. A jednak są osoby gotowe zapłacić znacznie wyższe ceny za sprzęt, którego typowe parametry techniczne są podobne lub często wręcz nieco gorsze niż tańszych urządzeń z segmentu masowego.

A co najważniejsze w większości przypadków audiofile zgadzają się w opisie głównych atrybutów dźwięku danego urządzenia, choć wyrażonych w specyficznym opisowym słowniku, a nie ścisłych parametrach technicznych. Nasuwa się trudny do podważenia wniosek, że jeżeli pewne audiofilskie cechy dźwięku są spójnie odbierane przez dużą liczbę osób to jest duże prawdopodobieństwo, że stoją za tym konkretne zjawiska fizyczne, choć ich natura może być złożona i mogą być trudne do wyrażenia w prostych liczbowych parametrach, jak np. pasmo czy dynamika.

Jakie to mogą być zjawiska? Jeżeli klucz do zagadki nie leży w kwestiach parametrów w dziedzinie częstotliwości (pasmo przenoszenia) ani dynamiki (szum na niskim poziomie) to pozostaje w zasadzie tylko jeden kierunek – kwestie fazowe, czyli czasowe aspekty dźwięku. W zasadzie są to najbardziej fundamentalne parametry sygnału dźwiękowego, bo leżą u podstaw jego powstania – czyli jak faktycznie wygląda fala dźwiękowa w dziedzinie czasu. Jest to pytanie na ile wiernie wykres takiej fali dźwiękowej odpowiada fali dochodzącej do mikrofonu rejestrującego dane nagranie.

Odtwarzacz płyt dCS Rossini – odtwarza płyty CD, ale jest także odtwarzaczem plików, w tym wysokiej rozdzielczości

Niuanse barwy dźwięku w największym stopniu są kształtowane przez jego obwiednię, czyli kształt fali dźwiękowej charakterystyczny dla każdego instrumentu. I nie chodzi tu tylko o prostą analizę zawartości tzw. harmonicznych a bardziej o aspekty dynamiczne, głównie tzw. atak, czyli sposób narastania dźwięku w momencie jego powstawania. Nietrudno sobie wyobrazić, że ten przebieg narastania amplitudy dźwięku będzie zupełnie inny dla instrumentów dętych, smyczkowych czy szarpanych. To bardzo subtelna struktura transjentów, która na przestrzeni bardzo krótkiego czasu uderzenia nowego tonu danego instrumentu muzycznego przekazuje gros informacji o jego barwie i teksturze. Badania pokazują, że ucho ludzkie jest najbardziej wrażliwe na początkową część impulsu pojawiającego się dźwięku muzycznego.

Wszelkie zaburzenia lub zabrudzenia tej wrażliwej struktury czasowej prowadzą do zauważalnej utraty jakości dźwięku z perspektywy osób wrażliwych na aspekty audiofilskie, takie jak niuanse w wierności oddania barwy instrumentów.

W poszukiwaniu straconych transjentów

Wracając do kwestii technicznych generalnie powiedzieć, że standard CD (o parametrach 16 bitów i 44,1 kHz) naprawdę dobrze dba o spełnienie „przemysłowych” standardów jakości audio, natomiast bardzo utrudnił, ale częściowo uniemożliwił osiągnięcie bezkompromisowej jakości dźwięku.

Wynika to głownie z tego, że częstotliwość próbkowania w standardzie CD jest umiejscowiona bardzo blisko maksymalnej częstotliwości przyjmowanej jako słyszalna przez ucho ludzkie, czyli 20 kHz. W praktyce oznacza to, że mamy bardzo małe pole do wykonania niezbędnego przetwarzania dźwięku (DSP) w ramach konwersji C/A, które realizuje każdy DAC. To bardzo ważna i wcale nieoczywista kwestia, bo dlaczego potrzebujemy w tym miejscu toru (C/A) jakiegoś „DSP”?

Rzecz w tym, że częstotliwość próbkowania 44,1 kHz wystarczy matematycznie do uchwycenia i.n.f.o.r.m.a.c.j.i dźwiękowej do 20 kHz, ale w momencie odtwarzania dźwięku musimy umiejętnie zrekonstruować c-i-ą-g-ł-ą falę dźwiękową z tych punktów (próbek cyfrowych) rozsianych co 1/44000 sekundy.W praktyce jest to realizowane w postaci dość prostej (od strony technicznej) operacji DSP w postaci filtru dolnoprzepustowego. Natomiast bardzo istotne jest to, że generalnie parametry filtrów z perspektywy audio można rozpatrywać jako połączenie dwóch kompromisów – parametrów częstotliwościowych i czasowych. Im bardziej wyżyłowane, agresywne parametry w dziedzinie częstotliwości, tym większe występują zniekształcenia w dziedzinie czasu i tym większym uszkodzeniom ulega subtelna tekstura dźwięku, której istotność opisałem powyżej.

Standard CD praktycznie wymusza stosowanie agresywnych filtrów (tzw. filtrów wysokiego rzędu o stromym zboczu) w dziedzinie częstotliwości, ponieważ zostawia bardzo małą rezerwę, zaledwie 10% (2,05 kHz wynikające z różnicy pomiędzy 22,05 kHz - max. częstotliwość próbkowania - i 20 kHz- max. częstotliwość słyszalna) na wykonanie filtrowania dolnoprzepustowego. Tego rodzaju filtry mają bardzo wyśrubowane parametry w dziedzinie częstotliwości i destrukcyjny wpływ w dziedzinie czasu.

Porównanie skuteczności przykładowych filtrów 1. (zielony), 3. (niebieski) i 5. rzędu (czerwony) w dziedzinie częstotliwości. Oś X to tłumienie sygnału w decybelach, oś Y to częstotliwość w skali logarytmicznej. Jak widać na powyższym rysunku na przykładzie filtru dla częstotliwości ok. 2 kHz łagodny filtr pierwszego rzędu nie osiąga nawet przyzwoitej wartości tłumienia na poziomie około -30 dB przy 10-krotnie wyższej częstotliwości 20 kHz. Zastosowanie filtru np. 5. rzędu daje diametralną zmianę, -30 dB mamy już przy podwojeniu częstotliwości. W przypadku materiału CD mamy do czynienia z tak małą przestrzenią do wykonania filtracji, ze wymagane są filtry o bardzo agresywnych parametrach w dziedzinie częstotliwości.

I tak dochodzimy do największej zalety materiału hi-res – daje on bez porównanie większe pole do wykonania niezbędnych operacji DSP. Mamy do dyspozycji nie 10% a ponad 100% oktawy ponad 20 kHz ponieważ czestotliwość próbkowania 96 kHz daje nam maksymalną częstotliwość 48 kHz i w rezultacie 28 kHz (48 kHz – 20 kHz maksymalnej częstotliwości słyszalnej) zamiast 2 kHz w przypadku CD na wykonanie odpowiedniego przetwarzania DSP. To pozwala zastosować dużo łagodniejsze filtry o zupełnie innej charakterystyce i bez porównania lepszych parametrach jeśli chodzi o niezmiernie ważne transjenty w audio. Tak więc możemy zastosować filtry, które posiadają słabsze co do skuteczności filtracji, ale dla materiału hi-res wystarczające filtry niższego rzędu, które natomiast mają zdecydowaną przewagę w dziedzinie czasu co łatwo zaobserwować przez porównanie rys. 2 (powyżej) i rys. 3 (poniżej).

Obwiednia czyli kształt w dziedzinie czasu przykładowych filtrów 1. (zielony), 3. (niebieski) i 5. rzędu (czerwony). Oś X to amplituda sygnału, oś Y to kolejne sample odpowiadające kolejnym samplom muzycznym. W praktyce filtrowanie polega na ciągłym przechodzeniu próbek sygnału audio przez obwiednię filtru (w dużym uproszczeniu można powiedzieć, że jest to „mnożenie” sygnału audio przez kształt filtru). Z punktu widzenia transjentów audio im bardziej zwarty i krótki kształt filtru tym bardziej zachowana pozostaje pierwotna subtelna tekstura transjentów. Z rysunku widać, że filtr 1. rzędu jest pod tym względem zdecydowanie najlepszy, a parametry transjentowe pogarszają się wraz ze wzrostem rzędu filtru. Pliki hi-res pozwalają na zastosowanie łagodniejszych filtrów niższego rzędu, lepiej zachowujących subtelną strukturę transjentów dźwięku.

Podsumowanie, czyli hi-res to nie samograj i potrzebuje odpowiedniej technologii do wykorzystania swojego potencjału

Na pliki hi-res możemy patrzeć z dwóch perspektyw – typowych, prostych parametrów liczbowych, charakterystycznych dla masowego hi-fi, oraz z perspektywy audiofilskiego hi-fi. Nic więc dziwnego, że można spotkać sporo głosów, które twierdzą że standard CD z nawiązką spełnia wymagania hi-fi (potwierdzam – przyp. WP). Rzeczywiście, jeżeli ma grać czysto i dynamicznie to spełnia. Jeżeli ma jeszcze (w miarę) wiernie oddać barwy instrumentów, to – moim zdaniem – potrzebujemy więcej. Więcej próbek = więcej instrumentów w muzyce.

Naturalnie pojawia się pytanie - jeżeli materiał hi-res jest to tak ważny do uzyskania audiofilskiej jakości to dlaczego w tej kwestii są tak mieszane opinie z odsłuchów. W zaskakująco wielu przypadkach wynika to z tego, że część urządzeń, także przeznaczonych na rynek audiofilski, po prostu nie wykorzystuje potencjału plików hi-res. Od strony technicznej są w stanie je odczytać, natomiast nie realizują odpowiednio skonstruowanej wersji przetwarzania DSP w przetworniku D/A, która oprócz zapewnienia bazowych parametrów „przemysłowych” na wysokim poziomie pozwala zachować subtelną strukturę transjentów.

Bardzo istotny wpływ na transjenty ma także konstrukcja kolumn głośnikowych, w szczególności jakość zastosowanych przetworników (zwłaszcza ich „szybkość”, czyli parametry odpowiedzi impulsowej), wyrównanie centrów akustycznych głośników oraz preferowana obudowa zamknięta względem bas-refleks. Wszystkie te założenia znacząco podwyższają konstrukcyjną poprzeczkę i trudność zaprojektowania odpowiednich kolumn głośnikowych. W nieco mniejszym stopniu, ale nadal w sposób słyszalny wpływają na to także dość specyficzne parametry wzmacniacza. Pełna realizacja tych wymagających cech konstrukcyjnych nie jest możliwa bez wykorzystania bardziej zaawansowanych technologii i koncepcji niż standardowe zestawy audio. W praktyce w zasadzie jedyną ścieżką, daje możliwość doprowadzenia do gwarantowanego efektu jest zaprojektowanie zintegrowanej kolumny aktywnej z wbudowanym wzmacniaczem, gdzie wszystkie elementy toru są zoptymalizowane pod kątem uzyskania nie tylko typowych parametrów hi-fi ale także maksymalnej wierności transjentów. Przykładem konstrukcji, która zapewnia oddanie transjentów muzycznych na najwyższym poziomie osiągalnym przy pomocy obecnie dostępnych technologii jest aktywna kolumna głośnikowa Infado Boson, której ogólna architektura została przedstawiona na rysunku poniżej:

Na koniec trzeba powiedzieć, że parametry transjentowe bardzo łatwo jest nieodwracalnie zdegradować na każdym etapie przetwarzania poprzez niewłaściwy dobór jednego lub więcej urządzeń w naszym torze. Dopiero kompleksowa optymalizacja całego toru audio pod kątem jak najlepszego odtworzenia oryginalnego kształtu sygnału muzycznego, z wykorzystaniem potencjału bogatszej informacji w plikach, pozwala uzyskać pełny efekt. Czy nie wydaje się to dobrym wytłumaczeniem, dlaczego teoretycznie niewiele różniące się od siebie typowymi parametrami technicznymi zestawy audiofilskie, także z górnej pólki, mogą dawać bardzo różne i często zaskakująco negatywne wrażenia odsłuchowe?


O AUTORZE

Paweł Piwowarski jest głównym konstruktorem i współzałożycielem firmy Infado sp. z o.o. z siedzibą w Warszawie, która zajmuje badaniami i rozwojem w zakresie technologii audio i DSP. Spółka opracowała unikalnie zaawansowany technologicznie polski produkt audio – aktywną kolumnę głośnikową Infado Boson. Filozofią firmy Infado jest maksymalne wykorzystanie potencjału nośników cyfrowych zarówno w formacie CD jak i hi-res pod kątem uzyskania bezkompromisowego dżwięku ze szczególnym naciskiem na wierność oddania transjentów w materiale audio.