środa, 11 stycznia 2023

Dźwięk nie ma rozdzielczości

Dźwięk charakteryzują trzy cechy: czas trwania, amplituda i częstotliwość. Może być zatem cichy lub głośny, wysoki albo niski, a przede wszystkim w pewnym momencie zaczyna się i kończy. Rozdzielczości dźwięk nie posiada, bo gdzież by? Ale tak to wygląda z punktu widzenia akustyki. Natomiast marketingowiec „widzi” to inaczej.

Bez względu na metodę zapisu i odtwarzania dźwięku nie można mówić o jego rozdzielczości. W potocznym rozumieniu, przy skojarzeniach z obrazem na ekranie telewizora czy monitorze komputera, rozdzielczość odnosi się do dokładności odwzorowania. Jeśli obraz składa się z dużej ilości pikseli można zobaczyć szczegóły niewidoczne wtedy, gdy tych pikseli jest mało.

Gdyby ktoś zrobił zdjęcie muru z cegieł (tego, o którym to śpiewa pewien znany zespół) aparatem fotograficznym o bardzo małej rozdzielczości, to nie zobaczy na nim żadnej cegły. Będzie tak np. wtedy, gdy pikseli będzie tyle co cegieł. Jeśli rozdzielczość matrycy w tym aparacie wzrośnie do takich wartości jakie mają cyfrówki, to staną się widoczne wszystkie cegły, a ponadto fugi i inne szczegóły.

W przypadku dźwięku taka sytuacja nie zachodzi. Dźwięku nie można nagrać tak, że jakieś szczegóły zostaną pominięte, względnie będą niewyraźne czyli jakby rozmyte, mniej ostre. Dźwięk albo się nagra, albo nie. Czyli albo coś się nagra ze wszystkimi składnikami, albo nie. Bez względu na technikę. Dla ułatwienia zostawmy w spokoju technikę cyfrową i spróbujmy coś nagrać na analogowe magnetofony.

Jeśli sygnał będzie tak słaby, że utonie w szumach, albo za silny i z tego powodu jego wierzchołki zostaną obcięte, to nagranie się nie uda. Dobierając właściwy poziom nagrania zyskujemy gwarancję, że wszystko zostanie zapisane.

Bardzo ważne jest pasmo przenoszenia. Są magnetofony, które nie są w stanie zapisać pełnego zakresu słyszalnych częstotliwości. Problem jest z wysokimi tonami. Ale przecież są i takie, które nagrywają do 20 kHz. Pamiętajmy, że dorosły człowiek nie słyszy aż tak wysokich częstotliwości, wobec tego magnetofon, który nagrywa 20 kHz zapisuje już więcej niż to możemy usłyszeć i więcej niż to jest faktycznie potrzebne, żeby mieć dokładną kopię oryginału. Skoro jednak są ludzie słyszący do 20 kHz, to trzeba tak nagrywać, aby i oni nie zauważali ograniczenia pasma.

Oczywiście w nagraniu będzie trochę szumu, zakłóceń i sygnał zostanie w pewnym stopniu zniekształcony. Jednak wiedząc, że sygnał źródłowy składa się z pewnej ilości częstotliwości składowych mamy pewność, że wszystkie one zostaną zapisane. Można zredukować zniekształcenia, szum itd. prawie do zera, ale nie spowoduje to, że zostanie nagrane coś, czego wcześniej nie udało się nagrać.

Nawet poszerzenie zapisywanego spektrum poza zakres słyszalny nie spowoduje, że będzie można nagrać coś wcześniej niezapisywanego w paśmie 20 Hz-20 kHz.

Mówiąc krótko nie ma sposobu, żeby nagrać i odtworzyć „coś więcej”, jakieś wcześniej utracone szczegóły. Nagrywa się wszystko i wszystko odtwarza, chociaż z różną jakością.

Paradoksalnie nagranie zawierające trochę zniekształceń będzie odebrane jako bardziej szczegółowe. Faktycznie tak jest, że nagranie o praktycznie idealnej jakości zostanie odebrane jako gorsze w porównaniu do takiego, które jest w pewnym stopniu zniekształcone. Właśnie te zniekształcenia powodują, że dźwięk jest odbierany jako "ciekawszy".

Byli tacy, na początku lat osiemdziesiątych ubiegłego wieku, zresztą i teraz też są tacy, którym dźwięk z płyt CD się nie podobał. Oni woleli płyty winylowe. Było to spowodowane tym, że na CD dźwięk był idealny, praktycznie pozbawiony zniekształceń, o dużej dynamice. Przez to w odbiorze subiektywnie cichy i stawiający duże wymagania akustyce pomieszczenia odsłuchowego. Płyta analogowa dodaje trochę zniekształceń przez co wszystko staje się łatwiejsze do usłyszenia.

Jak to zostało powiedziane dźwięk jest nagrywany i odtwarzany z całym inwentarzem plus ewentualne szumy, zniekształcenia itp. Jest jeszcze jedno ważne zagadnienie, które jest pomijane: maskowanie.

Nawet biorąc najprostszy dźwięk złożony, tj. dwa sinusy, może zauważyć zjawisko maskowania czyli dźwięk głośniejszy zagłusza cichszy. Czyli zamiast dwóch, słychać jeden ton. W ten sposób można spreparować nagranie składające się z wielu tonów i z tego wszystkiego usłyszana zostanie np. połowa, a nawet kilka lub wręcz tylko jeden.

Tak działa słuch. Głośniejsze składowe maskują cichsze. Nigdy nie słychać wszystkiego z wyjątkiem dźwięku składającego się z tylko jednej częstotliwości.

Do nagrania można dodać dodatkowe dźwięki, których nikt nie usłyszy, bo zostaną zamaskowane. Podobnie z nagrania można usunąć pewne dźwięki, które są maskowane i też nikt nie zauważy różnicy. W odniesieniu od mowy i muzyki to usuwanie pewnych składników może zostać usłyszane. To kwestia techniczna, jak dobrze działa dany algorytm i jaki jest stopnień kompresji. Jednak przygotowując dźwięk testowy składający się z pewnej liczby tonów można nim manipulować dowolnie, gdyż nie powstają żadne artefakty spowodowane wycinaniem pasm, jak to ma miejsce w przypadku kompresji stratnej.

W takim razie jeśli ktoś mówi, że jakiś sprzęt ma większą rozdzielczość, to mija się z prawdą dwa razy. Nie ma takiego sprzętu. A przede wszystkim słyszy się tylko część dźwięków. Nawet zakładając teoretyczną możliwość, że jakiś sprzęt odtwarza jakieś dodatkowe szczegóły, to i tak nie będzie żadnej różnicy, bo one zostaną zamaskowane. Przecież te „dodatkowe” szczegóły musiałyby być ciche.

Droga do tego, żeby usłyszeć więcej prowadzi przez poprawienie warunków odsłuchu. Najprostsza i najszybsza polega na użyciu słuchawek. Natomiast poprawienie akustyki pomieszczenia odsłuchowego polega także na tym, że stanie się ono cichsze. Hałas także maskuje. A kiedy będzie go mniej, to pojawią się te nowe detale, których wcześniej nie było słychać.

3 komentarze:

  1. tomaszo z tej strony...
    Fajny art na rozpoczecie roku. Chcialbym pozyczyc Szczesliwego Nowego i 100kPLN bez procentow!

    Jest droga do uslyszenia tego, czego nikt inny nie uslyszy. Mozna sobie kupic horendalnie drogi szerokopasmowiec firmy na L i zbudowac tube ladowana od przodu (to fachowa nazwa) - czyli cos na ksztalt lini transmisyjnej o charakterze zblizonym do dzialania tuby, ktorej wylot po jej odpowiednim lamaniu w obudowie bedzie z przodu, pod glosnikiem. Taki oto twor wydobedzie detale nieznane innym sprzetom. Bo ten glosnik na L w najczulej odbieranym pasmie srednicy bedzie mial nieregularne podbicia rzedu 15dB. Tuba doda swoje nieciaglosci w postaci podbarwien (rezonansow) i efekt gotowy. Sa takie drogie to musza byc bardziej "rozdzielcze" nie? Naprawde slychac "szczegoly" nie slyszalne na poprawnym sprzecie. I tak to sie kreci. To troche jak z sektami jest. Dajmy na przyklad sekte mafijna kat-o-licka. Oni widza i slysza rzeczy, ktorych nikt samodzielnie myslacy przy zdrowych zmyslach nie widzi ani nie slyszy. I sa szczesliwi. Placa wiecej i maja wiecej.

    OdpowiedzUsuń
  2. Czołem.
    Poprawę jakości muzyki najłatwiej jest poprawić sobie wybierając się do laryngologa celem sprawdzenia drożności przewodów słuchowych.
    Znam takich, którym po takiej operacji naprawdę poprawił się odbiór :)
    Swoją drogą porównanie z obrazem bardzo trafne.
    Pozdrawiam

    OdpowiedzUsuń
    Odpowiedzi
    1. tam wyżej zamiast słowa "operacja" powinno być "wizyta", żeby nikt sobie nie myślał :) , Ale nie wiem jak takie posty się edytuje....

      Usuń