pl | en

232 Sierpień 2023

Wstępniak

tekst WOJCIECH PACUŁA
zdjęcia mat. pras. wydawnictw | „High Fidelity”



No 232

1 sierpnia 2023

JAK POZOSTAĆ CZŁOWIEKIEM (a się przy tym nie narobić)

Maszynowe uczenie wkracza na dobre do audio, na razie profesjonalnego. Specjalne algorytmy „wyhodowane” w celu rozróżniania brzmienia poszczególnych instrumentów i głosów pozwalają na operację odwrotną do miksu – „un-miks”. O wyzwaniach z tym związanych jest poniższy tekst.

IEDY CZYTAMY: „WAKACJE W PRACY”, trudno stwierdzić, na który człon pada akcent. Jeszcze do niedawna byłoby to jasne – chodziłoby o warunki, które trzeba spełnić aby mieć wakacje od pracy, ewentualnie – to wersja cyniczna – jak zrobić, aby pracować, a się nie napracować. Współcześnie rozumiemy to jeszcze inaczej. Od czasu masowego przejścia na pracę zdalną, te dwa człony, to jest ‘wakacje’ i ‘praca’, przestały się wykluczać. Jak wspomina Bartek Chaciński w swoim mikrofelietonie Wakacje w pracy, chodzi o tzw. workation, czyli – po naszemu, pracowakacje („Polityka” nr 30, 19.07-25.07.2023, s. 93).

Mam jednak takie wrażenie, że jak byśmy tych dwóch słów nie czytali, będziemy mieli na względzie przerwę w pracy i odpoczynek. A o ten najłatwiej, kiedy ktoś zrobi za nas całą naszą robotę. Na przykład – robot. W polskiej kulturosferze słowo to, a i sam koncept, spopularyzował Stanisław Lem, którego Bajki Robotów, część monumentalnej Cyberiady, od lat są częścią kanonu lektur szkolnych.

Cyberiada Stanisława Lema z cudownymi grafikami Daniela Mroza oraz pirackie tłumaczenie z czasów PRL-u powieści Ja, Robot Isaaca Aasimova, wydane na powielaczu

Z kolei w świecie anglosaskim słowo to, a i pojęcie ‘robotyka’, upowszechnił Isaac Asimov, po raz pierwszy używając je w opowiadaniu Zabawa w berka (Runaround, 1942). Wielu z nas, którzy interesowaliśmy się powieściami SF i filmami tego typu, znane są, sformułowane przez pisarza, trzy prawa robotyki:

1. Robot nie może skrzywdzić człowieka, ani przez zaniechanie działania dopuścić, aby człowiek doznał krzywdy.
2. Robot musi być posłuszny rozkazom człowieka, chyba że stoją one w sprzeczności z Pierwszym Prawem.
3. Robot musi chronić sam siebie, jeśli tylko nie stoi to w sprzeczności z Pierwszym lub Drugim Prawem.

Dwie rzeczy zwracają uwagę. Pierwsza, to bezwzględne posłuszeństwo człowiekowi. Bo przecież po to roboty powstały – najpierw w umyśle pisarza, a następnie w umysłach kapitalistów. Figura pisarza znalazła się tu z prostego powodu: słowo robot pochodzi od słowiańskiego słowa robota, a to oznacza ciężką pracę, wysiłek. Jego autorem był Josef Čapek, pisarz, brat innego pisarza, którego znamy chyba lepiej – Karela Čapka. Zresztą to właśnie on je upowszechnił, pisząc sztukę R.U.R. (Rossumovi Univerzální Roboti) (1920). I to jeden z nielicznych przykładów na to, w jak przemożny sposób język słowiański wpłynął na języki całego świata.

Ale do rzeczy. O ile posłuszeństwo jest ważnym elementem praw robotyki o tyle drugim komponentem, chyba ważniejszym jest nasze, czyli ludzi, bezpieczeństwo. To na tych lękach wyrosły całe galaktyki filmów, książek i gier SF, z ikonicznym Terminatorem na czele. W pewnej mierze ten strach przed buntującą się maszyną został opanowany, a przynajmniej oswojony. A co z algorytmami, współczesnymi robotami?

Człowiek ma to do siebie, że jeśli nie musi pracować, to pracował nie będzie. Wymyślony przez Čapka robot był więc perfekcyjną sublimacją tego dążenia. Nie wziął się znikąd, to jasne, jego poprzednikami były maszyny, przede wszystkim maszyny parowe, a ideałem rewolucja przemysłowa XIX wieku. O ile jednak roboty miały nas wyzwolić, o tyle Luddyści, słusznie zresztą, wskazywali na ciemną stronę postępu i na brak wiedzy o tym, co przyniesie. Jednym słowem – chodziło o odpowiedzialność za wynalazki i za to w jaki sposób się z nich korzysta. Mówią o tym dwa pierwsze prawa robotyki.

⸜ Pierwsza tak udana ingerencja sztucznej inteligencji w materiał będący częścią naszej spuścizny kulturowej, płyta ELLI FITZGERALD The Lost Berlin Tapes • foto mat. pras. Verve

Benjamin Labaut, chilijski finalista Bookera i National Book Award, autor książki Straszliwa zieleń (Czarne, 2023), wybranej przez „The New York Times” do grupy dziesięciu najlepszych książek 2021 roku – znalazła się ona również na krótkiej liście Baraka Obamy – w wywiadzie dla „Newsweeka” mówił:

Wszyscy jesteśmy odpowiedzialni za świat, który tworzymy. Naszymi działaniami, myślami, pragnieniami i słowami. (…) Problemem nie jest sama technologia. Jest nim natura człowieka. Nosimy w sobie demony. Jedyną rzeczą, która się zmieniła, jest to, że teraz niektóre z nich są zrobione z kodu, z algorytmu,, mają większy zasięg. Ale demoniczność jest, jaka była (No. 30/2023, s. 95).

Współczesnym robotem, czyli maszyną mającą za nas pracować i w ten sposób czynić nas szczęśliwszymi, są bowiem algorytmy. Na przykład ChatGPT i inne programy bazujące na uczeniu maszynowym. Choć z maszyną jako taką nie mają nic wspólnego, to pozostało w tej nazwie coś z „robota” i wiary w to, że maszyna jest z gruntu czymś innym niż człowiek. A jeśli tak, to jej cele również są inne. I to właśnie budzi najwięcej wątpliwości, również w świecie audio.

⸜ Wydanie Deluxe Hardback Edition płyty EVY CASSIDY I Can Only Be Me • foto mat. pras. Blix Street Records

Thomas Conrad, recenzując dla magazynu „Stereophile” płytę EVY CASSIDY I Can Only Be Me, zwraca uwagę na to, że choć piosenkarka zmarła w wieku 33 lat i za życia była niemal kompletnie nieznana, to po śmierci stała się jedną z najbardziej popularnych wokalistek świata. Za życia wydała, własnym sumptem, zaledwie trzy albumy, zaś skompilowana w 1998 roku płyta Songbird sprzedała się w nakładzie 12 milionów. Rzecz w tym, że jej najnowszy album został przygotowany przy użyciu sztucznej inteligencji.

Nie byłby to pierwszy taki przypadek. Technologia, której użyto pochodzi w prostej linii od Petera Jacksona. To on użył AI do przygotowania ścieżki dźwiękowej filmu The Beatles: Get Back (2021). Chodziło o jak najlepsze rozseparowanie poszczególnych instrumentów oraz wokali i o ponowne ich zmiksowanie. W podobny sposób powstała nowa wersja albumu Revolver (2022). Nagrany w 1968 roku na czterościeżkowym magnetofonie materiał został wykorzystany przez Gilesa Martina, aby „nauczyć” program komputerowy brzmienia charakterystycznego dla każdego z muzyków. Wykorzystał do tego, należącą do Jacksona firmę WingNut Films Productions oraz odpowiedzialnego w niej za maszynowe uczenie inżyniera Emile’a de la Rey.

Martin był pod wielkim wrażeniem tego, co de la Rey zrobił z materiałem, który mu przekazał:

Wysłałem mu Taxmana, a on przysłał mi, dosłownie, osobno gitarę, bas i perkusję – słychać było nawet skrzypienie pedału Ringo na jego bębnie basowym. To alchemia… udoskonaliliśmy to i pracowaliśmy nad tym razem, aż skończyło się na tym, że mogłem mieć więcej niż tylko cztery ścieżki do pracy i dlatego mogliśmy zrobić stereofoniczny miks Revolvera. To otworzyło nam drzwi.

What Giles Martin discovered when remixing Revolver, → www.YOUTUBE.com, dostęp: 27.07.2023.

Analogia, po którą Martin sięgnął w tym wywiadzie mówiła o „odwypieczeniu” ciasta i odseparowania z niego oryginalnych składników, jak mąka, jajka, cukier itp. Pozwoliło to na „złożenie” Revolvera na nowo.

⸜ Gil Martin zremiksował album THE BEATLES Revolver ucząc program sztucznej inteligencji brzmienia poszczególnych wokali i instrumentów

Efekty tych działań przeszły najśmielsze wyobrażenia. Podobnie, jak to, co usłyszałem podczas recenzji płyty ELLI FITZGERALD The Lost Berlin Tapes (Verve Records | UMe ‎– B0032589-01, 1962/2020; recenzja → TUTAJ). Oryginalnie stereofoniczny, został zremiksowany za pomocą ścieżek wyabstrahowanych przez Kevina Reevesa, korzystającego z oprogramowania iZotope RX 8 Music Rebalance. Rozdzielił dzięki niemu oryginalny miks stereofoniczny na cztery ścieżki: perkusję, bas, fortepian i wokale, które następnie ponownie zmiksował. Jak mówi:

Ta technologia rok temu jeszcze nie istniała. Zadzwonili do mnie przez przypadek (akurat wtedy, kiedy przeglądałem taśmy). Na oryginalnej taśmie głos Elli był trochę cienki w średnim zakresie, a fortepian i perkusja były mocno przesunięte w lewo i mocno w prawo, co jest bardzo oldschoolowe. Byłem w stanie przesunąć ją bardziej do przodu i podnieść jej dół. Dzięki temu możesz nawet usłyszeć palce na strunach. W rezultacie Ella jest z tobą znacznie bardziej obecna. Kiedy wysłałem to Kenowi, powiedział: „To najlepsze nagranie Elli na żywo, jakie kiedykolwiek słyszałem”.

⸜ ROB LEDONNE, Unearthing A Lost Ella Fitzgerald Recording, 60 Years Later, → www.GRAMMY.com, 1 października 2020, dostęp: 25.07.2022.

Było to chyba pierwsze moje spotkanie z materiałem powstałym z połączenia wiedzy człowieka i jego niewiedzy na temat tego, co właściwie robi, używane przez niego oprogramowanie. Bo korzystanie z pomocy programów uczących się jest wielką niewiadomą. Jesteśmy w miejscu, w którym można z materiałem muzycznym zrobić tak wiele nowych rzeczy, że nie będzie on w niczym przypominał oryginalnego dzieła. Czy Revolver rozłożony na części i poskładany na nowo jest tym samym Revolverem, co wcześniej? Na pewno jest nowym dziełem artystycznym, powstałym z połączenia kreatywności człowieka i narzędzia, jakim jest AI.

Etyczne implikacje takich działań są wielorakie. Czy w ogóle możemy zmieniać czyjeś dzieło, szczególnie, jeśli ten ktoś już nie żyje? A może Cassidy nie życzyłaby sobie śpiewać z orkiestrą, ostatecznie była skromną dziewczyną wykonującą neofolkowe covery, a nie divą operową. Tego nie wiemy. Co więcej, dodajemy do świata nowe elementy, a przecież jest w nim wystarczająco wiele starszych, jesteśmy generalnie przebodźcowani.

Conrad w „Stereophile’u” słusznie zauważa, że głos wokalistki brzmi cudownie i że chyba nigdy wcześniej nie był tak poruszający emocjonalnie. A przecież o to nam w audio chodzi, o prawdę, o przeniesienie emocji z „tamtej” strony nagrania na „naszą”. Standardowo powtarzamy, że im lepszy system audio, tym lepiej te emocje rekonstruuje. Można więc postawić znak równości między stopniem wzmożenia emocji i jakością dźwięku.

To niezwykle kuszące, sam przecież państwa namawiam do słuchania coraz to lepszych produktów i wydań płyt. Gdzieś tam w rogu, trochę ciemnym i zakurzonym, przyczaiła się jednak taka myśl: a co, jeśli sztuczna inteligencja pozna nas na tyle dobrze, że ona, czy raczej korzystający z niej ludzie, powyginają oryginalne nagrania tak, żeby wydusić z nas jak najwięcej emocji, a tym samym pieniędzy? A przecież to nie muszą być emocje zawarte oryginalnie w nagraniu, a zupełnie nowe, silniejsze, tyle że mające inny wektor – to będą emocje pochodzące z manipulacji.

Że artyści również na nas wpływają, nawet jeśli robią to nieświadomie? – Oczywiście, że tak, na tym właśnie polega sztuka. Nie jest to jednak manipulacja, o ile chodzi o sztukę, a kreacja. Czy utwór na nowo skonstruowany z małych oryginalnych cegiełek wciąż jest oryginalny? Wydawało się, że te rozważania mamy za sobą, bo tym się przecie zajmowała cała postmodernistyczna krytyka sztuki. Odpowiedź była jasna: tak, to nowa sztuka, tyle że nierozwojowa. Z niej nic nowego, że tak powiem. To, co autentyczne i nowatorskie również korzysta z dorobku poprzedników, ale w roli inspiracji, a nie przez ustawianie składników w nowe, statyczne konfiguracje.

⸜ Zrzut ekranu z programu iZotope RX 8 Music Rebalance z okienkiem „Isolate a Vocal with Music Rebalance in RX”, czyli widokiem wyizolowanej ścieżki wokalu ze stereofonicznego miksu • foto mat. pras. iZotope

Jolanta Brach-Czaina, polska filozofka, w jednym ze swoich artykułów pisała:

Człowiek współczesny obawia się braku zdarzeń i przekłada bodźce mocne, nawet przykre nad słabe. Lęk budzi w nim egzystencja rozrzedzona. Jest dzieckiem wielkiego miasta, przyzwyczajonym do nadmiaru wrażeń. Zauważa ciszę i czuje się zaniepokojony. Nie słyszy hałasu. Stale potrzebuje źródła dźwięków i wzmacniacza.

⸜ JOANNA BRACH-CZAINA, Gęstość, tłok, miasto w: tejże, Rzeczywistość komponowana, Warszawa 2023, s. 171.

A algorytmy remiksujące stare nagrania i stwarzające nowe nam tych wrażeń dostarczą pod dostatkiem. Autorka Szczelin istnienia nie jest jednak pesymistką. Wskazuje na to, że ów natłok – fizyczny i psychiczny – „przepracowujemy” dzięki niezwykłej ruchliwości, przemienności i dynamizmowi. Wprawdzie mowa tu o mieście i jego problemach, ale można to, jak sądzę, rozciągnąć również na temat tego felietonu.

Bo i w przypadku sztucznej inteligencji a sprawy audio nie ma się czego bać. Wprawdzie zastosowanie AI do automatycznego masterowania materiałów dla różnych serwisów streamingowych to rzeczywistość, a to oznacza obniżenie średniej jakości dźwięku, o tyle górna półka, że tak powiem, tego typu działań może przynieść ciekawe efekty. Bo, wspomniana Cassidy rzeczywiście brzmi wspaniale.

Najważniejsze w tym wszystkim jest jednak to, że wspomagający realizatorów nagrań system nie jest idealny. Kiedy wsłuchamy się w jej głos, szczególnie w nagraniach pochodzących z płyt koncertowych, usłyszymy pozostałości niskiego pogłosu i niedoskonałości mikrofonu scenicznego, do którego śpiewała. Z kolei orkiestra nagrywała materiał w byłym kościele pod wezwaniem św. Łukasza, XVIII-wiecznym budynku o dużej kubaturze i wielu przeszkleniach, co samo w sobie dało długie wygaszanie dźwięku. Nałożony na całość długi pogłos nie zawsze przykrywa ten oryginalny.

Już niedługo, już za momencik należy spodziewać się wysypu stereofonicznych, a nawet przestrzennych nagrań Atmos oryginalnie dostępnych tylko w wersji monofonicznej. Głębokie archiwa Blue Note, Columbii, a także wielu wydawnictw specjalizujących się w muzyce klasycznej nabiorą nowej wartości – i to dosłownie. Ponownie można będzie sprzedać ten sam materiał, ale po znacznie wyższej cenie. Dobrze to, czy źle? – Jeszcze tego nie wiemy. Wiadomo jedynie, że zamiast przełomu technologicznego w starym stylu, czyli zmiany formatu, dostaniemy przełom na miarę XXI wieku, czyli zmianę filozofii stojącej za nagraniem.

Nie mam jasności co do tego, jak traktować takie nagrania. Potrzeba będzie jeszcze trochę czasu, aby spojrzeć na tę nową, rodzącą się na naszych oczach, gałąź muzyczną chłodnym okiem i tak też ją ocenić. Tu i teraz trzeba przyjąć to na klatę i mieć nadzieję, że w tym wszystkim zachowany zostanie autentyczny duch danego dzieła. A nadzieję daje to, że to nie są programy wszechwładne i wszechwiedzące, a przede wszystkim, że nie są idealne, mylą się, jak my wszyscy.

WOJCIECH PACUŁA
redaktor naczelny

Kim jesteśmy?

Współpracujemy

Patronujemy

HIGH FIDELITY jest miesięcznikiem internetowym, ukazującym się od 1 maja 2004 roku. Poświęcony jest zagadnieniom wysokiej jakości dźwięku, muzyce oraz technice nagraniowej. Wydawane są dwie wersje magazynu – POLSKA oraz ANGIELSKA, z osobną stroną poświęconą NOWOŚCIOM (→ TUTAJ).

HIGH FIDELITY należy do dużej rodziny światowych pism internetowych, współpracujących z sobą na różnych poziomach. W USA naszymi partnerami są: EnjoyTheMusic.com oraz Positive-Feedback, a w Niemczech www.hifistatement.net. Jesteśmy członkami-założycielami AIAP – Association of International Audiophile Publications, stowarzyszenia mającego promować etyczne zachowania wydawców pism audiofilskich w internecie, założonego przez dziesięć publikacji audio z całego świata, którym na sercu leżą standardy etyczne i zawodowe w naszej branży (więcej → TUTAJ).

HIGH FIDELITY jest domem Krakowskiego Towarzystwa Sonicznego. KTS jest nieformalną grupą spotykającą się aby posłuchać najnowszych produktów audio oraz płyt, podyskutować nad technologiami i opracowaniami. Wszystkie spotkania mają swoją wersję online (więcej → TUTAJ).

HIGH FIDELITY jest również patronem wielu wartościowych wydarzeń i aktywności, w tym wystawy AUDIO VIDEO SHOW oraz VINYL CLUB AC RECORDS. Promuje również rodzimych twórców, we wrześniu każdego roku publikując numer poświęcony wyłącznie polskim produktom. Wiele znanych polskich firm audio miało na łamach miesięcznika oficjalny debiut.
AIAP
linia hifistatement linia positive-feedback


Audio Video show


linia
Vinyl Club AC Records