Opóźnienie (dźwięk) — Latency (audio)

Opóźnienie odnosi się do krótkiego okresu opóźnienia (zazwyczaj mierzonego w milisekundach ) między wejściem sygnału audio do systemu a jego pojawieniem się. Potencjalne czynniki przyczyniające się do opóźnienia w systemie audio obejmują konwersję analogowo-cyfrową , buforowanie , cyfrowe przetwarzanie sygnału , czas transmisji , konwersję cyfrowo-analogową oraz prędkość dźwięku w medium transmisyjnym .

Opóźnienie może być krytyczne metryki wydajność w profesjonalnym dźwiękiem w tym systemów nagłośnieniowych , Foldback systemów (zwłaszcza za pomocą monitorów ucho ) na żywo radia i telewizji . Nadmierne opóźnienie dźwięku może pogorszyć jakość połączeń w zastosowaniach telekomunikacyjnych . Dźwięk o niskim opóźnieniu w komputerach jest ważny dla interaktywności .

Rozmowy telefoniczne

We wszystkich systemach opóźnienie można powiedzieć, że składa się z trzech elementów: opóźnienia kodeka, opóźnienia odtwarzania i opóźnienia sieci.

Opóźnienie w rozmowach telefonicznych jest czasami określane jako opóźnienie usta-ucho ; branża telekomunikacyjna również posługuje się terminemjakość doświadczenia(QoE). Jakość głosu jest mierzona zgodnie zmodelemITU; mierzalna jakość połączenia gwałtownie spada, gdy opóźnienie między ustami a uszami przekracza 200 milisekund. Wynik średni opinii(MOS) jest porównywalne w prawie liniowo ze skalą jakości ITU - określonych w normach G.107, G.108 i G.109 - o współczynnik jakościRw zakresie od 0 do 100. MOS z 4 („Dobry”) miałbywynikRrówny 80 lub więcej; osiągnięcie 100R wymaga MOS przekraczającego 4,5.

ITU i 3GPP grupują usługi użytkownika końcowego w klasy na podstawie wrażliwości na opóźnienia:

Bardzo wrażliwy na opóźnienia Mniej wrażliwy na opóźnienia
Klasy
  • Klasa konwersacyjna (3GPP)
  • Klasa interaktywna (ITU)
  • Klasa interaktywna (3GPP)
  • Klasa responsywna (ITU)
  • Klasa przesyłania strumieniowego (3GPP)
  • Klasa terminowa (ITU)
  • Klasa tła (3GPP)
  • Klasa niekrytyczna (ITU)
Usługi Wideo konwersacyjne/głosowe, wideo w czasie rzeczywistym Wiadomości głosowe Strumieniowe przesyłanie wideo i głosu Faks
Dane w czasie rzeczywistym Dane transakcyjne Dane nie w czasie rzeczywistym Dane w tle

Podobnie, zalecenie G.114 dotyczące opóźnienia usta-ucho wskazuje, że większość użytkowników jest „bardzo zadowolona”, o ile opóźnienie nie przekracza 200 ms, z R zgodnie z R 90+. Ważną rolę odgrywa również wybór kodeków; kodeki najwyższej jakości (i największej przepustowości), takie jak G.711, są zwykle skonfigurowane tak, aby ponosić najmniejsze opóźnienia kodowania-dekodowania, więc w sieci o wystarczającej przepustowości można osiągnąć opóźnienia poniżej 100 ms . G.711 o przepływności 64 kbit/s to metoda kodowania stosowana głównie w publicznej komutowanej sieci telefonicznej .

Połączenia komórkowe

AMR wąskopasmowego kodera-dekodera, stosowany w GSM i UMTS sieci wprowadza latencji procesów kodowania i dekodowania.

W miarę jak operatorzy komórkowi aktualizują istniejące sieci typu best-effort , aby obsługiwać jednocześnie wiele rodzajów usług w sieciach all-IP, usługi takie jak Hierarchiczna Jakość Usług ( H-QoS ) pozwalają na stosowanie zasad QoS dla poszczególnych użytkowników i usług w celu ustalenia priorytetów w zależności od czasu protokoły, takie jak połączenia głosowe i inny bezprzewodowy ruch dosyłowy.

Innym aspektem opóźnień mobilnych jest przekazywanie połączeń międzysieciowych; jako klient w sieci A dzwoni do klienta sieci B, połączenie musi przechodzić przez dwie oddzielne sieci dostępu radiowego , dwie sieci rdzeniowe i połączone centrum przełączania mobilnego bramy (GMSC), które wykonuje fizyczne połączenie między dwoma dostawcami.

Połączenia IP

Dzięki kompleksowym połączeniom z zarządzaniem QoS i gwarantowaną szybkością opóźnienia można zredukować do poziomów analogowych PSTN/POTS. W przypadku stabilnego połączenia o wystarczającej przepustowości i minimalnym opóźnieniu, systemy VoIP zazwyczaj mają nieodłączną latencję wynoszącą co najmniej 20 ms. W mniej idealnych warunkach sieciowych poszukuje się maksymalnego opóźnienia 150 ms dla ogólnego użytku konsumenckiego. Opóźnienie ma większe znaczenie, gdy echo jest obecne, a systemy muszą wykonywać tłumienie i eliminację echa .

Dźwięk komputerowy

Opóźnienia mogą być szczególnym problemem w platformach audio na komputerach. Obsługiwane optymalizacje interfejsu zmniejszają opóźnienia do czasów, które są zbyt krótkie, aby ludzkie ucho mogło je wykryć. Zmniejszając rozmiary buforów, można zmniejszyć opóźnienie. Popularnym rozwiązaniem optymalizacyjnym jest ASIO firmy Steinberg , które omija platformę audio i łączy sygnały audio bezpośrednio ze sprzętem karty dźwiękowej. Wiele profesjonalnych i półprofesjonalnych aplikacji audio wykorzystuje sterownik ASIO, umożliwiając użytkownikom pracę z dźwiękiem w czasie rzeczywistym. Pro Tools HD oferuje system o niskich opóźnieniach podobny do ASIO. Pro Tools 10 i 11 są również kompatybilne ze sterownikami interfejsu ASIO.

Jądro czasu rzeczywistego Linuksa jest zmodyfikowanym jądrem, które zmienia standardową częstotliwość zegara używaną przez jądro Linuksa i daje wszystkim procesom lub wątkom możliwość nadania priorytetu w czasie rzeczywistym. Oznacza to, że proces krytyczny czasowo, taki jak strumień audio, może uzyskać priorytet nad innym, mniej krytycznym procesem, takim jak aktywność sieciowa. Jest to również konfigurowalne dla każdego użytkownika (na przykład procesy użytkownika „tux” mogą mieć priorytet nad procesami użytkownika „nobody” lub procesami kilku demonów systemowych ).

Dźwięk telewizji cyfrowej

Wiele nowoczesnych odbiorników telewizji cyfrowej, dekoderów i amplitunerów AV wykorzystuje wyrafinowane przetwarzanie dźwięku, które może powodować opóźnienie między momentem odebrania sygnału audio a momentem jego usłyszenia w głośnikach. Ponieważ telewizory wprowadzają również opóźnienia w przetwarzaniu sygnału wideo, może to spowodować, że oba sygnały będą wystarczająco zsynchronizowane, aby były niezauważalne dla widza. Jeśli jednak różnica między opóźnieniem audio i wideo jest znaczna, efekt może być niepokojący. Niektóre systemy mają ustawienie synchronizacji ruchu warg , które umożliwia dostosowanie opóźnienia dźwięku w celu synchronizacji z wideo, a inne mogą mieć ustawienia zaawansowane, w których niektóre etapy przetwarzania dźwięku można wyłączyć.

Opóźnienie dźwięku jest również istotną wadą w grach rytmicznych , w których do osiągnięcia sukcesu wymagane jest precyzyjne wyczucie czasu. Większość z tych gier ma ustawienie kalibracji opóźnień, dzięki czemu gra dostosuje okna czasowe o określoną liczbę milisekund, aby to skompensować. W takich przypadkach nuty utworu zostaną wysłane do głośników, zanim gra otrzyma wymagane informacje od gracza, aby utrzymać iluzję rytmu. Gry, które opierają się na muzycznej improwizacji , takie jak bębny Rock Band lub DJ Hero , mogą nadal bardzo ucierpieć, ponieważ gra nie jest w stanie przewidzieć, w co gracz uderzy w takich przypadkach, a nadmierne opóźnienie nadal będzie powodować zauważalne opóźnienie między uderzeniem nut a ich usłyszeniem bawić się.

Transmisja dźwięku

Opóźnienie dźwięku może wystąpić w systemach nadawczych, w których ktoś uczestniczy w transmisji na żywo przez satelitę lub podobne łącze z dużym opóźnieniem. Osoba w głównym studiu musi poczekać, aż współtwórca na drugim końcu łącza odpowie na pytania. Opóźnienie w tym kontekście może wynosić od kilkuset milisekund do kilku sekund. Radzenie sobie z tak wysokimi opóźnieniami dźwięku wymaga specjalnego przeszkolenia, aby wynikowy połączony sygnał wyjściowy audio był rozsądnie akceptowalny dla słuchaczy. Wszędzie tam, gdzie jest to praktyczne, ważne jest, aby starać się utrzymać niską latencję dźwięku w produkcji na żywo, aby reakcje i wymiana uczestników były jak najbardziej naturalne. Opóźnienie 10 milisekund lub więcej jest celem dla obwodów audio w profesjonalnych strukturach produkcyjnych.

Dźwięk występu na żywo

Opóźnienia podczas występów na żywo wynikają naturalnie z szybkości dźwięku . Przebycie 1 metra zajmuje dźwiękowi około 3 milisekundy. Pomiędzy wykonawcami występują niewielkie opóźnienia w zależności od tego, jak są od siebie oddzieleni i od monitorów scenicznych, jeśli są one używane. Stwarza to praktyczną granicę tego, jak daleko od siebie mogą znajdować się artyści w grupie. Monitorowanie sceniczne poszerza ten limit, ponieważ dźwięk przemieszcza się z prędkością bliską prędkości światła przez kable łączące monitory sceniczne.

Wykonawcy, szczególnie w dużych przestrzeniach, usłyszą również pogłos lub echo swojej muzyki, ponieważ dźwięk, który wystaje ze sceny, odbija się od ścian i struktur, a następnie powraca z opóźnieniem i zniekształceniami. Podstawowym celem monitoringu scenicznego jest zapewnienie artystom bardziej podstawowego brzmienia, aby nie byli rzuceni przez opóźnienie tych pogłosów.

Przetwarzanie sygnału na żywo

Podczas gdy analogowy sprzęt audio nie ma znaczących opóźnień, cyfrowy sprzęt audio ma opóźnienia związane z dwoma ogólnymi procesami: konwersją z jednego formatu na drugi oraz zadaniami cyfrowego przetwarzania sygnału (DSP), takimi jak wyrównanie, kompresja i routing.

Procesy konwersji cyfrowej obejmują przetworniki analogowo-cyfrowe (ADC), przetworniki cyfrowo -analogowe (DAC) oraz różne zmiany z jednego formatu cyfrowego na inny, takie jak AES3, który przenosi niskonapięciowe sygnały elektryczne do ADAT , transportu optycznego . Każdy taki proces zajmuje niewiele czasu; typowe opóźnienia mieszczą się w zakresie od 0,2 do 1,5 milisekund, w zależności od częstotliwości próbkowania, projektu oprogramowania i architektury sprzętu.

Różne operacje przetwarzania sygnału audio, takie jak filtry o skończonej odpowiedzi impulsowej (FIR) i nieskończonej odpowiedzi impulsowej (IIR), wykorzystują różne podejścia matematyczne do tego samego końca i mogą mieć różne opóźnienia. Ponadto buforowanie próbek wejściowych i wyjściowych dodaje opóźnienie. Typowe opóźnienia wahają się od 0,5 do dziesięciu milisekund, a niektóre projekty mają nawet 30 milisekund opóźnienia.

Opóźnienia w cyfrowym sprzęcie audio są najbardziej zauważalne, gdy głos piosenkarza jest przesyłany przez jego mikrofon, poprzez cyfrowe miksowanie, przetwarzanie i ścieżki routingu, a następnie przesyłany do jego własnych uszu za pomocą monitorów usznych lub słuchawek. W tym przypadku dźwięk wokalu wokalisty jest kierowany do jego własnego ucha przez kości głowy, a kilka milisekund później drogą cyfrową do jego uszu. W jednym z badań słuchacze stwierdzili, że opóźnienie przekraczające 15 ms jest zauważalne. Opóźnienie w przypadku innych czynności muzycznych, takich jak gra na gitarze, nie ma takiego samego znaczenia krytycznego. Dziesięć milisekund opóźnienia nie jest tak zauważalne dla słuchacza, który nie słyszy własnego głosu.

Opóźnione głośniki

We wzmacnianiu dźwięku w przypadku prezentacji muzyki lub mowy w dużych salach optymalnie jest dostarczanie wystarczającej głośności dźwięku z tyłu sali bez uciekania się do nadmiernej głośności dźwięku z przodu. Jednym ze sposobów, aby inżynierowie dźwięku mogli to osiągnąć, jest użycie dodatkowych głośników umieszczonych w pewnej odległości od sceny, ale bliżej tyłu widowni. Dźwięk rozchodzi się w powietrzu z prędkością dźwięku (około 343 metrów (1125 stóp) na sekundę, w zależności od temperatury i wilgotności powietrza). Mierząc lub szacując różnicę w latencji między głośnikami w pobliżu sceny i głośnikami bliżej publiczności, inżynier dźwięku może wprowadzić odpowiednie opóźnienie sygnału audio docierającego do tych ostatnich głośników, tak aby fronty fal z głośników bliskich i dalekich docierały do o tym samym czasie. Ze względu na efekt Haas an dodatkowe 15 milisekund może zostać dodany do czasu opóźnienia głośników bliżej publiczności, tak że czoło fali etapie osiąga je najpierw, aby skupić uwagę publiczności na scenie zamiast lokalnego głośnika. Nieco późniejszy dźwięk z opóźnionych głośników po prostu zwiększa postrzegany poziom dźwięku bez negatywnego wpływu na lokalizację.

Zobacz też

Bibliografia

Zewnętrzne linki