Jakość wideo - Video quality

Jakość wideo to cecha wideo przechodzącego przez system transmisji lub przetwarzania wideo, która opisuje postrzeganą degradację wideo (zazwyczaj w porównaniu z oryginalnym wideo). Systemy przetwarzania wideo mogą wprowadzać pewne zniekształcenia lub artefakty w sygnale wideo, które negatywnie wpływają na postrzeganie systemu przez użytkownika. Dla wielu interesariuszy zajmujących się produkcją i dystrybucją wideo zapewnienie jakości wideo jest ważnym zadaniem.

Ocena jakości wideo jest wykonywana w celu opisania jakości zestawu badanych sekwencji wideo. Jakość wideo można ocenić obiektywnie (za pomocą modeli matematycznych) lub subiektywnie (poproś użytkowników o ocenę). Ponadto jakość systemu można określić w trybie offline (tj. w warunkach laboratoryjnych do opracowywania nowych kodeków lub usług) lub w trakcie eksploatacji (w celu monitorowania i zapewnienia określonego poziomu jakości).

Od analogowego do cyfrowego wideo

Od czasu nagrania i transmisji pierwszej na świecie sekwencji wideo zaprojektowano wiele systemów przetwarzania wideo. Takie systemy kodują strumienie wideo i przesyłają je różnymi rodzajami sieci lub kanałów. W epoce analogowych systemów wideo możliwa była ocena aspektów jakości systemu przetwarzania wideo poprzez obliczenie odpowiedzi częstotliwościowej systemu za pomocą sygnałów testowych (na przykład zbioru kolorowych pasków i kół).

Cyfrowe systemy wideo prawie całkowicie wyparły systemy analogowe, a metody oceny jakości uległy zmianie. Wydajność systemu cyfrowego przetwarzania i transmisji wideo może się znacznie różnić i zależy od wielu czynników, w tym charakterystyki wejściowego sygnału wideo (np. ilości ruchu lub szczegółów przestrzennych), ustawień używanych do kodowania i transmisji oraz wierności kanału lub sieci wydajność.

Obiektywna jakość wideo

Obiektywne modele jakości wideomodele matematyczne , które przybliżone wyniki subiektywnej oceny jakości , w których ludzkie obserwatorzy są poproszeni o ocenę jakości wideo. W tym kontekście termin model może odnosić się do prostego modelu statystycznego, w którym kilka niezależnych zmiennych (np. szybkość utraty pakietów w sieci i parametry kodowania wideo) jest dopasowanych do wyników uzyskanych w subiektywnym teście oceny jakości przy użyciu technik regresji . Model może być również bardziej skomplikowanym algorytmem zaimplementowanym w oprogramowaniu lub sprzęcie.

Terminologia

Terminy model i metryka są często używane zamiennie w tej dziedzinie. Jednak metryka ma pewne właściwości matematyczne, które z definicji nie mają zastosowania do wszystkich modeli jakości wideo.

Termin „obiektywny” odnosi się do faktu, że generalnie modele jakości opierają się na kryteriach, które można zmierzyć obiektywnie – to znaczy wolne od ludzkiej interpretacji. Mogą być automatycznie oceniane przez program komputerowy. W przeciwieństwie do panelu ludzkich obserwatorów model obiektywny powinien zawsze deterministycznie generować ten sam wynik jakości dla danego zestawu parametrów wejściowych.

Modele jakości obiektywnej są czasami nazywane również modelami instrumentalnymi (jakościowymi) , aby podkreślić ich zastosowanie jako instrumentów pomiarowych. Niektórzy autorzy sugerują, że termin „obiektywny” jest mylący, ponieważ „implikuje, że pomiary instrumentalne są obiektywne, a robią to tylko w przypadku, gdy można je uogólnić”.

Klasyfikacja obiektywnych modeli jakości wideo

Klasyfikacja obiektywnych modeli jakości wideo na Full-Reference, Reduced-Reference i No-Reference.
Metody oceny jakości obrazu i wideo bez odniesienia.

Modele obiektywne można sklasyfikować według ilości dostępnych informacji o oryginalnym sygnale, odebranym sygnale lub o tym, czy w ogóle występuje sygnał:

  • Pełne metody referencyjne (FR): Modele FR obliczają różnicę jakości, porównując oryginalny sygnał wideo z odebranym sygnałem wideo. Zazwyczaj każdy piksel ze źródła jest porównywany z odpowiednim pikselem w odebranym wideo, bez wiedzy o procesie kodowania lub transmisji pomiędzy nimi. Bardziej rozbudowane algorytmy mogą zdecydować się na połączenie szacowania opartego na pikselach z innymi podejściami, takimi jak opisane poniżej. Modele FR są zwykle najdokładniejsze kosztem większego wysiłku obliczeniowego. Ponieważ wymagają dostępności oryginalnego wideo przed transmisją lub kodowaniem, nie można ich używać we wszystkich sytuacjach (np. gdy jakość jest mierzona z urządzenia klienckiego).
  • Zredukowane metody referencyjne (RR): Modele RR wyodrębniają niektóre cechy obu filmów i porównują je, aby uzyskać wynik jakości. Stosuje się je, gdy całe oryginalne wideo nie jest dostępne lub gdy byłoby to praktycznie niemożliwe, np. w transmisji o ograniczonej przepustowości. Czyni to je bardziej wydajnymi niż modele FR kosztem mniejszej dokładności.
  • No-Reference Methods (NR): Modele NR próbują ocenić jakość zniekształconego wideo bez odniesienia do oryginalnego sygnału. Ze względu na brak oryginalnego sygnału mogą być mniej dokładne niż podejścia FR lub RR, ale są bardziej wydajne w obliczeniach.
    • Metody oparte na pikselach (NR-P): Modele oparte na pikselach wykorzystują zdekodowaną reprezentację sygnału i analizują jakość w oparciu o informacje o pikselach. Niektóre z nich oceniają tylko określone typy degradacji, takie jak rozmycie lub inne artefakty kodowania .
    • Parametryczne/Bitstream Methods (NR-B): Modele te wykorzystują cechy wyodrębnione z kontenera transmisji i/lub strumienia bitów wideo, np. nagłówki pakietów MPEG-TS , wektory ruchu i parametry kwantyzacji. Nie mają dostępu do oryginalnego sygnału i nie wymagają dekodowania wideo, co czyni je bardziej wydajnymi. W przeciwieństwie do modeli NR-P nie mają dostępu do końcowego dekodowanego sygnału. Jednak przewidywania dotyczące jakości obrazu, które dostarczają, nie są zbyt dokładne.
    • Metody hybrydowe (Hybrid NR-PB): Modele hybrydowe łączą parametry wyodrębnione ze strumienia bitów z odkodowanym sygnałem wideo. Stanowią zatem mieszankę modeli NR-P i NR-B.

Wykorzystanie modeli jakości obrazu do oceny jakości wideo

Niektóre modele wykorzystywane do oceny jakości wideo (takie jak PSNR czy SSIM ) to po prostu modele jakości obrazu , których wyjście jest obliczane dla każdej klatki sekwencji wideo. Ta miara jakości każdej klatki może być następnie rejestrowana i gromadzona w czasie, aby ocenić jakość całej sekwencji wideo. Chociaż ta metoda jest łatwa do wdrożenia, nie uwzględnia pewnych rodzajów degradacji, które rozwijają się w czasie, takich jak ruchome artefakty spowodowane utratą pakietów i ich ukrywaniem . Model jakości wideo, który uwzględnia czasowe aspekty pogorszenia jakości, taki jak VQM lub indeks MOVIE , może być w stanie generować dokładniejsze prognozy jakości postrzeganej przez człowieka.

Przykłady

Metryczny Stosowanie Opis
Pełna referencja PSNR (Szczytowy stosunek sygnału do szumu) Obraz Jest obliczany między każdą klatką oryginalnego i zdegradowanego sygnału wideo. PSNR jest najczęściej używanym obiektywnym miernikiem jakości obrazu. Jednak wartości PSNR nie korelują dobrze z postrzeganą jakością obrazu ze względu na złożone, wysoce nieliniowe zachowanie ludzkiego układu wzrokowego.
SSIM (strukturalne podobieństwo) Obraz SSIM to model oparty na percepcji, który traktuje degradację obrazu jako postrzeganą zmianę informacji strukturalnej, a jednocześnie zawiera ważne zjawiska percepcyjne, w tym zarówno maskowanie luminancji, jak i maskowanie kontrastu.
MOVIE Index Oparta na ruchu ocena integralności wideo Wideo Indeks FILM jest opartym na neuronauce modelem do przewidywania percepcyjnej jakości (prawdopodobnie skompresowanego lub w inny sposób zniekształconego) filmu lub wideo w porównaniu z nieskazitelnym filmem referencyjnym.
VMAF Video Multimethod Assessment Fusion Wideo VMAF wykorzystuje cztery funkcje do przewidywania jakości wideo VIF, DLM, MCPD, AN-SNR. Powyższe funkcje są łączone przy użyciu regresji opartej na SVM , aby zapewnić pojedynczy wynik wyjściowy. Wyniki te są następnie tymczasowo łączone w całej sekwencji wideo przy użyciu średniej arytmetycznej, aby uzyskać ogólną różnicową ocenę średniej opinii (DMOS).
Zredukowana referencja SRR (zredukowana referencja SSIM) Wideo Wartość SRR jest obliczana jako stosunek odebranego (docelowego) sygnału wideo SSIM do wartości wzorca wideo odniesienia SSIM.
ST-RRED Wideo Oblicz współczynniki falkowe różnic ramek między sąsiednimi ramkami w sekwencji wideo (modelowane przez GSM). Służy do oceny różnic entropowych RR prowadzących do czasowego RRED. W połączeniu z przestrzennymi wskaźnikami RRED ocenianymi przez zastosowanie wskaźnika RRED do każdej klatki wideo, daje czasowo-przestrzenny RRED
Brak odniesienia Ocena jakości obrazu NIQE naturalności Obraz Ten model IQA opiera się na percepcyjnie istotnych cechach statystyki przestrzennej n naturalnej sceny (NSS) wyodrębnionych z lokalnych łatek obrazu, które skutecznie rejestrują podstawowe statystyki niskiego rzędu naturalnych obrazów.
BRISQUE Ocena jakości przestrzennej obrazu dla niewidomych/bez odniesień Obraz Metoda wyodrębnia punktowe statystyki lokalnych znormalizowanych sygnałów luminancji i mierzy naturalność obrazu (lub jej brak) w oparciu o zmierzone odchylenia od naturalnego modelu obrazu. Modeluje również rozkład statystyk par sąsiednich znormalizowanych sygnałów luminancji, które dostarczają informacji o orientacji zniekształceń.
Wideo-BLIINDS Wideo Oblicza modele statystyczne na współczynnikach DCT różnic ramek i oblicza charakterystykę ruchu. Pedicts oceniają na podstawie tych funkcji za pomocą SVM

Ponadto

Przegląd najnowszych modeli jakości obrazu bez referencji został przedstawiony w czasopiśmie Shahid et al. Jak wspomniano powyżej, mogą one być również używane w aplikacjach wideo. Grupa Ekspertów ds. Jakości Wideo posiada dedykowaną grupę roboczą zajmującą się opracowywaniem wskaźników braku odniesienia (zwanych NORM ).

Metryki oparte na strumieniu bitowym

Metryki pełnego lub zredukowanego odniesienia nadal wymagają dostępu do oryginalnego strumienia bitów wideo przed transmisją lub przynajmniej jego części. W praktyce oryginalny strumień może nie zawsze być dostępny do porównania, na przykład przy pomiarze jakości od strony użytkownika. W innych sytuacjach operator sieci może chcieć zmierzyć jakość strumieni wideo przechodzących przez jego sieć bez ich pełnego dekodowania. W celu bardziej wydajnego szacowania jakości wideo w takich przypadkach, metryki oparte na parametrach/strumieniu bitów również zostały ustandaryzowane:

Szkolenie i ocena wyników

Ponieważ oczekuje się, że obiektywne modele jakości wideo będą przewidywać wyniki podawane przez obserwatorów, są one opracowywane na podstawie subiektywnych wyników testów . Podczas tworzenia obiektywnego modelu należy szkolić jego parametry, aby uzyskać jak najlepszą korelację między obiektywnie przewidywanymi wartościami a wynikami subiektywnymi, często dostępnymi jako średnie oceny opinii (MOS).

Najczęściej używane subiektywne materiały testowe znajdują się w domenie publicznej i obejmują zdjęcia, filmy, strumieniowe wideo, wysokiej rozdzielczości, trójwymiarowe (stereoskopowe) oraz zestawy danych dotyczące jakości obrazu specjalnego przeznaczenia. Te tak zwane bazy danych są tworzone przez różne laboratoria badawcze na całym świecie. Niektóre z nich stały się de facto standardami, w tym kilka publicznych baz danych o subiektywnej jakości obrazu stworzonych i utrzymywanych przez Laboratorium Inżynierii Obrazu i Wideo (LIVE) oraz Tampere Image Database 2008 . Zbiór baz danych można znaleźć w repozytorium QUALINET Databases . Digital Video Library Konsumentów (CDVL) Gospodarze swobodnie dostępne badane sekwencje wideo dla rozwoju modelu.

Teoretycznie model można wytrenować na zestawie danych w taki sposób, aby generował idealnie dopasowane wyniki w tym zestawie danych. Jednak taki model będzie przeszkolony i dlatego nie będzie działał dobrze w nowych zestawach danych. Dlatego zaleca się walidację modeli na podstawie nowych danych i wykorzystanie uzyskanej wydajności jako rzeczywistego wskaźnika dokładności prognozowania modelu.

Aby zmierzyć wydajność modelu, niektóre często używane metryki to współczynnik korelacji liniowej , współczynnik korelacji rang Spearmana i pierwiastek błędu średniokwadratowego (RMSE). Inne wskaźniki to współczynnik kappa i współczynnik wartości odstających . Zalecenie ITU-T P.1401 zawiera przegląd procedur statystycznych służących do oceny i porównania obiektywnych modeli.

Zastosowania i zastosowanie obiektywnych modeli

Modele obiektywnej jakości wideo mogą być używane w różnych obszarach zastosowań. Podczas opracowywania kodeków wideo wydajność kodeka jest często oceniana pod kątem PSNR lub SSIM. W przypadku dostawców usług obiektywne modele mogą być wykorzystywane do monitorowania systemu. Na przykład dostawca IPTV może zdecydować się na monitorowanie jakości swoich usług za pomocą obiektywnych modeli, zamiast prosić użytkowników o opinię lub czekać na skargi klientów dotyczące złej jakości wideo. Niewiele z tych standardów znalazło zastosowanie komercyjne, w tym PEVQ i VQuad-HD . SSIM jest również częścią komercyjnie dostępnego zestawu narzędzi jakości wideo (SSIMWAVE). Technologia VMAF jest używana przez Netflix do dostrajania algorytmów kodowania i przesyłania strumieniowego oraz do kontroli jakości wszystkich przesyłanych strumieniowo treści. Jest również używany przez inne firmy technologiczne, takie jak Bitmovin i został zintegrowany z oprogramowaniem, takim jak FFmpeg .

Obiektywny model powinien być używany tylko w kontekście, dla którego został opracowany. Na przykład model opracowany przy użyciu określonego kodeka wideo nie gwarantuje dokładności dla innego kodeka wideo. Podobnie model wytrenowany na testach przeprowadzanych na dużym ekranie telewizora nie powinien być używany do oceny jakości wideo oglądanego na telefonie komórkowym.

Inne podejścia

Przy szacowaniu jakości kodeka wideo wszystkie wymienione obiektywne metody mogą wymagać powtórzenia testów po kodowaniu w celu określenia parametrów kodowania spełniających wymagany poziom jakości wizualnej, co czyni je czasochłonnymi, złożonymi i niepraktycznymi do wdrożenia w rzeczywistych zastosowaniach komercyjnych . Trwają badania nad opracowaniem nowatorskich obiektywnych metod oceny, które umożliwiają przewidywanie postrzeganego poziomu jakości zakodowanego wideo przed faktycznym wykonaniem kodowania.

Artefakty jakości wideo

Wszystkie artefakty wizualne są nadal cenne dla jakości wideo. Unikalne niewymienione atrybuty obejmują

Przestrzenny

  • Rozmycie - wynik utraty szczegółów obrazu o wysokiej częstotliwości przestrzennej, zwykle przy ostrych krawędziach.
  • Blokowanie - jest spowodowane wieloma algorytmami ze względu na wewnętrzną reprezentację obrazu z blokami o rozmiarze 8, 16 lub 32. Przy określonych parametrach mogą uśredniać piksele wewnątrz bloku, czyniąc bloki odrębnymi
  • Dzwonienie , echo lub zjawy – przybiera postać „aureoli”, wstęgi lub „ducha” w pobliżu ostrych krawędzi.
  • Zaciekanie kolorów — występuje, gdy krawędzie jednego koloru na obrazie nieumyślnie rozlewają się lub nakładają się na inny kolor
  • Hałas schodowy - to szczególny przypadek blokowania wzdłuż ukośnej lub zakrzywionej krawędzi. Zamiast renderować jako gładką, przybiera wygląd schodów

Czasowy

  • Migotanie - to zwykle częste zmiany jasności lub koloru w wymiarze czasu. Często objawia się migotaniem drobnoziarnistym i gruboziarnistym.
  • Hałas komara — odmiana migotania, jest określana jako zamglenie i/lub migotanie wokół treści o wysokiej częstotliwości (ostre przejścia między elementami pierwszego planu a tłem lub twardymi krawędziami).
  • Pływający - odnosi się do iluzorycznego ruchu w pewnych regionach, podczas gdy otaczające obszary pozostają statyczne. Wizualnie te regiony wyglądają tak, jakby unosiły się na otaczającym tle
  • Szarpanie się lub drganie – jest to ruch nierówny lub chwiejny, spowodowany próbkowaniem klatek. Często jest to spowodowane konwersją filmów 24 kl./s na format wideo 30 lub 60 kl./s.

Większość z nich można pogrupować w artefakty kompresji

Subiektywna jakość wideo

Głównym celem wieloobiektywnych wskaźników jakości wideo jest automatyczne oszacowanie opinii przeciętnego użytkownika (widza) na temat jakości wideo przetwarzanego przez system. Procedury subiektywnej jakości obrazu pomiary są opisane w ITU-R zalecenia BT.500 oraz ITU-T Recommendation P.910 . W takich testach sekwencje wideo są pokazywane grupie widzów. Opinia widzów jest rejestrowana i uśredniana do średniej oceny opinii w celu oceny jakości każdej sekwencji wideo. Jednak procedura testowania może się różnić w zależności od rodzaju testowanego systemu.

Narzędzia do oceny jakości wideo

Narzędzie dostępność Uwzględnione dane
FFmpeg Darmowy PSNR, SSIM , VMAF
MSU VQMT Bezpłatnie dla podstawowych danych

Opłacone za dane HDR

PSNR, SSIM, MS-SSIM, 3SSIM , VMAF , NIQE, VQM, Delta, MSAD, MSE

Opracowane przez MSU wskaźniki: wskaźnik rozmycia, wskaźnik blokowania, wskaźnik migotania jasności, wskaźnik upuszczania klatek, wskaźnik szacowania szumu

EPFL VQMT Darmowy PSNR, PSNR-HVS, PSNR-HVS-M, SSIM, MS-SSIM, VIFp
OpenVQ Darmowy PSNR, SSIM, OPVQ — metryka otwartej percepcyjnej jakości wideo
Elecard Dostępna wersja demonstracyjna PSNR, APSNR, MSAD, MSE, SSIM, Delta, VQM, NQI, VMAF i telefon VMAF , VIF
AviSynth Darmowy SSIM
Sonda VQ Darmowy PSNR, SSIM , VMAF
  • FFmpeg - FFmpeg to wiodący framework multimedialny, zdolny do dekodowania, kodowania, transkodowania, mux, demux, przesyłania strumieniowego, filtrowania i odtwarzania praktycznie wszystkiego, co stworzyli ludzie i maszyny. Obsługuje najbardziej niejasne, starożytne formaty aż do najnowocześniejszych. Bez względu na to, czy zostały zaprojektowane przez jakąś komisję normalizacyjną, społeczność czy korporację. Jest również wysoce przenośny: FFmpeg kompiluje, uruchamia i przekazuje naszą infrastrukturę testową FATE w systemach Linux, Mac OS X, Microsoft Windows, BSD, Solaris itp. w szerokiej gamie środowisk kompilacji, architektur maszyn i konfiguracji.
  • MSU VQMT - MSU Video Quality Measurement Tool (VQMT) to program do obiektywnej oceny jakości wideo. Zapewnia funkcjonalność dla porównań zarówno z pełnym odniesieniem (badane są dwa filmy), jak i z pojedynczym odniesieniem (analizowany jest jeden film).
  • EPFL VQMT - To oprogramowanie zapewnia szybką implementację następujących obiektywnych metryk: PSNR, SSIM, MS-SSIM, VIFp, PSNR-HVS, PSNR-HVS-M. W tym oprogramowaniu powyższe metryki są zaimplementowane w OpenCV (C++) na podstawie oryginalnych implementacji Matlab dostarczonych przez ich programistów.
  • OpenVQ — OpenVQ to zestaw narzędzi do oceny jakości wideo. Celem tego projektu jest zapewnienie wszystkim zainteresowanym oceną jakości wideo zestawu narzędzi, który a) zapewnia gotowe do użycia implementacje wskaźników jakości wideo oraz b) ułatwia wdrażanie innych wskaźników jakości wideo.
  • Elecard - narzędzie do pomiaru jakości wideo przeznaczone do porównywania jakości zakodowanych strumieni w oparciu o obiektywne metryki, takie jak PSNR, APSNR, SSIM, DELTA, MSE, MSAD, VQM, NQI, VMAF i VMAF telefon, VIF.
  • AviSynth - AviSynth to potężne narzędzie do postprodukcji wideo. Zapewnia sposoby edycji i przetwarzania filmów. AviSynth działa jako serwer ramek, zapewniając natychmiastową edycję bez potrzeby plików tymczasowych. Sam AviSynth nie zapewnia graficznego interfejsu użytkownika (GUI), ale zamiast tego opiera się na systemie skryptów, który umożliwia zaawansowaną edycję nieliniową.
  • Sonda VQ - Sonda VQ to profesjonalny instrument wizualny do obiektywnego i subiektywnego porównywania jakości wideo. Narzędzie pozwala użytkownikom porównywać różne standardy kodeków, budować krzywe RD i obliczać współczynniki BD.

Przewidywanie QoE dla jakości wideo

Przewidywanie QoE w filmach jest dużym wyzwaniem ze względu na wiele sytuacji, które mogą się pojawić oraz subiektywny charakter QoE. Z tego powodu, aby jak najdokładniej przewidzieć QoE, musimy skorzystać z dobrego klasyfikatora, który potrafi wykryć większość rodzajów błędów lub nieoczekiwanych sytuacji wpływających na jakość wideo. Niektóre badania wykazały, że klasyfikator procesu Gaussa daje dobre wyniki dla tego typu klasyfikacji.

Zobacz też

Bibliografia

Dalsza lektura