System rekomendacji - Recommender system

System rekomendacji lub system rekomendacji (czasami zastępujący „system” synonimem, takim jak platforma lub silnik), to podklasa systemu filtrowania informacji, która ma na celu przewidzenie „oceny” lub „preferencji”, jaką użytkownik nadałby przedmiotowi .

Systemy rekomendacji są wykorzystywane w różnych obszarach, a powszechnie uznawane przykłady to generatory list odtwarzania dla serwisów wideo i muzycznych, rekomendacje produktów dla sklepów internetowych lub rekomendacje treści dla platform mediów społecznościowych i otwarte rekomendacje treści internetowych. Systemy te mogą działać przy użyciu jednego wejścia, takiego jak muzyka, lub wielu wejść w ramach i między platformami, takimi jak wiadomości, książki i zapytania wyszukiwania. Istnieją również popularne systemy rekomendacji dla określonych tematów, takich jak restauracje i randki online . Opracowano również systemy rekomendacji, które umożliwiają eksplorację artykułów naukowych i ekspertów, współpracowników oraz usług finansowych.

Przegląd

Systemy rekomendacji zwykle korzystają z jednego lub obu filtrowania opartego na współpracy i filtrowania opartego na treści (znanego również jako podejście oparte na osobowości), a także innych systemów, takich jak systemy oparte na wiedzy . Metody filtrowania opartego na współpracy budują model na podstawie przeszłych zachowań użytkownika (elementy wcześniej zakupione lub wybrane i/lub oceny liczbowe nadawane tym elementom), a także podobne decyzje podjęte przez innych użytkowników. Model ten jest następnie używany do przewidywania pozycji (lub ocen pozycji), którymi użytkownik może być zainteresowany. Podejścia filtrowania oparte na treści wykorzystują szereg dyskretnych, wstępnie otagowanych cech pozycji w celu rekomendowania dodatkowych pozycji o podobnych właściwościach . Obecne systemy rekomendujące zazwyczaj łączą jedno lub więcej podejść w system hybrydowy.

Różnice między filtrowaniem grupowym a filtrowaniem opartym na treści można wykazać, porównując dwa systemy rekomendacji muzyki dawnej – Last.fm i Pandora Radio .

  • Last.fm tworzy „stację” polecanych utworów, obserwując, jakich pasm i poszczególnych utworów użytkownik regularnie słucha, i porównując je z zachowaniem słuchaczy innych użytkowników. Last.fm odtworzy utwory, które nie pojawiają się w bibliotece użytkownika, ale są często odtwarzane przez innych użytkowników o podobnych zainteresowaniach. Ponieważ to podejście wykorzystuje zachowanie użytkowników, jest to przykład kolaboracyjnej techniki filtrowania.
  • Pandora wykorzystuje właściwości utworu lub wykonawcy (podzbiór 400 atrybutów udostępnianych przez Music Genome Project ), aby zainicjować „stację”, która odtwarza muzykę o podobnych właściwościach. Informacje zwrotne od użytkowników służą do udoskonalania wyników stacji, zmniejszając nacisk na niektóre atrybuty, gdy użytkownik „nie lubi” określonej piosenki i podkreślając inne atrybuty, gdy użytkownik „lubi” utwór. To jest przykład podejścia opartego na treści.

Każdy rodzaj systemu ma swoje mocne i słabe strony. W powyższym przykładzie Last.fm wymaga dużej ilości informacji o użytkowniku, aby sformułować dokładne rekomendacje. Jest to przykład problemu zimnego startu , który jest powszechny we współpracujących systemach filtrowania. Podczas gdy Pandora potrzebuje bardzo mało informacji, aby rozpocząć, ma znacznie bardziej ograniczony zakres (na przykład może wydawać tylko zalecenia podobne do oryginalnego materiału siewnego).

Systemy polecające są przydatną alternatywą dla algorytmów wyszukiwania, ponieważ pomagają użytkownikom odkrywać przedmioty, których w inny sposób mogliby nie znaleźć. Warto zauważyć, że systemy rekomendujące są często implementowane za pomocą wyszukiwarek indeksujących nietradycyjne dane.

Systemy rekomendujące zostały po raz pierwszy wymienione w raporcie technicznym jako „cyfrowa półka na książki” w 1990 r. przez Jussiego Karlgrena z Columbia University, a wdrożone na dużą skalę i przepracowane w raportach technicznych i publikacjach od 1994 r. przez Jussiego Karlgrena, a następnie przez SICS i grupy badawcze kierowany przez Pattie Maes z MIT, Willa Hilla z Bellcore i Paula Resnicka , również z MIT, którego praca z GroupLens została nagrodzona 2010 ACM Software Systems Award .

Montaner przedstawił pierwszy przegląd systemów rekomendujących z perspektywy inteligentnego agenta. Adomavicius przedstawił nowy, alternatywny przegląd systemów rekomendacji. Herlocker zapewnia dodatkowy przegląd technik oceny systemów rekomendujących, a Beel i in. omówiono problemy ewaluacji offline. Beel i in. dostarczyli również przeglądy literatury na temat dostępnych systemów rekomendacji artykułów badawczych i istniejących wyzwań.

Systemy rekomendacji były przedmiotem kilku przyznanych patentów.

Podejścia

Filtrowanie zespołowe

Przykład filtrowania grupowego na podstawie systemu ocen

Jednym ze sposobów projektowania systemów rekomendujących, które ma szerokie zastosowanie, jest filtrowanie oparte na współpracy . Filtrowanie grupowe opiera się na założeniu, że osoby, które zgodziły się w przeszłości, zgodzą się w przyszłości i że będą im się podobać podobne rodzaje elementów, jak w przeszłości. System generuje rekomendacje, korzystając wyłącznie z informacji o profilach ocen dla różnych użytkowników lub elementów. Lokalizując równorzędnych użytkowników/elementy z historią ocen podobną do obecnego użytkownika lub elementu, generują rekomendacje przy użyciu tego sąsiedztwa. Metody filtrowania grupowego są klasyfikowane jako oparte na pamięci i oparte na modelu. Dobrze znanym przykładem podejść opartych na pamięci jest algorytm oparty na użytkowniku, podczas gdy podejścia opartego na modelu jest Rekomendator mapowania jądra .

Kluczową zaletą podejścia opartego na filtrowaniu grupowym jest to, że nie opiera się ono na zawartości, którą można analizować komputerowo, dzięki czemu jest w stanie dokładnie rekomendować złożone elementy, takie jak filmy, bez konieczności „zrozumienia” samego elementu. Wiele algorytmów zostało wykorzystanych do pomiaru podobieństwa użytkowników lub podobieństwa przedmiotów w systemach rekomendujących. Na przykład podejście k-najbliższego sąsiada (k-NN) i korelacja Pearsona po raz pierwszy zaimplementowana przez Allena.

Podczas budowania modelu na podstawie zachowania użytkownika często rozróżnia się jawne i niejawne formy gromadzenia danych .

Przykłady jawnego gromadzenia danych obejmują:

  • Proszenie użytkownika o ocenę przedmiotu na ruchomej skali.
  • Proszenie użytkownika o wyszukiwanie.
  • Poproszenie użytkownika o uszeregowanie kolekcji elementów od ulubionych do najmniej ulubionych.
  • Przedstawienie użytkownikowi dwóch przedmiotów i poproszenie go o wybranie lepszego z nich.
  • Poproszenie użytkownika o stworzenie listy przedmiotów, które lubi (patrz klasyfikacja Rocchio lub inne podobne techniki).

Przykłady niejawnego gromadzenia danych obejmują:

  • Obserwowanie przedmiotów, które użytkownik przegląda w sklepie internetowym.
  • Analizowanie czasu oglądania przedmiotu/użytkownika.
  • Prowadzenie rejestru przedmiotów, które użytkownik kupuje online.
  • Uzyskanie listy przedmiotów, których użytkownik słuchał lub oglądał na swoim komputerze.
  • Analizowanie sieci społecznościowej użytkownika i odkrywanie podobnych upodobań i antypatii.

Podejścia do filtrowania opartego na współpracy często borykają się z trzema problemami: zimny start , skalowalność i rzadkość.

  • Zimny ​​start : w przypadku nowego użytkownika lub nowego produktu nie ma wystarczającej ilości danych do sformułowania dokładnych rekomendacji. Uwaga: jednym z powszechnie stosowanych rozwiązań tego problemu jest algorytm wielorękiego bandyty .
  • Skalowalność : w wielu środowiskach, w których te systemy formułują zalecenia, istnieją miliony użytkowników i produktów. Dlatego do obliczenia rekomendacji często potrzebna jest duża moc obliczeniowa.
  • Rzadkość : liczba przedmiotów sprzedawanych w głównych witrynach e-commerce jest bardzo duża. Najbardziej aktywni użytkownicy ocenią tylko niewielki podzbiór całej bazy danych. Dlatego nawet najbardziej popularne przedmioty mają bardzo mało ocen.

Jednym z najbardziej znanych przykładów współdzielonego filtrowania jest współdzielone filtrowanie element-do-elementu (osoby, które kupują x, kupują również y), algorytm spopularyzowany przez system rekomendacji Amazon.com .

Wiele sieci społecznościowych pierwotnie używało filtrowania grupowego do polecania nowych znajomych, grup i innych połączeń społecznościowych poprzez badanie sieci połączeń między użytkownikiem a jego znajomymi. Filtrowanie zespołowe jest nadal używane jako część systemów hybrydowych.

Filtrowanie oparte na treści

Innym powszechnym podejściem podczas projektowania systemów rekomendujących jest filtrowanie oparte na treści . Metody filtrowania treści oparte są na opisie przedmiotu i profilu preferencji użytkownika. Metody te najlepiej sprawdzają się w sytuacjach, w których znane są dane o elemencie (nazwa, lokalizacja, opis itp.), ale nie o użytkowniku. Osoby rekomendujące oparte na treści traktują rekomendacje jako problem z klasyfikacją specyficzny dla użytkownika i uczą się klasyfikatora dla upodobań i niechęci użytkownika na podstawie cech elementu.

W tym systemie słowa kluczowe są używane do opisywania przedmiotów, a profil użytkownika jest tworzony, aby wskazać typ przedmiotu, który ten użytkownik lubi. Innymi słowy, algorytmy te starają się rekomendować przedmioty podobne do tych, które użytkownik lubił w przeszłości lub bada w teraźniejszości. Nie opiera się na mechanizmie logowania użytkownika do generowania tego często tymczasowego profilu. W szczególności różne pozycje kandydujące są porównywane z pozycjami wcześniej ocenionymi przez użytkownika i zalecane są pozycje najlepiej pasujące. Podejście to ma swoje korzenie w wyszukiwaniu informacji i filtrowaniu informacji .

Aby utworzyć profil użytkownika , system skupia się głównie na dwóch rodzajach informacji:

1. Model preferencji użytkownika.

2. Historia interakcji użytkownika z systemem rekomendacji.

Zasadniczo metody te wykorzystują profil pozycji (tj. zestaw odrębnych atrybutów i cech) charakteryzujący pozycję w systemie. Aby wyabstrahować cechy elementów w systemie, stosuje się algorytm prezentacji elementów. Szeroko stosowanym algorytmem jest reprezentacja tf-idf (zwana również reprezentacją w przestrzeni wektorowej). System tworzy profil treściowy użytkowników na podstawie ważonego wektora cech przedmiotu. Wagi oznaczają znaczenie każdej funkcji dla użytkownika i można je obliczyć na podstawie indywidualnie ocenianych wektorów treści przy użyciu różnych technik. Proste podejścia wykorzystują średnie wartości wektora ocenionego elementu, podczas gdy inne zaawansowane metody wykorzystują techniki uczenia maszynowego, takie jak klasyfikatory bayesowskie , analiza skupień , drzewa decyzyjne i sztuczne sieci neuronowe w celu oszacowania prawdopodobieństwa, że ​​użytkownik polubi dany przedmiot.

Kluczowym problemem związanym z filtrowaniem opartym na treści jest to, czy system jest w stanie poznać preferencje użytkownika na podstawie działań użytkowników dotyczących jednego źródła treści i wykorzystać je w innych typach treści. Gdy system jest ograniczony do rekomendowania zawartości tego samego typu, z którego korzysta już użytkownik, wartość z systemu rekomendacji jest znacznie mniejsza niż w przypadku, gdy można polecić inne typy zawartości z innych usług. Na przykład polecanie artykułów z wiadomościami na podstawie przeglądania wiadomości jest przydatne, ale byłoby o wiele bardziej przydatne, gdy na podstawie przeglądania wiadomości można polecić muzykę, filmy, produkty, dyskusje itp. z różnych serwisów. Aby rozwiązać ten problem, większość systemów rekomendujących opartych na treści używa teraz jakiejś formy systemu hybrydowego.

Systemy rekomendacji oparte na treści mogą również obejmować systemy rekomendacji oparte na opiniach. W niektórych przypadkach użytkownicy mogą zostawić recenzję tekstową lub opinię na temat przedmiotów. Te generowane przez użytkowników teksty są niejawnymi danymi dla systemu rekomendacji, ponieważ są potencjalnie bogatym źródłem zarówno cech/aspektów przedmiotu, jak i oceny/sentysu użytkowników do przedmiotu. Funkcje wyodrębnione z recenzji generowanych przez użytkowników to ulepszone metadane elementów, ponieważ ponieważ odzwierciedlają one również aspekty elementu, takie jak metadane , wyodrębnione funkcje są szeroko zaniepokojone przez użytkowników. Opinie wyodrębnione z recenzji mogą być postrzegane jako oceny użytkowników dotyczące odpowiednich funkcji. Popularne podejścia opartego na opiniach systemu rekomendacji wykorzystują różne techniki, w tym eksplorację tekstu , wyszukiwanie informacji , analizę sentymentu (patrz także Multimodalna analiza sentymentu ) i głębokie uczenie.

Systemy rekomendacji oparte na sesjach

Te systemy rekomendacji wykorzystują interakcje użytkownika w ramach sesji do generowania rekomendacji. Systemy rekomendacji oparte na sesjach są używane w serwisach YouTube i Amazon. Są one szczególnie przydatne, gdy historia (taka jak przeszłe kliknięcia, zakupy) użytkownika jest niedostępna lub nieistotna w bieżącej sesji użytkownika. Domeny, w których rekomendacje oparte na sesjach są szczególnie istotne, obejmują wideo, e-commerce, podróże, muzykę i inne. Większość przypadków systemów rekomendacji opartych na sesjach opiera się na sekwencji ostatnich interakcji w ramach sesji bez wymagania dodatkowych szczegółów (historycznych, demograficznych) użytkownika. Techniki zaleceń opartych na sesjach opierają się głównie na generatywnych modelach sekwencyjnych, takich jak rekurencyjne sieci neuronowe, transformatory i inne podejścia oparte na głębokim uczeniu

Nauka wzmacniania dla systemów rekomendujących

Problem rekomendacji może być postrzegany jako szczególny przypadek problemu uczenia się przez wzmocnienie, w którym użytkownik jest środowiskiem, na którym działa agent, system rekomendacji w celu otrzymania nagrody, na przykład kliknięcia lub zaangażowania użytkownika. Jednym z aspektów uczenia się przez wzmacnianie, który jest szczególnie przydatny w obszarze systemów rekomendujących, jest fakt, że modeli lub zasad można się nauczyć, zapewniając nagrodę agentowi rekomendującemu. Jest to w przeciwieństwie do tradycyjnych technik uczenia się, które opierają się na podejściach do nadzorowanego uczenia się, które są mniej elastyczne, techniki rekomendacji uczenia się przez wzmacnianie pozwalają potencjalnie trenować modele, które można zoptymalizować bezpośrednio na podstawie wskaźników zaangażowania i zainteresowania użytkownika.

Wielokryterialne systemy rekomendujące

Systemy rekomendacji wielokryterialnych (MCRS) można zdefiniować jako systemy rekomendujące, które zawierają informacje o preferencjach na podstawie wielu kryteriów. Zamiast opracowywać techniki rekomendacji w oparciu o pojedynczą wartość kryterium, ogólną preferencję użytkownika u dla pozycji i, systemy te próbują przewidzieć ocenę dla niezbadanych pozycji u, wykorzystując informacje o preferencjach na podstawie wielu kryteriów, które wpływają na tę ogólną wartość preferencji. Kilku badaczy traktuje MCRS jako problem wielokryterialnego podejmowania decyzji (MCDM) i stosuje metody i techniki MCDM do wdrażania systemów MCRS. W tym rozdziale znajdziesz rozszerzone wprowadzenie.

Systemy rekomendujące uwzględniające ryzyko

Większość istniejących podejść do systemów rekomendujących skupia się na rekomendowaniu użytkownikom najtrafniejszych treści przy użyciu informacji kontekstowych, ale nie bierze pod uwagę ryzyka przeszkadzania użytkownikowi niechcianymi powiadomieniami. Ważne jest, aby wziąć pod uwagę ryzyko zdenerwowania użytkownika poprzez wypychanie rekomendacji w określonych okolicznościach, na przykład podczas spotkania zawodowego, wczesnym rankiem lub późną nocą. Dlatego też skuteczność systemu rekomendacji zależy po części od stopnia, w jakim uwzględnił on ryzyko w procesie rekomendacji. Jedną z opcji radzenia sobie z tym problemem jest DRARS , system, który modeluje rekomendację kontekstową jako problem bandytów . Ten system łączy technikę opartą na treści i kontekstowy algorytm bandytów.

Mobilne systemy rekomendujące

Mobilne systemy rekomendacji wykorzystują smartfony z dostępem do Internetu, aby oferować spersonalizowane, kontekstowe rekomendacje. Jest to szczególnie trudny obszar badań, ponieważ dane mobilne są bardziej złożone niż dane, z którymi często mają do czynienia systemy rekomendujące. Jest niejednorodny, zaszumiony, wymaga autokorelacji przestrzennej i czasowej oraz ma problemy z walidacją i ogólnością.

Istnieją trzy czynniki, które mogą wpływać na systemy rekomendacji mobilnych i dokładność wyników prognoz: kontekst, metoda rekomendacji i prywatność. Dodatkowo mobilne systemy polecające mają problem z przeszczepem – zalecenia mogą nie mieć zastosowania we wszystkich regionach (na przykład nierozsądne byłoby polecanie przepisu w regionie, w którym wszystkie składniki mogą nie być dostępne).

Jednym z przykładów mobilnego systemu rekomendacji jest podejście firm takich jak Uber i Lyft do generowania tras przejazdów dla taksówkarzy w mieście. System ten wykorzystuje dane GPS o trasach, którymi pokonują taksówkarze podczas pracy, w tym lokalizację (szerokość i długość geograficzną), znaczniki czasu i status operacyjny (z pasażerami lub bez). Wykorzystuje te dane, aby zarekomendować listę punktów odbioru na trasie w celu optymalizacji czasu obłożenia i zysków.

Hybrydowe systemy rekomendujące

Większość systemów rekomendujących używa obecnie podejścia hybrydowego, łączącego filtrowanie zespołowe , filtrowanie oparte na treści i inne podejścia . Nie ma powodu, dla którego nie można hybrydyzować kilku różnych technik tego samego typu. Podejścia hybrydowe można wdrożyć na kilka sposobów: poprzez oddzielne tworzenie prognoz opartych na treści i opartych na współpracy, a następnie łączenie ich; dodając funkcje oparte na treści do podejścia opartego na współpracy (i odwrotnie); lub przez ujednolicenie podejść w jeden model (patrz pełny przegląd systemów rekomendacji). Kilka badań, które empirycznie porównują działanie hybrydy z czystymi metodami współpracy i opartych na treści i wykazały, że metody hybrydowe mogą dostarczyć dokładniejszych zaleceń niż czyste podejścia. Metody te można również wykorzystać do przezwyciężenia niektórych typowych problemów w systemach rekomendujących, takich jak zimny start i problem rzadkości, a także wąskie gardło inżynierii wiedzy w podejściach opartych na wiedzy .

Dobrym przykładem zastosowania hybrydowych systemów rekomendujących jest Netflix . Witryna przedstawia rekomendacje, porównując nawyki oglądania i wyszukiwania podobnych użytkowników (tj. wspólne filtrowanie), a także oferując filmy, które mają takie same cechy, jak filmy wysoko ocenione przez użytkownika (filtrowanie na podstawie treści).

Niektóre techniki hybrydyzacji obejmują:

  • Ważony : Łączenie punktacji różnych składników rekomendacji w ujęciu liczbowym.
  • Przełączanie : wybór spośród komponentów rekomendacji i zastosowanie wybranego.
  • Mieszane : Rekomendacje od różnych rekomendujących są prezentowane razem, aby dać rekomendację.
  • Kombinacja cech : cechy pochodzące z różnych źródeł wiedzy są łączone razem i przekazywane do jednego algorytmu rekomendacji.
  • Wzmocnienie cech : Obliczanie cechy lub zestawu cech, które są następnie częścią danych wejściowych do następnej techniki.
  • Kaskada : Rekomendatorzy mają ścisły priorytet, a ci o niższym priorytecie łamią remisy w punktacji z wyższymi.
  • Metapoziom : stosowana jest jedna technika rekomendacji, która tworzy pewien rodzaj modelu, który jest następnie danymi wejściowymi używanymi przez następną technikę.

Nagroda Netflix

Jednym z wydarzeń, które pobudziły badania nad systemami rekomendacyjnymi, była nagroda Netflix . W latach 2006-2009 Netflix sponsorował konkurs, oferując główną nagrodę w wysokości 1 000 000 dolarów zespołowi, który mógł wykorzystać zaoferowany zestaw danych zawierający ponad 100 milionów ocen filmów i zwrócić rekomendacje, które były o 10% dokładniejsze niż te oferowane przez istniejący system rekomendacji firmy. Konkurs ten pobudził poszukiwania nowych i dokładniejszych algorytmów. W dniu 21 września 2009 r. główna nagroda w wysokości 1 000 000 USD została przekazana zespołowi Pragmatic Chaos BellKor, stosując zasady rozstrzygania remisów.

Najdokładniejszy algorytm w 2007 r. wykorzystywał metodę zbiorczą 107 różnych podejść algorytmicznych, połączonych w jedną predykcję. Jak stwierdzili zwycięzcy, Bell i in.:

Dokładność predykcyjna jest znacznie poprawiona podczas łączenia wielu predyktorów. Z naszego doświadczenia wynika, że ​​większość wysiłków powinna być skoncentrowana na wyprowadzaniu zasadniczo różnych podejść, a nie na doskonaleniu jednej techniki. W konsekwencji nasze rozwiązanie to zestaw wielu metod.

Sieć zyskała wiele korzyści dzięki projektowi Netflix. Niektóre zespoły wykorzystały swoją technologię i zastosowały ją na innych rynkach. Niektórzy członkowie zespołu, który zajął drugie miejsce, założyli Gravity R&D , silnik rekomendacji, który jest aktywny w społeczności RecSys. Firma 4-Tell, Inc. stworzyła oparte na projekcie rozwiązanie Netflix dla witryn e-commerce.

W związku ze zbiorem danych oferowanym przez Netflix w konkursie Netflix Prize pojawiło się wiele problemów związanych z prywatnością . Chociaż zestawy danych zostały zanonimizowane w celu ochrony prywatności klientów, w 2007 r. dwóch badaczy z University of Texas było w stanie zidentyfikować poszczególnych użytkowników, porównując zestawy danych z ocenami filmów w internetowej bazie danych filmów. W rezultacie w grudniu 2009 r. anonimowy użytkownik Netflix pozwał Netflix w sprawie Doe przeciwko Netflix, twierdząc, że Netflix naruszył amerykańskie przepisy dotyczące uczciwego handlu i ustawę o ochronie prywatności wideo, udostępniając zbiory danych. To, podobnie jak obawy Federalnej Komisji Handlu , doprowadziło do anulowania drugiego konkursu Netflix Prize w 2010 roku.

Miary wydajności

Ewaluacja jest ważna w ocenie skuteczności algorytmów rekomendacji. Aby zmierzyć skuteczność systemów rekomendujących i porównać różne podejścia, dostępne są trzy rodzaje ocen : badania użytkowników, oceny online (testy A/B) i oceny offline.

Powszechnie używanymi wskaźnikami są średni błąd kwadratowy i pierwiastek błędu średniokwadratowego , który został wykorzystany w nagrodzie Netflix. Mierniki wyszukiwania informacji, takie jak precyzja i przypomnienie lub DCG, są przydatne do oceny jakości metody rekomendacji. Różnorodność, nowość i zasięg są również uważane za ważne aspekty ewaluacji. Jednak wiele klasycznych miar ewaluacyjnych jest bardzo krytykowanych.

Ocena wydajności algorytmu rekomendacji na ustalonym zestawie danych testowych zawsze będzie niezwykle trudna, ponieważ niemożliwe jest dokładne przewidzenie reakcji rzeczywistych użytkowników na rekomendacje. Dlatego każda metryka, która oblicza skuteczność algorytmu w danych offline, będzie nieprecyzyjna.

Badania użytkowników mają raczej niewielką skalę. Kilkudziesięciu lub setkom użytkowników prezentowane są rekomendacje stworzone przez różne podejścia do rekomendacji, a następnie użytkownicy oceniają, które rekomendacje są najlepsze.

W testach A/B rekomendacje są pokazywane zazwyczaj tysiącom użytkowników prawdziwego produktu, a system rekomendacji losowo wybiera co najmniej dwa różne podejścia do rekomendacji w celu wygenerowania rekomendacji. Skuteczność mierzy się za pomocą ukrytych miar skuteczności, takich jak współczynnik konwersji lub współczynnik klikalności .

Oceny offline opierają się na danych historycznych, np. zbiorze danych zawierającym informacje o tym, jak użytkownicy wcześniej oceniali filmy.

Skuteczność podejść do rekomendacji jest następnie mierzona na podstawie tego, jak dobrze podejście rekomendacyjne może przewidzieć oceny użytkowników w zbiorze danych. Chociaż ocena jest wyraźnym określeniem, czy użytkownik polubił film, takie informacje nie są dostępne we wszystkich domenach. Na przykład w domenie systemów rekomendacji cytowań użytkownicy zazwyczaj nie oceniają cytowania ani polecanego artykułu. W takich przypadkach oceny offline mogą wykorzystywać dorozumiane miary skuteczności. Na przykład można założyć, że skuteczny system rekomendacji jest w stanie zarekomendować jak najwięcej artykułów znajdujących się na liście referencyjnej artykułu badawczego. Jednak tego rodzaju oceny offline są postrzegane przez wielu badaczy jako krytyczne. Na przykład wykazano, że wyniki ocen offline mają niską korelację z wynikami badań użytkowników lub testów A/B. Wykazano, że zbiór danych popularny do oceny offline zawiera zduplikowane dane, a tym samym prowadzi do błędnych wniosków w ocenie algorytmów. Często wyniki tak zwanych ocen offline nie korelują z faktycznie ocenianą satysfakcją użytkowników. Dzieje się tak prawdopodobnie dlatego, że szkolenie offline jest silnie ukierunkowane na wysoce osiągalne elementy, a na dane testowania offline duży wpływ mają wyniki modułu rekomendacji online. Badacze doszli do wniosku, że wyniki ewaluacji offline należy oceniać krytycznie.

Poza dokładnością

Zazwyczaj badania nad systemami rekomendacji dotyczą znalezienia najdokładniejszych algorytmów rekomendacji. Istnieje jednak szereg czynników, które również są ważne.

  • Różnorodność – użytkownicy są bardziej zadowoleni z rekomendacji, gdy istnieje większe zróżnicowanie wewnątrz listy, np. przedmioty od różnych artystów.
  • Trwałość rekomendacji — w niektórych sytuacjach bardziej efektywne jest ponowne pokazywanie rekomendacji lub umożliwienie użytkownikom ponownej oceny elementów niż pokazywanie nowych elementów. Powodów jest kilka. Użytkownicy mogą ignorować elementy, gdy są pokazywane po raz pierwszy, na przykład dlatego, że nie mieli czasu na dokładne zapoznanie się z rekomendacjami.
  • Prywatność — systemy rekomendacji zwykle muszą radzić sobie z obawami dotyczącymi prywatności, ponieważ użytkownicy muszą ujawniać poufne informacje. Tworzenie profili użytkowników przy użyciu filtrowania grupowego może być problematyczne z punktu widzenia prywatności. Wiele krajów europejskich ma silną kulturę prywatności danych , a każda próba wprowadzenia jakiegokolwiek poziomu profilowania użytkowników może skutkować negatywną reakcją klientów. Przeprowadzono wiele badań na temat bieżących kwestii prywatności w tej przestrzeni. Nagroda Netflix jest szczególnie godne uwagi dla szczegółowych informacji osobistej wydany w zbiorze danych. Ramakrishnan i in. przeprowadzili obszerny przegląd kompromisów między personalizacją a prywatnością i odkryli, że połączenie słabych powiązań (nieoczekiwane połączenie, które dostarcza nieoczekiwanych zaleceń) i innych źródeł danych, może być wykorzystywane do odkrywania tożsamości użytkowników w zanonimizowanym zbiorze danych.
  • Demografia użytkowników – Beel i in. odkryli, że dane demograficzne użytkowników mogą wpływać na poziom zadowolenia użytkowników z rekomendacji. W swoim artykule pokazują, że starsi użytkownicy są bardziej zainteresowani rekomendacjami niż młodsi użytkownicy.
  • Solidność — gdy użytkownicy mogą uczestniczyć w systemie rekomendacji, należy rozwiązać problem oszustw.
  • SerendipitySerendipity jest miarą tego, „jak zaskakujące są rekomendacje”. Na przykład system rekomendacji, który poleca mleko klientowi w sklepie spożywczym, może być bardzo dokładny, ale nie jest to dobra rekomendacja, ponieważ jest to oczywisty element do kupienia przez klienta. „[Serenditipity] służy dwóm celom: po pierwsze, zmniejsza się szansa, że ​​użytkownicy stracą zainteresowanie, ponieważ zestaw wyboru jest zbyt jednolity. Po drugie, te elementy są potrzebne algorytmom, aby się uczyły i doskonaliły”.
  • Zaufanie — system rekomendacji ma niewielką wartość dla użytkownika, jeśli użytkownik nie ufa systemowi. Zaufanie można zbudować za pomocą systemu rekomendacji, wyjaśniając, w jaki sposób generuje rekomendacje i dlaczego poleca dany przedmiot.
  • Etykietowanie – na zadowolenie użytkownika z rekomendacji może mieć wpływ etykietowanie rekomendacji. Na przykład w cytowanym badaniu współczynnik klikalności (CTR) dla rekomendacji oznaczonych jako „Sponsorowane” był niższy (CTR=5,93%) niż CTR dla identycznych rekomendacji oznaczonych jako „Organiczne” (CTR=8,86%). Rekomendacje bez etykiety wypadły najlepiej (CTR=9,87%) w tym badaniu.

Odtwarzalność

Systemy rekomendujące są notorycznie trudne do oceny offline, a niektórzy badacze twierdzą, że doprowadziło to do kryzysu odtwarzalności publikacji dotyczących systemów rekomendujących. Niedawne badanie niewielkiej liczby wybranych publikacji wykorzystujących głębokie uczenie lub metody neuronowe do problemu rekomendacji top k, opublikowane na czołowych konferencjach (SIGIR, KDD, WWW, RecSys, IJCAI), wykazało, że średnio mniej niż 40% artykuły mogły być powielane przez autorów ankiety, a na niektórych konferencjach było to zaledwie 14%. Ogólnie rzecz biorąc, badania zidentyfikowały 26 artykułów, tylko 12 z nich mogło zostać odtworzonych przez autorów, a 11 z nich mogło przewyższyć znacznie starsze i prostsze, odpowiednio dostrojone wartości bazowe na metrykach oceny off-line. Artykuły rozważają szereg potencjalnych problemów w dzisiejszej stypendium naukowym i sugerują poprawę praktyk naukowych w tej dziedzinie. Nowsze prace nad benchmarkingiem zestawu tych samych metod przyniosły jakościowo bardzo różne wyniki, w których metody neuronowe okazały się być jednymi z metod o najlepszych wynikach. Głębokie uczenie i metody neuronowe dla systemów rekomendujących zostały wykorzystane w zwycięskich rozwiązaniach w kilku ostatnich wyzwaniach systemowych rekomendacji, WSDM, RecSys Challenge. Ponadto metody neuronowe i głębokiego uczenia się są szeroko stosowane w przemyśle, gdzie są szeroko testowane. Temat odtwarzalności nie jest nowy w systemach rekomendujących. Do 2011 roku Ekstrand, Konstan i in. skrytykował, że „obecnie trudno jest odtworzyć i rozszerzyć wyniki badań systemów rekomendujących” oraz że oceny „nie są prowadzone konsekwentnie”. Konstan i Adomavicius konkludują, że „społeczność badawcza Recommender Systems stoi w obliczu kryzysu, w którym znaczna liczba artykułów przedstawia wyniki, które w niewielkim stopniu przyczyniają się do zbiorowej wiedzy […] często dlatego, że badaniom brakuje […] oceny, aby można je było właściwie ocenić, a co za tym idzie, wnosić znaczący wkład”. W konsekwencji wiele badań dotyczących systemów rekomendujących można uznać za niemożliwe do odtworzenia. W związku z tym operatorzy systemów rekomendujących znajdują niewiele wskazówek w bieżących badaniach, aby odpowiedzieć na pytanie, które podejścia rekomendacyjne zastosować w systemach rekomendujących. Said i Bellogín przeprowadzili badanie artykułów opublikowanych w tej dziedzinie, a także porównali niektóre z najpopularniejszych ram rekomendacji i znaleźli duże niespójności w wynikach, nawet przy użyciu tych samych algorytmów i zestawów danych. Niektórzy badacze wykazali, że niewielkie zmiany w algorytmach lub scenariuszach rekomendacji doprowadziły do ​​silnych zmian w skuteczności systemu rekomendacji. Stwierdzają, że siedem działań jest koniecznych, aby poprawić obecną sytuację: „(1) zbadać inne pola badawcze i uczyć się z nich, (2) znaleźć wspólne rozumienie odtwarzalności, (3) zidentyfikować i zrozumieć determinanty, które wpływają na odtwarzalność, (4) ) przeprowadzać bardziej kompleksowe eksperymenty (5) unowocześniać praktyki wydawnicze, (6) wspierać rozwój i wykorzystanie ram rekomendacji oraz (7) ustanowić wytyczne dotyczące najlepszych praktyk w zakresie badań nad systemami rekomendacji."

Zobacz też

Bibliografia

Dalsza lektura

Książki

Kim Falk (styczeń 2019), Praktyczne systemy rekomendacji, Manning Publikacje, ISBN  9781617292705

Artykuły naukowe

Zewnętrzne linki