Eksploracja sieci - Web mining

Web mining to zastosowanie technik eksploracji danych do wykrywania wzorców w sieci WWW . Wykorzystuje zautomatyzowane metody do wyodrębniania zarówno ustrukturyzowanych, jak i nieustrukturyzowanych danych ze stron internetowych, dzienników serwera i struktur linków. Istnieją trzy główne podkategorie eksploracji sieci. Eksploracja treści internetowych wyodrębnia informacje z wnętrza strony. Eksploracja struktury sieci pozwala odkryć strukturę hiperłączy między dokumentami, kategoryzować zestawy stron internetowych oraz mierzyć podobieństwo i relacje między różnymi witrynami. Eksploracja korzystania z sieci znajduje wzorce korzystania ze stron internetowych.

Rodzaje eksploracji sieci

Górnictwo WWW można podzielić na trzy rodzaje - górniczych Wykorzystanie Web , górniczych zawartości sieci Web i Web struktura górniczych .

Ogólny związek między kategoriami eksploracji sieci a celami eksploracji danych
Porównanie typów eksploracji sieci
Eksploracja treści internetowych Eksploracja struktury sieci Eksploracja wykorzystania sieci
Widok w podczerwieni Widok bazy danych
Widok danych
  • Nieustrukturyzowany
  • Zbudowany
  • Półstrukturalne
  • Strona internetowa jako DB
  • Struktura linków
  • Interaktywność
Główne dane
  • Dokumenty hipertekstowe
  • Struktura linków
  • Dzienniki serwera
  • Dzienniki przeglądarki
Reprezentacja
  • Wykres oznaczony krawędzią
  • Relacyjny
  • Wykres
  • Tabela relacyjna
  • Wykres
metoda
  • Zastrzeżone algorytmy
  • Nauczanie maszynowe
  • Statystyczny
  • Zasady stowarzyszenia
Kategorie aplikacji
  • Znajdowanie częstych podstruktur
  • Wykrywanie schematu witryny sieci Web
  • Kategoryzacja
  • Grupowanie
  • Budowa strony
  • Adaptacja i zarządzanie

Eksploracja wykorzystania sieci

Eksploracja użycia sieci Web to zastosowanie technik eksploracji danych do odkrywania interesujących wzorców użytkowania z danych sieci Web w celu zrozumienia i lepszego zaspokajania potrzeb aplikacji internetowych . Dane użytkowania rejestrują tożsamość lub pochodzenie użytkowników sieci Web wraz z ich zachowaniem podczas przeglądania witryny sieci Web.

Samo badanie korzystania z sieci może być dalej klasyfikowane w zależności od rodzaju rozważanych danych o użytkowaniu:

  • Dane serwera WWW : Logi użytkownika są gromadzone przez serwer WWW . Typowe dane obejmują adres IP, odniesienie do strony i czas dostępu.
  • Dane serwera aplikacji : Komercyjne serwery aplikacji mają istotne funkcje umożliwiające budowanie na nich aplikacji e-commerce przy niewielkim wysiłku. Kluczową cechą jest możliwość śledzenia różnego rodzaju zdarzeń biznesowych i rejestrowania ich w logach serwera aplikacji.
  • Dane na poziomie aplikacji : W aplikacji można zdefiniować nowe rodzaje zdarzeń i włączyć dla nich rejestrowanie, generując w ten sposób historie tych specjalnie zdefiniowanych zdarzeń. Wiele zastosowań końcowych wymaga połączenia jednej lub więcej technik stosowanych w powyższych kategoriach.

Badania związane z pracą dotyczą dwóch obszarów: algorytmów eksploracji danych opartych na ograniczeniach stosowanych w eksploracji wykorzystania sieci Web oraz opracowanych narzędzi (systemów) oprogramowania. Costa i Seco wykazali, że eksploracja dzienników internetowych może być wykorzystywana do wydobywania informacji semantycznych ( w szczególności relacji hiponimicznych ) o użytkowniku i danej społeczności.

Plusy

Eksploracja wykorzystania sieci ma zasadniczo wiele zalet, co czyni tę technologię atrakcyjną dla korporacji, w tym agencji rządowych. Ta technologia umożliwiła e-commerce prowadzenie spersonalizowanego marketingu , co ostatecznie skutkuje wyższymi wolumenami transakcji. Agencje rządowe używają tej technologii do klasyfikacji zagrożeń i walki z terroryzmem . Zdolność przewidywania aplikacji górniczych może przynieść korzyści społeczeństwu dzięki identyfikacji działań przestępczych. Firmy mogą nawiązać lepsze relacje z klientami, lepiej rozumiejąc potrzeby klienta i szybciej reagując na jego potrzeby. Firmy mogą znajdować, przyciągać i zatrzymywać klientów; mogą zaoszczędzić na kosztach produkcji, wykorzystując zdobytą wiedzę o wymaganiach klientów. Mogą zwiększyć rentowność poprzez docelowe ceny na podstawie utworzonych profili . Mogą nawet znaleźć klientów, którzy mogą nie dotrzymać kroku konkurentowi. Firma spróbuje zatrzymać klienta, dostarczając oferty promocyjne konkretnemu klientowi, zmniejszając w ten sposób ryzyko utraty klienta lub klientów.

Więcej korzyści z eksploracji korzystania z sieci, szczególnie w obszarze personalizacji , przedstawiono w określonych ramach, takich jak probabilistyczny ukryty model analizy semantycznej , który oferuje dodatkowe funkcje w zachowaniu użytkownika i wzorcu dostępu. Dzieje się tak, ponieważ proces zapewnia użytkownikowi bardziej trafną treść dzięki rekomendacjom opartym na współpracy. Modele te wykazują również zdolność technologii eksploracji wykorzystania sieci do rozwiązywania problemów związanych z tradycyjnymi technikami, takich jak błędy i pytania dotyczące ważności, ponieważ uzyskane dane i wzorce nie są subiektywne i nie ulegają degradacji w czasie. Istnieją również elementy unikalne dla eksploracji korzystania z sieci, które mogą pokazać zalety technologii, w tym sposób, w jaki wiedza semantyczna jest stosowana podczas interpretowania, analizowania i wnioskowania o wzorcach użytkowania w fazie eksploracji.

Cons

Samo badanie korzystania z sieci nie stwarza problemów, ale ta technologia, gdy jest używana na danych o charakterze osobistym, może budzić obawy. Najbardziej krytykowanym problemem etycznym związanym z eksploracją korzystania z sieci jest naruszenie prywatności . Prywatność uznaje się za utraconą w przypadku uzyskania, wykorzystania lub rozpowszechnienia informacji dotyczących osoby, zwłaszcza jeśli odbywa się to bez wiedzy lub zgody tej osoby. Uzyskane dane zostaną przeanalizowane, zanonimizowane , a następnie pogrupowane w anonimowe profile. Aplikacje te de- zindywidualizować użytkownikom oceniając ich po kliknięć myszką zamiast poprzez identyfikację informacji. Deindywidualizację można ogólnie zdefiniować jako tendencję do oceniania i traktowania ludzi na podstawie cech grupowych, a nie na podstawie ich własnych indywidualnych cech i zasług.

Inną ważną obawą jest to, że firmy zbierające dane w określonym celu mogą wykorzystywać dane do zupełnie innych celów, a to zasadniczo narusza interesy użytkownika.

Rosnący trend sprzedaży danych osobowych jako towaru zachęca właścicieli witryn do handlu danymi osobowymi pozyskanymi z ich witryny. Tendencja ta zwiększyła ilość przechwytywanych i wymienianych danych, zwiększając prawdopodobieństwo naruszenia prywatności. Firmy, które kupują dane są zobowiązane do ich anonimowości i firmy te są uważane za autorów jakiegokolwiek konkretnego wydania wzorców kopania. Ponoszą odpowiedzialność prawną za treść wydania; wszelkie nieścisłości w wydaniu będą skutkować poważnymi procesami sądowymi, ale nie ma prawa zabraniającego im handlu danymi.

Niektóre algorytmy wyszukiwania mogą używać kontrowersyjnych atrybutów, takich jak płeć, rasa, religia lub orientacja seksualna, aby kategoryzować osoby. Takie praktyki mogą być sprzeczne z ustawodawstwem antydyskryminacyjnym. Aplikacje utrudniają identyfikację użycia tak kontrowersyjnych atrybutów i nie ma silnej reguły przeciwko używaniu takich algorytmów z takimi atrybutami. Proces ten może skutkować odmową świadczenia usługi lub przywilejem danej osoby ze względu na jej rasę, religię lub orientację seksualną. Sytuacji tej można uniknąć dzięki wysokim standardom etycznym utrzymywanym przez firmę zajmującą się eksploracją danych. Zgromadzone dane są anonimizowane, aby nie można było powiązać uzyskanych danych i uzyskanych wzorców z osobą. Może się wydawać, że nie stanowi to zagrożenia dla prywatności, jednak dodatkowe informacje mogą zostać wywnioskowane przez aplikację, łącząc dwie oddzielne, pozbawione skrupułów dane użytkownika.

Eksploracja struktury sieci

Eksploracja struktury sieci wykorzystuje teorię grafów do analizy struktury węzłów i połączeń witryny internetowej. W zależności od typu danych strukturalnych sieci, eksplorację struktury sieci można podzielić na dwa rodzaje:

  1. Wyodrębnianie wzorców z hiperłączy w sieci: hiperłącze to element strukturalny, który łączy stronę internetową z inną lokalizacją.
  2. Eksploracja struktury dokumentu : analiza struktury drzewiastej struktur strony w celu opisania użycia tagów HTML lub XML .

Terminologia eksploracji struktury sieci:

  • Wykres sieciowy: ukierunkowany wykres reprezentujący sieć.
  • Węzeł: strona internetowa na wykresie.
  • Krawędź: hiperłącza.
  • W stopniu: liczba linków prowadzących do konkretnego węzła.
  • Out degree: liczba linków wygenerowanych z danego węzła.

Przykładem techniki eksploracji struktury sieci jest algorytm PageRank używany przez Google do pozycjonowania wyników wyszukiwania. O randze strony decyduje ilość i jakość linków kierujących do węzła docelowego.

Eksploracja treści internetowych

Web content mining to eksploracja, ekstrakcja i integracja użytecznych danych, informacji i wiedzy z zawartości stron internetowych. Heterogeniczność i brak struktury, które pozwalają na wiele stale powiększających się źródeł informacji w sieci WWW, takich jak dokumenty hipertekstowe , sprawiają, że narzędzia do automatycznego wykrywania, organizowania, wyszukiwania i indeksowania w Internecie i sieci WWW, takie jak Lycos , Alta Vista , WebCrawler , Aliweb , MetaCrawler i inne zapewniają pewien komfort użytkownikom, ale generalnie nie dostarczają informacji strukturalnych ani nie kategoryzują, filtrują ani nie interpretują dokumentów. Czynniki te skłoniły naukowców do opracowania bardziej inteligentnych narzędzi do wyszukiwania informacji , takich jak inteligentne agenty sieciowe , a także do rozszerzenia baz danych i technik eksploracji danych w celu zapewnienia wyższego poziomu organizacji częściowo ustrukturyzowanych danych dostępnych w sieci. Podejście do eksploracji sieci oparte na agentach obejmuje rozwój wyrafinowanych systemów sztucznej inteligencji, które mogą działać autonomicznie lub półautonomicznie w imieniu konkretnego użytkownika w celu odkrywania i organizowania informacji internetowych. Badacze tworzą aplikację robota indeksującego, która agreguje wymagane dane z sieci. Na przykład informacje o mieszkaniach można zbierać ze stron internetowych z ofertami nieruchomości w celu wygenerowania nowego zbioru danych.

Eksploracja treści internetowych różni się z dwóch różnych punktów widzenia: widoku pobierania informacji i widoku bazy danych. podsumował prace badawcze wykonane dla danych nieustrukturyzowanych i częściowo ustrukturyzowanych z widoku wyszukiwania informacji. Wynika z niego, że większość badań używa worka słów, który opiera się na statystykach dotyczących pojedynczych słów w izolacji, do reprezentowania tekstu nieustrukturyzowanego i przyjmowania jako cech pojedynczego słowa znalezionego w korpusie szkoleniowym. W przypadku danych częściowo ustrukturyzowanych wszystkie prace wykorzystują struktury HTML wewnątrz dokumentów, a niektóre wykorzystywały strukturę hiperłączy między dokumentami do reprezentacji dokumentu. Jeśli chodzi o widok bazy danych, aby mieć lepsze zarządzanie informacjami i zapytania w sieci, eksploracja zawsze próbuje wywnioskować strukturę witryny internetowej, aby przekształcić witrynę internetową w bazę danych.

Istnieje kilka sposobów reprezentowania dokumentów; zazwyczaj używany jest model przestrzeni wektorowej . Dokumenty stanowią całą przestrzeń wektorową. Ta reprezentacja nie uwzględnia znaczenia słów w dokumencie. Aby rozwiązać ten problem, wprowadzono tf-idf (Term Frequency Times Inverse Document Frequency).

Poprzez wielokrotne skanowanie dokumentu możemy zaimplementować wybór funkcji. Pod warunkiem, że rzadko wpływa to na wynik kategorii, konieczne jest wyodrębnienie podzbioru cech. Ogólny algorytm polega na skonstruowaniu funkcji oceniającej do oceny cech. Jako zestaw funkcji zwykle stosuje się zysk informacji , entropię krzyżową , informacje wzajemne i iloraz szans . Klasyfikujące i wzorcowe metody eksploracji danych tekstowych są bardzo podobne do tradycyjnych technik eksploracji danych. Typowymi zaletami oceny są dokładność klasyfikacji , precyzja oraz punktacja przypomnienia i informacji .

Web mining może uzupełniać pobieranie danych strukturalnych przesyłanych za pomocą otwartych protokołów, takich jak OAI-PMH : przykładem jest agregacja prac z publikacji akademickich, które są wydobywane w celu identyfikacji wersji otwartego dostępu poprzez połączenie metod open source i otwartych danych w akademickich bazach danych jak Unpaywall .

Eksploracja treści internetowych w językach obcych

chiński

Kod języka z chińskich słów jest bardzo skomplikowane w porównaniu z angielskim. GB , Big5 i kod HZ są wspólne kody chińskie słowo w dokumentach internetowych. Przed eksploracją tekstu należy określić standard kodu dokumentów HTML i przekształcić go w kod wewnętrzny, a następnie użyć innych technik eksploracji danych, aby znaleźć przydatną wiedzę i przydatne wzorce.

Zobacz też

Bibliografia

Książki

  • Jesus Mena, „Data Mining Your Website”, Digital Press, 1999
  • Soumen Chakrabarti, „Górnictwo sieci: analiza danych hipertekstowych i częściowo ustrukturyzowanych”, Morgan Kaufmann, 2002
  • Postępy w Web Mining i Web Usage Analysis 2005 - poprawione artykuły z siódmego warsztatu na temat odkrywania wiedzy w sieci, Olfa Nasraoui, Osmar Zaiane, Myra Spiliopoulou, Bamshad Mobasher, Philip Yu, Brij Masand, red., Springer Lecture Notes in Artificial Intelligence , LNAI 4198, 2006
  • Web Mining and Web Usage Analysis 2004 - poprawione artykuły z 6 warsztatów na temat odkrywania wiedzy w sieci, Bamshad Mobasher, Olfa Nasraoui, Bing Liu, Brij Masand, red., Springer Lecture Notes in Artificial Intelligence, 2006

Odniesienia bibliograficzne