Eksploracja sieci - Web mining

Web mining to zastosowanie technik eksploracji danych do wykrywania wzorców w sieci WWW . Wykorzystuje zautomatyzowane metody do wyodrębniania zarówno ustrukturyzowanych, jak i nieustrukturyzowanych danych ze stron internetowych, dzienników serwera i struktur linków. Istnieją trzy główne podkategorie eksploracji sieci. Eksploracja treści internetowych wyodrębnia informacje z wnętrza strony. Eksploracja struktury sieci pozwala odkryć strukturę hiperłączy między dokumentami, kategoryzować zestawy stron internetowych oraz mierzyć podobieństwo i relacje między różnymi witrynami. Eksploracja korzystania z sieci znajduje wzorce korzystania ze stron internetowych.

Rodzaje eksploracji sieci

Górnictwo WWW można podzielić na trzy rodzaje - górniczych Wykorzystanie Web , górniczych zawartości sieci Web i Web struktura górniczych .

Ogólny związek między kategoriami eksploracji sieci a celami eksploracji danych

Porównanie typów eksploracji sieci
	Eksploracja treści internetowych		Eksploracja struktury sieci	Eksploracja wykorzystania sieci
	Widok w podczerwieni	Widok bazy danych	Eksploracja struktury sieci	Eksploracja wykorzystania sieci
Widok danych	Nieustrukturyzowany Zbudowany	Półstrukturalne Strona internetowa jako DB	Struktura linków	Interaktywność
Główne dane	Dokumenty tekstowe Dokumenty hipertekstowe	Dokumenty hipertekstowe	Struktura linków	Dzienniki serwera Dzienniki przeglądarki
Reprezentacja	Torba słów , terminy n-gramowe zwroty, koncepcje lub ontologia Relacyjny	Wykres oznaczony krawędzią Relacyjny	Wykres	Tabela relacyjna Wykres
metoda	Nauczanie maszynowe Statystyka (w tym NLP )	Zastrzeżone algorytmy Zasady stowarzyszenia	Zastrzeżone algorytmy	Nauczanie maszynowe Statystyczny Zasady stowarzyszenia
Kategorie aplikacji	Kategoryzacja Grupowanie Znajdowanie reguł wyciągu Znajdowanie wzorców w tekście	Znajdowanie częstych podstruktur Wykrywanie schematu witryny sieci Web	Kategoryzacja Grupowanie	Budowa strony Adaptacja i zarządzanie

Eksploracja wykorzystania sieci

Eksploracja użycia sieci Web to zastosowanie technik eksploracji danych do odkrywania interesujących wzorców użytkowania z danych sieci Web w celu zrozumienia i lepszego zaspokajania potrzeb aplikacji internetowych . Dane użytkowania rejestrują tożsamość lub pochodzenie użytkowników sieci Web wraz z ich zachowaniem podczas przeglądania witryny sieci Web.

Samo badanie korzystania z sieci może być dalej klasyfikowane w zależności od rodzaju rozważanych danych o użytkowaniu:

Dane serwera WWW : Logi użytkownika są gromadzone przez serwer WWW . Typowe dane obejmują adres IP, odniesienie do strony i czas dostępu.
Dane serwera aplikacji : Komercyjne serwery aplikacji mają istotne funkcje umożliwiające budowanie na nich aplikacji e-commerce przy niewielkim wysiłku. Kluczową cechą jest możliwość śledzenia różnego rodzaju zdarzeń biznesowych i rejestrowania ich w logach serwera aplikacji.
Dane na poziomie aplikacji : W aplikacji można zdefiniować nowe rodzaje zdarzeń i włączyć dla nich rejestrowanie, generując w ten sposób historie tych specjalnie zdefiniowanych zdarzeń. Wiele zastosowań końcowych wymaga połączenia jednej lub więcej technik stosowanych w powyższych kategoriach.

Badania związane z pracą dotyczą dwóch obszarów: algorytmów eksploracji danych opartych na ograniczeniach stosowanych w eksploracji wykorzystania sieci Web oraz opracowanych narzędzi (systemów) oprogramowania. Costa i Seco wykazali, że eksploracja dzienników internetowych może być wykorzystywana do wydobywania informacji semantycznych ( w szczególności relacji hiponimicznych ) o użytkowniku i danej społeczności.

Plusy

Eksploracja wykorzystania sieci ma zasadniczo wiele zalet, co czyni tę technologię atrakcyjną dla korporacji, w tym agencji rządowych. Ta technologia umożliwiła e-commerce prowadzenie spersonalizowanego marketingu , co ostatecznie skutkuje wyższymi wolumenami transakcji. Agencje rządowe używają tej technologii do klasyfikacji zagrożeń i walki z terroryzmem . Zdolność przewidywania aplikacji górniczych może przynieść korzyści społeczeństwu dzięki identyfikacji działań przestępczych. Firmy mogą nawiązać lepsze relacje z klientami, lepiej rozumiejąc potrzeby klienta i szybciej reagując na jego potrzeby. Firmy mogą znajdować, przyciągać i zatrzymywać klientów; mogą zaoszczędzić na kosztach produkcji, wykorzystując zdobytą wiedzę o wymaganiach klientów. Mogą zwiększyć rentowność poprzez docelowe ceny na podstawie utworzonych profili . Mogą nawet znaleźć klientów, którzy mogą nie dotrzymać kroku konkurentowi. Firma spróbuje zatrzymać klienta, dostarczając oferty promocyjne konkretnemu klientowi, zmniejszając w ten sposób ryzyko utraty klienta lub klientów.

Więcej korzyści z eksploracji korzystania z sieci, szczególnie w obszarze personalizacji , przedstawiono w określonych ramach, takich jak probabilistyczny ukryty model analizy semantycznej , który oferuje dodatkowe funkcje w zachowaniu użytkownika i wzorcu dostępu. Dzieje się tak, ponieważ proces zapewnia użytkownikowi bardziej trafną treść dzięki rekomendacjom opartym na współpracy. Modele te wykazują również zdolność technologii eksploracji wykorzystania sieci do rozwiązywania problemów związanych z tradycyjnymi technikami, takich jak błędy i pytania dotyczące ważności, ponieważ uzyskane dane i wzorce nie są subiektywne i nie ulegają degradacji w czasie. Istnieją również elementy unikalne dla eksploracji korzystania z sieci, które mogą pokazać zalety technologii, w tym sposób, w jaki wiedza semantyczna jest stosowana podczas interpretowania, analizowania i wnioskowania o wzorcach użytkowania w fazie eksploracji.

Cons

Samo badanie korzystania z sieci nie stwarza problemów, ale ta technologia, gdy jest używana na danych o charakterze osobistym, może budzić obawy. Najbardziej krytykowanym problemem etycznym związanym z eksploracją korzystania z sieci jest naruszenie prywatności . Prywatność uznaje się za utraconą w przypadku uzyskania, wykorzystania lub rozpowszechnienia informacji dotyczących osoby, zwłaszcza jeśli odbywa się to bez wiedzy lub zgody tej osoby. Uzyskane dane zostaną przeanalizowane, zanonimizowane , a następnie pogrupowane w anonimowe profile. Aplikacje te de- zindywidualizować użytkownikom oceniając ich po kliknięć myszką zamiast poprzez identyfikację informacji. Deindywidualizację można ogólnie zdefiniować jako tendencję do oceniania i traktowania ludzi na podstawie cech grupowych, a nie na podstawie ich własnych indywidualnych cech i zasług.

Inną ważną obawą jest to, że firmy zbierające dane w określonym celu mogą wykorzystywać dane do zupełnie innych celów, a to zasadniczo narusza interesy użytkownika.

Rosnący trend sprzedaży danych osobowych jako towaru zachęca właścicieli witryn do handlu danymi osobowymi pozyskanymi z ich witryny. Tendencja ta zwiększyła ilość przechwytywanych i wymienianych danych, zwiększając prawdopodobieństwo naruszenia prywatności. Firmy, które kupują dane są zobowiązane do ich anonimowości i firmy te są uważane za autorów jakiegokolwiek konkretnego wydania wzorców kopania. Ponoszą odpowiedzialność prawną za treść wydania; wszelkie nieścisłości w wydaniu będą skutkować poważnymi procesami sądowymi, ale nie ma prawa zabraniającego im handlu danymi.

Niektóre algorytmy wyszukiwania mogą używać kontrowersyjnych atrybutów, takich jak płeć, rasa, religia lub orientacja seksualna, aby kategoryzować osoby. Takie praktyki mogą być sprzeczne z ustawodawstwem antydyskryminacyjnym. Aplikacje utrudniają identyfikację użycia tak kontrowersyjnych atrybutów i nie ma silnej reguły przeciwko używaniu takich algorytmów z takimi atrybutami. Proces ten może skutkować odmową świadczenia usługi lub przywilejem danej osoby ze względu na jej rasę, religię lub orientację seksualną. Sytuacji tej można uniknąć dzięki wysokim standardom etycznym utrzymywanym przez firmę zajmującą się eksploracją danych. Zgromadzone dane są anonimizowane, aby nie można było powiązać uzyskanych danych i uzyskanych wzorców z osobą. Może się wydawać, że nie stanowi to zagrożenia dla prywatności, jednak dodatkowe informacje mogą zostać wywnioskowane przez aplikację, łącząc dwie oddzielne, pozbawione skrupułów dane użytkownika.

Eksploracja struktury sieci

Eksploracja struktury sieci wykorzystuje teorię grafów do analizy struktury węzłów i połączeń witryny internetowej. W zależności od typu danych strukturalnych sieci, eksplorację struktury sieci można podzielić na dwa rodzaje:

Wyodrębnianie wzorców z hiperłączy w sieci: hiperłącze to element strukturalny, który łączy stronę internetową z inną lokalizacją.
Eksploracja struktury dokumentu : analiza struktury drzewiastej struktur strony w celu opisania użycia tagów HTML lub XML .

Terminologia eksploracji struktury sieci:

Wykres sieciowy: ukierunkowany wykres reprezentujący sieć.
Węzeł: strona internetowa na wykresie.
Krawędź: hiperłącza.
W stopniu: liczba linków prowadzących do konkretnego węzła.
Out degree: liczba linków wygenerowanych z danego węzła.

Przykładem techniki eksploracji struktury sieci jest algorytm PageRank używany przez Google do pozycjonowania wyników wyszukiwania. O randze strony decyduje ilość i jakość linków kierujących do węzła docelowego.

Eksploracja treści internetowych

Web content mining to eksploracja, ekstrakcja i integracja użytecznych danych, informacji i wiedzy z zawartości stron internetowych. Heterogeniczność i brak struktury, które pozwalają na wiele stale powiększających się źródeł informacji w sieci WWW, takich jak dokumenty hipertekstowe , sprawiają, że narzędzia do automatycznego wykrywania, organizowania, wyszukiwania i indeksowania w Internecie i sieci WWW, takie jak Lycos , Alta Vista , WebCrawler , Aliweb , MetaCrawler i inne zapewniają pewien komfort użytkownikom, ale generalnie nie dostarczają informacji strukturalnych ani nie kategoryzują, filtrują ani nie interpretują dokumentów. Czynniki te skłoniły naukowców do opracowania bardziej inteligentnych narzędzi do wyszukiwania informacji , takich jak inteligentne agenty sieciowe , a także do rozszerzenia baz danych i technik eksploracji danych w celu zapewnienia wyższego poziomu organizacji częściowo ustrukturyzowanych danych dostępnych w sieci. Podejście do eksploracji sieci oparte na agentach obejmuje rozwój wyrafinowanych systemów sztucznej inteligencji, które mogą działać autonomicznie lub półautonomicznie w imieniu konkretnego użytkownika w celu odkrywania i organizowania informacji internetowych. Badacze tworzą aplikację robota indeksującego, która agreguje wymagane dane z sieci. Na przykład informacje o mieszkaniach można zbierać ze stron internetowych z ofertami nieruchomości w celu wygenerowania nowego zbioru danych.

Eksploracja treści internetowych różni się z dwóch różnych punktów widzenia: widoku pobierania informacji i widoku bazy danych. podsumował prace badawcze wykonane dla danych nieustrukturyzowanych i częściowo ustrukturyzowanych z widoku wyszukiwania informacji. Wynika z niego, że większość badań używa worka słów, który opiera się na statystykach dotyczących pojedynczych słów w izolacji, do reprezentowania tekstu nieustrukturyzowanego i przyjmowania jako cech pojedynczego słowa znalezionego w korpusie szkoleniowym. W przypadku danych częściowo ustrukturyzowanych wszystkie prace wykorzystują struktury HTML wewnątrz dokumentów, a niektóre wykorzystywały strukturę hiperłączy między dokumentami do reprezentacji dokumentu. Jeśli chodzi o widok bazy danych, aby mieć lepsze zarządzanie informacjami i zapytania w sieci, eksploracja zawsze próbuje wywnioskować strukturę witryny internetowej, aby przekształcić witrynę internetową w bazę danych.

Istnieje kilka sposobów reprezentowania dokumentów; zazwyczaj używany jest model przestrzeni wektorowej . Dokumenty stanowią całą przestrzeń wektorową. Ta reprezentacja nie uwzględnia znaczenia słów w dokumencie. Aby rozwiązać ten problem, wprowadzono tf-idf (Term Frequency Times Inverse Document Frequency).

Poprzez wielokrotne skanowanie dokumentu możemy zaimplementować wybór funkcji. Pod warunkiem, że rzadko wpływa to na wynik kategorii, konieczne jest wyodrębnienie podzbioru cech. Ogólny algorytm polega na skonstruowaniu funkcji oceniającej do oceny cech. Jako zestaw funkcji zwykle stosuje się zysk informacji , entropię krzyżową , informacje wzajemne i iloraz szans . Klasyfikujące i wzorcowe metody eksploracji danych tekstowych są bardzo podobne do tradycyjnych technik eksploracji danych. Typowymi zaletami oceny są dokładność klasyfikacji , precyzja oraz punktacja przypomnienia i informacji .

Web mining może uzupełniać pobieranie danych strukturalnych przesyłanych za pomocą otwartych protokołów, takich jak OAI-PMH : przykładem jest agregacja prac z publikacji akademickich, które są wydobywane w celu identyfikacji wersji otwartego dostępu poprzez połączenie metod open source i otwartych danych w akademickich bazach danych jak Unpaywall .

Eksploracja treści internetowych w językach obcych

chiński

Kod języka z chińskich słów jest bardzo skomplikowane w porównaniu z angielskim. GB , Big5 i kod HZ są wspólne kody chińskie słowo w dokumentach internetowych. Przed eksploracją tekstu należy określić standard kodu dokumentów HTML i przekształcić go w kod wewnętrzny, a następnie użyć innych technik eksploracji danych, aby znaleźć przydatną wiedzę i przydatne wzorce.

Zobacz też

Bibliografia

Książki

Jesus Mena, „Data Mining Your Website”, Digital Press, 1999
Soumen Chakrabarti, „Górnictwo sieci: analiza danych hipertekstowych i częściowo ustrukturyzowanych”, Morgan Kaufmann, 2002
Postępy w Web Mining i Web Usage Analysis 2005 - poprawione artykuły z siódmego warsztatu na temat odkrywania wiedzy w sieci, Olfa Nasraoui, Osmar Zaiane, Myra Spiliopoulou, Bamshad Mobasher, Philip Yu, Brij Masand, red., Springer Lecture Notes in Artificial Intelligence , LNAI 4198, 2006
Web Mining and Web Usage Analysis 2004 - poprawione artykuły z 6 warsztatów na temat odkrywania wiedzy w sieci, Bamshad Mobasher, Olfa Nasraoui, Bing Liu, Brij Masand, red., Springer Lecture Notes in Artificial Intelligence, 2006

Odniesienia bibliograficzne

Baraglia, R. Silvestri, F. (2007) „Dynamiczna personalizacja stron internetowych bez interwencji użytkownika” , In Communications of the ACM 50(2): 63-67
Cooley, R. Mobasher, B. i Srivastave, J. (1997) „Web Mining: Information and Pattern Discovery on the World Wide Web” In Proceedings of 9. IEEE International Conference on Tool with Artificial Intelligence
Cooley, R., Mobasher, B. i Srivastava, J. „ Przygotowanie danych do wyszukiwania wzorców przeglądania sieci World Wide Web ”, Journal of Knowledge and Information System, tom 1, wydanie. 1, s. 5-32, 1999
Costa, RP i Seco, N. „Ekstrakcja hiponimii i analiza zachowań wyszukiwania w sieci na podstawie przeformułowania zapytań” , 11. iberoamerykańska konferencja na temat sztucznej inteligencji, październik 2008 r.
Kohavi, R., Mason, L. i Zheng, Z. (2004) „ Lekcje i wyzwania związane z wydobyciem danych handlu detalicznego w handlu elektronicznym ” Uczenie maszynowe, tom 57, s. 83–113
Lillian Clark, I-Hsien Ting, Chris Kimble , Peter Wright, Daniel Kudenko (2006) „Łączenie danych etnograficznych i danych o strumieniu kliknięć w celu identyfikacji strategii przeglądania sieci przez użytkownika” Journal of Information Research, tom. 11 nr 2, styczeń 2006
Eirinaki, M., Vazirgiannis, M. (2003) "Wyszukiwanie sieci w celu personalizacji sieci ", Transakcje ACM w technologii internetowej, tom 3, nr 1, luty 2003
Mobasher, B., Cooley, R. i Srivastava, J. (2000) „ Automatyczna personalizacja oparta na górnictwie wykorzystania sieci ” Komunikacja ACM, tom. 43, nr 8, s. 142–151
Mobasher, B., Dai, H., Luo, T. i Nakagawa, M. (2001) „ Efektywna personalizacja oparta na odkrywaniu reguł asocjacji z danych dotyczących korzystania z sieci ” In Proceedings of WIDM 2001, Atlanta, GA, USA, s. 9 –15
Nasraoui O., Petenes C., „Łączenie eksploracji wykorzystania sieci i wnioskowania rozmytego na potrzeby personalizacji witryn” , w Proc. WebKDD 2003 – Warsztaty KDD na temat eksploracji sieci jako przesłanki efektywnych i inteligentnych aplikacji internetowych, Waszyngton DC, sierpień 2003, s. 37
Nasraoui O., Frigui H., Joshi A. i Krishnapuram R., „Mining Web Access Logs Using Relational Competitive Fuzzy Clustering” , Proceedings of the Eighth International Fuzzy Systems Association Congress, Hsinchu, Tajwan, sierpień 1999
Nasraoui O., „Personalizacja sieci WWW”, rozdział na zaproszenie „Encyclopedia of Data Mining and Data Warehousing”, J. Wang, Ed, Idea Group, 2005
Pierrakos, D., Paliouras, G., Papatheodorou, C., Spyropoulos CD (2003) „Eksploracja wykorzystania sieci jako narzędzie do personalizacji: ankieta”, modelowanie użytkownika i dziennik interakcji dostosowany do użytkownika, tom 13, wydanie 4, s. 311–372
I-Hsien Ting, Chris Kimble, Daniel Kudenko (2005) „ Metoda przywracania wzorców do przywracania brakujących wzorców w danych strumienia kliknięć po stronie serwera ”
I-Hsien Ting, Chris Kimble, Daniel Kudenko (2006) „UBB Mining: znajdowanie nieoczekiwanych zachowań przeglądania w danych ze strumienia kliknięć w celu ulepszenia projektu witryny sieci Web”
Weichbroth, P., Owoc, M., Pleszkun, M. (2012) „ Wykrywanie wzorców nawigacji użytkownika sieci Web z plików dziennika serwera WWW ”
Madria SK, Bhowmick SS, Ng WK, Lim EP (1999) Problemy badawcze w eksploracji danych internetowych. W: Mohania M., Tjoa AM (red.) Magazynowanie danych i odkrywanie wiedzy. DaWaK 1999. Notatki z wykładu z informatyki, tom 1676. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-48298-9_32 .

Languages

In other projects