Pobieranie XML - XML retrieval

Pobieranie XML lub pobieranie informacji XML to oparte na treści pobieranie dokumentów ustrukturyzowanych za pomocą XML (eXtensible Markup Language). Jako taki jest używany do obliczania trafności dokumentów XML.

Zapytania

Większość podejść do wyszukiwania XML opiera się na technikach z obszaru wyszukiwania informacji (IR), np. Poprzez obliczenie podobieństwa między zapytaniem składającym się ze słów kluczowych (terminów zapytania) a dokumentem. Jednak w przypadku pobierania XML zapytanie może również zawierać wskazówki strukturalne . Tak zwane zapytania „zawartości i struktury” (CAS) umożliwiają użytkownikom określenie, jaką strukturę może lub musi mieć żądana treść.

Wykorzystywanie struktury XML

Wykorzystanie samoopisującej się struktury dokumentów XML może znacznie usprawnić wyszukiwanie dokumentów XML. Obejmuje to korzystanie z zapytań CAS, różne ważenia różnych elementów XML oraz ukierunkowane pobieranie dokumentów podrzędnych.

Zaszeregowanie

Ranking w XML-Retrieval może uwzględniać zarówno trafność treści, jak i podobieństwo strukturalne, czyli podobieństwo między strukturą podaną w zapytaniu a strukturą dokumentu. Ponadto jednostkami wyszukiwania wynikającymi z zapytania XML mogą być nie zawsze całe dokumenty, ale mogą to być dowolne głęboko zagnieżdżone elementy XML, tj. Dokumenty dynamiczne. Celem jest znalezienie najmniejszej jednostki odzysku, która jest wysoce odpowiednia. Trafność można zdefiniować zgodnie z pojęciem szczegółowości, czyli stopnia, w jakim jednostka wyszukująca koncentruje się na temacie żądania.

Istniejące wyszukiwarki XML

Dostępny jest przegląd dwóch potencjalnych podejść. Inicjatywa na rzecz ewaluacji XML-Retrieval ( INEX ) została założona w 2002 roku i zapewnia platformę do oceny takich algorytmów . Trzy różne obszary wpływają na pobieranie XML:

Tradycyjne języki zapytań XML

Języki zapytań, takie jak standard W3C XQuery, dostarczają złożone zapytania, ale szukają tylko dokładnych dopasowań. W związku z tym należy je rozszerzyć, aby umożliwić niejasne wyszukiwanie wraz z informacją o trafności. Większość podejść opartych na języku XML zakłada dość dokładną znajomość schematów dokumentów .

Bazy danych

Klasyczne systemy baz danych przyjęły możliwość przechowywania danych częściowo ustrukturyzowanych i zaowocowały rozwojem baz danych XML . Często są one bardzo formalne, koncentrują się bardziej na wyszukiwaniu niż na rankingu i są używane przez doświadczonych użytkowników, którzy potrafią formułować złożone zapytania.

Wyszukiwanie informacji

Klasyczne modele wyszukiwania informacji, takie jak model przestrzeni wektorowej, zapewniają ranking trafności, ale nie obejmują struktury dokumentu; obsługiwane są tylko proste zapytania. Ponadto stosują koncepcję dokumentów statycznych, więc jednostki wyszukiwania to zwykle całe dokumenty. Można je rozszerzyć, aby uwzględnić informacje strukturalne i dynamiczne wyszukiwanie dokumentów. Dostępne są przykłady podejść rozszerzających modele przestrzeni wektorowej: wykorzystują one poddrzewa dokumentu (terminy indeksowe plus struktura) jako wymiary przestrzeni wektorowej.

Zestawy danych XML skoncentrowane na danych

W przypadku zestawów danych XML skoncentrowanych na danych, unikalna i odrębna metoda wyszukiwania słów kluczowych, a mianowicie XDMA dla baz danych XML, została zaprojektowana i opracowana w oparciu o podwójne indeksowanie i wzajemne sumowanie.

Languages

In other projects