Indeksowanie tematów — Subject indexing

Indeksowanie przedmiotem jest akt opisujące lub klasyfikowania do dokumentu przez względem indeksu lub innych symboli, aby wskazać, jakie dokument ten temat , by podsumować jego treść lub zwiększyć findability . Innymi słowy, chodzi o zidentyfikowanie i opisanie przedmiotu dokumentów. Indeksy są konstruowane oddzielnie, na trzech odrębnych poziomach: terminy w dokumencie, takim jak książka; obiekty w kolekcji, takie jak biblioteka; oraz dokumenty (takie jak książki i artykuły) z dziedziny wiedzy.

Indeksowanie tematów jest wykorzystywane do wyszukiwania informacji, zwłaszcza do tworzenia indeksów bibliograficznych w celu wyszukania dokumentów na określony temat. Przykładami usług indeksowania akademickiego są Zentralblatt MATH , Chemical Abstracts i PubMed . Hasła indeksu zostały w większości przydzielone przez ekspertów, ale często występują również słowa kluczowe autora.

Proces indeksowania rozpoczyna się od dowolnej analizy tematu dokumentu. Indeksator musi następnie zidentyfikować terminy, które odpowiednio identyfikują temat, albo poprzez wyodrębnienie słów bezpośrednio z dokumentu, albo przypisanie słów z kontrolowanego słownictwa . Terminy w indeksie są następnie prezentowane w porządku systematycznym.

Indeksatorzy muszą zdecydować, ile terminów należy uwzględnić i jak szczegółowe powinny być terminy. Razem daje to głębię indeksowania.

Analiza tematu

Pierwszym krokiem w indeksowaniu jest podjęcie decyzji o przedmiocie dokumentu. W indeksowaniu ręcznym osoba indeksująca rozważy przedmiot pod kątem odpowiedzi na zestaw pytań, takich jak „Czy dokument dotyczy określonego produktu, stanu lub zjawiska?”. Ponieważ na analizę ma wpływ wiedza i doświadczenie indeksatora, wynika z tego, że dwa indeksatory mogą analizować zawartość w różny sposób, a zatem wymyślać różne terminy indeksowania. Wpłynie to na powodzenie pobierania.

Automatyczna a ręczna analiza tematu

Automatyczne indeksowanie podąża za ustalonymi procesami analizy częstotliwości wzorców słów i porównywania wyników z innymi dokumentami w celu przypisania do kategorii tematycznych. Nie wymaga to zrozumienia indeksowanego materiału. Prowadzi to do bardziej jednolitego indeksowania, ale kosztem interpretacji prawdziwego znaczenia. Program komputerowy nie zrozumie znaczenia oświadczeń i w związku z tym może nie przypisać niektórych odpowiednich terminów lub przypisać je nieprawidłowo. Osoby zajmujące się indeksowaniem skupiają swoją uwagę na niektórych częściach dokumentu, takich jak tytuł, streszczenie, podsumowanie i wnioski, ponieważ dogłębna analiza całego tekstu jest kosztowna i czasochłonna Zautomatyzowany system eliminuje ograniczenia czasowe i pozwala na skrócenie całego dokumentu analizowany, ale ma również możliwość przekierowania do poszczególnych części dokumentu.

Wybór terminu

Drugi etap indeksowania polega na przełożeniu analizy przedmiotowej na zestaw terminów indeksowych . Może to obejmować wyodrębnianie z dokumentu lub przypisywanie ze słownika kontrolowanego . Dzięki możliwości przeprowadzania wyszukiwania pełnotekstowego, które są powszechnie dostępne, wiele osób polega na własnej wiedzy w zakresie wyszukiwania informacji, a wyszukiwanie pełnotekstowe stało się bardzo popularne. Indeksowanie tematyczne i jego eksperci, profesjonalni indeksatorzy, katalogatorzy i bibliotekarze pozostają kluczowe dla organizacji i wyszukiwania informacji. Eksperci ci rozumieją słowniki kontrolowane i są w stanie znaleźć informacje, których nie można zlokalizować za pomocą wyszukiwania pełnotekstowego . Koszt analizy eksperckiej w celu stworzenia indeksowania tematów nie jest łatwy do porównania z kosztem sprzętu, oprogramowania i robocizny potrzebnej do wyprodukowania porównywalnego zestawu pełnotekstowych, w pełni przeszukiwalnych materiałów. Dzięki nowym aplikacjom internetowym, które umożliwiają każdemu użytkownikowi dodawanie adnotacji do dokumentów, tagowanie społecznościowe zyskało popularność, zwłaszcza w sieci.

Jedna z aplikacji indeksowania, indeks książkowy , pozostaje względnie niezmieniona pomimo rewolucji informacyjnej.

Ekstrakcja/indeksowanie pochodne

Indeksowanie wyodrębniania polega na pobieraniu słów bezpośrednio z dokumentu. Wykorzystuje język naturalny i dobrze nadaje się do zautomatyzowanych technik, w których obliczane są częstotliwości słów, a te z częstotliwością powyżej określonego progu są używane jako terminy indeksowe. Lista końcowa zawierająca zwykłe słowa (takie jak "the", "i") byłaby przywoływana i takie słowa ograniczające byłyby wykluczone jako terminy indeksowe.

Automatyczne indeksowanie ekstrakcji może prowadzić do utraty znaczenia terminów poprzez indeksowanie pojedynczych słów w przeciwieństwie do fraz. Chociaż możliwe jest wyodrębnienie powszechnie występujących fraz, to staje się trudniejsze, jeśli kluczowe pojęcia są niespójnie sformułowane w frazach. Zautomatyzowane indeksowanie wyodrębniania ma również problem polegający na tym, że nawet przy użyciu listy stop do usuwania popularnych słów niektóre często używane słowa mogą nie być przydatne do umożliwienia dyskryminacji między dokumentami. Na przykład termin glukoza prawdopodobnie często pojawia się w każdym dokumencie związanym z cukrzycą. Dlatego użycie tego terminu prawdopodobnie zwróciłoby większość lub wszystkie dokumenty w bazie danych. Skoordynowane indeksowanie, w którym terminy są łączone w czasie wyszukiwania, ograniczyłoby ten efekt, ale ciężar powiązania odpowiednich terminów spoczywałby na wyszukiwarce, w przeciwieństwie do specjalisty ds. informacji. Ponadto terminy, które występują rzadko, mogą być bardzo istotne, na przykład nowy lek może być wymieniany rzadko, ale nowość osobnika sprawia, że każde odniesienie jest znaczące. Jedną z metod pozwalających na uwzględnienie rzadszych terminów i wykluczenie popularnych słów za pomocą zautomatyzowanych technik byłoby podejście względnej częstotliwości, w którym częstotliwość słowa w dokumencie jest porównywana z częstotliwością w bazie danych jako całości. W związku z tym termin, który występuje w dokumencie częściej, niż można by oczekiwać na podstawie pozostałej części bazy danych, może być następnie użyty jako termin indeksowy, a terminy, które występują w całym dokumencie z taką samą częstotliwością, zostaną wykluczone.

Innym problemem związanym z automatycznym wyodrębnianiem jest to, że nie rozpoznaje, kiedy pojęcie jest omawiane, ale nie jest identyfikowane w tekście za pomocą indeksowanego słowa kluczowego.

Ponieważ proces ten opiera się na prostym dopasowywaniu ciągów i nie wymaga analizy intelektualnej, wynikowy iloczyn jest lepiej znany jako zgodność niż indeks.

Indeksowanie przydziału

Alternatywą jest indeksowanie przypisania, w którym terminy indeksowe są pobierane ze słownika kontrolowanego. Ma to zaletę kontrolowania synonimów, ponieważ preferowany termin jest indeksowany, a synonimy lub terminy pokrewne kierują użytkownika do preferowanego terminu. Oznacza to, że użytkownik może znaleźć artykuły niezależnie od konkretnego terminu użytego przez autora i nie musi znać i sprawdzać wszystkich możliwych synonimów. Usuwa również wszelkie nieporozumienia spowodowane przez homografy poprzez włączenie terminu kwalifikującego. Trzecią zaletą jest to, że umożliwia łączenie pokrewnych terminów, niezależnie od tego, czy są one powiązane hierarchicznie, czy też skojarzeniem, np. wpis indeksu dotyczący leku doustnego może wymieniać inne leki doustne jako powiązane terminy na tym samym poziomie hierarchii, ale łączyłby się również z szerszym terminy takie jak leczenie. Indeksowanie przydziału jest używane w indeksowaniu ręcznym w celu poprawy spójności między indeksatorami, ponieważ różne indeksatory będą miały kontrolowany zestaw terminów do wyboru. Słowniki kontrolowane nie usuwają całkowicie niespójności, ponieważ dwa indeksatory mogą nadal inaczej interpretować temat.

Prezentacja indeksu

Ostatnim etapem indeksowania jest prezentacja wpisów w systematycznej kolejności. Może to obejmować łączenie wpisów. We wstępnie skoordynowanym indeksie indeksator określa kolejność, w jakiej terminy są połączone we wpisie, biorąc pod uwagę sposób, w jaki użytkownik może sformułować swoje wyszukiwanie. W postkoordynowanym indeksie wpisy prezentowane są pojedynczo, a użytkownik może łączyć wpisy poprzez wyszukiwanie, najczęściej przeprowadzane za pomocą oprogramowania komputerowego. Wyniki po koordynacji powodują utratę precyzji w porównaniu z przedkoordynacją

Głębokość indeksowania

Indeksatorzy muszą podejmować decyzje o tym, jakie wpisy powinny być uwzględnione i ile wpisów powinien zawierać indeks. Głębokość indeksowania opisuje dogłębność procesu indeksowania w odniesieniu do kompletności i szczegółowości

Wyczerpanie

Wyczerpujący indeks to taki, który zawiera wszystkie możliwe terminy indeksowe. Większa kompletność zapewnia lepsze przypomnienie lub większe prawdopodobieństwo odzyskania wszystkich odpowiednich artykułów, jednak odbywa się to kosztem precyzji . Oznacza to, że użytkownik może pobrać większą liczbę nieistotnych dokumentów lub dokumentów, które zajmują się tematem tylko w niewielkim stopniu. W systemie ręcznym wyższy poziom wyczerpania pociąga za sobą większe koszty, ponieważ wymagana jest większa liczba roboczogodzin. Dodatkowy czas potrzebny w zautomatyzowanym systemie byłby znacznie mniej istotny. Na drugim końcu skali, w indeksie selekcyjnym, uwzględnione są tylko najważniejsze aspekty. Odwołanie jest ograniczone w selektywnym indeksie, ponieważ jeśli indeksujący nie zawiera wystarczającej liczby terminów, bardzo istotny artykuł może zostać przeoczony. Dlatego indeksatorzy powinni dążyć do równowagi i zastanowić się, jakiego dokumentu można użyć. Być może będą musieli również wziąć pod uwagę implikacje czasu i kosztów.

Specyficzność

Specyfika opisuje, w jakim stopniu terminy indeksu odpowiadają tematom, które reprezentują. O indeksie mówi się, że indeks jest specyficzny, jeśli indeksator używa deskryptorów równoległych do koncepcji dokumentu i dokładnie odzwierciedla te koncepcje. Specyficzność rośnie wraz z wyczerpaniem, ponieważ im więcej terminów podasz, tym węższe będą te terminy.

Teoria indeksowania

Hjørland (2011) stwierdził, że teorie indeksowania są na najgłębszym poziomie powiązane z różnymi teoriami wiedzy:

Racjonalistyczne teorie indeksowania (takie jak teoria Ranganathana) sugerują, że podmioty są konstruowane logicznie z podstawowego zestawu kategorii. Podstawową metodą analizy tematu jest wtedy "analityczno-syntetyczna", wyodrębnienie zestawu podstawowych kategorii (=analiza), a następnie skonstruowanie tematu dowolnego dokumentu poprzez połączenie tych kategorii według pewnych reguł (=synteza).
Empiryczne teorie indeksowania opierają się na selekcji podobnych dokumentów na podstawie ich właściwości, w szczególności poprzez zastosowanie numerycznych technik statystycznych.
Historycystyczne i hermeneutyczne teorie indeksowania sugerują, że przedmiot danego dokumentu jest związany z danym dyskursem lub dziedziną, dlaczego indeksowanie powinno odzwierciedlać potrzebę konkretnego dyskursu lub dziedziny. Według hermeneutyki jest to dokument zawsze pisany i interpretowany z określonego horyzontu. To samo dotyczy systemów organizacji wiedzy i wszystkich użytkowników poszukujących takich systemów. Każde pytanie stawiane takiemu systemowi jest stawiane z określonego horyzontu. Wszystkie te horyzonty mogą być mniej więcej w konsensusie lub w konflikcie. Indeksowanie dokumentu to próba przyczynienia się do wyszukiwania „istotnych” dokumentów poprzez poznanie tych różnych horyzontów.
Pragmatyczne i krytyczne teorie indeksowania (takie jak Hjørland, 1997) zgadzają się z historycznym punktem widzenia, że tematy odnoszą się do konkretnych dyskursów, ale podkreślają, że analiza tematyczna powinna wspierać określone cele i wartości oraz powinna uwzględniać konsekwencje indeksowania w jedną stronę lub inne. Teorie te uważają, że indeksowanie nie może być neutralne i że próba indeksowania w sposób neutralny jest złym celem. Indeksowanie jest czynnością (a indeksowanie komputerowe działa zgodnie z intencjami programistów). Czyny służą ludzkim celom. Biblioteki i serwisy informacyjne służą również celom ludzkim, dlatego ich indeksowanie powinno odbywać się w sposób, który w jak największym stopniu wspiera te cele. Na pierwszy rzut oka wygląda to dziwnie, ponieważ celem bibliotek i serwisów informacyjnych jest identyfikacja dowolnego dokumentu lub informacji. Niemniej jednak każdy konkretny sposób indeksowania zawsze obsługuje pewne zastosowania kosztem innych. Dokumenty, które mają zostać zindeksowane, mają służyć określonym celom w społeczności. Zasadniczo indeksowanie powinno służyć tym samym celom. Dokumenty pierwotne i wtórne oraz usługi informacyjne są częścią tego samego ogólnego systemu społecznego. W takim systemie różne teorie, epistemologie, światopoglądy itp. mogą odgrywać rolę, a użytkownicy muszą być w stanie orientować się i poruszać między tymi różnymi poglądami. Wymaga to odwzorowania różnych epistemologii w tej dziedzinie i klasyfikacji pojedynczego dokumentu na taką mapę. Doskonałych przykładów tak różnych paradygmatów i ich konsekwencji dla systemów indeksowania i klasyfikacji dostarcza w dziedzinie sztuki Ørom (2003) oraz w muzyce Abrahamsen (2003).

Sednem indeksowania jest, jak stwierdził Rowley & Farrow, ocena wkładu artykułu w wiedzę i odpowiednia jego indeksacja. Albo słowami Hjørlanda (1992, 1997), aby zindeksować jego potencjał informacyjny.

„Aby osiągnąć dobre, spójne indeksowanie, osoba indeksująca musi dokładnie ocenić strukturę tematu i charakter wkładu, jaki dokument wnosi w rozwój wiedzy”. (Rowley i Farrow, 2000, s. 99).

Zobacz też

Usługa indeksowania i abstrakcji
Klasyfikacja dokumentów
Metadane
Nadmierna kategoryzacja
Thomas of Ireland , średniowieczny pionier indeksowania tematów

Bibliografia

Dalsza lektura

Fugmana, Roberta (1993). Analiza tematyczna i indeksowanie. Podstawy teoretyczne i porady praktyczne . Frankfurt nad Menem: Index Verlag.
Frohmann, B. (1990). „Zasady indeksowania: krytyka mentalizmu w teorii wyszukiwania informacji”. Dziennik Dokumentacji . 46 (2): 81-101. doi : 10.1108/eb026855 .

Languages

In other projects