Słownictwo kontrolowane - Controlled vocabulary

Słowniki kontrolowane zapewniają sposób organizowania wiedzy do późniejszego wyszukiwania. Są używane w schematach indeksowania przedmiotów, nagłówkach przedmiotów , tezaurusach , taksonomiach i innych systemach organizacji wiedzy . Schematy słownictwa kontrolowanego nakazują stosowanie predefiniowanych, autoryzowanych terminów, które zostały wstępnie wybrane przez projektantów schematów, w przeciwieństwie do słowników języka naturalnego , które nie mają takich ograniczeń.

W bibliotekoznawstwie i informatyce

W bibliotekoznawstwie i informatyce słownictwo kontrolowane to starannie dobrana lista słów i fraz , które służą do oznaczania jednostek informacji (dokumentu lub pracy), tak aby można je było łatwiej znaleźć w wyszukiwaniu. Słownictwo kontrolowane rozwiązuje problemy homografii , synonimów i polisemów poprzez bijakcję między pojęciami a autoryzowanymi terminami. Krótko mówiąc, kontrolowane słownictwo redukuje niejednoznaczność właściwą normalnym ludzkim językom, w których to samo pojęcie może mieć różne nazwy i zapewnia spójność.

Na przykład w Bibliotece Kongresu Nagłówki Przedmiotów (system nagłówków tematycznych, który używa kontrolowanego słownictwa), należy wybrać autoryzowane terminy - w tym przypadku nagłówki tematów - w celu obsługi wyborów między różnymi wersjami tego samego słowa (amerykańska i brytyjska) , wybór między terminami naukowymi i popularnymi ( karaluch kontra Periplaneta americana ) oraz wybór między synonimami ( samochód kontra samochód ), wśród innych trudnych zagadnień.

Wybór autoryzowanych terminów opiera się na zasadach gwarancji użytkownika (jakich terminów użytkownicy prawdopodobnie będą używać), gwarancji literackiej (jakie terminy są powszechnie używane w literaturze i dokumentach) i gwarancji strukturalnej (warunki wybrane ze względu na strukturę, zakres słownictwo kontrolowane).

Słowniki kontrolowane również zazwyczaj rozwiązują problem homografów z kwalifikatorami. Na przykład termin pula musi odnosić się do basenu lub puli gier, aby zapewnić, że każdy autoryzowany termin lub nagłówek odnosi się tylko do jednego pojęcia.

Typy używane w bibliotekach

Istnieją dwa główne rodzaje narzędzi ze słownictwem kontrolowanym, używanych w bibliotekach: nagłówki przedmiotów i tezaurusy. Chociaż różnice między nimi maleją, nadal istnieją pewne drobne różnice.

Historycznie rzecz biorąc, nagłówki tematyczne zostały zaprojektowane w celu opisania książek w katalogach bibliotecznych przez katalogujących, podczas gdy tezaurusy były używane przez indeksatorów do stosowania terminów indeksowych do dokumentów i artykułów. Nagłówki tematów mają zwykle szerszy zakres i opisują całe książki, podczas gdy tezaurusy są zwykle bardziej wyspecjalizowane i obejmują bardzo określone dyscypliny. Również ze względu na system katalogów kartkowych, nagłówki tematów mają zwykle terminy w kolejności pośredniej (chociaż wraz z rozwojem systemów automatycznych jest to usuwane), podczas gdy terminy tezaurusa są zawsze w kolejności bezpośredniej. Nagłówki przedmiotów mają również tendencję do stosowania większej wstępnej koordynacji terminów, tak że projektant kontrolowanego słownictwa łączy różne koncepcje razem, tworząc jeden autoryzowany nagłówek tematyczny. (np. dzieci i terroryzm), podczas gdy tezaurusy mają tendencję do używania pojedynczych terminów bezpośrednich. Wreszcie tezaurusy wymieniają nie tylko terminy równoważne, ale także węższe, szersze i pokrewne terminy spośród różnych dozwolonych i niedozwolonych terminów, podczas gdy historycznie większość tytułów tematycznych nie.

Na przykład sama Biblioteka Kongresu nie miała zbyt dużej struktury syndetycznej aż do 1943 r., A dopiero w 1985 r. Zaczęła przyjmować terminy tezaurusowe „ szerszy termin ” i „ wąski termin ”.

Te terminy są wybrane i zorganizowane przez przeszkolonych specjalistów (w tym bibliotekarzy i naukowców informacyjnych), którzy posiadają doświadczenie w tej dziedzinie. Terminy ze słownika kontrolowanego mogą dokładnie opisać, o czym w rzeczywistości jest dany dokument, nawet jeśli same terminy nie występują w tekście dokumentu. Dobrze znane systemy nagłówków tematów obejmują system Library of Congress , MeSH i Sears . Dobrze znane tezaurusy obejmują tezaurus sztuki i architektury oraz tezaurus ERIC .

Wybór autoryzowanych terminów do użycia jest trudną sprawą, oprócz obszarów już omówionych powyżej, projektant musi wziąć pod uwagę specyfikę wybranego terminu, czy zastosować bezpośrednie wejście, spójność i stabilność języka. Wreszcie, kolejną ważną kwestią jest ilość współrzędnych wstępnych (w którym to przypadku stopień wyliczenia w porównaniu z syntezą staje się problemem) i współrzędnych końcowych w systemie.

Kontrolowane elementy słownictwa (terminy / frazy) stosowane jako znaczniki , wspomagające proces identyfikacji treści dokumentów lub innych elementów systemu informatycznego (np. DBMS, Web Services) kwalifikują się jako metadane .

Indeksowanie języków

Istnieją trzy główne typy języków indeksowania.

  • Kontrolowany język indeksowania - indeksator może używać tylko zatwierdzonych terminów do opisu dokumentu
  • Język indeksowania języka naturalnego - do opisu dokumentu można użyć dowolnego terminu z danego dokumentu
  • Dowolny język indeksowania - do opisu dokumentu można użyć dowolnego terminu (nie tylko z dokumentu)

Indeksując dokument, indeksator musi również wybrać poziom wyczerpania indeksowania, poziom szczegółowości, w jakim dokument jest opisany. Na przykład przy zastosowaniu niskiego stopnia wyczerpania indeksowania drobne aspekty pracy nie będą opisywane terminami indeksowymi. Ogólnie rzecz biorąc, im wyższa wyczerpalność indeksowania, tym więcej terminów jest indeksowanych dla każdego dokumentu.

W ostatnich latach popularne stało się wyszukiwanie dowolne jako sposób dostępu do dokumentów. Obejmuje to stosowanie indeksowania w języku naturalnym z indeksowaniem wyczerpującym ustawionym na maksimum ( indeksowane jest każde słowo w tekście ). Przeprowadzono wiele badań w celu porównania wydajności i skuteczności wyszukiwania dowolnego tekstu z dokumentami, które zostały zindeksowane przez ekspertów przy użyciu kilku dobrze dobranych kontrolowanych deskryptorów słownictwa.

Zalety

Często twierdzi się, że słowniki kontrolowane poprawiają dokładność wyszukiwania dowolnego tekstu, na przykład zmniejszają liczbę nieistotnych elementów na liście wyszukiwania. Te nieistotne elementy ( fałszywe alarmy ) są często spowodowane nieodłączną niejednoznacznością języka naturalnego . Weźmy na przykład angielskie słowo „ piłka nożna” . Piłka nożna to nazwa nadana wielu różnym sportom zespołowym . Najpopularniejszym z tych sportów zespołowych na całym świecie jest piłka nożna , która w kilku krajach bywa nazywana piłką nożną . Słowo piłka nożna jest również stosowana do futbolu rugby ( rugby i rugby league ), futbolu amerykańskiego , futbolu australijskiego , Gaelic futbolu i kanadyjskiego futbolu . Wyszukiwanie piłki nożnej pozwoli więc znaleźć dokumenty dotyczące kilku zupełnie różnych dyscyplin sportowych. Słownictwo kontrolowane rozwiązuje ten problem, oznaczając dokumenty w taki sposób, aby wyeliminować niejednoznaczności.

W porównaniu z wyszukiwaniem dowolnych tekstów, użycie kontrolowanego słownictwa może radykalnie zwiększyć wydajność systemu wyszukiwania informacji, jeśli wydajność mierzy się precyzją (procent dokumentów na liście wyszukiwania, które są faktycznie istotne dla tematu wyszukiwania).

W niektórych przypadkach kontrolowane słownictwo może również poprawić rozpoznawanie, ponieważ w przeciwieństwie do schematów języka naturalnego, po wyszukaniu prawidłowego autoryzowanego terminu nie ma potrzeby wyszukiwania innych terminów, które mogą być synonimami tego terminu.

Problemy

Kontrolowane wyszukiwanie słownictwa może prowadzić do niezadowalającego zapamiętania , ponieważ nie będzie w stanie odzyskać niektórych dokumentów, które są rzeczywiście istotne dla pytania wyszukiwania.

Jest to szczególnie problematyczne, gdy pytanie wyszukiwania obejmuje terminy, które są wystarczająco styczne do obszaru tematu, tak że osoba indeksująca mogłaby zdecydować się oznaczyć je innym terminem (ale osoba wyszukująca może rozważyć to samo). Zasadniczo można tego uniknąć tylko przez doświadczonego użytkownika słownictwa kontrolowanego, którego rozumienie pokrywa się z tym, co osoba indeksująca.

Inną możliwością jest to, że artykuł po prostu nie jest oznaczony przez indeksatora, ponieważ wyczerpanie indeksowania jest niskie. Na przykład artykuł może wspominać o piłce nożnej jako drugorzędnym celu, a osoba indeksująca może zdecydować, aby nie oznaczać go słowem „piłka nożna”, ponieważ nie jest to wystarczająco ważne w porównaniu z głównym tematem. Okazuje się jednak, że dla osoby wyszukującej ten artykuł jest istotny i dlatego nie można go sobie przypomnieć. Darmowa wyszukiwarka tekst będzie automatycznie odebrać tego artykułu niezależnie.

Z drugiej strony, wyszukiwanie dowolnych tekstów jest bardzo wyczerpujące (wyszukiwane jest każde słowo), więc chociaż ma znacznie mniejszą dokładność, ma potencjał do zapamiętania, o ile osoba wyszukująca przezwycięży problem synonimów, wprowadzając każdą kombinację.

Słownictwo kontrolowane może szybko się dezaktualizować w szybko rozwijających się dziedzinach wiedzy, chyba że autoryzowane terminy są regularnie aktualizowane. Nawet w idealnym scenariuszu kontrolowane słownictwo jest często mniej szczegółowe niż słowa w samym tekście. Indeksujący próbujący wybrać odpowiednie terminy indeksu mogą błędnie zinterpretować autora, podczas gdy ten konkretny problem nie jest czynnikiem w wolnym tekście, ponieważ używa własnych słów autora.

Korzystanie ze słowników kontrolowanych może być kosztowne w porównaniu z wyszukiwaniem dowolnego tekstu, ponieważ do indeksowania każdego wpisu niezbędni są eksperci lub drogie systemy automatyczne. Ponadto użytkownik musi być zaznajomiony ze schematem słownictwa kontrolowanego, aby jak najlepiej wykorzystać system. Ale jak już wspomniano, kontrola synonimów, homografów może pomóc zwiększyć precyzję.

Opracowano liczne metodologie wspomagające tworzenie kontrolowanych słowników, w tym klasyfikację aspektową , która umożliwia opisanie danego rekordu danych lub dokumentu na wiele sposobów.

Aplikacje

Słownictwo kontrolowane, takie jak nagłówki tematyczne Biblioteki Kongresu , są istotnym elementem bibliografii , badania i klasyfikacji książek. Początkowo zostały opracowane w bibliotekarstwie i informatyce . W latach pięćdziesiątych agencje rządowe zaczęły opracowywać kontrolowane słownictwo dla rozwijającej się literatury czasopism z wyspecjalizowanych dziedzin; przykładem jest Medical Subject Headings (MeSH) opracowane przez Narodową Bibliotekę Medyczną Stanów Zjednoczonych . Następnie pojawiły się firmy nastawione na zysk (zwane usługami abstrakcji i indeksowania), które indeksowały szybko rozwijającą się literaturę z każdej dziedziny wiedzy. W latach sześćdziesiątych XX w. Przemysł bibliograficznych baz danych online rozwinął się w oparciu o sieci dialup X.25 . Usługi te były rzadko udostępniane opinii publicznej, ponieważ były trudne w użyciu; Poszukiwaniem zajmowali się wyspecjalizowani bibliotekarze, zwani pośrednikami wyszukiwania. XX wieku pojawiły się pierwsze pełnotekstowe bazy danych; te bazy danych zawierają pełny tekst artykułów indeksowych, a także informacje bibliograficzne. Internetowe bibliograficzne bazy danych zostały przeniesione do Internetu i są teraz publicznie dostępne; jednak większość z nich jest prawnie zastrzeżona i może być kosztowna w użyciu. Studenci zapisani do college'ów i uniwersytetów mogą mieć dostęp do niektórych z tych usług bez opłat; niektóre z tych usług mogą być dostępne bezpłatnie w bibliotece publicznej.

Komunikacja techniczna

W dużych organizacjach można wprowadzić słowniki kontrolowane, aby poprawić komunikację techniczną . Użycie kontrolowanego słownictwa gwarantuje, że wszyscy używają tego samego słowa na oznaczenie tego samego. Ta spójność terminów jest jednym z najważniejszych pojęć w pisaniu technicznym i zarządzaniu wiedzą , gdzie wkłada się wysiłek, aby używać tego samego słowa w całym dokumencie lub organizacji zamiast nieco innych w odniesieniu do tej samej rzeczy.

Sieć semantyczna i dane strukturalne

Wyszukiwanie w sieci mogłoby zostać radykalnie usprawnione dzięki opracowaniu kontrolowanego słownictwa opisującego strony internetowe; użycie takiego słownictwa mogłoby doprowadzić do powstania sieci semantycznej , w której zawartość stron internetowych jest opisywana przy użyciu schematu metadanych do odczytu maszynowego . Jedną z pierwszych propozycji takiego schematu jest Dublin Core Initiative. Przykładem kontrolowanego słownictwa, które można wykorzystać do indeksowania stron internetowych, jest PSH .

Jest mało prawdopodobne, aby pojedynczy schemat metadanych kiedykolwiek zdołał opisać zawartość całej sieci. Aby utworzyć sieć semantyczną, może być konieczne skorzystanie z dwóch lub więcej systemów metadanych w celu opisania zawartości strony internetowej. EXchangeable Faceted Metadata Language (XFML) został zaprojektowany, aby umożliwić twórcom kontrolowanego słownictwa publikowanie i udostępnianie systemów metadanych. XFML został zaprojektowany w oparciu o różnorodne zasady klasyfikacji .

Kontrolowane słowniki sieci semantycznej definiują pojęcia i relacje (terminy) używane do opisu obszaru zainteresowania lub obszaru zainteresowania. Na przykład, aby zadeklarować osobę w formacie do odczytu maszynowego, potrzebne jest słownictwo z formalną definicją „Osoby”, takie jak słownik Przyjaciela przyjaciela ( FOAF ), który ma klasę Person, która definiuje typowe właściwości osobę, w tym między innymi imię i nazwisko, prefiks honorowy, przynależność, adres e-mail i stronę główną lub słownictwo Person na Schema.org . Podobnie, książkę można opisać przy użyciu słownictwa Book ze Schema.org i ogólnych terminów publikacji ze słownika Dublin Core , wydarzenia ze słownictwem Event ze Schema.org i tak dalej.

Aby skorzystać z warunków do odczytu maszynowego z każdego kontrolowanego słownictwa, projektanci stron internetowych mogą wybierać spośród różnych formatach adnotacji, w tym RDFa, HTML5 MICRODATA lub JSON-LD w znacznikach lub RDF serializations (RDF / XML, żółw, N3, trygonometrii, TriX) w plikach zewnętrznych.

Zobacz też

Bibliografia

Zewnętrzne linki