Chorwacki Korpus Narodowy - Croatian National Corpus

Croatian National Corpus ( chorwacki : Hrvatski Nacionalni korpus , HNK ) jest największym i najważniejszym corpus od chorwacki . Jego kompilacja rozpoczęła się w 1998 roku w Instytucie Lingwistyki na Wydziale Nauk Humanistycznych i Społecznych , Uniwersytet w Zagrzebiu po ideami Marko Tadić . Już wcześniej zaczęły pojawiać się teoretyczne podstawy i wyraz potrzeby uniwersalnego, reprezentatywnego i wielomilionowego korpusu chorwackiego. Chorwacki Korpus Narodowy składa się z wybranych tekstów napisanych w języku chorwackim, obejmujących wszystkie dziedziny, tematy, gatunki i style: od tekstów literackich i naukowych po podręczniki, gazety, grupy użytkowników i czaty.

Początkowy skład został podzielony na dwa składniki:

  1. 30-milionowy korpus współczesnego chorwackiego (30m), w którym znalazły się próbki tekstów z 1990 roku. Kryteriami włączenia próbek tekstów były: napisane przez native speakerów, różne dziedziny, gatunki i tematy. Wykluczono przetłumaczony tekst lub poezję.
  2. Chorwackie Elektroniczne Archiwum Tekstów (HETA), w którym uwzględniono cały tekst, w szczególności publikacje seryjne (tomy, serie, wydania itp.), które zaburzyłyby równowagę 30 m, gdyby zostały tam umieszczone.

Od 2004 roku, wraz z przyjęciem koncepcji korpusu III generacji, zrezygnowano z dwuskładnikowej struktury na rzecz kilku subkorpusów i większych rozmiarów. Od 2005 roku HNK 105 milionów tokenów składa się z wielu różnych subkorpusów, które można przeszukiwać pojedynczo i wszystkie razem w całym korpusie. Od 2004 roku HNK przeszło również na nową platformę serwerową, a mianowicie architekturę serwer-klient Manatee/Bonito. Do przeszukania HNK (dziś jeszcze z bezpłatnym dostępem testowym) potrzebny jest darmowy program kliencki Bonito. Autorem kierownika tego korpusu jest Pavel Rychlý z Laboratorium Przetwarzania Języka Naturalnego Wydziału Informatyki Uniwersytetu Masaryka w Brnie, Czechy. Jego interfejs zawiera złożone i bardziej rozbudowane zapytania w korpusie, różne typy wyników statystycznych, pełne lub częściowe listy słów według różnych kryteriów zapytania (z ich częstotliwością), rozkład częstotliwości typów, automatyczne wykrywanie kolokacji itp.

Ostatnia wersja tego korpusu (wersja 3) ma 216,8 mln tokenów. Wyszukiwanie online jest dostępne za pośrednictwem interfejsu internetowego Bonito 2, który jest częścią NoSketch Engine, limitowanej wersji oprogramowania Sketch Engine .

Bibliografia

Linki zewnętrzne