Wyszukiwania informacji Instrument - Information Retrieval Facility

IRF logo

Wyszukiwania informacji o obiekcie ( IRF ), założona 2006 roku i znajduje się w Wiedniu , Austrii , była platforma badawcza dla tworzenia sieci i współpracy dla specjalistów w dziedzinie wyszukiwania informacji . To zakończyło działalność w 2012 roku.

IRF miała członków w następujących kategoriach:

Naukowcy z wyszukiwania informacji (IR) lub związane z nimi obszary naukowe
przemysłowych specjalistów / informatyczne zarządzania
Władze patentowe i instytucje rządowe
Uczniowie jednej z powyższych

Rada Naukowa

Maristella Agosti , profesor, Wydział Inżynierii Informatycznej, Uniwersytet w Padwie

Gerhard Budin , dyrektor Centrum Badań nad Przekładem na Uniwersytecie Wiedeńskim , dyrektora Departamentu Corpuslinguistics Technologia Text, Austriackiej Akademii Nauk

Jamie Callan , profesorze Język Technologies Institute, CMU, Carnegie Mellon University

Yves Chiaramella , emerytowany profesor, Wydział Informatyki i Matematyki Stosowanej, Politechnika Joseph Fourier

Kilnam Chon , profesor, Wydział Informatyki, Korea Zaawansowane Instytut Nauki i Technologii (KAIST)

W. Bruce Croft , Distinguished Professor, Wydział Informatyki i dyrektor Center for Intelligent IR University of Massachusetts Amherst

Hamish Cunningham , Badania profesora, Wydział Informatyki Uniwersytetu Sheffield

Norbert Fuhr , Przewodniczący Rady Naukowej, profesor, Instytut Informatyki i Interactive Systems Uniwersytet Duisburg-Essen

David Hawking , Science Lider, Lider Projektu, CSIRO Centrum ICT

Noriko Kando , profesorze Engineering Software Research Division Software Research, Narodowy Instytut Informatyki (NII)

Arcot Desai Narasimhalu , prodziekan, School of Information Systems Singapore Management University

John Tait , Chief Scientific Officer IRF, do lipca 2007 roku profesor Inteligentnych Systemów Informacyjnych i prodziekan Wyższej Szkoły Informatyki i Technologii

Benjamin T'sou , dyrektor Język Information Sciences Research Center, City University of Hong Kong

CJ van Rijsbergen , Wydział Informatyki na Uniwersytecie w Glasgow

cele naukowe

Modelowanie innowacyjnych i specjalistycznych systemów wyszukiwania informacji dla globalnych zbiorów dokumentów patentowych.
Badanie i rozwój odpowiedniej infrastruktury technicznej, który umożliwia interaktywną eksperymentów formalnych, matematycznych pojęć pobierania dla bardzo dużych zbiorów dokumentów. <
Studiowanie użyteczność wielu modalnych użytkownika interfejsy do bardzo dużych systemów wyszukiwania informacji.
Integracja prawdziwe użytkownikom aktualnych informacji potrzebuje do procesu badawczego modelowania systemów wyszukiwania informacji, aby umożliwić dokładną ocenę wydajności.
Zdolność do tworzenia różnych widoków danych patentowych w zależności od ostrości konieczności informacyjnym.
Definiowanie standardowych metod benchmarkingu proces wyszukiwania informacji w zbiorach dokumentów patentowych.
Możliwość obsługi tekstowych i nietekstowe części patent w spójny sposób.
Projektowanie, eksperymentowanie i oceny wyszukiwarek w stanie odzyskać dokumenty strukturyzowane i pół-strukturalnego w bardzo dużej skali zbiorów patentowych.
Integracja czasowym wymiarze dokumentów patentowych w strategii wyszukiwawczych.
Poprawa skuteczności i precyzji pobierania patentowego, w oparciu o ontologie i techniki rozumienia języka naturalnego.
Rafinacja metodami IR, które umożliwiają niestrukturalnych zapytań przez wykorzystanie dostępnych strukturę w dokumentach patentowych.
Formalna (matematyczna) identyfikacja i specyfikacja istotnych informacji biznesowych potrzeb w dziedzinie informacji o własności intelektualnej.
Bada skutecznych mechanizmów skalowania wyszukiwania informacji, biorąc pod uwagę charakterystykę danych patentowych.
Badanie i eksperymentowanie z architektur obliczeniowych dla samego zarządzania informacją o dużej pojemności.
Nawiązanie otwartego e-nauka platformę, która umożliwia znormalizowany i łatwy sposób tworzenia i wykonywania eksperymentów IR na wspólnej infrastruktury badawczej.
Odkrywanie i badanie nowych przypadków użycia i aplikacji biznesowych wynikających z informacji własności intelektualnej.
Włączenie formalnej wyszukiwania informacji, języka naturalnego i badań przetwarzanie semantyczne rosnąć w dziedzinie nauk stosowanych w kontekście globalnym, przemysłowej.
Rozwój i integracja różnych metod dostępu do informacji.
Badania na temat skutecznych metod pozyskiwania informacji interaktywnej.

semantyczny Superkomputerowo

Obecne technologie wyodrębnić pojęcia z dokumentów niestrukturalnych są niezwykle intensywne obliczeniowa. Aby umożliwić interaktywne eksperymentowanie z bogatej i ogromnym korpusów tekstowej, IRF zbudował środowisko obliczeń o wysokiej wydajności, w którym najnowszych osiągnięć technologicznych zostały wykonane:

Klastry wielu węzłów (obecnie 80 rdzeni do 1024)
Najwyższa technologia interkonekt prędkość
pojedynczy obraz systemu o dużej pamięci związek (obecnie 320 GB do 4 TB)
pełni zintegrowany konfigurowalny obliczeniowe (obecnie 4 rdzenie FPGA do 256)

Połączenie tych cech HPC, aby przyspieszyć wydobycie tekst stanowi realizację IRF semantycznej superkomputerów.

World Patent Corpus

IRF ma na celu przybliżenie technologii pobierania informacji state-of-the-art do społeczności specjalistów informacji patentowej. Oczekujemy pobieranie technologia informacyjna (IR), aby stać się celem technologii informacyjnej bardzo szybko. Wszystkie sektory przemysłu mogą korzystać z zastosowaniem nowoczesnych i przyszłych procesów górniczych tekst do szczególnych wymagań badań patentowych. Chociaż wszystkie pomysły i koncepcje są powszechnie stosowane do wszelkiego rodzaju informacji, własności intelektualnej, patentów wymagają najwięcej wyrafinowania i skonfrontować nas z trudnych problemów technicznych i organizacyjnych. Całe ciało dokumentów związanych z patentami ewentualnie stanowi największy korpus dokumentów złożonych, co czyni go cennym celem tekstowych naukowców górniczych i użytkowników końcowych podobne. Co więcej, patenty stały się kluczową kwestią, zwłaszcza dla dużych globalnych korporacji i uniwersytetów. Użytkownikom przemysłowe danych patentowych są jednymi z najbardziej wymagających i najważniejszych specjalistów informacyjnych. W konsekwencji, mogą korzystać z najbardziej technologii, która łagodzi obciążenia badając dużą ciało informacji patentowej.

zbiory badawcze

IRF dostarcza wielu zbiorów danych testowych, które albo zostały opracowane przez IRF, przez jednego z jej członków lub przez osoby trzecie. Te zbiory danych mogą być swobodnie wykorzystywane do eksperymentów naukowych.

MAtrixware badawczych Collection ( Marec ) jest pierwszym standaryzowany corpus dane patent dla celów badawczych. Składa się z 19 mln dokumentów patentowych w różnych językach, znormalizowane do wysoce specyficznym formacie XML. Kolekcja została stworzona przez Matrixware dla IRF.

Kolekcja ClueWeb09 to zbiór danych 25 terabajt około 1 miliarda stron WWW indeksowane w styczniu i lutym 2009. Został on stworzony przez Instytut Technologii Języka na Carnegie Mellon University w celu wspierania badań na temat wyszukiwania informacji i związanych z nimi technologii języka ludzkiego.

Languages

In other projects