Wyszukiwania informacji Instrument - Information Retrieval Facility

IRF logo

Wyszukiwania informacji o obiekcie ( IRF ), założona 2006 roku i znajduje się w Wiedniu , Austrii , była platforma badawcza dla tworzenia sieci i współpracy dla specjalistów w dziedzinie wyszukiwania informacji . To zakończyło działalność w 2012 roku.

IRF miała członków w następujących kategoriach:

  • Naukowcy z wyszukiwania informacji (IR) lub związane z nimi obszary naukowe
  • przemysłowych specjalistów / informatyczne zarządzania
  • Władze patentowe i instytucje rządowe
  • Uczniowie jednej z powyższych

Rada Naukowa

Maristella Agosti , profesor, Wydział Inżynierii Informatycznej, Uniwersytet w Padwie

Gerhard Budin , dyrektor Centrum Badań nad Przekładem na Uniwersytecie Wiedeńskim , dyrektora Departamentu Corpuslinguistics Technologia Text, Austriackiej Akademii Nauk

Jamie Callan , profesorze Język Technologies Institute, CMU, Carnegie Mellon University

Yves Chiaramella , emerytowany profesor, Wydział Informatyki i Matematyki Stosowanej, Politechnika Joseph Fourier

Kilnam Chon , profesor, Wydział Informatyki, Korea Zaawansowane Instytut Nauki i Technologii (KAIST)

W. Bruce Croft , Distinguished Professor, Wydział Informatyki i dyrektor Center for Intelligent IR University of Massachusetts Amherst

Hamish Cunningham , Badania profesora, Wydział Informatyki Uniwersytetu Sheffield

Norbert Fuhr , Przewodniczący Rady Naukowej, profesor, Instytut Informatyki i Interactive Systems Uniwersytet Duisburg-Essen

David Hawking , Science Lider, Lider Projektu, CSIRO Centrum ICT

Noriko Kando , profesorze Engineering Software Research Division Software Research, Narodowy Instytut Informatyki (NII)

Arcot Desai Narasimhalu , prodziekan, School of Information Systems Singapore Management University

John Tait , Chief Scientific Officer IRF, do lipca 2007 roku profesor Inteligentnych Systemów Informacyjnych i prodziekan Wyższej Szkoły Informatyki i Technologii

Benjamin T'sou , dyrektor Język Information Sciences Research Center, City University of Hong Kong

CJ van Rijsbergen , Wydział Informatyki na Uniwersytecie w Glasgow

cele naukowe

  • Modelowanie innowacyjnych i specjalistycznych systemów wyszukiwania informacji dla globalnych zbiorów dokumentów patentowych.
  • Badanie i rozwój odpowiedniej infrastruktury technicznej, który umożliwia interaktywną eksperymentów formalnych, matematycznych pojęć pobierania dla bardzo dużych zbiorów dokumentów. <
  • Studiowanie użyteczność wielu modalnych użytkownika interfejsy do bardzo dużych systemów wyszukiwania informacji.
  • Integracja prawdziwe użytkownikom aktualnych informacji potrzebuje do procesu badawczego modelowania systemów wyszukiwania informacji, aby umożliwić dokładną ocenę wydajności.
  • Zdolność do tworzenia różnych widoków danych patentowych w zależności od ostrości konieczności informacyjnym.
  • Definiowanie standardowych metod benchmarkingu proces wyszukiwania informacji w zbiorach dokumentów patentowych.
  • Możliwość obsługi tekstowych i nietekstowe części patent w spójny sposób.
  • Projektowanie, eksperymentowanie i oceny wyszukiwarek w stanie odzyskać dokumenty strukturyzowane i pół-strukturalnego w bardzo dużej skali zbiorów patentowych.
  • Integracja czasowym wymiarze dokumentów patentowych w strategii wyszukiwawczych.
  • Poprawa skuteczności i precyzji pobierania patentowego, w oparciu o ontologie i techniki rozumienia języka naturalnego.
  • Rafinacja metodami IR, które umożliwiają niestrukturalnych zapytań przez wykorzystanie dostępnych strukturę w dokumentach patentowych.
  • Formalna (matematyczna) identyfikacja i specyfikacja istotnych informacji biznesowych potrzeb w dziedzinie informacji o własności intelektualnej.
  • Bada skutecznych mechanizmów skalowania wyszukiwania informacji, biorąc pod uwagę charakterystykę danych patentowych.
  • Badanie i eksperymentowanie z architektur obliczeniowych dla samego zarządzania informacją o dużej pojemności.
  • Nawiązanie otwartego e-nauka platformę, która umożliwia znormalizowany i łatwy sposób tworzenia i wykonywania eksperymentów IR na wspólnej infrastruktury badawczej.
  • Odkrywanie i badanie nowych przypadków użycia i aplikacji biznesowych wynikających z informacji własności intelektualnej.
  • Włączenie formalnej wyszukiwania informacji, języka naturalnego i badań przetwarzanie semantyczne rosnąć w dziedzinie nauk stosowanych w kontekście globalnym, przemysłowej.
  • Rozwój i integracja różnych metod dostępu do informacji.
  • Badania na temat skutecznych metod pozyskiwania informacji interaktywnej.

semantyczny Superkomputerowo

Obecne technologie wyodrębnić pojęcia z dokumentów niestrukturalnych są niezwykle intensywne obliczeniowa. Aby umożliwić interaktywne eksperymentowanie z bogatej i ogromnym korpusów tekstowej, IRF zbudował środowisko obliczeń o wysokiej wydajności, w którym najnowszych osiągnięć technologicznych zostały wykonane:

  • Klastry wielu węzłów (obecnie 80 rdzeni do 1024)
  • Najwyższa technologia interkonekt prędkość
  • pojedynczy obraz systemu o dużej pamięci związek (obecnie 320 GB do 4 TB)
  • pełni zintegrowany konfigurowalny obliczeniowe (obecnie 4 rdzenie FPGA do 256)

Połączenie tych cech HPC, aby przyspieszyć wydobycie tekst stanowi realizację IRF semantycznej superkomputerów.

World Patent Corpus

IRF ma na celu przybliżenie technologii pobierania informacji state-of-the-art do społeczności specjalistów informacji patentowej. Oczekujemy pobieranie technologia informacyjna (IR), aby stać się celem technologii informacyjnej bardzo szybko. Wszystkie sektory przemysłu mogą korzystać z zastosowaniem nowoczesnych i przyszłych procesów górniczych tekst do szczególnych wymagań badań patentowych. Chociaż wszystkie pomysły i koncepcje są powszechnie stosowane do wszelkiego rodzaju informacji, własności intelektualnej, patentów wymagają najwięcej wyrafinowania i skonfrontować nas z trudnych problemów technicznych i organizacyjnych. Całe ciało dokumentów związanych z patentami ewentualnie stanowi największy korpus dokumentów złożonych, co czyni go cennym celem tekstowych naukowców górniczych i użytkowników końcowych podobne. Co więcej, patenty stały się kluczową kwestią, zwłaszcza dla dużych globalnych korporacji i uniwersytetów. Użytkownikom przemysłowe danych patentowych są jednymi z najbardziej wymagających i najważniejszych specjalistów informacyjnych. W konsekwencji, mogą korzystać z najbardziej technologii, która łagodzi obciążenia badając dużą ciało informacji patentowej.

zbiory badawcze

IRF dostarcza wielu zbiorów danych testowych, które albo zostały opracowane przez IRF, przez jednego z jej członków lub przez osoby trzecie. Te zbiory danych mogą być swobodnie wykorzystywane do eksperymentów naukowych.

MAtrixware badawczych Collection ( Marec ) jest pierwszym standaryzowany corpus dane patent dla celów badawczych. Składa się z 19 mln dokumentów patentowych w różnych językach, znormalizowane do wysoce specyficznym formacie XML. Kolekcja została stworzona przez Matrixware dla IRF.

Kolekcja ClueWeb09 to zbiór danych 25 terabajt około 1 miliarda stron WWW indeksowane w styczniu i lutym 2009. Został on stworzony przez Instytut Technologii Języka na Carnegie Mellon University w celu wspierania badań na temat wyszukiwania informacji i związanych z nimi technologii języka ludzkiego.

Referencje

Linki zewnętrzne