Wyszukiwania informacji Instrument - Information Retrieval Facility
Wyszukiwania informacji o obiekcie ( IRF ), założona 2006 roku i znajduje się w Wiedniu , Austrii , była platforma badawcza dla tworzenia sieci i współpracy dla specjalistów w dziedzinie wyszukiwania informacji . To zakończyło działalność w 2012 roku.
IRF miała członków w następujących kategoriach:
- Naukowcy z wyszukiwania informacji (IR) lub związane z nimi obszary naukowe
- przemysłowych specjalistów / informatyczne zarządzania
- Władze patentowe i instytucje rządowe
- Uczniowie jednej z powyższych
Zawartość
Rada Naukowa
Maristella Agosti , profesor, Wydział Inżynierii Informatycznej, Uniwersytet w Padwie
Gerhard Budin , dyrektor Centrum Badań nad Przekładem na Uniwersytecie Wiedeńskim , dyrektora Departamentu Corpuslinguistics Technologia Text, Austriackiej Akademii Nauk
Jamie Callan , profesorze Język Technologies Institute, CMU, Carnegie Mellon University
Yves Chiaramella , emerytowany profesor, Wydział Informatyki i Matematyki Stosowanej, Politechnika Joseph Fourier
Kilnam Chon , profesor, Wydział Informatyki, Korea Zaawansowane Instytut Nauki i Technologii (KAIST)
W. Bruce Croft , Distinguished Professor, Wydział Informatyki i dyrektor Center for Intelligent IR University of Massachusetts Amherst
Hamish Cunningham , Badania profesora, Wydział Informatyki Uniwersytetu Sheffield
Norbert Fuhr , Przewodniczący Rady Naukowej, profesor, Instytut Informatyki i Interactive Systems Uniwersytet Duisburg-Essen
David Hawking , Science Lider, Lider Projektu, CSIRO Centrum ICT
Noriko Kando , profesorze Engineering Software Research Division Software Research, Narodowy Instytut Informatyki (NII)
Arcot Desai Narasimhalu , prodziekan, School of Information Systems Singapore Management University
John Tait , Chief Scientific Officer IRF, do lipca 2007 roku profesor Inteligentnych Systemów Informacyjnych i prodziekan Wyższej Szkoły Informatyki i Technologii
Benjamin T'sou , dyrektor Język Information Sciences Research Center, City University of Hong Kong
CJ van Rijsbergen , Wydział Informatyki na Uniwersytecie w Glasgow
cele naukowe
- Modelowanie innowacyjnych i specjalistycznych systemów wyszukiwania informacji dla globalnych zbiorów dokumentów patentowych.
- Badanie i rozwój odpowiedniej infrastruktury technicznej, który umożliwia interaktywną eksperymentów formalnych, matematycznych pojęć pobierania dla bardzo dużych zbiorów dokumentów. <
- Studiowanie użyteczność wielu modalnych użytkownika interfejsy do bardzo dużych systemów wyszukiwania informacji.
- Integracja prawdziwe użytkownikom aktualnych informacji potrzebuje do procesu badawczego modelowania systemów wyszukiwania informacji, aby umożliwić dokładną ocenę wydajności.
- Zdolność do tworzenia różnych widoków danych patentowych w zależności od ostrości konieczności informacyjnym.
- Definiowanie standardowych metod benchmarkingu proces wyszukiwania informacji w zbiorach dokumentów patentowych.
- Możliwość obsługi tekstowych i nietekstowe części patent w spójny sposób.
- Projektowanie, eksperymentowanie i oceny wyszukiwarek w stanie odzyskać dokumenty strukturyzowane i pół-strukturalnego w bardzo dużej skali zbiorów patentowych.
- Integracja czasowym wymiarze dokumentów patentowych w strategii wyszukiwawczych.
- Poprawa skuteczności i precyzji pobierania patentowego, w oparciu o ontologie i techniki rozumienia języka naturalnego.
- Rafinacja metodami IR, które umożliwiają niestrukturalnych zapytań przez wykorzystanie dostępnych strukturę w dokumentach patentowych.
- Formalna (matematyczna) identyfikacja i specyfikacja istotnych informacji biznesowych potrzeb w dziedzinie informacji o własności intelektualnej.
- Bada skutecznych mechanizmów skalowania wyszukiwania informacji, biorąc pod uwagę charakterystykę danych patentowych.
- Badanie i eksperymentowanie z architektur obliczeniowych dla samego zarządzania informacją o dużej pojemności.
- Nawiązanie otwartego e-nauka platformę, która umożliwia znormalizowany i łatwy sposób tworzenia i wykonywania eksperymentów IR na wspólnej infrastruktury badawczej.
- Odkrywanie i badanie nowych przypadków użycia i aplikacji biznesowych wynikających z informacji własności intelektualnej.
- Włączenie formalnej wyszukiwania informacji, języka naturalnego i badań przetwarzanie semantyczne rosnąć w dziedzinie nauk stosowanych w kontekście globalnym, przemysłowej.
- Rozwój i integracja różnych metod dostępu do informacji.
- Badania na temat skutecznych metod pozyskiwania informacji interaktywnej.
semantyczny Superkomputerowo
Obecne technologie wyodrębnić pojęcia z dokumentów niestrukturalnych są niezwykle intensywne obliczeniowa. Aby umożliwić interaktywne eksperymentowanie z bogatej i ogromnym korpusów tekstowej, IRF zbudował środowisko obliczeń o wysokiej wydajności, w którym najnowszych osiągnięć technologicznych zostały wykonane:
- Klastry wielu węzłów (obecnie 80 rdzeni do 1024)
- Najwyższa technologia interkonekt prędkość
- pojedynczy obraz systemu o dużej pamięci związek (obecnie 320 GB do 4 TB)
- pełni zintegrowany konfigurowalny obliczeniowe (obecnie 4 rdzenie FPGA do 256)
Połączenie tych cech HPC, aby przyspieszyć wydobycie tekst stanowi realizację IRF semantycznej superkomputerów.
World Patent Corpus
IRF ma na celu przybliżenie technologii pobierania informacji state-of-the-art do społeczności specjalistów informacji patentowej. Oczekujemy pobieranie technologia informacyjna (IR), aby stać się celem technologii informacyjnej bardzo szybko. Wszystkie sektory przemysłu mogą korzystać z zastosowaniem nowoczesnych i przyszłych procesów górniczych tekst do szczególnych wymagań badań patentowych. Chociaż wszystkie pomysły i koncepcje są powszechnie stosowane do wszelkiego rodzaju informacji, własności intelektualnej, patentów wymagają najwięcej wyrafinowania i skonfrontować nas z trudnych problemów technicznych i organizacyjnych. Całe ciało dokumentów związanych z patentami ewentualnie stanowi największy korpus dokumentów złożonych, co czyni go cennym celem tekstowych naukowców górniczych i użytkowników końcowych podobne. Co więcej, patenty stały się kluczową kwestią, zwłaszcza dla dużych globalnych korporacji i uniwersytetów. Użytkownikom przemysłowe danych patentowych są jednymi z najbardziej wymagających i najważniejszych specjalistów informacyjnych. W konsekwencji, mogą korzystać z najbardziej technologii, która łagodzi obciążenia badając dużą ciało informacji patentowej.
zbiory badawcze
IRF dostarcza wielu zbiorów danych testowych, które albo zostały opracowane przez IRF, przez jednego z jej członków lub przez osoby trzecie. Te zbiory danych mogą być swobodnie wykorzystywane do eksperymentów naukowych.
MAtrixware badawczych Collection ( Marec ) jest pierwszym standaryzowany corpus dane patent dla celów badawczych. Składa się z 19 mln dokumentów patentowych w różnych językach, znormalizowane do wysoce specyficznym formacie XML. Kolekcja została stworzona przez Matrixware dla IRF.
Kolekcja ClueWeb09 to zbiór danych 25 terabajt około 1 miliarda stron WWW indeksowane w styczniu i lutym 2009. Został on stworzony przez Instytut Technologii Języka na Carnegie Mellon University w celu wspierania badań na temat wyszukiwania informacji i związanych z nimi technologii języka ludzkiego.
Referencje
- medycyna patent dla retrieverów, informacja Światowy Przegląd
- IRF i jej rola w profesjonalnych Informacyjnego Badań, ECIR 2008