Astrofizyczny system danych - Astrophysics Data System

Astrofizyczny system danych
REKLAMA logo.png
Logo ADS
Producent Harvard-Smithsonian Center for Astrophysics for the National Aeronautics and Space Administration (Stany Zjednoczone)
Historia 1992 do chwili obecnej
Dostęp
Koszt Wolny
Pokrycie
Dyscypliny Astronomia i Fizyka
Nagraj głębokość Indeks i streszczenie i pełny tekst
Zasięg geoprzestrzenny Na całym świecie
Spinki do mankietów
Stronie internetowej http://www.adsabs.harvard.edu/

Data System Astrophysics ( ADS ) to internetowa baza danych z ponad osiem milionów astronomii i fizyki papierów z obu zweryfikowane i nie zweryfikowane źródeł. Abstrakty są dostępne bezpłatnie online dla prawie wszystkich artykułów, a pełne zeskanowane artykuły są dostępne w formacie Graphics Interchange Format (GIF) i Portable Document Format (PDF) dla starszych artykułów. Został opracowany przez Narodową Agencję Aeronautyki i Przestrzeni Kosmicznej (NASA) i jest zarządzany przez Harvard-Smithsonian Center for Astrophysics .

ADS jest potężnym narzędziem badawczym i ma znaczący wpływ na efektywność badań astronomicznych od momentu jego uruchomienia w 1992 roku. Wyszukiwanie literatury, które wcześniej zajęłoby dni lub tygodnie, można teraz przeprowadzić w kilka sekund za pomocą wyszukiwarki ADS, która jest zbudowane na zamówienie dla potrzeb astronomicznych. Badania wykazały, że korzyści dla astronomii z ADS są równoważne kilkuset milionom dolarów rocznie, a szacuje się, że system potroił liczbę czytelników czasopism astronomicznych.

Korzystanie z ADS jest niemal powszechne wśród astronomów na całym świecie, dlatego statystyki wykorzystania ADS można wykorzystać do analizy globalnych trendów w badaniach astronomicznych. Badania te wykazały, że ilość badań prowadzonych przez astronoma jest powiązana z produktem krajowym brutto (PKB) na mieszkańca kraju, w którym ma siedzibę, a liczba astronomów w kraju jest proporcjonalna do PKB tego kraju, więc całkowita ilość badań przeprowadzonych w kraju jest proporcjonalna do kwadratu jego PKB podzielonego przez jego populację.

Historia

Przez wiele lat rosnącym problemem w badaniach astronomicznych (podobnie jak w innych dyscyplinach akademickich) był stały wzrost liczby artykułów publikowanych w głównych czasopismach astronomicznych, co oznaczało, że astronomowie mogli coraz mniej czytać najnowszych wyników badań. W latach 80. astronomowie dostrzegli, że rodzące się technologie, które stały się podstawą Internetu, mogą w końcu zostać wykorzystane do zbudowania elektronicznego systemu indeksowania prac astronomicznych, który pozwoli astronomom na bieżąco śledzić znacznie szerszy zakres badań.

Pierwsza propozycja bazy danych abstraktów artykułów prasowych pojawiła się na konferencji Astronomy from Large Data-bases, która odbyła się w Garching bei München w 1987 roku. Wstępny rozwój elektronicznego systemu dostępu do abstraktów astrofizycznych miał miejsce w ciągu następnych dwóch lat; w 1991 roku odbyły się dyskusje nad tym, jak zintegrować ADS z bazą danych SIMBAD , zawierającą wszystkie dostępne oznaczenia katalogowe obiektów spoza Układu Słonecznego , aby stworzyć system, w którym astronomowie mogliby wyszukiwać wszystkie artykuły napisane na temat danego obiektu.

Pierwsza wersja ADS, z bazą danych składającą się z 40 artykułów, została stworzona jako weryfikacja koncepcji w 1988 roku, a baza danych ADS została z powodzeniem połączona z bazą SIMBAD latem 1993 roku. Twórcy uważali, że było to pierwsze użycie Internet, aby umożliwić jednoczesne przeszukiwanie transatlantyckich naukowych baz danych. Do 1994 r. usługa była dostępna za pośrednictwem zastrzeżonego oprogramowania sieciowego, ale na początku tego roku została przeniesiona do rodzącej się sieci WWW . Liczba użytkowników usługi wzrosła czterokrotnie w ciągu pięciu tygodni po wprowadzeniu usługi internetowej ADS.

Początkowo artykuły w czasopismach dostępne za pośrednictwem ADS były zeskanowanymi mapami bitowymi utworzonymi z czasopism papierowych, ale od 1995 r. Astrophysical Journal zaczął publikować edycję online, a wkrótce potem inne główne czasopisma, takie jak Astronomy and Astrophysics oraz Monthly Zawiadomienia Królewskiego Towarzystwa Astronomicznego . Firma ADS udostępniła linki do tych wydań elektronicznych od ich pierwszego pojawienia się. Od około 1995 r. liczba użytkowników ADS podwajała się mniej więcej co dwa lata. ADS ma teraz umowy z prawie wszystkimi czasopismami astronomicznymi, które dostarczają streszczenia. Zeskanowane artykuły z początku XIX wieku są dostępne za pośrednictwem serwisu, który obecnie zawiera ponad osiem milionów dokumentów. Usługa jest dystrybuowana na całym świecie, z dwunastoma lokalizacjami lustrzanymi w dwunastu krajach na pięciu kontynentach, z bazą danych synchronizowaną za pomocą cotygodniowych aktualizacji za pomocą rsync , narzędzia do tworzenia kopii lustrzanych, które umożliwia aktualizacje tylko tych części bazy danych, które uległy zmianie. Wszystkie aktualizacje są uruchamiane centralnie, ale inicjują skrypty w witrynach lustrzanych, które „pobierają” zaktualizowane dane z głównych serwerów ADS.

Dane w systemie

1284 artykuły o M101 są dostępne przez ADS, już od 1850 roku.

Artykuły są indeksowane w bazie danych według ich rekordów bibliograficznych, zawierających szczegóły czasopisma, w którym zostały opublikowane, oraz różne powiązane metadane , takie jak listy autorów, odnośniki i cytowania . Pierwotnie te dane były przechowywane w formacie ASCII , ale ostatecznie ograniczenia tego skłoniły opiekunów baz danych do migracji wszystkich rekordów do formatu XML (Extensible Markup Language) w 2000 roku. Rekordy bibliograficzne są teraz przechowywane jako element XML, z podelementami dla różne metadane.

Od czasu pojawienia się internetowych wydań czasopism, streszczenia są ładowane do ADS w dniu lub przed datą publikacji artykułów, z pełnym tekstem czasopisma dostępnym dla prenumeratorów. Starsze artykuły zostały zeskanowane, a streszczenie zostało utworzone za pomocą oprogramowania do optycznego rozpoznawania znaków . Zeskanowane artykuły sprzed około 1995 r. są zazwyczaj dostępne bezpłatnie, po uzgodnieniu z wydawcami czasopism.

Zeskanowane artykuły są przechowywane w formacie TIFF , zarówno w średniej, jak i wysokiej rozdzielczości . Pliki TIFF są konwertowane na żądanie na pliki GIF do wyświetlania na ekranie oraz pliki PDF lub PostScript do drukowania. Wygenerowane pliki są następnie buforowane, aby wyeliminować niepotrzebne częste regeneracje popularnych artykułów. Od 2000 r. ADS zawierał 250 GB skanów, które składały się z 1 128 955 stron artykułów zawierających 138 789 artykułów. Do 2005 roku wielkość ta wzrosła do 650 GB i oczekuje się, że do 2007 roku wzrośnie do około 900 GB. Nie opublikowano żadnych dalszych informacji.

Baza danych początkowo zawierała tylko odniesienia astronomiczne, ale teraz rozrosła się do trzech baz danych, obejmujących odniesienia do astronomii (w tym nauki planetarne i fizykę Słońca), odniesienia do fizyki (w tym oprzyrządowanie i nauki o Ziemi ), a także preprinty artykułów naukowych z arXiv . Baza danych astronomicznych jest zdecydowanie najbardziej zaawansowana, a jej wykorzystanie stanowi około 85% całkowitego wykorzystania ADS. Artykuły są przypisywane do różnych baz danych według tematu, a nie czasopisma, w którym są publikowane, dzięki czemu artykuły z jednego czasopisma mogą pojawiać się we wszystkich trzech tematycznych bazach danych. Rozdzielenie baz danych umożliwia dostosowanie wyszukiwania w każdej dyscyplinie, dzięki czemu słowa mogą automatycznie przypisywać różne funkcje wagowe w różnych wyszukiwaniach baz danych, w zależności od tego, jak często występują one w odpowiedniej dziedzinie.

Dane w archiwum preprintów są aktualizowane codziennie z arXiv , głównego repozytorium preprintów fizyki i astronomii. Pojawienie się serwerów preprint, podobnie jak ADS, miało znaczący wpływ na tempo badań astronomicznych, ponieważ artykuły są często udostępniane z serwerów preprint na tygodnie lub miesiące przed ich opublikowaniem w czasopismach. Włączenie preprintów z arXiv do ADS oznacza, że ​​wyszukiwarka może zwrócić najbardziej aktualne dostępne badania, z zastrzeżeniem, że preprinty mogły nie być recenzowane lub korygowane zgodnie z wymaganym standardem do publikacji w głównych czasopismach. Baza danych ADS łączy w miarę możliwości preprinty z później opublikowanymi artykułami, dzięki czemu wyszukiwanie cytowań i referencji zwróci linki do artykułu w czasopiśmie, w którym zacytowano preprint.

Oprogramowanie i sprzęt

Oprogramowanie działa w systemie, który został napisany specjalnie dla niego, co pozwala na szerokie dostosowanie do potrzeb astronomicznych, co nie byłoby możliwe w przypadku oprogramowania bazodanowego ogólnego przeznaczenia . Skrypty są zaprojektowane tak, aby były jak najbardziej niezależne od platformy , biorąc pod uwagę potrzebę ułatwienia tworzenia kopii lustrzanych w różnych systemach na całym świecie, chociaż rosnące wykorzystanie Linuksa jako systemu operacyjnego z wyboru w astronomii doprowadziło do coraz większej optymalizacji skryptów do instalacji na tę platformę.

Serwer główne ADS znajduje się w Harvard-Smithsonian Center for Astrophysics w Cambridge, Massachusetts , i to podwójny 64-bit x86 Intel serwer z dwoma quad-core 3,0 GHz CPU i 32 GB pamięci RAM , uruchamiając CentOS 5.4 Linux dystrybucji. Lustra znajdują się w Brazylii, Chinach, Chile, Francji, Niemczech, Indiach, Indonezji, Japonii, Rosji, Korei Południowej, Wielkiej Brytanii i na Ukrainie.

Indeksowanie

Obecnie ADS otrzymuje abstrakty lub spisy treści z prawie dwustu źródeł czasopism. Serwis może otrzymywać dane odnoszące się do tego samego artykułu z wielu źródeł i tworzy jedno odniesienie bibliograficzne na podstawie najdokładniejszych danych z każdego źródła. Powszechne stosowanie TeX- a i LaTeX- a przez prawie wszystkie czasopisma naukowe znacznie ułatwia włączanie danych bibliograficznych do systemu w znormalizowanym formacie, a importowanie artykułów internetowych w kodzie HTML jest również proste. ADS wykorzystuje skrypty Perl do importowania, przetwarzania i standaryzacji danych bibliograficznych.

Pozornie prozaiczne zadanie konwersji nazwisk autorów do standardowego formatu Nazwisko , Format początkowy jest w rzeczywistości jednym z trudniejszych do zautomatyzowania ze względu na dużą różnorodność konwencji nazewnictwa na całym świecie i możliwość, że dane imię, takie jak Davis, może być pierwszym imię , drugie imię lub nazwisko. Dokładne przeliczenie imion wymaga szczegółowej znajomości nazwisk autorów działających w astronomii, a ADS prowadzi obszerną bazę danych nazwisk autorów, która jest również wykorzystywana przy przeszukiwaniu bazy danych (patrz niżej).

W przypadku artykułów elektronicznych łatwo wyodrębnić listę odnośników podaną na końcu artykułu. W przypadku zeskanowanych artykułów wyodrębnianie odnośników opiera się na OCR. Bazę referencyjną można następnie „odwrócić”, aby wyświetlić listę cytowań dla każdego artykułu w bazie danych. Listy cytowań były używane w przeszłości do identyfikowania popularnych artykułów, których brakowało w bazie danych; w większości były one sprzed 1975 r. i zostały teraz dodane do systemu.

Pokrycie

Baza danych zawiera obecnie ponad osiem milionów artykułów. W przypadku głównych czasopism astronomicznych ( Astrophysical Journal , Astronomical Journal , Astronomy and Astrophysics , Publications of the Astronomical Society of the Pacific oraz Monthly Notices of the Royal Astronomical Society ) relacjonowanie jest kompletne, wszystkie numery są indeksowane od numeru 1 do teraz. Czasopisma te stanowią około dwóch trzecich artykułów w bazie danych, a resztę stanowią artykuły opublikowane w ponad 100 innych czasopismach z całego świata, a także w materiałach konferencyjnych.

Chociaż baza danych zawiera kompletną zawartość wszystkich głównych czasopism, a także wielu pomniejszych, jej zakres odniesień i cytowań jest znacznie mniej kompletny. Odniesienia i cytowania artykułów w głównych czasopismach są dość kompletne, ale nie można dopasować takich odniesień, jak „komunikacja prywatna”, „w prasie” lub „w przygotowaniu”, a błędy autora w wykazach bibliograficznych również wprowadzają potencjalne błędy. Artykuły astronomiczne mogą cytować i być cytowane przez artykuły w czasopismach spoza zakresu ADS, takich jak czasopisma chemiczne , matematyczne lub biologiczne .

Wyszukiwarka

Przykład złożonego wyszukiwania łączącego zapytania obiektowe, tytułowe i abstrakcyjne z filtrem dat

Od samego początku ADS opracowało bardzo złożoną wyszukiwarkę do wyszukiwania w bazach danych abstraktów i obiektów. Wyszukiwarka jest dostosowana do wyszukiwania abstraktów astronomicznych, a sama wyszukiwarka i jej interfejs użytkownika zakładają, że użytkownik jest dobrze zorientowany w astronomii i potrafi interpretować wyniki wyszukiwania, które mają zwracać więcej niż tylko najbardziej odpowiednie artykuły. Baza danych może być przeszukiwana pod kątem nazwisk autorów, nazw obiektów astronomicznych , słów tytułowych i słów w tekście abstrakcyjnym, a wyniki można filtrować według wielu kryteriów. Działa poprzez zebranie synonimów i uproszczenie wyszukiwanych terminów, jak opisano powyżej, a następnie wygenerowanie „odwróconego pliku”, który jest listą wszystkich dokumentów pasujących do każdego wyszukiwanego terminu. Logika i filtry wybrane przez użytkownika są następnie stosowane do tej odwróconej listy w celu wygenerowania ostatecznych wyników wyszukiwania.

Zapytania o nazwisko autora

System indeksuje nazwiska autorów według nazwiska i inicjałów oraz uwzględnia możliwe różnice w pisowni nazwisk za pomocą listy odmian. Jest to powszechne w przypadku nazw zawierających akcenty, takie jak umlauty i transliteracje z pisma arabskiego lub cyrylicy . Przykładem wpisu na liście synonimów autora jest:

AFANASJEV, V
AFANAS'EV, V
AFANASIEV, V
AFANASEV, V
AFANASIEW, W
AFANSIEV, V
AFANSEV, V

Wyszukiwanie nazw obiektów

Możliwość wyszukiwania artykułów o określonych obiektach astronomicznych jest jednym z najpotężniejszych narzędzi ADS. System wykorzystuje dane z SIMBAD , NASA/IPAC Extragalactic Database , International Astronomical Union Circulars oraz Lunar and Planetary Institute do identyfikacji artykułów odnoszących się do danego obiektu, a także może wyszukiwać według pozycji obiektu, wymieniając artykuły dotyczące obiektów w obrębie danego obiektu. 10  arcminute promień danego rektascensji i deklinacji . Bazy te łączą wiele oznaczeń katalogowych, jakie może mieć obiekt, dzięki czemu podczas wyszukiwania Plejad można znaleźć również artykuły, które wymieniają słynną gromadę otwartą w Byku pod jakimkolwiek innym oznaczeniem katalogowym lub popularnymi nazwami, takimi jak M45, Siedem Sióstr lub Melota 22.

Wyszukiwanie tytułów i streszczeń

Wyszukiwarka najpierw filtruje wyszukiwane hasła na kilka sposobów. Z M, a następnie przez przestrzeń lub łącznik ma przestrzeń lub łącznik usuwany, tak że poszukuje katalogu Messiera przedmioty są łatwiejsze wejście użytkownik M45, M 45 lub M45 skutkowałoby tym samym zapytanie jest zakończone; podobnie, oznaczenia NGC i popularne terminy wyszukiwania, takie jak Shoemaker Levy i T Tauri, są pozbawione spacji. Nieistotne słowa takie jak AT, lub i TO są usuwane na zewnątrz, ale w niektórych przypadkach, wielkość liter jest zachowana, tak że podczas II jest ignorowany II jest przekształcany w „ Andromedae ” i H ER jest zamienione na „ Herculis ”, ale h er jest ignorowany.

Zamiana synonimów

Gdy wyszukiwane terminy zostały wstępnie przetworzone, baza danych jest przeszukiwana z poprawionym wyszukiwanym terminem, a także jego synonimami. Oprócz prostego zastępowania synonimów, takiego jak wyszukiwanie zarówno w liczbie mnogiej, jak i pojedynczej , ADS wyszukuje również dużą liczbę synonimów specyficznie astronomicznych. Na przykład spektrograf i spektroskop mają w zasadzie to samo znaczenie, aw kontekście astronomicznym metaliczność i obfitość są również synonimami. Lista synonimów ADS została utworzona ręcznie, grupując listę słów w bazie danych według podobnych znaczeń.

Oprócz synonimów w języku angielskim , ADS wyszukuje również angielskie tłumaczenia zagranicznych wyszukiwanych terminów i odwrotnie, dzięki czemu wyszukiwanie francuskiego słowa soleil zawiera odniesienia do Sun , a artykuły w językach innych niż angielski mogą być zwracane przez angielskie terminy wyszukiwania.

Zastępowanie synonimów można w razie potrzeby wyłączyć, aby można było wyszukać rzadki termin, który jest synonimem znacznie powszechniejszego terminu (takiego jak „ linia daty ” zamiast „ data ”).

Logika wyboru

Wyszukiwarka umożliwia logikę wyboru zarówno w obrębie pól, jak i pomiędzy polami. Wyszukiwane terminy w każdym polu można łączyć za pomocą LUB, AND, prostej logiki lub logiki logicznej , a użytkownik może określić, które pola muszą być dopasowane w wynikach wyszukiwania. Pozwala to na budowanie złożonych wyszukiwań; na przykład, użytkownik może wyszukiwać artykuły dotyczące NGC 6543 OR NGC 7009 , których tytuły zawierają (promień OR prędkość) AND NOT (obfitość OR temperatura).

Filtrowanie wyników

Wyniki wyszukiwania można filtrować według wielu kryteriów, w tym określając zakres lat, np. „1945 do 1975”, „2000 do dnia dzisiejszego” lub „przed 1900”, oraz rodzaj czasopisma, w którym pojawia się artykuł – nie - artykuły recenzowane przez recenzentów, takie jak materiały konferencyjne, mogą być wykluczone lub specjalnie przeszukiwane, lub określone czasopisma mogą zostać włączone lub wyłączone z wyszukiwania.

Wyniki wyszukiwania

Strona wyników wyszukiwania z ADS – A, F, G, C, R itp. to linki do powiązanych danych dla każdego streszczenia, takich jak artykuł pełnotekstowy, cytaty, również przeczytane artykuły i tak dalej.

Chociaż został pomyślany jako sposób dostępu do streszczeń i artykułów, ADS zapewnia znaczną ilość dodatkowych informacji wraz z wynikami wyszukiwania. Dla każdego zwróconego streszczenia podane są linki do innych artykułów w bazie danych, które są cytowane i które cytują artykuł, oraz link do preprintu, jeśli taki istnieje. System generuje również link do artykułów „również przeczytanych” – czyli tych, do których użytkownicy czytający artykuł najczęściej mieli dostęp. W ten sposób użytkownik ADS może określić, które artykuły są najbardziej interesujące dla astronomów zainteresowanych tematyką danego artykułu.

Zwracane są również odnośniki do baz nazw obiektów SIMBAD i/lub NASA Extragalactic Database, za pośrednictwem których użytkownik może szybko znaleźć podstawowe dane obserwacyjne dotyczące analizowanych obiektów w artykule oraz znaleźć dalsze prace o tych obiektach.

Wpływ na astronomię

ADS jest prawie powszechnie używany jako narzędzie badawcze wśród astronomów, a istnieje kilka badań, które oszacowały ilościowo, o ile bardziej wydajne ADS uczyniło astronomię; jeden oszacował, że ADS zwiększył wydajność badań astronomicznych o 333 pełnoetatowe lata badawcze rocznie, a inny odkrył, że w 2002 roku jego efekt był równoważny 736 pełnoetatowym badaczom, czyli wszystkim badaniom astronomicznym przeprowadzonym we Francji. ADS umożliwiło przeszukiwanie literatury, której przeprowadzenie wcześniej zajęłoby dni lub tygodnie, trwało kilka sekund i szacuje się, że ADS zwiększyło liczbę czytelników i wykorzystanie literatury astronomicznej około trzykrotnie od czasu jej powstania.

W kategoriach pieniężnych ten wzrost wydajności stanowi znaczną kwotę. Na całym świecie jest około 12 000 aktywnych badaczy astronomii, więc ADS jest odpowiednikiem około 5% pracujących populacji astronomów. Globalny budżet na badania astronomiczne szacowany jest na 4000 do 5000 milionów dolarów, więc wartość ADS dla astronomii wynosiłaby około 200-250 milionów dolarów rocznie. Jego budżet operacyjny to niewielki ułamek tej kwoty.

Ogromne znaczenie ADS dla astronomów zostało uznane przez Organizację Narodów Zjednoczonych , której Zgromadzenie Ogólne pochwaliło ADS za jej pracę i sukcesy, szczególnie zwracając uwagę na jej znaczenie dla astronomów w krajach rozwijających się, w raportach Komitetu Narodów Zjednoczonych ds. Pokojowych Zastosowania przestrzeni kosmicznej . Tymczasem raport komisji wizytującej Centrum Astrofizyki z 2002 r. stwierdzał, że usługa „zrewolucjonizowała korzystanie z literatury astronomicznej” i była „prawdopodobnie najcenniejszym pojedynczym wkładem w badania astronomiczne, jaki CfA wniósł w swoim życiu ”.

Badania socjologiczne z wykorzystaniem ADS

Ponieważ jest prawie powszechnie używany przez astronomów, ADS może wiele ujawnić na temat dystrybucji badań astronomicznych na całym świecie. Większość użytkowników uzyskuje dostęp do systemu z uczelni wyższych, których adres IP można łatwo wykorzystać do określenia lokalizacji geograficznej użytkownika. Badania pokazują, że największymi użytkownikami ADS na mieszkańca są astronomowie z Francji i Holandii , i chociaż kraje bardziej rozwinięte (mierzone PKB na mieszkańca ) korzystają z systemu częściej niż kraje mniej rozwinięte; zależność między PKB per capita a wykorzystaniem ADS nie jest liniowa. Zakres wykorzystania ADS na mieszkańca znacznie przekracza zakres PKB na mieszkańca, a podstawowe badania przeprowadzone w kraju, mierzone za pomocą ADS, okazały się proporcjonalne do kwadratu PKB kraju podzielonego przez jego populację.

Statystyki użytkowania ADS sugerują również, że astronomowie w krajach bardziej rozwiniętych wydają się być bardziej wydajni niż astronomowie w krajach mniej rozwiniętych. Ilość prowadzonych badań podstawowych jest proporcjonalna do liczby astronomów w kraju pomnożonej przez PKB per capita. Statystyki sugerują również, że astronomowie w kulturach europejskich prowadzą około trzy razy więcej badań niż w kulturach azjatyckich , co może sugerować różnice kulturowe w znaczeniu przypisywanym badaniom astronomicznym.

ADS wykorzystano również do wykazania, że ​​ułamek jednoautorskich prac astronomicznych znacznie się zmniejszył od 1975 r., a prace astronomiczne z ponad 50 autorami stały się bardziej powszechne od 1990 r.

Zobacz też

Bibliografia

Linki zewnętrzne