Cyc - Cyc
Pierwotny autor (autorzy) | Douglas Lenat |
---|---|
Deweloper(zy) | Cycorp, Inc. |
Pierwsze wydanie | 1984 |
Wersja stabilna | 6.1 / 27 listopada 2017
|
Napisane w | Lisp , CycL , SubL |
Rodzaj | Ontologia i baza wiedzy i reprezentacja wiedzy język i silnik wnioskowanie |
Strona internetowa | www |
Cyc (wymawiane / s aɪ k / SYKE ) jest długoterminowy sztuczna inteligencja projekt, który ma na celu zgromadzić kompleksowe ontologii i wiedzy Knowledge Base , który obejmuje podstawowe pojęcia i zasady dotyczące sposobu prac światowych. Mając nadzieję na uchwycenie wiedzy zdroworozsądkowej , Cyc koncentruje się na wiedzy ukrytej, którą inne platformy AI mogą uznać za oczywiste. Kontrastuje to z faktami, które można znaleźć gdzieś w Internecie lub znaleźć za pomocą wyszukiwarki lub Wikipedii. Cyc umożliwia semantycznym rozumującym wykonywanie rozumowania podobnego do ludzkiego i jest mniej „kruche” w konfrontacji z nowymi sytuacjami.
Douglas Lenat rozpoczął projekt w lipcu 1984 r. w MCC , gdzie był głównym naukowcem 1984-1994, a następnie od stycznia 1995 r. jest aktywnie rozwijany przez firmę Cycorp , której jest prezesem .
Przegląd
Potrzeba wielkiego symbolicznego projektu sztucznej inteligencji tego rodzaju zrodziła się na początku lat 80. XX wieku. Pierwsi badacze sztucznej inteligencji mieli w ciągu ostatnich 25 lat duże doświadczenie w programach sztucznej inteligencji, które generowały zachęcające wczesne wyniki, ale potem nie były w stanie „skalować” – wyjdź poza „zestaw szkoleniowy”, aby poradzić sobie z szerszym zakresem przypadków. Douglas Lenat i Alan Kay nagłośnili tę potrzebę i zorganizowali spotkanie w Stanford w 1983 roku, aby rozwiązać ten problem. Ostatnie obliczenia wykonane przez Lenata, Kay i ich współpracowników (m.in. Marvina Minsky'ego , Allena Newella , Edwarda Feigenbauma i Johna McCarthy'ego ) wskazywały, że wysiłek ten wymagałby od 1000 do 3000 osobolat, znacznie więcej standardowy model projektu akademickiego. Jednak wydarzenia w ciągu roku od tego spotkania umożliwiły podjęcie wysiłku na taką skalę.
Projekt rozpoczął się w lipcu 1984 roku jako flagowy projekt 400-osobowej korporacji Microelectronics and Computer Technology Corporation (MCC), konsorcjum badawczego założonego przez dwa tuziny dużych amerykańskich korporacji „w celu przeciwdziałania złowrogiemu wówczas japońskiemu wysiłkowi w zakresie sztucznej inteligencji, o nazwie „ projekt piątej generacji ”. Rząd Stanów Zjednoczonych zareagował na zagrożenie piątej generacji, uchwalając ustawę National Cooperative Research Act z 1984 r., która po raz pierwszy pozwoliła amerykańskim firmom na „zmowę” w długoterminowych badaniach o wysokim ryzyku i wysokich zyskach , a MCC i Sematech wyrosły na skorzystaj z tej dziesięcioletniej szansy. Pierwszym prezesem i dyrektorem generalnym MCC był Bobby Ray Inman , były dyrektor NSA i zastępca dyrektora Centralnej Agencji Wywiadowczej.
Celem projektu Cyc było skodyfikowanie, w formie nadającej się do użytku maszynowego, milionów fragmentów wiedzy, które składają się na zdrowy rozsądek człowieka. Wiązało się to, po drodze, z (1) opracowaniem odpowiednio ekspresyjnego języka reprezentacji, CycL , (2) opracowaniem ontologii obejmującej wszystkie ludzkie koncepcje do pewnego odpowiedniego poziomu szczegółowości, (3) opracowaniem bazy wiedzy na tej ontologicznej ramie, obejmującej cała ludzka wiedza na temat tych pojęć aż do odpowiedniego poziomu szczegółowości, oraz (4) rozwijanie silnika wnioskowania wykładniczo szybciej niż te używane w konwencjonalnych wówczas systemach eksperckich, aby móc wywnioskować te same typy i głębię wniosków, które ludzie są w stanie biorąc pod uwagę ich wiedzę o świecie.
Nieco bardziej szczegółowo:
- Język reprezentacji CycL rozpoczął się jako rozszerzenie RLL (tzw. Representation Language Language, opracowany w latach 1979-1980 przez Lenata i jego absolwenta Russella Greinera na Uniwersytecie Stanforda), ale w ciągu kilku lat od uruchomienia projektu Cyc stało się jasne, że nawet przedstawienie typowej wiadomości, powieści lub reklamy wymagałoby więcej niż siły wyrazu pełnej logiki pierwszego rzędu , a mianowicie rachunku predykatów drugiego rzędu („Jaki jest związek między deszczem a wodą?”), a nawet rzędy logiki wyższego poziomu, w tym logikę modalną , refleksję (umożliwiającą systemowi wnioskowanie o swoim dotychczasowym postępie nad problemem, nad którym pracuje) i logikę kontekstu (umożliwiającą systemowi jawne wnioskowanie o kontekstach, w których jego różne przesłanki i wnioski mogą się utrzymać), logika niemonotoniczna , i zawężenie . Do 1989 r. CycL rozszerzył swoją ekspresyjną moc do logiki wyższego rzędu (HOL).
- Reprezentacje Triplestore (podobne do języków reprezentacji ramek i gniazd z lat 70., z których wywodzi się RLL) są dziś szeroko rozpowszechnione w sztucznej inteligencji. Przydatne może być przytoczenie kilku przykładów, które podkreślają lub łamią ten typ reprezentacji, typowy dla przykładów, które zmusiły projekt Cyc do przejścia z reprezentacji triplestore do znacznie bardziej ekspresyjnej w latach 1984-1989: Zdania angielskie zawierające negacje („Fred nie ma psa”), zagnieżdżone kwantyfikatory („Każdy Amerykanin ma matkę” oznacza dla wszystkich x istnieje y… ale „Każdy Amerykanin ma prezydenta” oznacza, że istnieje y tak, że dla- wszystkie x...), zagnieżdżone modyfikacje, takie jak „Stany Zjednoczone wierzą, że Niemcy chcą, aby NATO unikało ścigania...”, a nawet niezręcznie jest reprezentować w Triplestore relacje o wartości wyższej niż 2, takie jak „Los Angeles”. jest między San Diego a San Francisco wzdłuż US101”.
- Ontologia Cyc rozrosła się do około 100 000 terminów w ciągu pierwszej dekady projektu, do 1994 roku, a od 2017 roku zawierała około 1 500 000 terminów. Ta ontologia obejmowała:
- 416 000 kolekcji (rodzaje, rodzaje, rodzaje naturalne , które obejmują zarówno rodzaje rzeczy, takie jak Ryby, jak i rodzaje działań, takie jak Wędkarstwo)
- nieco ponad milion osób reprezentujących
- 42 500 predykatów (relacje, atrybuty, pola, właściwości, funkcje),
- około miliona ogólnie znanych podmiotów, takich jak Stany Zjednoczone Ameryki, BarackObama, TheSigningOfTheUSDeclarationOfIndependence itp.
- Dowolnie duża liczba dodatkowych warunków są również niejawnie obecne w ontologii Cyc, w tym sensie, że istnieją długoterminowe-oznaczające funkcje, takie jak CalendarYearFn (gdy dany argument 2016, to oznacza rok kalendarzowy 2016), GovernmentFn (gdy podano argument Francja oznacza rząd Francji), Meter (w argumentacji 2016 oznacza odległość 2,016 km) oraz zagnieżdżenia i kompozycje takich określeń funkcji.
- Baza wiedzy Cyc dotycząca ogólnych zdroworozsądkowych reguł i twierdzeń dotyczących tych terminów ontologicznych została w dużej mierze stworzona przez ręczne pisanie aksjomatów; w 1994 r. wzrosła do około 1 miliona, a od 2017 r. wynosi około 24,5 miliona, a jej zbudowanie zajęło znacznie ponad 1000 osobolat.
- Ważne jest, aby zrozumieć, że inżynierowie Cyc ontologiczny starać się utrzymać te numery jako małe , jak to możliwe, nie nadmuchać je tak długo, jak dedukcyjne zamknięcie bazy wiedzy nie jest zmniejszona. Załóżmy, że Cycowi powiedziano o miliardzie ludzi, zwierząt itd. Wtedy można by powiedzieć 10 18 faktów w postaci „Myszka Miki to nie ta sama osoba, co <Bullwinkle the Moose/Abraham Lincoln/Jennifer Lopez>”. Ale zamiast tego, można by powiedzieć Cyc 10 000 reguł taksonomii Linneusza , po których następowało tylko 10 8 reguł w postaci „Żadna mysz nie jest łosiem”. I jeszcze bardziej zwięźle, Cyc może zamiast tego otrzymać te 10 000 reguł taksonomii Linneusza, po których następuje tylko jedna reguła w postaci „Dla dowolnych dwóch taksonów Linneusza, jeśli żaden z nich nie jest wyraźnie znany jako supertakson drugiego, są one rozłączne”. Te 10 001 twierdzeń ma takie samo zamknięcie dedukcyjne, jak wspomniane wcześniej 10 18 faktów.
- Projekt silnika wnioskowania Cyc oddziela problem epistemologiczny (jaka zawartość powinna być w Cyc KB) od problemu heurystycznego (jak Cyc może skutecznie wywnioskować argumenty na setki kroków w morzu dziesiątek milionów aksjomatów). Aby zrobić to pierwsze, wystarczyłby język CycL i dobrze rozumiane logiczne wnioskowanie. W przypadku tych ostatnich Cyc wykorzystał architekturę społeczności agentów, w której wyspecjalizowane moduły wnioskowania, każdy z własną strukturą danych i algorytmem, „podniosły rękę”, jeśli mogły skutecznie poczynić postępy w którymkolwiek z aktualnie otwartych podproblemów. Do 1994 roku było 20 takich modułów poziomu heurystycznego (HL); od 2017 r. istnieje ponad 1050 modułów HL.
- Niektóre z tych modułów HL są bardzo ogólne, jak na przykład moduł, który buforuje Gwiazdę Kleene ( zamknięcie przechodnie ) wszystkich powszechnie używanych relacji przechodnich w ontologii Cyc.
- Niektóre są specyficzne dla domeny, takie jak równoważenie równań chemicznych. Mogą to być i często są „ucieczką” do (wskazania) jakiegoś zewnętrznie dostępnego programu, usługi internetowej lub bazy danych online, takiej jak moduł do szybkiego „obliczenia” aktualnej populacji miasta, wiedząc, gdzie/jak to sprawdzić.
CycL ma publicznie ogłoszoną specyfikację i dziesiątki modułów HL zostały opisane w podręczniku Lenata i Guhy, ale rzeczywisty kod silnika wnioskowania Cyc i pełna lista ponad 1000 modułów HL jest własnością firmy Cycorp.
Nazwa „Cyc” (od „encyklopedia”, wymawiana [saɪk] , jak „ syke ”) jest zastrzeżonym znakiem towarowym należącym do Cycorp. Dostęp do Cyc odbywa się poprzez płatne licencje, ale działające w dobrej wierze grupy badawcze AI otrzymują bezpłatne licencje tylko na badania (por. ResearchCyc ); od 2017 roku ponad 600 takich grup na całym świecie posiada te licencje.
Typowe fragmenty wiedzy reprezentowane w bazie wiedzy Cyc to „Każde drzewo jest rośliną” i „Rośliny w końcu umierają”. Na pytanie, czy drzewa umierają, silnik wnioskowania może wyciągnąć oczywiste wnioski i poprawnie odpowiedzieć na pytanie.
Większość wiedzy Cyc, poza matematyką, jest prawdziwa tylko domyślnie. Na przykład, Cyc wie, że rodzice domyślnie kochają swoje dzieci, kiedy jesteś szczęśliwy, uśmiechasz się, zrobienie pierwszego kroku jest wielkim osiągnięciem, gdy ktoś, kogo kochasz, ma wielkie osiągnięcie, które cię uszczęśliwia, a tylko dorośli mają dzieci . Zapytany, czy zdjęcie z napisem „Ktoś patrzy, jak jego córka stawia pierwszy krok” zawiera uśmiechniętą dorosłą osobę, Cyc może logicznie wywnioskować, że odpowiedź brzmi „ Tak ” i „pokazać swoje działanie” przedstawiając krok po kroku logiczną argumentację za pomocą tych pięciu kawałków. wiedzy ze swojej bazy wiedzy. Są one sformułowane w języku CycL , który opiera się na rachunku predykatów i ma składnię podobną do języka programowania Lisp .
W 2008 roku zasoby Cyc zostały zmapowane do wielu artykułów Wikipedii . Cyc jest obecnie połączony z Wikidata . Plany na przyszłość mogą połączyć Cyc zarówno z DBpedią jak i Freebase .
Duża część obecnej pracy Cyc to inżynieria wiedzy , przedstawiająca fakty o świecie ręcznie i wdrażająca wydajne mechanizmy wnioskowania na tej wiedzy. Coraz częściej jednak praca w Cycorp polega na zapewnieniu systemowi Cyc możliwości komunikowania się z użytkownikami końcowymi w języku naturalnym oraz pomocy w ciągłym procesie tworzenia wiedzy poprzez uczenie maszynowe i rozumienie języka naturalnego . Innym dużym wysiłkiem w Cycorp jest zbudowanie zestawu narzędzi inżynierii ontologicznej opartej na Cyc, aby obniżyć poprzeczkę do pozycji dla osób, które mogą współtworzyć, edytować, przeglądać i wysyłać zapytania do Cyc.
Podobnie jak wiele firm, Cycorp ma ambicje wykorzystać przetwarzanie języka naturalnego Cyc do analizowania całego Internetu w celu wyodrębnienia uporządkowanych danych; w przeciwieństwie do wszystkich innych, jest w stanie wywołać sam system Cyc, aby działał jako indukcyjne nastawienie i jako sędzia niejednoznaczności , metafory i elipsy . Istnieje niewiele, jeśli w ogóle, systematycznych badań porównawczych wydajności Cyc.
Baza wiedzy
Nazwy pojęć w Cyc to terminy lub stałe CycL . Stałe zaczynają się od opcjonalnego „#$” i uwzględniają wielkość liter. Istnieją stałe dla:
- Poszczególne elementy znane jako osoby , takie jak #$BillClinton lub #$France.
- Kolekcje , takie jak #$Tree-ThePlant (zawierające wszystkie drzewa) lub #$EquivalenceRelation (zawierające wszystkie relacje równoważności ). Członek kolekcji jest nazywany instancją tej kolekcji.
- Funkcje , które tworzą nowe terminy z podanych. Na przykład #$FruitFn, gdy zostanie dostarczony z argumentem opisującym typ (lub kolekcję) roślin, zwróci kolekcję swoich owoców. Zgodnie z konwencją stałe funkcji zaczynają się od dużej litery i kończą ciągiem „Fn”.
- Funkcje prawdy , które mogą odnosić się do jednego lub kilku innych pojęć i zwracać prawdę lub fałsz. Na przykład #$siblings to relacja rodzeństwa, prawdziwa, jeśli dwa argumenty są rodzeństwem. Zgodnie z konwencją, stałe funkcji prawdy zaczynają się od małej litery. Funkcje prawdy można podzielić na logiczne spójniki (takie jak #$i, #$or, #$not, #$implikuje), kwantyfikatory (#$forAll, #$thereExists itp.) i predykaty .
Dwa ważne predykaty binarne to #$isa i #$genls. Pierwsza opisuje, że jeden element jest instancją jakiejś kolekcji, druga, że jedna kolekcja jest podzbiorem innej. Fakty dotyczące pojęć są potwierdzane za pomocą pewnych zdań CycL . Predykaty są pisane przed ich argumentami, w nawiasach:
(#$isa #$BillClinton #$UnitedStatesPresident)
„Bill Clinton należy do kolekcji prezydentów USA”.
(#$genls #$Tree-ThePlant #$Plant)
„Wszystkie drzewa są roślinami”.
(#$capitalCity #$France #$Paris)
"Paryż jest stolicą Francji."
Zdania mogą również zawierać zmienne, łańcuchy zaczynające się od „?”. Zdania te nazywane są „zasadami”. Jedna ważna reguła potwierdzona w odniesieniu do predykatu #$isa brzmi:
(#$implies (#$and (#$isa ?OBJ ?SUBSET) (#$genls ?SUBSET ?SUPERSET)) (#$isa ?OBJ ?SUPERSET))
„Jeżeli obj jest wystąpienie gromadzenia PODZBIORU i PODZBIÓR jest subcollection z rozszerzeniem , a obj jest wystąpienie rozszerzeniem zbierania”. Innym typowym przykładem jest
(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)
co oznacza, że dla każdej instancji kolekcji #$ChordataPhylum (tj. dla każdego strunowca ) istnieje samica (instancja #$FemaleAnimal), która jest jego matką (opisaną przez predykat #$biologicalMother).
Baza wiedzy podzielona jest na mikroteorie (Mt), zbiory pojęć i faktów typowo odnoszących się do jednej konkretnej dziedziny wiedzy. W przeciwieństwie do bazy wiedzy jako całości, każda mikroteoria musi być wolna od monotonicznych sprzeczności. Każda mikroteoria jest pierwszorzędnym obiektem w ontologii Cyc; ma nazwę, która jest stałą stałą; Zgodnie z konwencją stałe mikroteorii zawierają ciąg „Mt”. Przykładem jest #$MathMt, mikroteoria zawierająca wiedzę matematyczną. Mikroteorie mogą dziedziczyć po sobie i są zorganizowane w hierarchię: jedną ze specjalizacji #$MathMt jest #$GeometryGMt, mikroteoria dotycząca geometrii.
Silnik wnioskowania
Silnik wnioskowania to program komputerowy, który próbuje uzyskać odpowiedzi z bazy wiedzy. Silnik wnioskowania Cyc wykonuje ogólną dedukcję logiczną (w tym modus ponens , modus tollens , uniwersalną kwantyfikację i kwantyfikację egzystencjalną ). Wykonuje również rozumowanie indukcyjne , statystyczne uczenie maszynowe i symboliczne uczenie maszynowe oraz wnioskowanie abdukcyjne (ale oczywiście oszczędnie i wykorzystując istniejącą bazę wiedzy jako filtr i przewodnik).
Wydania
OpenCyc
Pierwsza wersja OpenCyc została wydana wiosną 2002 roku i zawierała tylko 6000 koncepcji i 60 000 faktów. Baza wiedzy została wydana na licencji Apache License . Cycorp ogłosił zamiar wydania OpenCyc na równoległych, nieograniczonych licencjach, aby zaspokoić potrzeby swoich użytkowników. CYKL i subl interpreter (program, który pozwala użytkownikom na przeglądanie i edycję bazy danych, a także wyciągnąć wnioski) została wydana za darmo, ale tylko jako binarnej, bez kodu źródłowego. Został udostępniony dla systemów Linux i Microsoft Windows . Projekt Texai o otwartym kodzie źródłowym udostępnił zawartość zgodną z RDF wyodrębnioną z OpenCyc. Wersja OpenCyc 4.0 została wydana w czerwcu 2012 roku. OpenCyc 4.0 zawierał większość ówczesnej ontologii Cyc, zawierając setki tysięcy terminów, wraz z milionami asercji odnoszących się do terminów; są to jednak głównie twierdzenia taksonomiczne, a nie złożone reguły dostępne w Cyc. Baza wiedzy OpenCyc 4.0 zawierała 239 000 koncepcji i 2 093 000 faktów.
Głównym celem wydania OpenCyc była pomoc naukowcom zajmującym się sztuczną inteligencją w zrozumieniu tego, czego brakuje w tym, co teraz nazywają ontologiami i grafami wiedzy . Przydatne i ważne jest posiadanie odpowiednio taksonomizowanych pojęć, takich jak osoba, noc, sen, leżenie, przebudzenie, radość itp., ale czego brakuje w treści OpenCyc na temat tych terminów, ale są obecne w treści Cyc KB, to różne zasady kciuk, który większość z nas podziela na temat tych terminów: że (domyślnie w ModernWesternHumanCultureMt) każda osoba śpi w nocy, śpi leżąc, można się obudzić, nie jest zadowolona z tego, że się obudzi, i tak dalej. Ten punkt nie wymaga stale aktualizowanych wersji OpenCyc, więc od 2017 roku OpenCyc nie jest już dostępny.
BadaniaCyc
W lipcu 2006 Cycorp udostępnił bezpłatnie plik wykonywalny ResearchCyc 1.0, wersji Cyc skierowanej do społeczności naukowej. (ResearchCyc był w fazie rozwoju beta przez cały rok 2004; wersja beta została wydana w lutym 2005 r.) Oprócz informacji taksonomicznych zawartych w OpenCyc, ResearchCyc zawiera znacznie więcej wiedzy semantycznej (tj. dodatkowe fakty i zasady praktyczne) obejmujące pojęcia w swojej bazie wiedzy; zawiera również obszerny leksykon, narzędzia do analizowania i generowania języka angielskiego oraz oparte na Javie interfejsy do edycji wiedzy i zapytań. Dodatkowo zawiera system integracji danych w oparciu o ontologię . Od 2017 r. regularnie pojawiały się wersje ResearchCyc, a 600 grup badawczych korzystało bezpłatnie z licencji na całym świecie do niekomercyjnych celów badawczych. Od grudnia 2019 r. ResearchCyc nie jest już obsługiwany. Cycorp spodziewa się, że w nadchodzących latach ulepszy i zmodernizuje narzędzia dla zewnętrznych programistów.
Aplikacje
Odnotowano ponad sto udanych zastosowań Cyc; tutaj wymieniono kilka wzajemnie niepodobnych przypadków:-
Menedżer/integrator tezaurusa terminów farmaceutycznych
Przez ponad dekadę, Glaxo wykorzystał Cyc do półautomatycznie zintegrować wszystkie duże (setki tysięcy terminów) słowników pojęć z branży farmaceutycznej, które odzwierciedlają odmienne wykorzystanie całej firm, krajów, lata, i sub-branż. To zadanie integracji ontologii wymaga wiedzy dziedzinowej, płytkiej wiedzy semantycznej, ale także arbitralnie głębokiej, zdroworozsądkowej wiedzy i rozumowania. Słownictwo dotyczące farmacji różni się w zależności od kraju, (pod)branż, firm, działów i dziesięcioleci. Np. co to jest pakiet żelowy ? Jaka jest „nazwa ulicy” dla chlorowodorku ranitydyny ? Każdy z tych n kontrolowanych słowników jest ontologią zawierającą około 300 tys. terminów. Badacze Glaxo muszą zadać zapytanie w swoim obecnym słowniku , przetłumaczyć je na neutralne „prawdziwe znaczenie”, a następnie przekształcić je w przeciwnym kierunku, aby znaleźć potencjalne dopasowania do dokumentów, z których każdy został napisany zgodnie z określonym znanym słownictwem . Do tego ręcznie używali dużego personelu. Cyc jest używany jako uniwersalny interlingua zdolny do reprezentowania połączenia wszystkich „prawdziwych znaczeń” wszystkich terminów i zdolny do reprezentowania 300k przekształceń między każdym z tych kontrolowanych słowników a Cyc, tym samym przekształcając problem n² w liniowy bez wprowadzania zwykły rodzaj „gry telefonicznej” osłabienia znaczenia. Co więcej, tworzenie każdego z tych 300k mapowań dla każdego tezaurusa odbywa się w sposób w dużej mierze zautomatyzowany przez Cyc.
Baza wiedzy o terroryzmie
Kompleksowa Baza Wiedzy o Terroryzmie była aplikacją Cyc w fazie rozwoju, która starała się ostatecznie zawierać całą istotną wiedzę na temat grup „terrorystycznych”, ich członków, przywódców, ideologii, założycieli, sponsorów, powiązań, obiektów, lokalizacji, finansów, możliwości, intencji, zachowań , taktyki i pełne opisy konkretnych wydarzeń terrorystycznych. Wiedza jest przechowywana jako stwierdzenia w logice matematycznej, odpowiednie do zrozumienia i rozumowania komputerowego.
Fundacja Cleveland Clinic
Cleveland Clinic wykorzystał Cyc opracowanie zapytań języka naturalnego interfejsu danych biomedycznych, obejmujących dziesięciolecia informacji o Cardiothoracic gabinetów. Zapytanie jest analizowane na zestaw fragmentów CycL (logika wyższego rzędu) z otwartymi zmiennymi (np. „to pytanie dotyczy osoby, u której rozwinęło się zapalenie wsierdzia”, „to pytanie dotyczy podzbioru pacjentów z Cleveland Clinic, którzy przebył tam operację w 2009 r.” itp.); następnie stosuje się różne ograniczenia (wiedza z dziedziny medycyny, zdrowy rozsądek, pragmatyka dyskursu, składnia), aby zobaczyć, jak te fragmenty mogłyby ewentualnie dopasować się do jednego semantycznie znaczącego formalnego zapytania; znacząco, w większości przypadków istnieje dokładnie jeden i tylko jeden taki sposób włączania i integrowania tych fragmentów. Integracja fragmentów polega na (i) decydowaniu, które zmienne otwarte, w których fragmenty faktycznie reprezentują tę samą zmienną, oraz (ii) w przypadku wszystkich zmiennych końcowych, decydują o kolejności i zakresie kwantyfikacji, jaką powinna mieć ta zmienna i jakiego typu (uniwersalna lub egzystencjalna) . To zapytanie logiczne (CycL) jest następnie konwertowane na zapytanie SPARQL, które jest przekazywane do bazy danych CCF SemanticDB, która jest jej jeziorem danych .
MathCraft
Jedna aplikacja Cyc ma na celu pomóc uczniom w matematyce na poziomie 6 klasy, pomagając im znacznie głębiej zrozumieć ten przedmiot. Opiera się na doświadczeniu, że często myśleliśmy, że coś rozumiemy, ale naprawdę zrozumieliśmy to dopiero po tym, jak musieliśmy wyjaśnić lub nauczyć kogoś innego. W przeciwieństwie do prawie wszystkich innych programów edukacyjnych, w których komputer pełni rolę nauczyciela, w tej aplikacji Cyc, zwanej MathCraft, Cyc odgrywa rolę kolegi, który zawsze jest nieco bardziej zdezorientowany w temacie niż ty, użytkownik. . Rolą użytkownika jest obserwowanie awatara Cyc i udzielanie mu porad, poprawianie błędów, mentorowanie go, zwracanie uwagi na to, co robi źle, itp. Ponieważ użytkownik udziela dobrych rad, Cyc pozwala awatarowi popełniać mniej błędów tego typu , a zatem z punktu widzenia użytkownika wydaje się, że właśnie z powodzeniem nauczył go czegoś. Jest to odmiana uczenia się przez nauczanie .
Krytyka
Projekt Cyc został opisany jako „jedno z najbardziej kontrowersyjnych przedsięwzięć w historii sztucznej inteligencji”. Catherine Havasi , dyrektor generalny Luminoso, mówi, że Cyc jest poprzednikiem projektu IBM Watson . Pedro Domingos, naukowiec zajmujący się uczeniem maszynowym, określa projekt jako „katastrofalną porażkę” z kilku powodów, w tym niekończącej się ilości danych wymaganych do uzyskania realnych wyników oraz niezdolności Cyc do samodzielnej ewolucji.
Robin Hanson , profesor ekonomii na Uniwersytecie George'a Masona, przedstawia bardziej wyważoną analizę:
Oczywiście projekt CYC jest otwarty na krytykę dotyczącą jego wielu konkretnych wyborów. Ludzie skarżyli się na jego logiczne i językopodobne reprezentacje, na wybór prototypowych przypadków, z których można budować (np. artykuły w encyklopedii), na to, że skupia się na odpowiadaniu nad działaniem, na to, jak często odbudowuje i utrzymuje starsze systemy oraz o byciu prywatnym a publikowaniem wszystkiego. Ale każdy taki duży projekt wywołałby takie spory i nie jest oczywiste, że którykolwiek z jego wyborów był poważnie błędny. Musieli gdzieś zacząć i moim zdaniem zgromadzili teraz bazę wiedzy o naprawdę spektakularnym rozmiarze, zakresie i integracji. Inne architektury mogą działać lepiej, ale jeśli wiedza o wielu jest tak ważna, jak myśli Lenat, spodziewałbym się poważnych prób zaimportowania wiedzy CYC przez sztuczną inteligencję, przekładając ją na nową reprezentację. Żadne inne źródło nie może się równać z rozmiarem, zakresem i integracją CYC.
Podobny sentyment wyraził Marvin Minsky : „Niestety, strategie najpopularniejsze wśród badaczy sztucznej inteligencji w latach 80. znalazły się w ślepym zaułku” – powiedział Minsky. Tak zwane „ systemy eksperckie ”, które naśladowały ludzką wiedzę fachową w ściśle określonych obszarach tematycznych, takich jak prawo i medycyna, mogły dopasowywać zapytania użytkowników do odpowiednich diagnoz, artykułów i streszczeń, ale nie byłyby w stanie nauczyć się pojęć, które większość dzieci zna przed rozpoczęciem pracy. 3 lata. „Dla każdego innego rodzaju problemu”, powiedział Minsky, „budowa systemów eksperckich musiała zaczynać się od nowa, ponieważ nie gromadziły one zdroworozsądkowej wiedzy”. Według Minsky'ego tylko jeden badacz zobowiązał się do kolosalnego zadania zbudowania kompleksowego, zdroworozsądkowego systemu rozumowania. Douglas Lenat, poprzez swój projekt Cyc, kierował wprowadzaniem linijka po linijce ponad miliona reguł do zdroworozsądkowej bazy wiedzy”.
Gary Marcus , profesor psychologii i neuronauki na Uniwersytecie Nowojorskim oraz współzałożyciel firmy zajmującej się sztuczną inteligencją o nazwie Geometric Intelligence, mówi, że „reprezentuje podejście, które bardzo różni się od wszystkich tematów dotyczących głębokiego uczenia się, które pojawiły się w wiadomościach”. Jest to zgodne ze stanowiskiem Douga Lenata, że „Czasami okleina inteligencji nie wystarcza”.
Stephen Wolfram pisze:
W początkach dziedziny sztucznej inteligencji było wiele dyskusji na temat „reprezentacji wiedzy”, z podejściami opartymi na gramatyce języka naturalnego, strukturze logiki predykatów czy formalizmie baz danych. Podjęto bardzo niewiele prób projektów na dużą skalę (Cyc Douga Lenata jest godnym uwagi kontrprzykładem).
Marek pisze:
Dziedzina ta mogłaby odnieść korzyści, gdyby CYC były systematycznie opisywane i oceniane. Jeśli CYC rozwiązał pewną istotną część zdroworozsądkowego rozumowania, to należy o tym wiedzieć, zarówno jako użyteczne narzędzie, jak i punkt wyjścia do dalszych badań. Jeśli CYC napotkał trudności, warto byłoby uczyć się na popełnionych błędach. Jeśli CYC jest całkowicie bezużyteczny, naukowcy mogą przynajmniej przestać się martwić, czy wymyślają koło na nowo.
Co kilka lat, odkąd zaczął publikować (1993), pojawia się nowy artykuł o Cyc w Wired Magazine , zarówno pozytywny, jak i negatywny (w tym jeden numer, który zawierał po jednym z każdego z nich).
Znani pracownicy
Jest to lista niektórych znaczących osób, które pracują lub pracowały nad Cyc, gdy był to projekt w MCC (gdzie Cyc powstał po raz pierwszy) lub Cycorp.
Zobacz też
- BabelNet
- Logika kategoryczna
- Chiński pokój
- Język znaczników agenta DARPA
- DBpedia
- Komputer piątej generacji
- Wolna baza
- Ontologia koncepcji dużej skali dla multimediów
- Lista godnych uwagi projektów związanych ze sztuczną inteligencją
- Mindpixel
- Niekończąca się nauka języka
- Otwarty umysł, zdrowy rozsądek
- Sieć semantyczna
- Sugerowana górna scalona ontologia
- SHRDLU
- Prawdziwa wiedza
- BALDACH
- Wolfram Alpha
- JAGO
Bibliografia
Dalsza lektura
- Alan Belasco i in. (2004). „Skuteczne reprezentowanie luk w wiedzy” . W: D. Karagiannis, U. Reimer (red.): Praktyczne aspekty zarządzania wiedzą, Proceedings of PAKM 2004, Wiedeń, Austria, 2-3 grudnia 2004 . Springer-Verlag, Berlin Heidelberg.
- Elisa Bertino , Gian Piero i BC Zarria (2001). Inteligentne systemy baz danych . Addison-Wesley Profesjonalista.
- John Cabral i inni (2005). „Konwersja meta-wiedzy semantycznej w indukcyjne stronniczość” . W: Materiały z 15. Międzynarodowej Konferencji Programowania Logiki Indukcyjnej . Bonn, Niemcy, sierpień 2005.
- Jon Curtis i in. (2005). „O efektywnym wykorzystaniu Cyc w systemie odpowiadania na pytania” . W: Artykuły z warsztatów IJCAI na temat wiedzy i uzasadniania odpowiedzi na pytania . Edynburg, Szkocja: 2005.
- Chris Deaton i in. (2005). „Kompleksowa baza wiedzy o terroryzmie w Cyc” . W: Proceedings of the International Conference on Intelligence Analysis 2005, McLean, Virginia, maj 2005.
- Kenneth Forbus i in. (2005). „Połączenie analogii, inteligentnego wyszukiwania informacji i integracji wiedzy do analizy: raport wstępny” . W: Proceedings of the International Conference on Intelligence Analysis 2005 , McLean, Virginia, maj 2005
- douglas foxvog (2010), „Cyc”. W: Teoria i zastosowania ontologii: aplikacje komputerowe ”, Springer .
- Fritz Lehmann i zm. foxvog (1998), " Putting Flesh on the Bones: problemy pojawiające się w tworzeniu anatomicznych baz wiedzy z bogatymi strukturami relacyjnymi ". W: Dzielenie się wiedzą w systemach opartych na wiedzy biologicznej i medycznej , AAAI .
- Douglas Lenat i RV Guha (1990). Budowanie dużych systemów opartych na wiedzy: reprezentacja i wnioskowanie w projekcie Cyc . Addisona-Wesleya. ISBN 0-201-51752-3 .
- Mistrzowie Jamesa (2002). "Integracja ustrukturyzowanych źródeł wiedzy i jej zastosowania do fuzji informacji" . W: Materiały V Międzynarodowej Konferencji nt . Fuzji Informacji . Annapolis, MD, lipiec 2002.
- James Masters i Z. Güngördü (2003). „Integracja ustrukturyzowanych źródeł wiedzy: raport z postępów” w: Integracja systemów wieloagentowych o intensywnym wykorzystaniu wiedzy . Cambridge, Massachusetts, USA, 2003.
- Cynthia Matuszek i in. (2006). „Wprowadzenie do składni i treści Cyc”. . W: proc. wiosennego sympozjum AAAI 2006 na temat formalizowania i kompilowania wiedzy podstawowej oraz jej zastosowań w reprezentowaniu wiedzy i odpowiadaniu na pytania . Stanford, 2006
- Cynthia Matuszek i in. (2005). „Szukanie zdrowego rozsądku: wypełnianie Cyc z sieci” . W: Proceedings of Twentieth National Conference on Artificial Intelligence . Pittsburgh, Pensylwania, lipiec 2005.
- Tom O'Hara i in. (2003). „Wprowadzanie kryteriów dla masowych odwzorowań leksykalnych rzeczowników za pomocą Bazy Wiedzy Cyc i jej rozszerzenia do WordNet” . W: Proceedings of the Fifth International Workshop on Computational Semantics . Tilburg, 2003.
- Fabrizio Morbini i Lenhart Schubert (2009). „Ocena EPILOG: powód dla logiki epizodycznej” . University of Rochester, Konferencja Commonsense '09 (opisuje bibliotekę Cyc zawierającą ~1600 'testów zdrowego rozsądku')
- Kathy Panton i in. (2002). "Tworzenie wiedzy i dialog z wykorzystaniem zestawu narzędzi KRAKEN" . W: XVIII Ogólnopolska Konferencja na temat Sztucznej Inteligencji . Edmonton, Kanada, 2002.
- Deepak Ramachandran P. Reagan i K. Goolsbey (2005). „First-Orderized ResearchCyc: Ekspresja i wydajność w ontologii zdroworozsądkowej” . W: Artykuły z AAAI Workshop on Contexts and Ontologies: Theory, Practice and Applications . Pittsburgh, Pensylwania, lipiec 2005.
- Stephena Reeda i D. Lenata (2002). "Odwzorowanie ontologii na Cyc" . W: Warsztaty konferencyjne AAAI 2002 na temat ontologii dla sieci semantycznej . Edmonton, Kanada, lipiec 2002 r.
- Benjamin Rode i in. (2005). „W kierunku modelu odzyskiwania wzorców w danych relacyjnych” . W: Proceedings of the International Conference on Intelligence Analysis 2005 . McLean, Wirginia, maj 2005.
- Dave Schneider i in. (2005). „Zbieranie i zarządzanie faktami do analizy wywiadu” . W: Proceedings of the International Conference on Intelligence Analysis 2005. McLean, Virginia, maj 2005.
- Schneider, D. i Witbrock, MJ (2015, maj). „Gramatyka konstrukcji semantycznej: pokonywanie podziału NL/Logic” W materiałach z 24. Międzynarodowej Konferencji na temat World Wide Web (str. 673-678).
- Blake Shepard i in. (2005). „Podejście do bezpieczeństwa sieci oparte na wiedzy: zastosowanie Cyc w dziedzinie oceny ryzyka sieciowego” . W: Materiały XVII Konferencji Innowacyjnych Zastosowań Sztucznej Inteligencji . Pittsburgh, Pensylwania, lipiec 2005.
- Nick Siegel i in. (2004). „Architektury agenta: Łączenie mocnych stron inżynierii oprogramowania i systemów kognitywnych” . W: Artykuły z warsztatów AAAI na temat inteligentnych architektur agentów: Łączenie mocnych stron inżynierii oprogramowania i systemów kognitywnych . Raport techniczny WS-04-07, s. 74–79. Menlo Park, Kalifornia: AAAI Press, 2004.
- Nick Siegel i in. (2005). Hypothesis Generation and Evidence Assembly for Intelligence Analysis: Cycorp's Nooscape Application” W materiałach z Międzynarodowej Konferencji Analizy Inteligencji 2005, McLean, Virginia, maj 2005.
- Michael Witbrock i in. (2002). „System Interaktywnego Dialogu dla Pozyskiwania Wiedzy w Cyc” . W: Materiały XVIII Międzynarodowej Wspólnej Konferencji na temat Sztucznej Inteligencji . Acapulco, Meksyk, 2003.
- Michael Witbrock i in. (2004). "Automatyczna adnotacja OWL wspomagana przez dużą bazę wiedzy" . W: Notatki z warsztatów z warsztatów z 2004 r. na temat znaczników wiedzy i adnotacji semantycznych na 3. Międzynarodowej Konferencji Sieci Semantycznej ISWC2004 . Hiroszima, Japonia, listopad 2004, s. 71–80.
- Michael Witbrock i in. (2005). „Wiedza rodzi wiedzę: kroki w kierunku wspomaganego zdobywania wiedzy w Cyc” . W: Artykuły z wiosennego sympozjum AAAI 2005 na temat gromadzenia wiedzy od wolontariuszy (KCVC) . s. 99–105. Stanford, Kalifornia, marzec 2005.
- William Jarrold (2001). „Walidacja inteligencji w dużych systemach opartych na regułach ze zdrowym rozsądkiem” . „Walidacja inteligencji oparta na modelu: dokumenty z sympozjum AAAI 2001” (Raport techniczny AAAI SS-01-04).
- Williama Jarrolda. (2003). Wykorzystanie ontologii do oceny dużej ontologii opartej na regułach: teoria i praktyka . {\em Metryki wydajności dla systemów inteligentnych PerMIS '03} (specjalna publikacja NIST 1014).