Model drzewa - Tree model

Kladystyczna reprezentacja językowej rodziny Majów sprzed 4000 lat. (Liczby reprezentują proponowane daty historyczne w kalendarzu zachodnim ).

W językoznawstwie historycznym The Model drzewa (również Stammbaum , genetyczne lub kladystyczna modelu ) jest modelem ewolucji języków analogicznych do koncepcji drzewa genealogicznego , szczególnie drzewa filogenetycznego w ewolucji biologicznej z gatunków . Podobnie jak w przypadku gatunków, zakłada się, że każdy język wyewoluował z jednego języka rodzicielskiego lub „matki”, z językami, które mają wspólnego przodka, należącymi do tej samej rodziny językowej .

Spopularyzowany przez niemieckiego językoznawcę Augusta Schleichera w 1853 roku model drzewa był zawsze powszechną metodą opisywania genetycznych relacji między językami od pierwszych prób. Ma kluczowe znaczenie dla dziedziny językoznawstwa porównawczego , która polega na wykorzystaniu dowodów ze znanych języków i zaobserwowanych reguł ewolucji cech językowych w celu zidentyfikowania i opisania hipotetycznych prajęzyków przodków każdej rodziny językowej, takich jak praindoeuropejski i indoeuropejski. Języki europejskie . Jest to jednak w dużej mierze dążenie teoretyczne, jakościowe, a lingwiści zawsze podkreślali nieodłączne ograniczenia modelu drzewa ze względu na dużą rolę odgrywaną przez transmisję poziomą w ewolucji języka, od zapożyczeń po języki kreolskie, które mają wiele języków ojczystych. Model fali został opracowany w 1872 roku przez ucznia Schleichera Johannesa Schmidta jako alternatywa dla modelu drzewa z transmisją poziomą.

Model drzewo ma również takie same ograniczenia jak taksonomii biologicznej w odniesieniu do problemu gatunków z kwantyzacji ciągłe zjawisko, które zawiera wyjątki, takie jak gatunek pierścieniowy w biologii i dialektu continua w języku. Koncepcja powiązania została opracowana w odpowiedzi i odnosi się do grupy języków, które wyewoluowały z kontinuum dialektów, a nie z językowo izolowanych języków dziecięcych jednego języka.

Historia

Drzewo genealogiczne plemion biblijnych

Stary Testament i św. Augustyn

Augustyn z Hippony przypuszczał, że każdy z potomków Noego założył naród i że każdy naród miał swój własny język: asyryjski dla assuru , hebrajski dla hebera i tak dalej. W sumie zidentyfikował 72 narody, założycieli plemiennych i języków. Zamieszanie i rozproszenie nastąpiły w czasach Pelega , syna Hebera, syna Sema , syna Noego. Augustyn postawił hipotezę podobną do hipotez późniejszych językoznawców historycznych, że rodzina Heberów „zachowała język, który nie bez powodu uważał, że jest powszechnym językiem rasy… zwanym odtąd hebrajskim”. Większość z 72 języków pochodzi jednak z wielu pokoleń po Heberze. Św. Augustyn rozwiązuje ten pierwszy problem, zakładając, że Heber, który żył 430 lat, jeszcze żył, gdy Bóg wyznaczył 72.

Ursprache, język raju

Hipoteza św. Augustyna pozostawała bez większych wątpliwości przez ponad tysiąc lat. Następnie w serii rozpraw, opublikowanych w 1684 r., wyrażających sceptycyzm wobec różnych wierzeń, zwłaszcza biblijnych, sir Thomas Browne napisał:

„Chociaż przed potopem ziemia była bardzo zaludniona… to jednak, czy po dużym rozproszeniu i przez sześćset lat ludzie utrzymywali tak jednolity język we wszystkich częściach… można bardzo wątpić”.

Ogród Eden, dom Ursprache

Do tego czasu odkrycie Nowego Świata i eksploracja Dalekiego Wschodu przyniosły wiedzę o liczbie nowych języków daleko poza liczbę 72 obliczoną przez św. Augustyna. Powołując się na języki rdzennych Amerykanów, Browne sugeruje, że „pomieszanie języków na początku spadło tylko na tych, którzy byli obecni na Synarze w dziele Babel…”. prymitywny język może z czasem rozgałęzić się na kilka części Europy i Azji...” To jest zapowiedź drzewa. W opinii Browne'a uproszczenie języka aborygeńskiego większego niż hebrajski mogłoby wyjaśnić różnice językowe. Sugeruje starożytnych Chińczyków, z których inni wywodzili się przez „zamieszanie, domieszki i zepsucie”. Później przywołuje „zmieszanie i przeróbkę”.

Browne relacjonuje szereg działań rekonstrukcyjnych podejmowanych przez ówczesnych uczonych:

„Uczony Casaubon wyobraża sobie, że dialog może być skomponowany w języku saskim, tylko z takich słów, które można wyprowadzić z greckiego… Verstegan nie wątpił, że może wymyślić list, który mógłby być zrozumiany przez Anglików, Holendrów i Wschodniofryzlandczyków ... A jeśli, jak twierdzi uczony Buxhornius , język scytyjski jako język ojczysty biegnie przez narody Europy, a nawet aż do Persji, społeczność na wielu słowach, między tyloma narodami, ma rozsądniejszą tradycję i była raczej pochodzić ze wspólnego języka rozpowszechnionego przez nich wszystkich, niż z jakiegoś konkretnego narodu, który również pożyczył i trzyma, ale z drugiej ręki”.

W ten sposób zamieszanie na wieży Babel zostało usunięte jako przeszkoda przez odsunięcie jej na bok. Próby znalezienia podobieństw we wszystkich językach doprowadziły do ​​stopniowego odkrywania starożytnego języka głównego, z którego wywodzą się wszystkie inne języki. Browne niewątpliwie zrobił jego pisanie i myślenie na długo przed 1684. W tym samym wieku w rewolucyjnej Brytania James Howell opublikowanego tomu II z Epistolae Ho-Elianae quasi-fikcyjna listów do różnych ważnych osób w królestwie zawierającą ważne informacje historyczne. W Liście LVIII metafora drzewa języków pojawia się w pełni rozwinięta, nie będąc poglądem profesjonalnego językoznawcy:

„Teraz podniosę żagle do Holandii, której język jest tym samym dialektem co angielski i tak było od początku, ponieważ obaj wywodzą się z wysokiego holenderskiego [Howell się myli tutaj]: Duński również jest tylko gałęzią tego samego drzewa... Teraz język niderlandzki, czyli krzyżacki, jest jednym z najważniejszych i najbardziej rozległych języków ojczystych Europy... był to język Gotów i Wandalów , i jest kontynuacją jeszcze większej części Polski i Węgry , które mają swój dialekt dla swojego wulgarnego języka… Niektórzy z jej pisarzy sprawią, że ten świat uwierzy, że jest językiem używanym w raju”.

Poszukiwanie "języka raju" trwało wśród wszystkich językoznawców Europy. Ci, którzy pisali po łacinie, nazywali to lingua prima , lingua primaeva lub lingua primigenia. W języku angielskim był to język adamiczny; po niemiecku Ursprache lub hebräische Ursprache, jeśli ktoś wierzył, że jest to hebrajski. Ten tajemniczy język miał w sobie aurę czystości i nieskazitelności, a te cechy były standardami używanymi do wyboru kandydatów. Ta koncepcja Ursprache weszła w użyciu na długo przed neo-gramatycy przyjął go do swoich prajęzyków. Luka między bardzo odmiennymi rodzinami języków pozostała niezamknięta.

Model indoeuropejski

2 lutego 1786 r. Sir William Jones wygłosił przemówienie z okazji trzeciej rocznicy do Towarzystwa Azjatyckiego jako jego prezes na temat Hindusów . Zastosował w nim logikę modelu drzewa do trzech języków, greki, łaciny i sanskrytu, ale po raz pierwszy w historii na gruncie czysto językowym, zauważając „silniejsze powinowactwo, zarówno w korzeniach czasowników, jak i w formach gramatyki, która mogłaby ewentualnie powstać przez przypadek;...”. Następnie postulował, że wywodzą się one z „jakiegoś wspólnego źródła, które być może już nie istnieje”. Do nich dodał gotycki, celtycki i perski jako „do tej samej rodziny”.

Jones nie wymienił swojego „wspólnego źródła” ani nie rozwinął tego pomysłu, ale został on podjęty przez ówczesnych językoznawców. W (Londyn) Quarterly Review późno 1813/14, Thomas Young opublikował przegląd Johann Christoph Adelung „s Mitrydata, oder Allgemeine Sprachenkunde ( "Mitrydata, lub General History of Languages"), tom, którego miałem wychodzić w 1806 oraz tomy II i III, 1809-1812 , kontynuowane przez Johanna Severina Vatera. Praca Adelung opisał około 500 „języków i dialektów” i hipotezę uniwersalny zejście z języka raju, położony w Kaszmirze centralny do całkowitego zasięgu 500. Younga zaczyna wskazując zadłużenia Adelung do Konrad Gesner „s Mitrydata de Differentiis linguarum z 1555 r. i inne późniejsze katalogi języków i alfabetów.

Kaszmir (czerwony), lokalizacja Adelung w Eden

Young zobowiązuje się do przedstawienia klasyfikacji Adelunga. Typ jednosylabowy jest najstarszy i prymitywny, używany w Azji, na wschód od Edenu, w kierunku wyjścia Adama z Edenu. Dalej następuje grupa Jonesa, wciąż bez nazwy, ale przypisywana Jonesowi: „Kolejna starożytna i rozległa klasa języków, zjednoczona większą liczbą podobieństw niż może być całkowicie przypadkowa”. Dla tej klasy podaje nazwę „Indoeuropean”, pierwsze znane użycie tego słowa w języku, ale nie jego pierwsze znane użycie. Brytyjska Kompania Wschodnioindyjska została za pomocą „handel indo-europejski” oznacza handel towarów między Indiami a Europą. Wszystkie dowody, które Young przytacza dla grupy przodków, to najbardziej podobne słowa: matka, ojciec itp.

Dodatkowymi klasami Adelunga były tatarskie, afrykańskie i amerykańskie, zależne od geografii i domniemanego pochodzenia z Edenu. Young nie podziela entuzjazmu Adelung dla języka raju i określa go jako głównie spekulacyjny.

Tytuł Younga, odnoszący sukcesy w języku angielskim, był tylko jednym z kilku kandydatów zaproponowanych w latach 1810-1867: indo-germanique ( Conrad Malte-Brun , 1810), japetisk ( Rasmus Christian Rask , 1815), Indo-germanisch ( Julius Klaproth , 1823), indisch-teutsch (F. Schmitthenner, 1826), sanskritisch ( Wilhelm von Humboldt , 1827), indokeltisch (AF Pott, 1840), arioeuropeo ( Graziadio Isaia Ascoli , 1854), aryjczyk ( Max Müller , 1861) i aryaque (H. Chavée) , 1867). Wszyscy ci mężczyźni byli poliglotami i cudownymi językami. Klaproth, autor odnoszącego sukcesy kandydata niemieckojęzycznego, Indo-Germanisch, który skrytykował Jonesa za jego bezkrytyczną metodę, znał chiński, japoński, tybetański i wiele innych języków za pomocą ich pisma. Koncepcja biblijnej Ursprache przemówiła do ich wyobraźni. Ponieważ nadzieja na odnalezienie go stopniowo zanikała, wrócili do rosnącej koncepcji wspólnego języka indoeuropejskiego, którym posługują się koczownicze plemiona na równinach Eurazji, i chociaż stwierdzili, że język ten można wydedukować metodami językoznawstwa porównawczego, fakt, że nie tak to uzyskali. Był to jedyny przypadek, w którym powiodły się ich starania o odnalezienie Ursprache.

Model neogrammarski

Model ten w swoim najbardziej rygorystycznym sformułowaniu zawdzięczamy Neogrammarianom . Model opiera się na wcześniejszych koncepcjach Williama Jonesa , Franza Boppa i Augusta Schleichera , dodając bezwyjątkowy charakter praw dźwiękowych i regularność procesu. Językoznawcą prawdopodobnie najbardziej odpowiedzialnym za ustalenie związku z darwinizmem był August Schleicher.

Model drzewa Schleichera

O tym, że porównywał on swój Stammbaum , czyli drzewo genealogiczne języków, z prezentacją ewolucji Darwina wkrótce po tej prezentacji, świadczy opublikowany pośmiertnie list otwarty, który napisał w 1863 roku do Ernsta Haeckela . W 1869 Haeckel zasugerował, że przeczytał O powstawaniu gatunków .

Po przeczytaniu Schleicher napisał Die Darwinische Theorie und die Sprachwissenschaft , „Darwinizm przetestowany przez naukę języka”. W scenariuszu przypominającym ten między Darwinem i Wallace'em dotyczącym odkrycia ewolucji (obaj odkryli ją niezależnie), Schleicher popierał prezentację Darwina, ale krytykował ją za niewstawienie żadnego gatunku. Następnie przedstawił Stammbaum języków, który jednak nie był pierwszym, jaki opublikował.

Ewolucja języków nie była źródłem teorii ewolucji Darwina. Oparł to na zmienności gatunków, jakie zaobserwował u zięb na Wyspach Galapagos , które wydawały się być modyfikacjami wspólnego przodka. W jego wnioskach ważną rolę odegrał także dobór rodzimych gatunków do produkcji nowej odmiany. Pierwsze wydanie O powstawaniu gatunków z 1859 r. omawia drzewo językowe jakby de novo w ramach tematu klasyfikacji. Darwin krytykuje metodę synchroniczną opracowaną przez Linneusza , sugerując, aby zastąpić ją „naturalnym układem” opartym na ewolucji. On mówi:

„Może warto zilustrować ten pogląd na klasyfikację na przykładzie języków. Gdybyśmy posiadali doskonały rodowód ludzkości, układ genealogiczny ras ludzkich umożliwiłby najlepszą klasyfikację różnych języków używanych obecnie w całym świecie. i gdyby należało uwzględnić wszystkie wymarłe języki oraz wszystkie pośrednie i powoli zmieniające się dialekty, taki układ byłby, jak sądzę, jedynym możliwym. dały początek kilku nowym językom, podczas gdy inne (ze względu na rozprzestrzenianie się i późniejszą izolację oraz stany cywilizacyjne kilku ras, wywodzące się ze wspólnej rasy) znacznie się zmieniły i dały początek wielu nowym językom i dialektom. różnice w językach z tego samego zasobu musiałyby być wyrażane przez grupy podległe grupom, ale właściwy lub nawet jedyny możliwy układ byłby nadal genealogiczny; byłaby całkowicie naturalna, ponieważ łączyłaby wszystkie języki, wymarłe i współczesne, najbliższymi powinowactwami, a także dawałaby pochodzenie i pochodzenie każdego języka”.

Schleicher nigdy nie słyszał o Darwinie, zanim Haeckel zwrócił na niego uwagę Schleichera. Opublikował swoją własną pracę na temat Stammbaum w artykule z 1853 roku, sześć lat przed pierwszym wydaniem O powstawaniu gatunków w 1859 roku. Koncepcja pochodzenia języków nie była bynajmniej nowa. Thomas Jefferson , sam pobożny językoznawca, zaproponował, że ciągła konieczność neologizmów implikuje, że języki muszą „postępować” lub „postępować”. Idee te zwiastują ewolucję albo gatunków biologicznych, albo języków, ale po zetknięciu się Schleichera z ideami Darwina i być może zetknięciu Darwina z historycznymi lingwistami, ewolucja i zmiana języka były ze sobą nierozerwalnie związane i stałyby się podstawą klasyfikacji. Teraz, tak jak wtedy, głównym problemem byłoby udowodnienie konkretnych linii opadania i zidentyfikowanie punktów rozgałęzień.

Drzewo filogenetyczne

Dawnej metaforze pod starym imieniem nadał zupełnie nowe znaczenie Joseph Harold Greenberg w serii esejów rozpoczynających się około 1950 roku. Od czasu przyjęcia metafory drzewa genealogicznego przez językoznawców koncepcja ewolucji została zaproponowana przez Karola Darwina i została ogólnie przyjęty w biologii. Taksonomia , klasyfikacja istot żywych, została już wymyślona przez Karola Linneusza . Użył nomenklatury dwumianowej, aby przypisać nazwę gatunku i nazwę rodzaju każdemu znanemu organizmowi żywemu. Zostały one ułożone w biologiczną hierarchię w ramach kilku typów lub najbardziej ogólnych grup, rozgałęziających się ostatecznie na różne gatunki. Podstawą tej biologicznej klasyfikacji były obserwowane wspólne cechy fizyczne gatunku.

Darwin jednak, wskrzeszając inną starożytną metaforę, drzewo życia , postawił hipotezę, że grupy w klasyfikacji Linneusza (dzisiejsze taksony ) z czasem zstąpiły w strukturze drzewiastej od najprostszej do najbardziej złożonej. Hierarchiczne drzewo Linneusza było synchroniczne; Darwin przewidział diachroniczny proces wspólnego pochodzenia . Tam, gdzie Linneusz wymyślił szeregi , które były zgodne z wielkim łańcuchem przejmowania przez racjonalistów , Darwin wymyślił rodowody . W ciągu dziesięcioleci po Darwinie stało się jasne, że szeregi hierarchii Linneusza nie odpowiadają dokładnie rodowodom. Podstawowym celem taksonomii stało się odkrycie linii genealogicznych i zmiana klasyfikacji w celu ich odzwierciedlenia, co uczyniła pod ogólnym kierownictwem Kodów Nomenklatury , ksiąg zasad prowadzonych przez organizacje międzynarodowe w celu autoryzacji i publikowania propozycji przeklasyfikowania gatunków i innych taksonów. Nowe podejście nazwano filogenezą , „pokoleniem typów”, które wymyśliło nową metaforę drzewa, drzewo filogenetyczne . Jedna jednostka w drzewie i wszystkie jej jednostki potomne były kladem, a odkrycie kladów było kladystyczne .

Klasyfikacja afrykańskich rodzin językowych

Greenberg zaczął pisać w czasie, gdy systematyce filogenetycznej brakowało później dostępnych narzędzi: komputera (systematyka obliczeniowa) i sekwencjonowania DNA ( systematyka molekularna ). Aby odkryć związek kladystyczny, badacze oparli się na możliwie największej liczbie podobieństw morfologicznych między gatunkami, jakie można było zdefiniować i zestawić. Statystycznie im większa liczba podobieństw, tym większe prawdopodobieństwo, że gatunki będą należeć do tego samego kladu. To podejście spodobało się Greenbergowi, który był zainteresowany odkrywaniem uniwersaliów językowych . Zmieniając model drzewa, aby uczynić drzewo genealogiczne drzewem filogenetycznym, powiedział:

„Każdy język składa się z tysięcy form posiadających zarówno dźwięk, jak i znaczenie… każdy dźwięk może wyrazić jakiekolwiek znaczenie. Dlatego też, jeśli dwa języki zgadzają się w znacznej liczbie takich elementów… koniecznie wyciągamy wniosek o wspólnym pochodzeniu historycznym Takie klasyfikacje genetyczne nie są arbitralne ... analogia do klasyfikacji biologicznej jest tu niezwykle bliska ... tak jak w biologii klasyfikujemy gatunki do tego samego rodzaju lub jednostki wyższej, ponieważ podobieństwa sugerują hipotezę wspólnego pochodzenia, tak z hipotezami genetycznymi w języku”.

W tej analogii rodzina języków jest jak klad , języki są jak gatunki , prajęzyk jest jak takson przodków , drzewo języka jest jak drzewo filogenetyczne, a języki i dialekty są jak gatunki i odmiany. Greenberg sformułował duże tablice charakterystyki zaniedbanych dotąd języków Afryki, obu Ameryk, Indonezji i północnej Eurazji i zapisał je zgodnie z ich podobieństwami. Nazwał to podejście „ klasyfikacją typologiczną ”, uzyskaną raczej przez językoznawstwo opisowe niż przez językoznawstwo porównawcze .

Daty i glottochronologia

Metoda porównawcza została wykorzystana przez językoznawców historycznych do zestawienia modeli drzew z wykorzystaniem dyskretnych danych leksykalnych, morfologicznych i fonologicznych. Można znaleźć chronologię, ale nie ma bezwzględnych szacunków dat wykorzystujących ten system.

Glottochronologia umożliwia szacowanie dat bezwzględnych. Wspólne pokrewne (pokrewne oznaczające wspólne pochodzenie historyczne) są obliczanymi czasami dywergencji. Stwierdzono jednak, że metoda ta została później zdyskredytowana ze względu na niewiarygodność danych. Z tego powodu językoznawcy historyczni mają problem z dokładnym oszacowaniem wieku przy określaniu wieku rodziny języków indoeuropejskich. Może wahać się od 4000 BP do 40 000 BP lub gdziekolwiek pomiędzy tymi datami według Dixona pochodzącego z wzlotów i upadków języka (Cambridge University Press). Jak widać w artykule tutaj.

Możliwe rozwiązania dla glottochronologii nadchodzą dzięki obliczeniowym metodom filogenetycznym . Techniki takie jak używanie modeli ewolucji poprawiają dokładność długości i topologii gałęzi drzewa. W tym celu, wykorzystując obliczeniowe metody filogenetyczne, metody obliczeniowe umożliwiają naukowcom analizę danych językowych z biologii ewolucyjnej. To dodatkowo pomaga w testowaniu ze sobą teorii, takich jak teoria Kurgana i teoria anatolijska , obie twierdzą, że pochodzą z języków infoeuropejskich.

Filogenetyka obliczeniowa w językoznawstwie historycznym

Metoda porównawcza porównuje cechy różnych języków, aby ocenić podobieństwo jednego języka do drugiego. Wyniki takiej oceny są zorientowane na dane; oznacza to, że wyniki zależą od liczby funkcji i liczby porównywanych języków. Do czasu pojawienia się komputera w krajobrazie językoznawstwa historycznego liczby w obu przypadkach były z konieczności niewielkie. Efektem była próba zobrazowania fotografii za pomocą małej liczby dużych pikseli lub jednostek obrazu. Ograniczenia Modelu Drzewa były aż nazbyt boleśnie widoczne, co spowodowało skargi ze strony głównych lingwistów historycznych.

Pod koniec XX wieku językoznawcy zaczęli używać oprogramowania przeznaczonego do klasyfikacji biologicznej do klasyfikacji języków. Programy i metody stawały się coraz bardziej wyrafinowane. Na początku XXI wieku projekt Computational Phylogenetics in Historical Linguistics (CPHL), konsorcjum lingwistów historycznych, otrzymał finansowanie z National Science Foundation na badanie filogenezy. Rodzina indoeuropejska jest głównym tematem badań. Do stycznia 2012 r. zebrali i zakodowali „skanowaną” bazę danych zawierającą „22 znaki fonologiczne, 13 znaków morfologicznych i 259 znaków leksykalnych” oraz niesprawdzoną bazę danych zawierającą więcej. Dołączone są listy słów z 24 języków indoeuropejskich. Większa liczba funkcji i języków zwiększa precyzję, pod warunkiem, że spełniają określone kryteria. Korzystając ze specjalistycznego oprogramowania komputerowego, testują różne hipotezy filogenetyczne pod kątem ich zdolności do wyjaśniania cech przez pochodzenie genetyczne.

Ograniczenia modelu

Jednym z endemicznych ograniczeń modelu drzewa jest podstawowe założenie, na którym się on opiera: wymaga on klasyfikacji opartej na językach lub, bardziej ogólnie, na odmianach językowych . Ponieważ różnorodność reprezentuje abstrakcję od ogółu cech językowych , istnieje możliwość utraty informacji podczas tłumaczenia danych (z mapy izoglos ) na drzewo. Na przykład istnieje kwestia ciągłości dialektu . Zapewniają odmiany, które nie są jednoznacznie jednym lub drugim językiem, ale zawierają cechy charakterystyczne dla więcej niż jednego. Kwestia ich klasyfikacji jest zbliżona do kwestii przedstawianej przez gatunki pierścieniowe do koncepcji klasyfikacji gatunkowej w biologii.

Ograniczenia modelu drzewa, w szczególności jego niezdolność do radzenia sobie z niedyskretną dystrybucją wspólnych innowacji w kontinua dialektu , zostały rozwiązane poprzez opracowanie niekladystycznych (nieopartych na drzewach) metodologii. Obejmują one model Wave ; a ostatnio pojęcie powiązania .

Dodatkowe ograniczenie modelu drzewa dotyczy języków mieszanych i hybrydowych, a także mieszania języków w ogóle, ponieważ model drzewa dopuszcza jedynie rozbieżności. Na przykład, według Zuckermanna (2009: 63), „Israeli”, jego termin na współczesny hebrajski , który uważa za hybrydę semitoeuropejską, „pokazuje, że rzeczywistość genezy językowej jest znacznie bardziej złożona niż prosty system drzewa genealogicznego na to pozwala. Jest mało prawdopodobne, aby „odrodzone” języki miały jednego rodzica”.

Idealne filogenezy

Celem oprogramowania filogenetycznego jest generowanie kladogramów , specjalnego rodzaju drzewa, w którym łącza tylko się rozwidlają; oznacza to, że w dowolnym węźle w tym samym kierunku oferowane są tylko dwie gałęzie. Dane wejściowe to zestaw znaków, którym można przypisać stany w różnych językach, np. obecny (1) lub nieobecny (0). Dlatego język można opisać za pomocą unikalnego zestawu współrzędnych składającego się z wartości stanu dla wszystkich rozważanych znaków. Te współrzędne mogą być podobne lub mniej podobne. Języki, które dzielą najwięcej stanów, są najbardziej do siebie podobne.

Oprogramowanie masuje wszystkie stany wszystkich znaków wszystkich języków za pomocą jednej z kilku metod matematycznych, aby dokonać parami porównania każdego języka z całą resztą. Następnie konstruuje kladogram na podstawie stopni podobieństwa; na przykład zakłada się, że języki hipotetyczne aib, które są najbliżej siebie, mają wspólnego przodka, ab. Zakłada się, że następny najbliższy język, c, ma wspólnego przodka z ab i tak dalej. Rezultatem jest projektowana seria ścieżek historycznych prowadzących od ogólnego wspólnego przodka (korzenia) do języków (liści). Każda ścieżka jest wyjątkowa. Nie ma połączeń między ścieżkami. Każdy liść i węzeł ma jednego i tylko jednego przodka. Wszystkie stany są rozliczane przez pochodzenie z innych stanów. Kladogram, który spełnia te wymagania, to doskonała filogeneza.

Początkowo wydawało się, że wyniki w próbach różniących się czynnikami, które uznano za istotne, są mało spójne. W wyniku każdej zmiany powstał nowy kladogram, co sugerowało, że metoda nie uchwyciła zasadniczej ewolucji języków, a jedynie odzwierciedlała doraźne osądy badaczy. Aby znaleźć czynniki, które miały wpływ na filogenezę, naukowcy musieli mieć pewną miarę dokładności swoich wyników; tj. wyniki musiały być skalibrowane względem znanych filogenezy. Przeprowadzili eksperyment, stosując różne założenia, szukając tych, które dałyby najbliższe dopasowanie do najbezpieczniejszych filogenezy indoeuropejskich. Założenia te można by z większą pewnością zastosować w obszarach problemowych filogenezy indoeuropejskiej.

Aby uzyskać rozsądną filogenezę, naukowcy odkryli, że muszą wprowadzić jako dane wejściowe wszystkie trzy typy znaków: fonologiczne, leksykalne i morfologiczne, które były wymagane do przedstawienia obrazu wystarczająco szczegółowego do obliczenia filogenezy. Tylko postacie jakościowe dawały znaczące wyniki. Powtarzające się stany były zbyt niejednoznaczne, aby oprogramowanie mogło je poprawnie zinterpretować; w związku z tym znaki, które podlegały formowaniu wstecznemu i rozwojowi równoległemu, które przywracały znak do poprzedniego stanu lub przyjmowały stan, który ewoluował odpowiednio w inny znak, zostały odfiltrowane z zestawu danych wejściowych.

Doskonałe sieci filogenetyczne

Sieć filogenetyczna, jedna z wielu zakładanych przez CPHL. Drzewo filogenetyczne pojawia się w czarnych liniach. Krawędzie kontaktowe to czerwone linie. Oto trzy, najbardziej oszczędna liczba wymagana do wygenerowania realnej sieci dla indoeuropejskiego.

Pomimo dbałości o zakodowanie najlepszych cech jakościowych w wystarczającej liczbie, naukowcy nie byli w stanie uzyskać doskonałych filogenezy dla niektórych grup, takich jak germańska i albańska w obrębie indoeuropejskiej. Argumentowali, że zapożyczono znaczną liczbę cech, których nie można wyjaśnić genetycznym pochodzeniem od obliczonego przodka grupy. Przypuszczalnie, gdyby model falowy wyjaśniający zapożyczenia był kompletnym wyjaśnieniem charakterów grupy, to nie można by znaleźć dla niego żadnej filogenezy. Gdyby oba modele były częściowo skuteczne, wówczas istniałoby drzewo, ale musiałoby być uzupełnione wyjaśnieniami niegenetycznymi. Dlatego naukowcy zmodyfikowali oprogramowanie i metodę, aby uwzględnić możliwość wypożyczenia.

Badacze wprowadzili do eksperymentu koncepcję interfejsu, czyli dopuścili granicę, przez którą przepłyną stany postaci. Między rodzicem a dzieckiem istniał interfejs jednokierunkowy lub krawędź. Gdyby tylko jednostronne krawędzie wystarczały do ​​wyjaśnienia obecności wszystkich stanów w języku, to nie trzeba było wychodzić poza idealną filogenezę. Jeśli nie, wówczas do filogenezy można dodać jedną lub więcej krawędzi kontaktowych lub dwukierunkowych interfejsów. Język może zatem mieć więcej niż jedno źródło stanów: język rodzica lub język kontaktowy.

Tak zmodyfikowane drzewo nie było już drzewem jako takim: od korzenia do liścia mogło istnieć więcej niż jedna ścieżka. Naukowcy nazwali ten układ siecią. Stany postaci wciąż ewoluowały wzdłuż unikalnej ścieżki od korzenia do liścia, ale jego źródłem może być albo rozważany korzeń, albo język kontaktowy. Gdyby sieć mogła wyjaśnić wszystkie stany eksperymentu, nazwano ją doskonałą siecią filogenetyczną.

Kompatybilność i wykonalność

Generowanie sieci wymagało dwóch faz. W pierwszej fazie naukowcy opracowali szereg filogenezy, zwanych drzewami kandydującymi, które mają być przetestowane pod kątem kompatybilności. Postać jest kompatybilna, gdy jej pochodzenie jest wyjaśnione przez wygenerowaną filogenezę. W idealnej filogenezie wszystkie postacie są kompatybilne, a zgodność drzewa wynosi 100%. Zgodnie z zasadą skąpstwa, czyli brzytwą Ockhama , żadne sieci nie są uzasadnione. Drzewa kandydujące uzyskano, uruchamiając najpierw oprogramowanie do generowania filogenezy przy użyciu indoeuropejskiego zbioru danych (ciągów stanów znaków) jako danych wejściowych, a następnie modyfikując otrzymane drzewo na inne hipotezy do przetestowania.

Żadne z pierwotnych drzew kandydujących nie było idealnymi filogeniami, chociaż niektóre z poddrzew w nich były. Następną fazą było generowanie sieci z drzew o najwyższych wynikach kompatybilności poprzez dodawanie interfejsów jeden po drugim, wybierając interfejs o najwyższej kompatybilności, aż do uzyskania wystarczalności; czyli zgodność sieci była najwyższa. Jak się okazało, liczba wygenerowanych kompatybilnych sieci może wahać się od zera do kilkunastu. Jednak nie wszystkie możliwe interfejsy były historycznie możliwe. Interfejsy między niektórymi językami były mało prawdopodobne pod względem geograficznym i chronologicznym. Analizując wyniki, naukowcy wykluczyli niewykonalne interfejsy, dopóki nie pozostała lista tylko wykonalnych sieci, którą można było uporządkować w kolejności punktacji zgodności.

Najbardziej realna sieć dla Indoeuropejskich

Badacze rozpoczęli od pięciu drzew kandydujących na indoeuropejskie, oznaczone literą AE, jednego wygenerowanego z oprogramowania filogenetycznego, dwóch jego modyfikacji i dwóch sugerowanych przez Craiga Melcherta , lingwistę historycznego i indoeuropeistę. Drzewa różniły się przede wszystkim umiejscowieniem najbardziej niejednoznacznej grupy, języków germańskich i albańskiego, który nie miał wystarczająco charakterystycznych znaków, aby je dokładnie umieścić. Drzewo A zawierało 14 niezgodnych znaków; B, 19; C, 17; D, 21; E,18. Drzewa A i C uzyskały najlepsze wyniki zgodności. Wszystkie niezgodności były leksykalne, a A były podzbiorem C.

Kolejna generacja sieci wykazała, że ​​wszystkie niezgodności można rozwiązać za pomocą co najmniej trzech krawędzi kontaktowych z wyjątkiem Drzewa E. Ponieważ nie miało ono wysokiej kompatybilności, zostało wykluczone. Drzewo A miało 16 możliwych sieci, które w ramach kontroli wykonalności ograniczono do trzech. Drzewo C miało jedną sieć, ale ponieważ wymagało interfejsu do Bałtyku, a nie do Słowian, było to niewykonalne.

Drzewo A, najbardziej kompatybilne i wykonalne drzewo, stawia hipotezę siedmiu grup oddzielających się od protoindoeuropejskich między około 4000 pne a 2250 pne w następujący sposób.

  • Jako pierwszy oddzielił się Anatolian, około 4000 lat p.n.e.
  • Tocharian nastąpił około 3500 p.n.e.
  • Wkrótce potem, około 3250, Proto-italo-celtycki (zachodni indoeuropejski) oddzielił się, stając się proto-italskim i proto-celtyckim około 2500 pne.
  • Około 3000 protoalbano-germański oddzielił się, stając się albańskim i protogermańskim około 2000 roku.
  • Około 3000 Proto-grecko-ormiański (południowy indoeuropejski) został podzielony, stając się proto-greckim i proto-ormiańskim około 1800 roku.
  • Bałtosłowiański pojawił się około 2500, dzieląc się na proto-bałtycki i prasłowiański na około 1000.
  • Wreszcie, proto-indoeuropejski stał się proto-indo-irański (wschodni indoeuropejski) około roku 2250.

Drzewa B i E oferują alternatywę proto-niemiecko-bałto-słowiańską (północno-indoeuropejski), czyniąc albański niezależną gałęzią. Jedynym dniem, na który autorów ręczyć jest ostatnim, w oparciu o ciągłości kultury Yamna , z Kultury Andronovo i znane Indo-Aryan mówiąc kultur. Wszystkie inne są określane jako „martwy rachunek”.

Biorąc pod uwagę filogenezę najlepszej kompatybilności, A, do pełnej kompatybilności wymagane są trzy krawędzie kontaktowe. Oto grupa krawędzi z najmniejszą liczbą zdarzeń pożyczkowych:

  • Po pierwsze, granica między proto-italskim a proto-germańskim, która musiała rozpocząć się po 2000 roku, zgodnie z podanym schematem datowania.
  • Druga krawędź styku była między Proto-Italic i Proto-Greco-Armenian, która musiała zacząć się po 2500.
  • Trzecia krawędź styku znajduje się między protogermańskim i proto-bałtyckim, który musiał rozpocząć się po 1000.

Drzewo A z opisanymi powyżej krawędziami jest określane przez autorów jako „nasz najlepszy PPN”. We wszystkich PPN jest jasne, że chociaż początkowe języki potomne stały się odrębne we względnej izolacji, późniejszą ewolucję grup można wyjaśnić jedynie ewolucją w pobliżu innych języków, z którymi wymiana odbywa się za pomocą modelu falowego.

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki

  • Labow, William (2010). „15. Dyfuzja języka z miejsca na miejsce” . Zasady zmiany językowej . 3: Czynniki poznawcze i kulturowe. Wielka Brytania: Wiley-Blackwell – przez Scribd.
  • Santorini, Beatrycze; Krocha, Antoniego (2007). "Relacje węzłów" . Składnia języka naturalnego: Wprowadzenie online za pomocą programu Drzewa . Uniwersytet Pensylwanii.