Jak Odkrywa Się Tajemnice Manuskryptu Voynicha: Dochodzenie - Alternatywny Widok

Spisu treści:

Jak Odkrywa Się Tajemnice Manuskryptu Voynicha: Dochodzenie - Alternatywny Widok
Jak Odkrywa Się Tajemnice Manuskryptu Voynicha: Dochodzenie - Alternatywny Widok

Wideo: Jak Odkrywa Się Tajemnice Manuskryptu Voynicha: Dochodzenie - Alternatywny Widok

Wideo: Jak Odkrywa Się Tajemnice Manuskryptu Voynicha: Dochodzenie - Alternatywny Widok
Wideo: Tajemnica manuskryptu Voynicha [Enigma] 2024, Może
Anonim

Za sensacyjnymi wiadomościami o manuskrypcie Wojnicza i rosyjskich naukowcach można trafnie określić język z tekstu, jak adekwatni matematycy pracują na „polu” językoznawstwa.

19 kwietnia w rosyjskich mediach pojawiły się wiadomości o „epokowym” odkryciu rosyjskich matematyków: naukowcy wykorzystujący nową metodę nie tylko udowodnili sensowność słynnego „rękopisu Wojnicza”, ale także ustalili, że był on napisany w dwóch językach iz wyjątkiem liter dla samogłosek.

Rękopis Voynicha to średniowieczny ilustrowany rękopis zakupiony w 1912 roku przez antykwariusza Wilfreda Voynicha. Stworzony w XV wieku (na podstawie radiowęglowej analizy pergaminu - ale większość naukowców w tej chwili nie uważa samego tekstu za późniejsze fałszerstwo), jest napisany w nieznanym języku przy użyciu nieznanego alfabetu. Sądząc po ilustracjach, tekst składa się z bloków tematycznych: botanicznych, astronomicznych, farmakologicznych i innych. Złożoność dekodowania tekstu sprawiła, że manuskrypt Voynicha stał się „świętym Graalem” dla kryptologów i przedmiotem wielu badań, w tym z wykorzystaniem metod Big Data.

Wiadomość o rękopisie została zgłoszona jako coś sensacyjnego. To natychmiast wzbudziło podejrzenia. „Wcześniej wszystkie próby rozszyfrowania unikalnego dokumentu, a nawet zrozumienia, czy jest to znaczący tekst, nie powiodły się. 600 lat bezużytecznych wysiłków!.. Kryptografowie z CIA i NSA, superkomputery, a nawet lekarze „nauk okultystycznych” podpisali się pod swoją całkowitą niemocą. Najnowsza wiadomość od kryptologa Gordona Rugga z Keele University w Wielkiej Brytanii brzmi: „Manuskrypt Voynicha jest fałszywy. Taki „złożony tekst” jest łatwy do skonstruowania dla każdego, kto zna proste metody kopiowania”- czytamy w artykule.

Po pierwsze, sensowność tekstu została uznana już w latach 70. i kilkakrotnie potwierdzona w studiach z lat 2010., o których wystarczająco szczegółowo pisano nawet w krajowych mediach. Po drugie, zgłoszone do wiadomości odkrycie zostało zaprezentowane wyłącznie w formie instytutu, a nie w artykule w międzynarodowym czasopiśmie recenzowanym (preprint ukazał się również w 2016 roku).

Te dziwactwa w prezentacji materiału zmusiły nas do szukania wyjaśnień najpierw u autora opracowania, a następnie do niezależnych ekspertów - lingwistów, którzy pracują z metodami statystycznymi i matematycznymi oraz dekodowaniem starożytnych skryptów.

Wzór jest łatwy do napisania, a wykonanie analizy numerycznej jest bardzo kosztowne

Film promocyjny:

Najpierw pokrótce omawiam istotę badania. Autorzy przedruku, matematycy z Moskiewskiego Instytutu Fizyki i Technologii oraz Instytutu Matematyki Stosowanej Rosyjskiej Akademii Nauk, opierają się na swoich pracach, zgodnie z którymi „rozkład częstotliwości symboli w tekście jest stałą cechą nie autora ani podmiotu tekstu, ale języka”. Oznacza to, że używając zestawu za pomocą narzędzi matematycznych można określić, w jakim języku jest napisany, ponieważ każdy język ma swój własny charakterystyczny „profil” (rozkład wykładnika Hursta). Ponadto, opierając się na tych metodach, naukowcy ustalili, że tekst manuskryptu został napisany w kilku językach. Jednocześnie dodano do niego fałszywe spacje i usunięto symbole oznaczające dźwięki samogłosek.

Główny autor badania, Jurij Orłow (IPM RAS i MIPT), podkreślił, że rękopis Wojnicza wcale nie jest głównym celem ich pracy. „Ten 'rewelacyjny' manuskrypt jest tylko ilustracją matematycznej metody rozpoznawania języków z tekstu - w rzeczywistości problem w uczeniu maszynowym” - powiedział Orlov.

Sam rękopis absolutnie nas nie interesuje. Nauka odnosi się konkretnie do statystyki języków. Dzięki niej możemy zrozumieć, w jakim języku jest napisany ten rękopis. Ale nie to, co tam jest napisane, to ważna kwestia. - Yuri Orlov. MIPT i Instytut Matematyki Stosowanej im. M. V. Keldysh

Jeśli chodzi o metodę językową zastosowaną w pracy, Orłow zauważa, że analiza częstości kombinacji liter w samym tekście jest rzeczą dobrze znaną. Jednak wskaźnik Hursta jest słabo znany lingwistom, ponieważ trudno go obliczyć nawet w kategoriach matematycznych. Sama formuła jest łatwa do napisania, ale analiza numeryczna jest bardzo kosztowna. W tym celu superkomputer znajdujący się w Instytucie nazwany im. M. V. Matematyk podkreśla Keldysz.

Wybór języków indoeuropejskich do analizy tłumaczy się tym, że wszystkie są bardzo podobne - mówi Orłow. Wskaźniki opracowane przez matematyków ułatwiają rozróżnianie języków w ramach tej samej grupy językowej, ale nie między rodzinami. Oczywiście teoretycznie możliwe jest wykonanie tej samej pracy z innymi grupami (Ural, Ałtaj lub inne), ale wartość analizy polega na jej kompletności, Orłow jest pewien. W przypadku języków indoeuropejskich nie jest trudno wpisać korpus tekstów dla każdego języka, trudniej jest to zrobić z innymi rodzinami.

Wracając do rękopisu Voynicha, Orłow zauważył, że on i jego koledzy przytoczyli pięć dowodów (logarytmiczny profil kolejności częstości liter w tekście w jednym i kilku językach, rozkład wykładnika Hursta, widmowy portret macierzy prawdopodobieństw warunkowych i inne) hipotezy o pomieszaniu języków w rękopisie i skreśleniu litery do samogłosek. Zdecydowanie dystansują się od „spotkania wokół rękopisu”, ale zaprezentowali wyjątkowy wynik - metodę otwartą, analizę statystyczną z oceną wiarygodności, którą można niezależnie zweryfikować.

„Wniosek umniejsza fakt, że nie rozumiemy, z jakiego materiału i na czym się wywodzą - sprawdzili swoją formułę”

Już samo założenie, że tekst manuskryptu Wojnicha pozbawiony jest liter samogłosek, z nieprawidłowo rozmieszczonymi odstępami, jest piękne i dobre - zauważa językoznawca Evgenia Korovina, zajmująca się matematyczną statystyką języka (Instytut Lingwistyki Rosyjskiej Akademii Nauk). Wcześniej nikt nie wysuwał takiej hipotezy. Na przykład pięknie wyjaśnia, dlaczego jest mniej liter, niż można by się spodziewać po tekście europejskim. Problem w tym, że autorzy badania nawet nie wskazali, które teksty w różnych językach porównują i jaka była objętość tych testów. We wstępnym druku wspomniano o ogromnej liczbie języków. Dlatego badanie nie jest powtarzalne: jeśli weźmiesz dowolne teksty w tych samych językach, nie jest faktem, że wyjdą te same wzorce.

Z Koroviną zgadza się Maria Molina, specjalistka w zakresie metod korpusowych w badaniach języków starożytnych (Instytut Lingwistyki RAS). Jej zdaniem nowe metody przetwarzania danych językowych pomagają uzyskać informacje o tym, co wcześniej było dla badaczy języka zamknięte. Jednak źle przygotowany materiał wejściowy często dyskredytuje nawet najlepsze techniki przetwarzania danych.

Wniosek umniejsza fakt, że nie wiemy, z jakiego materiału rysowali i na czym sprawdzali swoją formułę. Jeśli chodzi o mój materiał, wiem na pewno, że jest mały błąd metodologiczny - i otrzymuję krytycznie różne liczby. - Maria Molina. Instytut Lingwistyki RAS

„Garbage in - garbage out” - dodaje Molina (GIGO to zasada w informatyce, która oznacza, że niepoprawne dane wejściowe będą skutkowały niepoprawnymi wynikami, nawet jeśli sam algorytm jest poprawny, - zauważa Indicator. Ru).

„Metody statystyczne są nadal wskazówkami wyników, a nie rezultatami”

Jeszcze ostrzej mówił Albert Davletshin (pracownik Centrum Lingwistycznych Studiów Porównawczych Instytutu Porównawczych Studiów Rosyjskiego Państwowego Uniwersytetu Humanistycznego, studiuje języki majów i polinezyjski). Jeśli autorzy przedruku nie zamierzali rozszyfrować rękopisu Wojnicza, dlaczego to robią? I dalej, jeśli mówimy konkretnie o dekodowaniu nieznanego pisma, pojawia się pytanie za pytaniem: „Nie ma żadnych wstępnych danych na temat pisma - jakiego typu? W jaki sposób uzyskuje się różne transkrypcje? Ile postaci? Co leży u podstaw istniejących założeń dotyczących natury pisania? Jaka jest długość słowa oddzielonego spacjami i bez spacji? Co oznaczają przestrzenie? Jak duży jest słownik? Jaki jest stosunek podpisów do rysunków?

Na początku okazuje się, że tekst jest duński i tylko duński (a to jest historycznie niemożliwe, o czym w utworze nie ma ani słowa). Wtedy okazuje się, że tekst jest w dwóch nieznanych językach (weryfikacja na tym etapie okazuje się niemożliwa i jest podejmowana na wiarę). Ponadto istnieje wiele konserwatywnych sposobów wykazania, że dwie (duże) strony są napisane jedną literą, ale w różnych językach, bez uciekania się do złożonych modeli matematycznych. Wreszcie, jeśli samogłoski zostaną usunięte z tekstu, w jakim stopniu potwierdzają to standardowe, od dawna znane metody (na przykład Sukhotin, Shevoroshkina i Ventris)?”

Davletshin krytykuje również niewrażliwość na filologię i historię charakterystyczną dla tego rodzaju badań:

To, co widzę w tekście: często są ludzie, którzy chcą wziąć źródło X i zapominają, że jest to źródło i istnieje w jakimś historycznym, w tym językowym, kontekście i jakoś coś w nim liczą. Hipoteza, że manuskrypt zawiera więcej niż jeden język, jest interesująca. Ale można to jakoś pokazać po ludzku. Metody statystyczne są nadal wskazówkami wyników, a nie rezultatami. -Albert Davletshin. Centrum Lingwistycznych Studiów Porównawczych IVKA RSUH

Nie ma kryterium pozwalającego na odróżnienie wyników interesujących od strasznych

Bardziej wyważone stanowisko zajął Georgy Starostin, ekspert w dziedzinie porównawczej lingwistyki historycznej (RSUH). Był bardziej zainteresowany tym, jak przydatne są nowe metody matematyczne w rozwiązywaniu problemów językoznawców. „Model przedstawiony w artykule robi dziwne wrażenie. Z jednej strony wydaje się należeć do kategorii „ślepych”, analizujących dane tekstowe bez wstępnej oceny struktury alfabetu (na przykład dwuznaki, podobnie jak angielskie ch, sh, należy traktować jako kombinacje dwóch liter, chociaż w rzeczywistości jest to jedna dźwięk). Z drugiej strony z porównywanych ciągów wyrzucane są samogłoski, które zdaniem autorów tekstu zawierają mniej informacji, a raczej powodują szum. Ogólnie baza testowa jest wyraźnie bardzo mała, nie można mówić o czymś podstawowym w tak wielu językach”.

Przedstawione w artykule w tabeli porównawczej 3 wyniki porównania języków indoeuropejskich i uralskich nie budzą szczególnego optymizmu u Starostyna. Niektóre wskaźniki stopnia bliskości języków są dobrze uchwycone (na przykład powiązania wewnątrz germańskie lub wewnątrzromańskie), inne słabo (na przykład metodologia nie identyfikuje już rodziny indoeuropejskiej). Najważniejsze, że nie ma kryterium pozwalającego na odróżnienie wyników interesujących od strasznych. W najlepszym przypadku metoda umożliwia wyodrębnienie małych grup językowych (choć i tutaj nie działa między blisko spokrewnionymi fińskimi i estońskimi), ale bez niej wszystkie te grupy można wiarygodnie zidentyfikować.

Tabela 3 ze wstępnego druku, w której przedstawiono wyniki porównania języków indoeuropejskich i uralskich. Ten sam kolor w tabeli. Wyodrębniono 3 grupy języków, które są zbliżone parami (w sensie normy L1 rozkładów uporządkowanych częstotliwości w tekstach bez samogłoski). Niektóre niespodziewanie zbliżone pary językowe, takie jak niemiecki / węgierski, angielski / estoński, łaciński / baskijski i grecki / fiński, są zaznaczone na czerwono. Autorzy przedruku: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin SA
Tabela 3 ze wstępnego druku, w której przedstawiono wyniki porównania języków indoeuropejskich i uralskich. Ten sam kolor w tabeli. Wyodrębniono 3 grupy języków, które są zbliżone parami (w sensie normy L1 rozkładów uporządkowanych częstotliwości w tekstach bez samogłoski). Niektóre niespodziewanie zbliżone pary językowe, takie jak niemiecki / węgierski, angielski / estoński, łaciński / baskijski i grecki / fiński, są zaznaczone na czerwono. Autorzy przedruku: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin SA

Tabela 3 ze wstępnego druku, w której przedstawiono wyniki porównania języków indoeuropejskich i uralskich. Ten sam kolor w tabeli. Wyodrębniono 3 grupy języków, które są zbliżone parami (w sensie normy L1 rozkładów uporządkowanych częstotliwości w tekstach bez samogłoski). Niektóre niespodziewanie zbliżone pary językowe, takie jak niemiecki / węgierski, angielski / estoński, łaciński / baskijski i grecki / fiński, są zaznaczone na czerwono. Autorzy przedruku: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin SA

Wreszcie określenie cech genetycznych języka poprzez rozmieszczenie wykładnika Hursta jest interesującym pomysłem i być może nawet doprowadzonym do jakiegoś naukowego punktu. Będzie to jednak wymagało przetworzenia dużej liczby tekstów w różnych językach. I od razu pojawia się problem: wiele języków jest niepisanych, a jak poprawne jest porównywanie alfabetycznych systemów zapisu z transkrypcjami fonetycznymi pozostaje niejasne. Starostin jest pewien, że z tego pomysłu będzie bardzo mało praktycznego sensu. W najlepszym przypadku można to naprawdę zastosować do incydentów, takich jak rękopis Voynicha, kiedy istnieje hipoteza, że jakiś język ze standardowym zapisem alfabetycznym jest szyfrowany według pewnych zasad (na przykład z usunięciem samogłosek itp.). Jednak na świecie jest bardzo mało takich incydentów.

Podsumowując

Co jest w dolnej linii? Dyskusja wokół badań IPM i MIPT ujawniła głęboki rozdźwięk między społecznością językową (nawet stosującą metody statystyczne) a „osobami z zewnątrz” w odniesieniu do lingwistów, którzy zdecydowali się zastosować swoje narzędzia matematyczne do materiału językowego.

Fakt, że matematycy nie chcą współpracować z lingwistami, nie tylko prowadzi do rażących błędów, które następnie przenoszą się do mediów (na przykład język baskijski w przedruku nazywa się indoeuropejski, jest tam wyrażenie „litery samogłosek”). Piękno modeli i moc obliczeniowa superkomputerów jest w rzeczywistości zdewaluowana przez błędy w momencie wejścia. Ponownie, dzięki chęci i otwartości kontaktów z kolegami z innej dyscypliny, tych błędów można było łatwo uniknąć.

Zobacz sam Manuskrypt Voynicha tutaj.

Zalecane: