Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni

Czas realizacji projektu: 2013-2016

Kierownik projektu: dr hab. Magdalena Derwojedowa

email: derwojed@uw.edu.pl

Link: http://www.f19.uw.edu.pl/

Charakterystyka projektu: Projekt ma na celu przygotowanie narzędzi do analizy tekstów lat 1830- 1918 z uwzględnieniem zmian w odmianie i pisowni. Ramy czasowe zostały wyznaczone przez pierwszą reformę ortograficzną z jednej strony, a historyczno-społeczny koniec wieku XIX z drugiej. Zamierzeniem twórców projektu jest nie tylko adaptacja analizatora morfologicznego tak, by poprawnie analizował on teksty z tego okresu w ich oryginalnej postaci graficznej i fleksyjnej, ale też rejestracja tych zmian i wypracowanie koncepcji prezentacji ewolucji odmiany w zasobach tego typu. Podstawą materiałową prac jest niewielki, liczący 1 mln segmentów korpus tekstów z lat 1830-1918, zróżnicowany stylistycznie, składający się z 1000 próbek gronowych o długości ok. 1000 segmentów. W trakcie prac korpus ten będzie analizowany przez udoskonalany analizator, następnie zostanie oznakowany, a po zweryfikowaniu i ujednoznacznieniu analiz, udostępniony. Produktem ubocznym jest też repozytorium tekstów, z których pochodzą próbki gronowe, może ono stać się zalążkiem większego korpusu.