Korpus polsko-rosyjski

Czas realizacji projektu: 20/05/2010 - 19/05/2013

Kierownik projektu: dr hab. Marek Łaziński

email: M.Lazinski@uw.edu.pl

Link: www.pol-ros.polon.uw.edu.pl

Charakterystyka projektu: W ramach projektu powstał oznakowany morfosyntaktycznie i bibliograficznie korpus tekstów polskich i rosyjskich, który może być praktyczną pomocą dla tłumaczy, językoznawców, leksykografów, badaczy literatury i kultury. 90 procent korpusu stanowią teksty literackie, pozostałe to tekstu religijne, prasowe i prawne. Korpus zawiera 30 milionów słów, w tym 20 mln dostępne publicznie (po połowie w każdej wersji językowej). Program wyszukujący wybiera zdania zawierające wyszukiwane słowa lub połączenia (z zastosowaniem wyrażeń regularnych: zastępników, alternatywy i przeczenia) w języku źródłowym i pokazuje odpowiednie zdania w przekładzie. Program wyszukuje także dowolne wartości kategorii gramatycznych, wykorzystując tagowanie Narodowego Korpusu Języka Polskiego i Narodowego Korpusu Języka Rosyjskiego, a także leksemy. Tabela tekstów korpusu zawiera krótkie merytoryczne wprowadzenie do rosyjskich tekstów literackich.