Jak pracować z korpusem? Badanie wybranych jednostek
Automatyczna konwersja danych (Excel, OpenOffice Calc, XML) i jak ją wykorzystać w pracy naukowej?
Filtrowanie danych korpusu (Excel)
спутник
Czym jest korpus językowy, do czego jest wykorzystywany?
Kiedyś dowolny zbiór dokumentów tekstowych nazywany był korpusem językowym. Dziś jednak korpus językowy (lingwistyczny) to treści zebrane i uporządkowane według określonych kryteriów.
Jest to zbiór tekstów (słów) podlegających analizie, stanowiący spójną całość, jest to zbiór tekstów w języku naturalnym opatrzonych różnego typu informacjami dodatkowymi. Zatem korpus stanowi zestaw tekstów zawierający typowe konstrukcje oraz użycia słów wraz z informacjami o ich znaczeniu i funkcji. Korpusy językowe powinny być zapisane w postaci elektronicznej i służą do analizy, przetwarzania tekstów przez komputery.
Korpusy lingwistyczne stanowią źródło danych dotyczących stosowanych w danym języku konstrukcji składniowych, a także częstości ich występowania. Zawierają one cztery typy informacji:
metadane – informacje o tekście takie jak autor, tytuł, rok powstania itp.,
informacje strukturalne – informacje na temat podziału tekstu na rozdziały, akapity, oraz informacje, czy dany fragment tekstu stanowi część dłuższego tekstu, tytułu czy np. podpisu pod tabelą, rysunkiem,
informacje lingwistyczne (na ogół morfosyntaktyczne) – charakterystyka morfologiczna np. oznaczenie części mowy, liczba, rodzaj, przypadek wyrażenia,
tekst
Korpusy lingwistyczne ponadto muszą posiadać określone cechy, aby mogły być wykorzystywane do charakteryzowania badanego języka naturalnego. Korpus powinien zatem zawierać wystarczająco dużą liczbę tekstów (dane reprezentatywne), które powinny być tekstami autentycznymi. Ponadto różnorodność tekstów zawartych w korpusie powinna pozwalać na zachowanie proporcji, w jakich pewne elementy języka są wykorzystywane w danym obszarze badania.
Rodzaje korpusów
Korpusy tworzone są w celu reprezentatywnego odwzorowania danego obszaru językowego np. dla określonej dziedziny. W zależności od zastosowania danego korpusu wyróżnić można rodzaje: korpusy ogólne, specjalistyczne oraz równoległe.
Korpusy ogólne gromadzą teksty z różnych dziedzin tematycznych, stylów i źródeł (np. teksty pochodzące z czasopism, książek, blogów itp.), przy czym stopień reprezentacji poszczególnych form języka jest porównywalny.
Korpusy specjalistyczne zawierają teksty z określonej tematyki specjalistycznej np. telekomunikacji, medycyny, ekonomii. Do korpusów specjalistycznych zaliczane są również zbiory tekstów charakterystycznych dla danego dialektu lub okresu czasu.
Korpusy równoległe natomiast zawierają te same teksty zapisane w różnych językach naturalnych.
Korpusy diachroniczne oraz synchroniczne - kryterium jest podział ze względu na czas powstania zawartych w nich tekstów. Korpusy diachroniczne zawierają teksty pochodzące z różnych okresów czasu, zarówno współczesnych, jak i historycznych oraz stanowią narzędzie badawcze dla analizy ewolucji języka. Korpusy synchroniczne natomiast stanowią zbiór tekstów pochodzących z jednego okresu czasowego i wykorzystywane są przy badaniach różnic językowych w ramach np. grup społecznych.
Korpusy referencyjne oraz monitorujące. Korpusy referencyjne przedstawiają informacje dotyczące sposobów użycia języka w określonym przedziale czasowym. Poprzez zawarcie w nich dostatecznie dużej liczby tekstów, powinny one przedstawiać różnorodność języka, jakim posługiwano się w danym okresie czasu. Inne podejście do odwzorowywania sposobów użycia języka wykorzystywane jest przy tworzeniu korpusów monitorujących. W odróżnieniu do korpusów referencyjnych, które stanowią zamkniętą i niezmienialną całość, korpusy monitorujące są zbiorami dynamicznymi – zmieniającymi się w czasie w celu przedstawienia zmian, jakie zachodzą w języku. Korpusy te są stale aktualizowane poprzez dodawanie nowych tekstów, zawierających nowe słowa wchodzące do języka. Dzięki powstawaniu takich dynamicznych korpusów monitorowane oraz dokumentowane są zmiany zachodzące w języku.
Zastosowanie korpusów językowych
Jednym z najbardziej popularnych zastosowań korpusów językowych są programy konkordacyjne. Ich działanie oparte jest na analizie korpusu w celu tworzenia zestawień wyrazów w określonym kontekście. Konkordancja stanowi zbiór przykładów użycia danego ciągu znaków (słów kluczowych), które zazwyczaj przedstawiają słowo kluczowe wraz z kontekstem po prawej i lewej stronie. Najczęściej wykorzystywanym formatem przedstawienia konkordancji jest format KWIC (key word in context). W celu przedstawienia częstotliwości pojawiania się danego wyrazu w poszczególnych kontekstach wykorzystywane są funkcje kolokacji. Kolokacjami są wzorce występowania słów w swoim sąsiedztwie. Duże prawdopodobieństwo współwystępowania danych słów wykorzystywane jest przy tworzeniu słowników oraz w procesach nauki języków obcych. Takie zestawienia pozwalają zatem na wyznaczenie wzorców leksykalnych lub gramatycznych dla danego języka.
Innymi narzędziami wykorzystującymi korpusy językowe są aplikacje tworzące listy frekwencyjne zawierające informacje na temat częstotliwości wystąpienia wyrazu w analizowanym zbiorze tekstów. Na ich podstawie tworzone są np. słowniki frekwencyjne, czyli słowniki najczęściej używanych słów w danym języku, które wykorzystywane są w nauce języków obcych (w celu poznania przez osobę uczącą się w pierwszej kolejności najbardziej powszechnych wyrażeń). Korpusy lingwistyczne wykorzystywane są również w procesach lematyzacji. [Lematyzacja to proces, który grupuje różne formy jednego słowa i przypisuje im to samo znaczenie, dzięki czemu mogą być przetwarzane jako jeden element, a nie różne słowa. Proces ten jest definiowany poprzez każdy lemat każdego słowa, który jest jego formą słownikową].
Istnieją również inne sposoby wykorzystania w aplikacjach korpusów językowych. Znajdują one zastosowanie w procesach analizy języka naturalnego, a także analizy tekstów. Poprzez dostępność korpusów w postaci elektronicznej, dokonywane analizy i obserwacje mogą być powtarzane oraz przeprowadzane w oparciu o różne kryteria. Wykorzystanie korpusów językowych w systemach opartych na wiedzy umożliwia automatyczne tworzenie streszczeń oraz tłumaczeń dokumentów tekstowych. Ponadto korpusy językowe znajdują zastosowanie w pracach nad budowaniem słowników specjalistycznych oraz klasyfikacji dokumentów.
Przykłady korpusów
Pierwszym korpusem językowym był korpus Brown. Korpus ten powstał w 1961 r. w celu reprezentacji amerykańskiej odmiany pisanego języka angielskiego. Zawierał on 1 mln wyrazów w podziale na 15 kategorii. Innym przykładem korpusu języka angielskiego jest Brytyjski Korpus Narodowy powstały w 1994 r., zawierający oprócz tekstów pisanych również transkrypcje mowy.
W Polsce publicznie dostępne są trzy duże korpusy języka polskiego: Korpus IPI PAN, PELCRA oraz korpus PWN, który uznawany jest za najbardziej reprezentatywny. Wersja korpusu PWN, która jest dostępna odpłatnie zawiera 40 mln słów (nieodpłatnie dostępna jest wersja demonstracyjna licząca 7 mln słów), natomiast w pełnej wersji tego korpusu zawartych zostało ok. 100 mln słów. Korpus IPI PAN jest pierwszym korpusem notowanym morfosyntaktycznie (jest płatny), a jego zawartość stanowi ok. 200 mln słów. Korpus PELCRA zawiera ponad 93 mln słów.
Na pierwszym miejscu, wśród korpusów rosyjskich, plasuje się powstały w Instytucie Języka Rosyjskiego Rosyjskiej Akademii Nauk im. W. Winogradowa Narodowy Korpus Języka Rosyjskiego (ros. Национальный корпус русского языка, www.ruscorpora.ru). Z tym, jednym z największych korpusów na świecie, będzięmy pracować.
Korpus jest narzędziem bezpłatnym, bez ograniczeń w dostępie. W korpusie podstawowym znajdują się teksty rosyjskiego języka literackiego, które można rozdzielić na dwa główne masywy informacyjne: współczesne pisemne teksty literackie (poł. XX w. do pocz. XXI w.) i wczesne teksty (od poł. XVIII w. do poł. XX wieku). Reprezentacyjna część współczesnych tekstów NKJR zawiera współczesną prozę różnych gatunków: teksty współczesnego dramatu, wspomnienia i literaturę biograficzną, publicystykę dziennikarską i krytykę literacką, materiały z zakresu dziennikarstwa gazetowego i wiadomości, teksty naukowe, popularno-naukowe i edukacyjne, teksty religijne i religijno-filozoficzne, teksty specjalistyczne, techniczne, prawnicze w tym akty prawne, teksty korespondencji służbowej i administracyjne, teksty powszednie/codzienne (w tym teksty nie przeznaczone do publikacji: np., prywatna korespondencja, pamiętniki itp.). W ramy konstrukcyjne tego największego projektu korpusowego wchodzi dziesięć innych korpusów.
Wspomniany wyżej Narodowy Korpus Języka Rosyjskiego bardzo dokładnie opisano w publikacjach podając informacje ilościowe i jakościowe o jego zasobach, strukturze, zasadach korzystania wraz z opisem funkcji gramatycznych, semantycznych, morfologicznych (Hajnicz, 2011), a także jego zastosowanie w dydaktyce uniwersyteckiej (bezpośrednie wykorzystanie na zajęciach praktycznych z języka i pośrednie zastosowanie korpusu w planowaniu procesu dydaktycznego)(Ł. Grabowski 2005, 2006, 2007) i praktyce tłumaczeniowej. Wśród zalet wykorzystania korpusów dla rusycysty możemy wskazać następujące: przydatny w badaniach naukowych z zakresu filologii - w tłumaczeniu, szukaniu znaczeń słów wieloznacznych, zastosowań synonimów, poszerzaniu świadomości językowej, rozumieniu niuansów językowych, uaktualnianiu i doskonaleniu wiedzy o języku, poznawaniu kultury, historii, tradycji. Korpus podaje przykłady użycia słowa w kontekście, pomaga zrozumieć gramatykę, uczy uważnego czytania ze zrozumieniem. Niewątpliwie NKJR stanowi obecnie podstawowe narzędzie współczesnego rusycysty.
Zadanie 1
W Korpusie Narodowym Języka Rosyjskiego znajdź:
в основном корпусе słowo чучело - i na podstawie danych korpusu, określ jego znaczenie i podaj морфологические признаки (род, число, падеж, одушевлённость/неодушевленность);
в газетном корпусе słowo кикимора- Ile dokumentów zostało znalezionych? Podaj tytuły gazet "..." W jakich wydrukowano dane słowo?
в основном корпусе słowo тёлка - znaczenie słowa;
в устном корпусе słowo тёлка - znaczenie słowa;
в основном корпусе słowo наперекор - Jaka to część mowy? Co oznacza? Z pomocą funkcji распределение по годам - wskaż w jakim roku wyraz był najczęściej używany;
в газетном корпусе frazę по барабану, ile dokumentów znaleziono? Ile stron? Od którego roku fraza znajduje się w użyciu językowym? Korzystając z opcji (см. в словарях) podaj znaczenie frazy;
в основном корпусе słowo фейк- Z jakimi słowami łączy się ten rzeczownik? Podaj przykłady 3 (...)
в основном корпусе czasownik сфоткаться skorzystaj z opcji статистика i określ Сферу функционирования глагола.
Posiadając dane korpusowe w formacie Exel możemy dokonywać filtrowania infromacji pod konkretne badania.
Do dużego masywu danych poleca się oprogramowanie Maxqda, można spróbować w wersji demo. Mogę o nim opowiedzieć ;)
Bibliografia:
Inżynieria wiedzy. http://www.inzynieriawiedzy.pl (2.2.2017). Projekt finansowany ze środków Unii Europejskiej i Europejskiego Funduszu Społecznego „Nowe media i technologie wiedzy w programach studiów ekonomicznych – synergia teorii i praktyki.
Narodowy Korpus Języka Polskiego http://nkjp.pl, (2.2.2017)
Hajnicz E. 2011, Najbardziej znane korpusy tekstów. Opracowanie przeglądowe Nr 1021 Prace IPI PAN, Warszawa. [http://nlp.ipipan.waw.pl/Bib/hajn:11h.pdf] dostęp (10.10.2015).
Grabowski Ł., 2005, Ogólna charakterystyka korpusów języka rosyjskiego//Przegląd rusycystyczny, nr 4 (112), 2005. s. 54-61.
Grabowski Ł., 2006, Zastosowanie Rosyjskiego korpusu narodowego w nauczaniu języka rosyjskiego” [w:] Świat Słowian w języku i kulturze. Tom VII. Językoznawstwo, red. E. Komorowska, D. Dziadosz. Wydawnictwo Uniwersytetu Szczecińskiego, Szczecin, s.78-87.
Grabowski Ł., 2007,The National Russian Corpus as a teaching tool - general observations and case studies from the perspective of Russian language teaching in Poland [http://studiorum.ruscorpora.ru/index.phpoption=com_docman&task=doc_view&gid=79&tmpl=component&format=raw&Itemid=67], dostęp (30.10.2015).
Źródła informacji dla tłumaczy, 2012/2013, Instytut Informacji Naukowej i Bibliotekoznawstwa Uniwersytetu Jagiellońskiego w roku akademickim 2012/2013. [http://rusinfosources.blogspot.com/2013/01/korpus-jezyka-rosyjskiego.html] dostęp (10.10.2015).