Temat:Tworzenie korpusu tekstów studenckich

  • Korpusomat
  • Korpus tekstów PL (wywiady)
  • Korpus tekstów RU (teksty)
  • Analiza danych korpusów
  • ZADANIA DO KORPUSÓW STWORZONYCH PRZEZ PAŃSTWA
  • (pobierz plik, uzupełnij, odeślij)
  • KORPUS_PL >
  • KORPUS_RU >
   
Z tekstów utworzyonych przez studentów za pomocą bezpłatnego narzędzia KORPUSOMAT tworzymy swój korpus.

Informacja o narzędziu

Korpusomat jest prostym narzędziem służącym do samodzielnego tworzenia elektronicznych korpusów tekstów. Użytkownik przesyła do Korpusomatu pliki tekstowe, które zostaną automatycznie oznakowane fleksyjnie i przygotowane do przeszukiwania [Korpusomat].

Korpusomat jest aplikacją webową służącą do tworzenia korpusów tekstów, z których można korzystać za pomocą wyszukiwarki MTAS. Aplikacja w zasadzie nie stanowi nowego narzędzia informatycznego, a jedynie łączy istniejące narzędzia, które powstały i wciąż są rozwijane w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN, a także w innych jednostkach naukowych zajmujących się przetwarzaniem języka polskiego. Zasadniczym celem Korpusomatu jest udostępnienie wyników działań tych narzędzi bez konieczności szczegółowego poznawania technicznej strony ich działania. [Korpusomat.pl]

Doświadczenia z korpusomatem

Za pomocą narzędzia utworzyłam własny korpus, który był mi potrzebny do prowadzenia badań nad stereotypami zawodowymi i etnicznymi wyrażonymi w memach internetowych o rosyjskich generałach. Pokażę Państwu

1) Korpus memów (utworzony do pracy "na piechotę") i

2) Korpus zwerbalizowanych jednostek memicznych Generał Denaturov (za pomocą narzędzia Korpusomat).

 

Nasze korpusy

Tworzymy projekty indywidualne, a potem projekt wspólny

Teksty 1: korpus w języku polskim (zebrane wywiady)

Tematyka: Gasto, Sny, Strach

Teksty 2: korpus w języku rosyjskim (teksty z netu)

Tematyka: Zwierzęta, Podróże, Śmieszne historie

Długość tekstów nie mniej, niż 500 znaków

Teksty posłużą nam do utworzenia 2 korpusów, z którymi będziemy pracować w czasie zajęć.

 

Całościowa analiza danych korpusowych

Eeee, a co to jest parsowanie zależnościowe?

W informatyce i lingwistyce, analiza składniowa (ang. parsing) - proces analizy tekstu złożonego z sekwencji tokenów (na przykład słów) w celu określenia jego struktury gramatycznej w odniesieniu do danej (mniej lub bardziej) gramatyki formalnej. Dzięki parsowaniu wiemy z jakimi cześciami mowy, w jakich przypadkach mamy do czynienia i wiemy z jakimi częściami mowy się łączą w zdaniu.

A co znaczą określenia adj. (adjective) - przymiotnik, sg. singular(is) - l.poj - to ja może tablekę pokażę, bo opisy w korpusach są po łacinie:

Najważniejsze informacje - oznaczenia
Rodzaj    
masculinum m męski
femininum f zeński
neutrum n nijaki
Liczba    
singularis sg l.poj
pluralis pl l.mn
Przypadki (Casi:)    
nominativus N (nom.) mianownik
genetivus G (gen.) dopełniacz
dativus D celownik
accusativus A biernik
ablativus A narzędnik
vocativus V wołacz
Części mowy    

Substantivum

sub. Rzeczownik
Adiectivum   Przymiotnik
Pronomen   Zaimek
Numerale   Liczebnik
Verbum   Czasownik
Części mowy nieodmienne:    
Adverbium adv. Przysłówek
Praepositio   Przyimek
Coniunctio   Spójnik
Interiectio   Wykrzyknik

 

Bibliografia: