Temat: Badanie tekstów w języku polskim: Teksty użytkowe, upraszczanie komunikacji

  • Zmiany w komunikacji codziennej (życie w sieci)
  • Logos - upraszczanie tekstu
  • Jasnopis
  • Voyant. Wizualna analiza tekstu
  • Słowosieć
  • Stylometria
  • Clarin: narzędzie wielofunkcjonalne

Dziś będziemy potrzebować jakiegoś tekstu własnego, który stworzycie Państwo samodzielnie. Dziś uwadze Państwa zaproponuje kilka narzędzi do pracy z językiem polskim. Państwo tworzą tekst, ja pogadankę.

Na początek jednak pytania i pogadanki:

Mamy problem z komunikacją w wymiarze społecznym? Jak Państwo uważacie?

Czy nasz język wymaga upraszczania? W jakich sytuacjach?

Już kilka lat temu powstały firmy zajmujące się projektowaniem komunikacji i jej uprzaszczaniem. LOGIOS > WCHODZIMY.

Tu możemy sprawdzić nasze teksty zadająć różne paramerty (nadawca - odbiorca, część mowy, trudne słowa i in.).

(TEKST 2.0): powszedni i wszechobecny (ang. Search Engine Optimization - SEO). Teraz TEKST 2.0 jest nawet TEKSTEM 3.0 - opracowanym przez AI na potrzeby szybkiej komunikacji.

Czy wiemy czym jest ten typ tekstu uzytkowego? Gdzie go najczęściej spotykamy? I jakie są jego cechy charakterystyczne?

NAJWAŻNIEJSZY JEST ODBIORCA. JĘZYK DOSTĘPNY DLA KAŻDEGO. UWOLNIENIE OD CZYTANIA.

Dla zainteresowanych przemyśłenia i doświadczenia copywritera i programy do edycji tekstów online

Żyjemy w takiej rzeczywistości tekstowej. Komunikacja ulega zmianom i jako ludzie szukamy optymalnych rozwiązań, aby była ona skuteczna.

JASNOPIS - Ograniczenie znaków do 3600 - trzeba sie logować.

  1. Analizuje język użyty w tekście tzn.:
    • oblicza średnią długość zdań i akapitów,
    • ustala liczbę słów trudnych (na podstawie listy frekwencyjnej i prawdopodobieństwa subiektywnego),
    • oblicza procent rzeczowników i czasowników,
    • oblicza procent rzeczowników abstrakcyjnych,
    • sprawdza długość tzw. łańcuchów dopełniaczy („ocena poprawności wykonania czynności...”),
    • oblicza procent imiesłowów,
    • sprawdza miejsce poszczególnych wyrazów na różnych listach frekwencyjnych.
  2. Zaznacza potencjalnie trudne wyrazy, zbyt długie zdania, akapity trudniejsze niż średnia dla tekstu.
  3. Czasem podpowiada, jakimi synonimami można zastąpić wyrazy trudne.

Voyant. Wizualna analiza tekstu

Współczesna humanistyka cyfrowa wprowadza szereg nowych metod i technik umożliwiających wizualną analizę tekstu. Narzędzia tego typu nie są obecnie bardzo skomplikowane i umożliwiają tworzenie projektów nawet osobom, które nie posiadają umiejętności programistycznych.

Pracę zaczynamy od wklejenia interesującego nas tekstu na zasadzie kopiuj/wklej do dużego okna oznaczonego etykietką „Add Text”, które znajduje się na głównej stronie Voyant. ODPALAMY. Kopiujemy swój tekst do okienka.

Program umożliwia także analizowanie tekstów online, wówczas należy wkleić adres URL interesującego nas tekstu sieciowego.

Następnie klikając przycisk „Reveal” przechodzimy do głównego panelu programu, który składa się z pięciu okien. W pierwszym oknie znajduje się zwizualizowany tekst. Wizualizacje te mogą przyjmować różne formy m.in. chmury tagów, gdzie najczęściej pojawiające się słowa są zobrazowane jako największe. Jedną z ciekawszych form wizualizacji jest wizualizacja sieci, która tworzy sieć łącząc słowa, które w tekście najczęściej występują po sobie. W innych oknach możemy analizować sam tekst, kontekst występowania poszczególnych słów i inne dane statystyczne. Okna programu są ze sobą połączone i operacje na jednym oknie prowadzą do symultanicznych zmian w innych.

Aplikacja jest bardzo prosta w obsłudze i oferuje wiele możliwości nie tylko badaczom literatury, ale także badaczom prasy, czy tekstów internetowych. Atutem Voyanta jest również połączenie możliwości analizy statystycznej z badaniami jakościowymi nad tekstem.

Słowosieć (z ang. wordnet) – wchodzimy na stronę. Proszę ze swojego tekstu wybrać trzy rzeczowniki, przymiotniki, czasowniki i sprawdzić je w Słowosieci.

Hiperonim: wyraz o znaczeniu ogólnym, szerszym i nadrzędnym w stosunku do innych, np. słowo "drzewo" jest hiperonimem dla słów "świerk", "brzoza". Podległe mu wyrazy bardziej szczegółowe nazywamy hiponimami.

Ja w tym czasie opowiem o projekcie:

To relacyjny słownik semantyczny, który odzwierciedla system leksykalny języka polskiego. Obecnie zawiera 191 000 rzeczowników, czasowników, przymiotników i przysłówków, 285 000 znaczeń oraz ponad 600 000 relacji. Jest już największym wordnetem na świecie i nieustannie się rozrasta.

Pojedyncze znaczenia w Słowosieci połączone są wzajemnymi relacjami. Tak powstaje sieć, w której każdy wyraz jest zdefiniowany poprzez odniesienie do innych wyrazów. Na przykład: samochód jest rodzajem pojazdu drogowego i dwuśladu, stanowi całość, na którą składają się np. silnik, spryskiwacz, podwozie, zaś jego wyrazami bliskoznacznymi są fura i bryka.

Słowosieć może służyć także jako słownik polsko-angielski i angielsko-polski, ponieważ została połączona z pierwszym i przez lata największym wordnetem na świecie – Princeton WordNet. Jest także bardzo ważnym zasobem w komputerowym przetwarzaniu języka i badaniach nad sztuczną inteligencją, m.in. znajduje zastosowanie w automatycznych tłumaczeniach Google Translate.

Projekt ten jest budowany wspólnym wysiłkiem leksykografów i informatyków z Grupy Technologii Językowych Politechniki Wrocławskiej. Decyzją władz uczelni Słowosieć jest dostępna bezpłatnie do powszechnego użytku [Słowosieć].

STYLOMETRIA

Najprostszym przykładem automatyzacji, który wszyscy przeszli i mają z nim doświadczenia jest system antyplagiatowy. Robiliśmy to na wcześniejszych etapach. Czy wiemy na czym opiera się ta wyszukiwarka plagiatu?
I jakiego typu analizy dokonuje?

- to po pierwsze analiza porównawcza (porównuje się fragmenty tekstów z innymi tekstami. Cel: wyszukanie tego samego fragmentu. Jeżeli fragment nie jest zaznaczony jako cytat, a podany jako autorski. Automatycznie otrzymujemy informację procentową o współczynniku plagiatu. Naturalnie tekst plagiatu jest zaznaczony i podane jego źródło.
- po drugie to analiza stylometryczna (porównuje się fragmenty tekstu pod względem ich jednolitości stylu, określa się idiostyl – styl autora). Wszelkie odstępstwa stylistyczne zaznaczone są jako wątpliwe.

Na czym polega stylometria i czy to jest proste?
Wydaje się, że to jest proste. Na przykład, gdy policzymy frekwencję słów w tekście lub zbiorze tekstów i porównamy pomiędzy sobą dwa, trzy teksty tego samego autora i mając na uwadze, że każda dłuższa wypowiedź składa się w połowie ze stu najczęstszych słów (należą do nich również: się, nie, tu, gdy, iż, że i in.), to pozostaje zbiór słów, z którego odrzuca się kontekst, składnię, związki gramatyczne i znaki przestankowe.  Analizy przede wszystkim oparte są na danych matematycznych (referencyjność, częstotliwości występowania jednostek (słów w tekstach), czyli wykorzystaniu policzalnych cech językowych tekstu.

Jak wyglądają wyniki badań?
Są ciekawe projekty prowadzone w Polsce z pomocą rodzimych instrumentów. W projektach analitycznych specjalizuje się Politechnika Wrocławska. Na przykład "Polski korpus listów pożegnalnych samobójców"– przejdź po linku > http://pcsn.uni.wroc.pl
Przechodzimy do zasobów i oglądamy je.  
- Jakie części mowy są najważniejsze dla analiz emocji w języku?
- Co można wywnioskować z otrzymanych rezultatów?

Analizy stylometryczne wykorzystywane są nie tylko w lingwistyce, korzystają z nich służby (policja, organy ścigania) i inne dziedziny nauki (psychologia, psychiatria, pedagogia i in.) w celu ustalenia autentyczności tekstów/wypowiedzi. Stylometria dotyczy wszystkich dzieł, które są produktami działalności człowieka: muzyki, sztuk plastycznych i architektonicznych, form użytkowych i in.

Dodatkowo badania związane ze stylometrią pozwalają odpowiedzieć na pytanie, czy dane korpusowe są wiarygodnym odzwierciedleniem sposobu, w jaki myślimy i czy, i w jaki sposób odzwierciedlają naszą rzeczywistość psycholingwistyczną.

 

CLARIN-PL to polskie konsorcjum naukowe, tworzy je sześć jednostek naukowych, w których powstają elektroniczne zasoby językowe i narzędzia do pracy z dużymi zbiorami tekstów w języku polskim. Infrastruktura ta służy naukowcom (głównie reprezentujących nauki humanistyczne i społeczne) w prowadzeniu badań przy zastosowaniu nowoczesnych rozwiązań cyfrowych. Korzystanie z oprogramowania i aparatury CLARIN jest bezpłatne. Jest to bardzo rozbudowany projekt, część narzędzi jest prostych w obsłudze i zrozumiałych, ale nie wszystkie. Liczba aplikacji i stopień trudności określona jest na stronie >

Co możemy zbadać i co mamy z tego? WCHODZIMY

  • Inkluz - interfejs do wykrywania w polskim tekście obcojęzycznych wtrąceń,
  • Respa - Identyfikacja słów kluczowych w tekście,
  • Analizator wydźwięku (emocje),
  • Summarize - initerfejs do streszczania tekstów,
  • TFiDF narzędzie do sprawdzania nasycenia tekstu słowami kluczowymi (Jedną z metod, która pomaga dostosować niezbędne frazy do danego contentu jest TF*IDF. Korzystając z niej można dowiedzieć się, czy nasycenie jest odpowiednie, a także znaleźć wyrażenia powiązane, które pozwolą zwiększyć tematyczność tekstu oraz wykorzystać możliwość wyświetlania się na bardziej niszowe zapytania).
  • Klasyfikacja tekstów,
  • Sentemo - wydźwięk emocjonalny tekstu,
  • Multiemo - analiza tekstów językach obcych,
  • HATESPEECH - badanie mowy nienawiści ,
  • GEOLOKACJE,
  • TermoPL - automatyczne wydobywanie polskiej terminologii,
  • TXTClean - Czyszczenie dokumentów z wybranych elementów składowych,
  • WebSim - Wielojęzyczny system analizy podobieństwa tekstów,
  • SHORTEXTOPIC - Modelowanie tematyczne krótkich tekstów i in.

Bibliografia: