lem - clarin-plclarin-pl.eu › wp-content › uploads › 2018 › 07 ›...

LEM Instrukcja użytkownika

LEM

Podstawowe informacje LEM Miejsce dostępu Do czego służy LEM

Instrukcja obsługi Wygląd aplikacji

Zakładanie konta i logowanie do usług CLARIN-PL Wprowadzanie danych

Korpusy przykładowe Wybór analizatora morfologicznego Stoplista Wybór zadania Przetwarzanie danych Pobieranie rezultatów Zadania

Lematyzacja Wyznaczanie części mowy Charakterystyki czasownikowe wypowiedzi Statystyki słów i części mowy Wyznaczanie nazw własnych Statystyki nazw własnych Ujednoznacznienie znaczeń leksykalnych Hiperonimy i hiponimy Sentyment Analiza stylometryczna

Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM Modelowanie tematyczne

Materiały szkoleniowe

Podstawowe informacje

LEM

LEM = Literary Exploratory Machine (Maszyna do eksploracji literackiej) to system do

przetwarzania tekstów literackich w języku polskim w celu wydobywania z nich informacji

statystycznych.

Aplikacja LEM do przetwarzania i analizy danych tekstowych wykorzystuje zintegrowane

narzędzia:

● Apache Tika - konwerter plików, wykrywa i wydobywa teksty z wielu różnych typów

plików (m.in.: doc, docx, pptx, xlsx, odt, pdf, html, rtf).

● Morfeusz 2 ze słownikiem SGJP - przeprowadza analizę morfologiczną.

● WCRFT2 (demo) - tager morfo-syntaktyczny.

● Liner2 (demo) - narzędzie służące m.in. do wyznaczania nazw własnych.

● WSD (demo) - ujednoznacznianie znaczeń leksykalnych.

● Słowosieć - słownik semantyczny wykorzystywany do ujednoznaczniania znaczeń, a

także znajdowania hiponimów i hiperonimów.

● WebSty - służy do wyznaczania podobieństwa i grupowania tekstów.

● NKJP - wykorzystywany tagset (system znaczników).

Miejsce dostępu

LEM to narzędzie internetowe, które nie wymaga instalacji na

urządzeniu użytkownika, nie potrzebuje dodatkowego

oprogramowania. Aby skorzystać z aplikacji, wystarczy wpisać w

przeglądarce adres: http://ws.clarin-pl.eu/lem.shtml lub wyszukać

LEM wśród usług sieciowych udostępnionych na serwerze

http://ws.clarin-pl.eu/.

Do czego służy LEM

Za pomocą aplikacji LEM możemy przetworzyć dane tekstowe z wielu różnych plików

zapisanych w różnorodnych formatach, poddać je lematyzacji, wyznaczyć części mowy,

scharakteryzować użyte w tekście czasowniki, stworzyć posortowaną listę nazw własnych,

http://tika.apache.org/

http://sgjp.pl/morfeusz/

http://nlp.pwr.wroc.pl/redmine/projects/wcrft/wiki/

http://ws.clarin-pl.eu/tager.shtml

http://nlp.pwr.wroc.pl/pl/narzedzia-i-zasoby/liner2

http://ws.clarin-pl.eu/ner.shtml

http://ws.clarin-pl.eu/wsd.shtml

http://plwordnet.pwr.wroc.pl/wordnet/

http://ws.clarin-pl.eu/websty.shtml

http://nkjp.pl/poliqarp/help/ense2.html

http://ws.clarin-pl.eu/lem.shtml

http://ws.clarin-pl.eu/

wydobyć statystyki z korpusu, ujednoznacznić znaczenia leksykalne, wyznaczyć hiperonimy i

hiponimy, a także dokonać analizy stylometrycznej: wyznaczyć podobieństwo i pogrupować

teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizowania wyników.

LEM jest opracowywany przez CLARIN-PL (Politechnika Wrocławska) we współpracy z

Instytutem Badań Literackich Polskiej Akademii Nauk. Projekt opiera się na ścisłej współpracy

specjalistów IT, lingwistów i literaturoznawców, dzięki czemu aplikacja odpowiada

rzeczywistym potrzebom naukowców. Projekt jest wciąż rozwijany, planowane jest

wprowadzenie nowych funkcji.

Instrukcja obsługi

Wygląd aplikacji

W czerwonych ramkach zaznaczone zostały najważniejsze elementy systemu, których szczegółowy opis znajduje

się poniżej.

⇨ 1. Panel boczny - usługi CLARIN-PL

Z lewej strony znajduje się panel, za pomocą którego możemy

szybko uzyskać dostęp do podstawowych usług:

○ przejść do strony głównej projektu CLARIN-PL;

○ przejść na stronę główną repozytorium DSpace;

○ skontaktować się z administratorami systemu;

○ zarejestrować się lub zalogować;

○ uzyskać dostęp do podstawowych narzędzi, aplikacji i zasobów

udostępnionych w ramach infrastruktury CLARIN-PL;

○ uzyskać dostęp do bezpiecznego dysku Clarin Nextcloud, za pomocą którego użytkownicy

mogą przechowywać swoje (prywatne - nieudostępnione publicznie) dane, które następnie

w łatwy sposób można przetworzyć za pomocą aplikacji.

Zakładanie konta i logowanie do usług CLARIN-PL

Korzystanie z platformy CLARIN-PL jest całkowicie darmowe, jednak

wymaga od użytkownika rejestracji indywidualnego konta. Możemy

założyć je przy pomocy bocznego panelu. Wybieramy opcję Zaloguj,

a następnie w nowym oknie opcję Register. Rejestracja nowego

użytkownika odbywa się za pośrednictwem repozytorium DSpace -

kolejne komunikaty przeprowadzą nas przez szybką procedurę

zakładania konta.

Raz założone konto zapewnia dostęp do różnych usług

udostępnionych w ramach konsorcjum CLARIN-PL, m.in.

repozytorium, dysku internetowego Clarin Nextcloud, a także

poszczególnych usług, narzędzi i systemów - w tym LEM.

Każde kolejne logowanie na indywidualne konto użytkownika CLARIN-PL rozpoczynamy od

opcji Zaloguj w panelu bocznym.

https://clarin-pl.eu/dspace/

⇨ 2. Użyte narzędzia i instrukcja

W tym miejscu znajdują się podstawowe informacje o wykorzystanych narzędziach, a także

skrócona instrukcja obsługi, przedstawiająca w trzech krokach kolejność wykonywanych przez

użytkownika czynności.

⇨ 3. Opcje

Dzięki opcjom znajdującym się w tej sekcji użytkownik może wyznaczyć zadanie, które

wykona w aplikacji (możemy wybierać spośród 11 różnych zadań), a także wskazać, za

pomocą którego tagera i analizatora morfologicznego przeprowadzona zostanie analiza

(więcej informacji na ten temat znajduje się w części Wybór analizatora morfologicznego).

⇨ 4. Dane wejściowe

W tej sekcji użytkownik może wybrać, w jaki sposób

zostaną przez niego wprowadzone dane - w czterech

zakładkach znajdują się cztery różne sposoby

wprowadzania danych: plik ZIP, adres URL,

repozytorium DSpace oraz internetowy dysk

CLARIN-PL Nextcloud. Wszystkie możliwości zostały opisane w części: Wprowadzanie

danych.

Wprowadzanie danych Przygotowanie korpusu tekstów Ponieważ LEM wykorzystuje w swej pracy konwerter umożliwiający odczytywanie danych

tekstowych z różnych rodzajów plików, możliwe jest załadowanie danych w różnych

formatach, np.: txt, doc, docx, pptx, xlsx, odt, pdf, html, rtf. Należy jednak pamiętać, że

dane, które chcemy przetworzyć w aplikacji muszą zostać wcześniej zapisane w archiwum w formacie ZIP. Wyjątkiem jest tu opcja wprowadzenia korpusu tekstów z repozytorium DSpace, która umożliwia importowanie do systemu LEM archiwum zawierającego różne pliki

tekstowe.

Istnieją cztery sposoby wprowadzenia danych: przesłanie plików z komputera użytkownika,

wgranie kolekcji tekstów umiejscowionych na zewnętrznym serwerze w Internecie,

https://clarin-pl.eu/dspace/

skorzystanie z usług internetowego dysku CLARIN Nextcloud lub wybór korpusu

opublikowanego wcześniej w repozytorium DSpace:

Plik ZIP

Użytkownik może załadować wcześniej przygotowany

plik do aplikacji bezpośrednio ze swojego komputera.

Wystarczy przeciągnąć go do wyznaczonego ramką

obszaru. Możemy też kliknąć w pole i wybrać plik ZIP z

dysku komputera. Uwaga: Wprowadzone dane nie mogą przekroczyć 10 MB.

Adres URL

Użytkownicy mogą przesłać dane, które zostały wcześniej spakowane do formatu ZIP i

umieszczone w sieci. Aby to zrobić należy wkleić adres URL w okienko “Adres pliku”:

Repozytorium DSpace

Opcja importowania korpusu z

DSpace do LEM pozwala na

wprowadzenie plików tekstowych

zdeponowanych w repozytorium

(więcej: Instrukcja użytkownika

DSpace) o dowolnym rozmiarze i

liczbie. Należy jednak uwzględnić, że

czas ich przetwarzania zależeć

będzie od wielkości korpusu.

Jeśli użytkownik zdecyduje się wprowadzić dane za pośrednictwem DSpace, będzie mógł

wybrać spośród kolekcji tekstów zdeponowanych w repozytorium przez niego lub innego

użytkownika - w większości dane są udostępniane na otwartych licencjach (zatem również od

http://www.clarin-pl.eu/dspace

http://clarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-DSpace_210318.pdf

http://clarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-DSpace_210318.pdf

stopnia “otwartości” korpusu zależeć będzie metoda jego wprowadzenia do systemu LEM).

Spośród rozwijanej listy dostępnych korpusów wybieramy ten, który nas interesuje i

potwierdzamy wybór w kolumnie po prawej stronie. Na tym etapie nie następuje jeszcze

transfer danych, proces przetwarzania rozpocznie się dopiero po wybraniu opcji Analizuj u

dołu strony.

Pliki z repozytorium są wstępnie przetworzone do formatu CCL (standardowy format

kodowania korpusów tekstowych, oparty na XML), co przyspiesza działanie aplikacji. Ponadto

nie ma ograniczeń dla liczby i rozmiaru plików.

CLARIN-PL Nextcloud

System LEM jest powiązany z internetowym dyskiem CLARIN Nextcloud. Oznacza to, że

użytkownik, który przechowuje na dysku swoje dane, może je wgrać bezpośrednio za

pośrednictwem aplikacji. W tym wypadku konieczne jest wcześniejsze zalogowanie do usługi.

Najprościej zrobić to przy pomocy bocznego panelu z usługami CLARIN-PL - korzystamy

wtedy z opcji Zaloguj (zobacz: Zakładanie konta i logowanie do usług CLARIN-PL) lub przez

wybranie opcji zaloguj się w sekcji Wprowadzanie danych, zakładka Nextcloud:

Jeśli wybierzemy tę drugą drogę,

zostaniemy przeniesieni do systemu

DSpace, gdzie możliwe będzie

wprowadzenie danych potrzebnych do

logowania. Powrót do LEMa nastąpi

automatycznie po zalogowaniu.

Po zalogowaniu w zakładce Nextcloud

pojawi się zawartość naszego

internetowego dysku. Wybieramy

wcześniej przygotowany plik ZIP, który

chcemy przetworzyć w systemie LEM.

Korpusy przykładowe

Przed przystąpieniem do pracy

użytkownik może zapoznać się z działaniem systemu. W sekcji Dane wejściowe w zakładce

URL znajduje się okno wyboru przykładowych kolekcji tekstów o zróżnicowanej wielkości,

udostępnionych na serwerze CLARIN-PL, na których użytkownik może przetestować

funkcjonowanie systemu LEM.

Wybór analizatora morfologicznego

Przed przystąpieniem do przetwarzania danych należy wybrać wersję wykorzystanego tagera:

❏ Tager WCRFT z analizatorem Morfeusz1 - wersja o mniejszym rejestrze,

rekomendowana dla starszych tekstów (takich, które powstały między początkiem XIX

a końcem XX wieku). Uboższy słownik analizatora morfologicznego sprawia, że słowa,

które nie występują w słowniku, nie zostaną poddane analizie.

❏ Tager WCRFT z analizatorem Morfeusz2 - najnowsza wersja analizatora

morfologicznego udostępnia więcej informacji niż pierwowzór (dodana została

klasyfikacja nazw własnych i kwalifikatory), jest wyposażona w nowy moduł syntezy

oraz większy rejestr i nowsze słownictwo. Zalecany do nowszych tekstów,

zawierających elementy dyskursu technologicznego.

❏ Morphodita - najnowszy tager, oparty o sieci neuronowe. Model tagera jest

modyfikowany co kilka dni. W efekcie rezultaty przetwarzania mogą się różnić przy tych

samych tekstach.

Stoplista

Uwaga: opcja dostępna jest dla niektórych

zadań. Umożliwia załadowanie własnej

stoplisty - listy form bazowych (lematów)

wybranych przez użytkownika, które

zostaną wyłączone z przeprowadzanych

operacji w celu zredukowania liczby

wyników. Stoplistę należy przygotować wcześniej jako plik txt, w którym wybrane lematy

oddzielone zostaną enterami (np. w ciągu: a acz aczkolwiek aj albo ale ani bo bowiem by byli

bynajmniej). Aby wprowadzić stoplistę należy najpierw zaznaczyć pole wyboru w zielonej

ramce - automatycznie otworzy się okno umożliwiające wprowadzenie pliku z komputera

użytkownika. Po załadowaniu danych możemy sprawdzić listę lematów wybierając ikonę ℹ.

W ten sposób użytkownik może filtrować wprowadzone do systemu LEM dane tekstowe,

wyłączyć z analizy np. lematy popularne, występujące najczęściej lub najrzadziej, nieistotne.

Wybór zadania

Przed załadowaniem pliku należy określić zadanie, jakie LEM ma wykonać. Wybierać możemy

z listy 11 opcji, które zostały opisane w dalszej części instrukcji. Ich skrócone opisy wyświetlą

się po kliknięciu ikony ℹ.

Przetwarzanie danych

Po załadowaniu pliku i wyznaczeniu zadania, wybieramy przycisk Analizuj. Im większy rozmiar

załadowanych plików, tym dłuższy czas ładowania. Na pasku postępu obserwować możemy

proces przetwarzania wprowadzonych informacji.

Pasek postępu

Pobieranie rezultatów

Efektem przetwarzania danych jest plik z

rezultatami zapisanymi w formacie XLSX,

CSV, TXT (w zależności od

wykonywanego zadania), który

pobieramy, klikając w pole z wynikiem.

Rezultaty niektórych procesów otrzymamy

w archiwum ZIP, w którym znajdują się

pliki w formacie CSV (z rozszerzeniem

.txt), gotowe do zaimportowania

(kodowanie UTF-8). Szczegółowe

informacje na temat rozdzielenia wierszy,

kolumn itp. zostały podane w opisie

każdego zadania w sekcji Opcje, a także

w Opisie zadań - ikona ℹ znajdująca się

przy wyborze zadania.

Zadania

Lematyzacja Lematyzacja, inaczej hasłowanie, polega na wyznaczeniu dla każdego słowa tekstowego

morfologicznej formy podstawowej - leksemu. Proces ten często jest pierwszym krokiem

(szczególnie istotnym dla języka o tak złożonym systemie odmiany jak język polski), który

poprzedza bardziej zaawansowane analizy.

Rezultaty lematyzacji otrzymujemy w pliku tekstowym (spakowanym do archiwum ZIP).

Tekst wyjściowy Rezultat lematyzacji

Dzięki niemu miasto zyskało podziemne połączenie

prawobrzeżnej części z centrum oraz sieć metra.

dzięki on miasto zyskać podziemny połączenie

prawobrzeżny część z centrum oraz sieć metro.

Wyznaczanie części mowy

Operacja polegająca na przypisaniu do każdego

słowa z tekstu (orth) leksemu oraz formy

gramatycznej (tag) zgodnie z systemem znaczników

NKJP.

Rezultaty otrzymujemy w plikach CSV (zapisanych w

archiwum ZIP), które można następnie importować

np. do arkusza kalkulacyjnego jako dane.

Charakterystyki czasownikowe wypowiedzi

Przy pomocy aplikacji LEM użytkownik może uzyskać dane dotyczące liczby i charakterystyki

występowania czasowników (z wyróżnieniem osób, liczb i rodzajów) oraz bezokoliczników we

wprowadzonych dokumentach tekstowych.

Rezultaty otrzymujemy w pliku XLSX w postaci podzielonej na podgrupy tabeli.

Statystyki słów i części mowy

LEM umożliwia użytkownikowi opracowanie statystyk dotyczących liczby i

procentowego udziału lematów i form gramatycznych w całym

wprowadzonym korpusie. Jako korpus rozumiany jest tu wgrany przez

użytkownika plik ZIP i wszystkie zarchiwizowane w nim dokumenty

tekstowe. Rezultaty otrzymujemy w postaci archiwum ZIP, które zawiera

pliki XLSX. Uwaga: system oznaczeń poszczególnych form gramatycznych (tagów) znajduje

się pod tym linkiem: NKJP.




Statystyki dotyczące liczebności różnych form gramatycznych w tekstach literackich.

Statystyki dotyczące procentowego udziału danych lematów w tekstach.

Sposób oznaczeń poszczególnych form gramatycznych związany jest z wyborem notacji NKJP.

Wyznaczanie nazw własnych

Dzięki aplikacji LEM możemy także wyodrębnić nazwy własne w poszczególnych

dokumentach. Funkcja ta przydać się może wtedy, gdy z dużej ilości materiału tekstowego

chcemy wyznaczyć np. nazwiska badaczy w dokumentach naukowych (tworzenie indeksów).

Lista nazw własnych, którą otrzymujemy po przetworzeniu pliku, posortowana jest

alfabetycznie dla każdego dokumentu wejściowego. Rezultaty otrzymujemy w archiwum ZIP w

postaci plików tekstowych, z których każdy zawiera listę nazw własnych, występujących w

konkretnym tekście.

Statystyki nazw własnych

Oprócz wyodrębniania nazw własnych z tekstu, możemy wykorzystać LEM do wyliczenia dla

nich prostych statystyk, które określają liczbę ich wystąpień w poszczególnych dokumentach.

Rezultaty otrzymujemy w pliku XLSX. W poszczególnych arkuszach znajdują się wyniki dla

kolejnych dokumentów.

Ujednoznacznienie znaczeń leksykalnych

Jest to opcja, do której LEM wykorzystuje zasoby Słowosieci (słownika semantycznego).

Pozwala wyznaczyć na podstawie kontekstu, jako które z możliwych znaczeń można

interpretować konkretny, niejednoznaczny semantycznie wyraz, użyty w tekście. Rezultaty


http://plwordnet.pwr.wroc.pl/wordnet/

otrzymujemy w archiwum ZIP, zawierającym pliki CSV, które będą bardziej czytelne, jeśli

użytkownik otworzy je np. w arkuszu kalkulacyjnym. W pierwszej kolumnie (orth) znajdziemy

słowo w formie użytej w tekście, w drugiej - leksem, w trzeciej - oznaczenie formy

gramatycznej (NKJP), a w czwartej znaczenie ze Słowosieci w postaci synsetu (zbioru

prawie-synonimów, jednostek leksykalnych, które można uznać za równoznaczne

semantycznie). Na tej podstawie użytkownik może przeszukiwać wprowadzony tekst,

wyodrębniając jednostki przypisane do wybranej kategorii znaczeniowej, a także odszukać te,

które odpowiadają konkretnemu znaczeniu.

orth lemat tag synset

chmurą chmura subst kłąb.1(22:ksz) dym.2(22:ksz) kurzawa.1(22:ksz) tuman.1(22:ksz) kłębowisko.1(22:ksz) obłok.1(22:ksz) chmura.2(22:ksz)

Uwaga: brak wartości w czwartej kolumnie oznacza, że lemat nie występuje w słowniku Słowosieci.

Hiperonimy i hiponimy

Do tego zadania również wykorzystywane są zasoby Słowosieci. LEM, oprócz podania

odpowiedniego znaczenia dla słowa występującego w tekście, wyszukuje dla niego hiponimy i

hiperonimy.

● Hiponimy: jednostki o znaczeniu węższym od danego i podrzędnym wobec niego.

● Hiperonimy: jednostki o znaczeniu ogólnym, nadrzędnym w stosunku do innych.

orth lemat tag synset hiponimy hiperonimy

pociągów pociąg subst pociąg.1(3:wytw) kolej.2(3:wytw)

metro.1;pociąg międzynarodowy.1;pociąg sanitarny.1;pociąg miejscowy.1;pociąg marszrutowy.1;pociąg roboczy.1;wąskotorówka.1 kolejka wąskotorowa.1;szynobus.1 autobus szynowy.1;pociąg pancerny.1 pancerka.2;ekspres.1 expres.3;pociąg towarowy.1;pociąg pasażerski.1;pociąg szpitalny.1;pociąg pocztowy.1;pociąg szybki.1;kolejka metra.1 pociąg metra.1

pojazd szynowy.1 pojazd kolejowy.1

Uwaga: brak wartości w kolumnie 4, 5 i 6 oznacza, że lemat nie występuje w słowniku Słowosieci.

Rezultaty otrzymujemy w archiwum ZIP, zawierającym pliki CSV, które będą bardziej czytelne,

jeśli użytkownik otworzy je w arkuszu kalkulacyjnym.

Sentyment

Analiza sentymentu polega na zliczaniu dla każdego dokumentu liczby wystąpień

czasowników z wyróżnieniem osoby i liczby, zaimków, a także polaryzacji emocjonalnej

(pozytywnej, neutralnej, negatywnej) i wyróżnionych emocji (m.in.: nieużyteczność,

użyteczność, radość, złość, nieszczęście, szczęście, strach, zaufanie, krzywda).

Wyniki otrzymujemy w formacie XLSX (domyślny format MS Excel).

Analiza stylometryczna

Z poziomu narzędzia LEM użytkownik ma dostęp do uproszczonej wersji aplikacji WebSty,

stworzonej w ramach infrastruktury CLARIN-PL. Funkcja ta służy do przeprowadzenia analizy

stylometrycznej, polegającej na wyznaczeniu grup tekstów w obrębie wprowadzonego

korpusu, które wykazują wspólne cechy, wynikające z przynależności do danego stylu

(autorskiego/gatunkowego/literackiego). Uwaga: Liczba plików w korpusie wejściowym powinna być większa niż 2. Rezultaty wyznaczania podobieństwa i grupowania tekstów

otrzymujemy w postaci różnych metod

wizualizacji wyników (m.in. wykresy

kołowe, radarowe, wizualizacja 3D).

Przed wykonaniem analizy

stylometrycznej ustalamy parametry

określające liczbę grup, na które narzędzie dzielić będzie korpus tekstowy. Liczba ta musi wynosić co najmniej 2, ale nie może przekroczyć liczby dokumentów w korpusie.

Po przetworzeniu danych w dolnej części pojawią się odnośniki do ośmiu różnych metod

wizualizacji wyników grupowania i wyznaczania podobieństwa tekstów.

Rezultaty wyznaczania podobieństwa i grupowania tekstów otrzymujemy w postaci różnych metod wizualizacji wyników. Wybranie jednej z dostępnych opcji otworzy nową kartę, znajdziemy w niej zwizualizowane rezultaty analizy stylometrycznej (z wyjątkiem opcji Plik xslx z podziałem na grupy, który zostanie pobrany na dysk użytkownika).

http://ws.clarin-pl.eu/websty.shtml#

http://www.clarin-pl.eu/

Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM

Interaktywne drzewo - dendrogram umożliwia

wizualizację hierarchicznego grupowania danych

według podobieństwa grup. Kolejne węzły pokazują

stopnie podobieństwa - od pnia (korzenia) drzewa

elementy się różnicują, a każdy kolejny węzeł

pokazuje rozchodzenie się poszczególnych

elementów.

Mapa ciepła - metoda wizualizowania podobieństwa,

polegająca na przydawaniu każdemu elementowi

odcienia (zgodnie z kolorystyką przyjętą do tworzenia

tzw. map termicznych), odpowiadającego wartości,

jaką reprezentuje. Szczegółowe informacje dotyczące

przynależności do grupy i stopnia podobieństwa

wyświetlają się w ramce po najechaniu kursorem na

wybrany element pola.

Wykres radarowy - dane w tym wariancie są

przedstawione na planie koła. Wartości określające

wzajemne powiązania zaznaczone są za pomocą

sieci połączeń pomiędzy poszczególnymi elementami,

zróżnicowanej pod względem koloru i grubości linii.

Przy pomocy tego wykresu użytkownik jest w stanie

określić, z którym z dokumentów w analizowanym

korpusie dany tekst ma najwięcej i najmniej powiązań.

Wykres kołowy - w tym przypadku wyniki wzajemnych

powiązań w obrębie korpusu przedstawione są w

postaci koła. Poszczególne powiązania pozwalają

prześledzić, które z tekstów wykazują podobieństwo w

stosunku do innych.

Plik xslx z podziałem na grupy - aby sprawdzić, do

której grupy zostały przypisane poszczególne

dokumenty wchodzące w skład korpusu, klikamy w

link i uruchamiamy pobieranie pliku w formacie XSLX.

Otrzymujemy tabelę, składającą się z tytułów plików

tekstowych i numerów grup, do których zostały

przypisane.

Skalowanie wielowymiarowe (MDS) - rezultaty

przedstawione są w taki sposób, że o podobieństwie

poszczególnych elementów w obrębie korpusu

świadczy ich rozmieszczenie względem siebie

(obiekty podobne będą znajdowały się bliżej, a różne

dalej). Użytkownik może wybrać metodę skalowania

(np. skalowanie wielowymiarowe metryczne lub

niemetryczne, metoda t-SNE).

Skalowanie wielowymiarowe z wizualizacją 3D -

wizualizacja danych w postaci ruchomej i

przestrzennej, z możliwością wprowadzenia przez

użytkownika parametrów dotyczących metody

skalowania.

Analiza istotności cech w grupach - Interfejs webowy do wyznaczania istotności cech charakterystycznych dla

danej grupy. Wykorzystując wyspecjalizowane metody testów statystycznych (Grupy metod, Weka [miary

informacyjne], testy statystyczne, drzewa losowe, eliminacja cech i algorytmy supervised), pozwala na

wygenerowanie wyników z zastosowaniem różnych algorytmów obliczeniowych.

Modelowanie tematyczne

Za pośrednictwem aplikacji LEM możemy uzyskać dostęp do uproszczonego narzędzia

służącego do modelowania tematycznego - Topic: http://ws.clarin-pl.eu/topic.shtml. Jego

działanie opiera się na statystycznym modelu, który pozwala wyodrębnić abstrakcyjne

“tematy” ze zbioru dokumentów. Polega to na wskazaniu tych leksemów, które ze względu na

częstotliwość i zakres występowania w korpusie tekstowym, uznane zostają za istotne i

http://ws.clarin-pl.eu/topic.shtml

specyficzne dla analizowanego zbioru (zlematyzowane i odfiltrowane rzeczowniki, które

pojawiły się w ponad 80% dokumentów).

● Liczba grup tematycznych - użytkownik może określić liczbę grup tematycznych, które

zostaną wyznaczone dla wprowadzonych danych tekstowych.

● Podział plików wejściowych na części - opcja umożliwia automatyczne rozdzielenie

wprowadzanego materiału na mniejsze części.

Rezultaty operacji wykonanych w aplikacji dla funkcji modelowania tematycznego użytkownik

otrzyma w kilku różnych formatach (XSLX, JSON), a także w postaci graficznej:

Grafika (mapa ciepła) ilustruje udział tematów w poszczególnych dokumentach. Jeśli

wyodrębniona grupa tematyczna ma swój udział w analizowanym dokumencie - barwa na

mapie będzie miała cieplejszy odcień, a po najechaniu kursorem na pole wyświetli się ramka z

grafiką: wydzielonymi dla danej grupy tematami.

Uwaga: wszystkie wydzielone grupy tematyczne w formacie .png możemy pobrać, wybierając

opcję: Spakowane pliki graficzne w polu wyników, które otrzymaliśmy po przeprowadzonej

analizie. Pliki graficzne odpowiadają liczbie wydzielonych grup, a podane w nich tematy różnią

się wyrazistością i wielkością liter w zależności od ich udziału w korpusie tekstowym.

Dodatkowe informacje

● prezentacja dotycząca aplikacji LEM http://clarin-pl.eu/wp-content/uploads/2017/06/CLARIN-PL-LEM-cw.pdf

● systemem znaczników (tagów) NKJP

http://clarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf


lem - clarin-plclarin-pl.eu › wp-content › uploads › 2018 › 07 ›...

Documents