lem - clarin-plclarin-pl.eu › wp-content › uploads › 2018 › 07 ›...
TRANSCRIPT
LEM Instrukcja użytkownika
LEM
Podstawowe informacje LEM Miejsce dostępu Do czego służy LEM
Instrukcja obsługi Wygląd aplikacji
Zakładanie konta i logowanie do usług CLARIN-PL Wprowadzanie danych
Korpusy przykładowe Wybór analizatora morfologicznego Stoplista Wybór zadania Przetwarzanie danych Pobieranie rezultatów Zadania
Lematyzacja Wyznaczanie części mowy Charakterystyki czasownikowe wypowiedzi Statystyki słów i części mowy Wyznaczanie nazw własnych Statystyki nazw własnych Ujednoznacznienie znaczeń leksykalnych Hiperonimy i hiponimy Sentyment Analiza stylometryczna
Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM Modelowanie tematyczne
Materiały szkoleniowe
Podstawowe informacje
LEM
LEM = Literary Exploratory Machine (Maszyna do eksploracji literackiej) to system do
przetwarzania tekstów literackich w języku polskim w celu wydobywania z nich informacji
statystycznych.
Aplikacja LEM do przetwarzania i analizy danych tekstowych wykorzystuje zintegrowane
narzędzia:
● Apache Tika - konwerter plików, wykrywa i wydobywa teksty z wielu różnych typów
plików (m.in.: doc, docx, pptx, xlsx, odt, pdf, html, rtf).
● Morfeusz 2 ze słownikiem SGJP - przeprowadza analizę morfologiczną.
● WCRFT2 (demo) - tager morfo-syntaktyczny.
● Liner2 (demo) - narzędzie służące m.in. do wyznaczania nazw własnych.
● WSD (demo) - ujednoznacznianie znaczeń leksykalnych.
● Słowosieć - słownik semantyczny wykorzystywany do ujednoznaczniania znaczeń, a
także znajdowania hiponimów i hiperonimów.
● WebSty - służy do wyznaczania podobieństwa i grupowania tekstów.
● NKJP - wykorzystywany tagset (system znaczników).
Miejsce dostępu
LEM to narzędzie internetowe, które nie wymaga instalacji na
urządzeniu użytkownika, nie potrzebuje dodatkowego
oprogramowania. Aby skorzystać z aplikacji, wystarczy wpisać w
przeglądarce adres: http://ws.clarin-pl.eu/lem.shtml lub wyszukać
LEM wśród usług sieciowych udostępnionych na serwerze
http://ws.clarin-pl.eu/.
Do czego służy LEM
Za pomocą aplikacji LEM możemy przetworzyć dane tekstowe z wielu różnych plików
zapisanych w różnorodnych formatach, poddać je lematyzacji, wyznaczyć części mowy,
scharakteryzować użyte w tekście czasowniki, stworzyć posortowaną listę nazw własnych,
wydobyć statystyki z korpusu, ujednoznacznić znaczenia leksykalne, wyznaczyć hiperonimy i
hiponimy, a także dokonać analizy stylometrycznej: wyznaczyć podobieństwo i pogrupować
teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizowania wyników.
LEM jest opracowywany przez CLARIN-PL (Politechnika Wrocławska) we współpracy z
Instytutem Badań Literackich Polskiej Akademii Nauk. Projekt opiera się na ścisłej współpracy
specjalistów IT, lingwistów i literaturoznawców, dzięki czemu aplikacja odpowiada
rzeczywistym potrzebom naukowców. Projekt jest wciąż rozwijany, planowane jest
wprowadzenie nowych funkcji.
Instrukcja obsługi
Wygląd aplikacji
W czerwonych ramkach zaznaczone zostały najważniejsze elementy systemu, których szczegółowy opis znajduje
się poniżej.
⇨ 1. Panel boczny - usługi CLARIN-PL
Z lewej strony znajduje się panel, za pomocą którego możemy
szybko uzyskać dostęp do podstawowych usług:
○ przejść do strony głównej projektu CLARIN-PL;
○ przejść na stronę główną repozytorium DSpace;
○ skontaktować się z administratorami systemu;
○ zarejestrować się lub zalogować;
○ uzyskać dostęp do podstawowych narzędzi, aplikacji i zasobów
udostępnionych w ramach infrastruktury CLARIN-PL;
○ uzyskać dostęp do bezpiecznego dysku Clarin Nextcloud, za pomocą którego użytkownicy
mogą przechowywać swoje (prywatne - nieudostępnione publicznie) dane, które następnie
w łatwy sposób można przetworzyć za pomocą aplikacji.
Zakładanie konta i logowanie do usług CLARIN-PL
Korzystanie z platformy CLARIN-PL jest całkowicie darmowe, jednak
wymaga od użytkownika rejestracji indywidualnego konta. Możemy
założyć je przy pomocy bocznego panelu. Wybieramy opcję Zaloguj,
a następnie w nowym oknie opcję Register. Rejestracja nowego
użytkownika odbywa się za pośrednictwem repozytorium DSpace -
kolejne komunikaty przeprowadzą nas przez szybką procedurę
zakładania konta.
Raz założone konto zapewnia dostęp do różnych usług
udostępnionych w ramach konsorcjum CLARIN-PL, m.in.
repozytorium, dysku internetowego Clarin Nextcloud, a także
poszczególnych usług, narzędzi i systemów - w tym LEM.
Każde kolejne logowanie na indywidualne konto użytkownika CLARIN-PL rozpoczynamy od
opcji Zaloguj w panelu bocznym.
⇨ 2. Użyte narzędzia i instrukcja
W tym miejscu znajdują się podstawowe informacje o wykorzystanych narzędziach, a także
skrócona instrukcja obsługi, przedstawiająca w trzech krokach kolejność wykonywanych przez
użytkownika czynności.
⇨ 3. Opcje
Dzięki opcjom znajdującym się w tej sekcji użytkownik może wyznaczyć zadanie, które
wykona w aplikacji (możemy wybierać spośród 11 różnych zadań), a także wskazać, za
pomocą którego tagera i analizatora morfologicznego przeprowadzona zostanie analiza
(więcej informacji na ten temat znajduje się w części Wybór analizatora morfologicznego).
⇨ 4. Dane wejściowe
W tej sekcji użytkownik może wybrać, w jaki sposób
zostaną przez niego wprowadzone dane - w czterech
zakładkach znajdują się cztery różne sposoby
wprowadzania danych: plik ZIP, adres URL,
repozytorium DSpace oraz internetowy dysk
CLARIN-PL Nextcloud. Wszystkie możliwości zostały opisane w części: Wprowadzanie
danych.
Wprowadzanie danych Przygotowanie korpusu tekstów Ponieważ LEM wykorzystuje w swej pracy konwerter umożliwiający odczytywanie danych
tekstowych z różnych rodzajów plików, możliwe jest załadowanie danych w różnych
formatach, np.: txt, doc, docx, pptx, xlsx, odt, pdf, html, rtf. Należy jednak pamiętać, że
dane, które chcemy przetworzyć w aplikacji muszą zostać wcześniej zapisane w archiwum w formacie ZIP. Wyjątkiem jest tu opcja wprowadzenia korpusu tekstów z repozytorium DSpace, która umożliwia importowanie do systemu LEM archiwum zawierającego różne pliki
tekstowe.
Istnieją cztery sposoby wprowadzenia danych: przesłanie plików z komputera użytkownika,
wgranie kolekcji tekstów umiejscowionych na zewnętrznym serwerze w Internecie,
skorzystanie z usług internetowego dysku CLARIN Nextcloud lub wybór korpusu
opublikowanego wcześniej w repozytorium DSpace:
Plik ZIP
Użytkownik może załadować wcześniej przygotowany
plik do aplikacji bezpośrednio ze swojego komputera.
Wystarczy przeciągnąć go do wyznaczonego ramką
obszaru. Możemy też kliknąć w pole i wybrać plik ZIP z
dysku komputera. Uwaga: Wprowadzone dane nie mogą przekroczyć 10 MB.
Adres URL
Użytkownicy mogą przesłać dane, które zostały wcześniej spakowane do formatu ZIP i
umieszczone w sieci. Aby to zrobić należy wkleić adres URL w okienko “Adres pliku”:
Repozytorium DSpace
Opcja importowania korpusu z
DSpace do LEM pozwala na
wprowadzenie plików tekstowych
zdeponowanych w repozytorium
(więcej: Instrukcja użytkownika
DSpace) o dowolnym rozmiarze i
liczbie. Należy jednak uwzględnić, że
czas ich przetwarzania zależeć
będzie od wielkości korpusu.
Jeśli użytkownik zdecyduje się wprowadzić dane za pośrednictwem DSpace, będzie mógł
wybrać spośród kolekcji tekstów zdeponowanych w repozytorium przez niego lub innego
użytkownika - w większości dane są udostępniane na otwartych licencjach (zatem również od
stopnia “otwartości” korpusu zależeć będzie metoda jego wprowadzenia do systemu LEM).
Spośród rozwijanej listy dostępnych korpusów wybieramy ten, który nas interesuje i
potwierdzamy wybór w kolumnie po prawej stronie. Na tym etapie nie następuje jeszcze
transfer danych, proces przetwarzania rozpocznie się dopiero po wybraniu opcji Analizuj u
dołu strony.
Pliki z repozytorium są wstępnie przetworzone do formatu CCL (standardowy format
kodowania korpusów tekstowych, oparty na XML), co przyspiesza działanie aplikacji. Ponadto
nie ma ograniczeń dla liczby i rozmiaru plików.
CLARIN-PL Nextcloud
System LEM jest powiązany z internetowym dyskiem CLARIN Nextcloud. Oznacza to, że
użytkownik, który przechowuje na dysku swoje dane, może je wgrać bezpośrednio za
pośrednictwem aplikacji. W tym wypadku konieczne jest wcześniejsze zalogowanie do usługi.
Najprościej zrobić to przy pomocy bocznego panelu z usługami CLARIN-PL - korzystamy
wtedy z opcji Zaloguj (zobacz: Zakładanie konta i logowanie do usług CLARIN-PL) lub przez
wybranie opcji zaloguj się w sekcji Wprowadzanie danych, zakładka Nextcloud:
Jeśli wybierzemy tę drugą drogę,
zostaniemy przeniesieni do systemu
DSpace, gdzie możliwe będzie
wprowadzenie danych potrzebnych do
logowania. Powrót do LEMa nastąpi
automatycznie po zalogowaniu.
Po zalogowaniu w zakładce Nextcloud
pojawi się zawartość naszego
internetowego dysku. Wybieramy
wcześniej przygotowany plik ZIP, który
chcemy przetworzyć w systemie LEM.
Korpusy przykładowe
Przed przystąpieniem do pracy
użytkownik może zapoznać się z działaniem systemu. W sekcji Dane wejściowe w zakładce
URL znajduje się okno wyboru przykładowych kolekcji tekstów o zróżnicowanej wielkości,
udostępnionych na serwerze CLARIN-PL, na których użytkownik może przetestować
funkcjonowanie systemu LEM.
Wybór analizatora morfologicznego
Przed przystąpieniem do przetwarzania danych należy wybrać wersję wykorzystanego tagera:
❏ Tager WCRFT z analizatorem Morfeusz1 - wersja o mniejszym rejestrze,
rekomendowana dla starszych tekstów (takich, które powstały między początkiem XIX
a końcem XX wieku). Uboższy słownik analizatora morfologicznego sprawia, że słowa,
które nie występują w słowniku, nie zostaną poddane analizie.
❏ Tager WCRFT z analizatorem Morfeusz2 - najnowsza wersja analizatora
morfologicznego udostępnia więcej informacji niż pierwowzór (dodana została
klasyfikacja nazw własnych i kwalifikatory), jest wyposażona w nowy moduł syntezy
oraz większy rejestr i nowsze słownictwo. Zalecany do nowszych tekstów,
zawierających elementy dyskursu technologicznego.
❏ Morphodita - najnowszy tager, oparty o sieci neuronowe. Model tagera jest
modyfikowany co kilka dni. W efekcie rezultaty przetwarzania mogą się różnić przy tych
samych tekstach.
Stoplista
Uwaga: opcja dostępna jest dla niektórych
zadań. Umożliwia załadowanie własnej
stoplisty - listy form bazowych (lematów)
wybranych przez użytkownika, które
zostaną wyłączone z przeprowadzanych
operacji w celu zredukowania liczby
wyników. Stoplistę należy przygotować wcześniej jako plik txt, w którym wybrane lematy
oddzielone zostaną enterami (np. w ciągu: a acz aczkolwiek aj albo ale ani bo bowiem by byli
bynajmniej). Aby wprowadzić stoplistę należy najpierw zaznaczyć pole wyboru w zielonej
ramce - automatycznie otworzy się okno umożliwiające wprowadzenie pliku z komputera
użytkownika. Po załadowaniu danych możemy sprawdzić listę lematów wybierając ikonę ℹ.
W ten sposób użytkownik może filtrować wprowadzone do systemu LEM dane tekstowe,
wyłączyć z analizy np. lematy popularne, występujące najczęściej lub najrzadziej, nieistotne.
Wybór zadania
Przed załadowaniem pliku należy określić zadanie, jakie LEM ma wykonać. Wybierać możemy
z listy 11 opcji, które zostały opisane w dalszej części instrukcji. Ich skrócone opisy wyświetlą
się po kliknięciu ikony ℹ.
Przetwarzanie danych
Po załadowaniu pliku i wyznaczeniu zadania, wybieramy przycisk Analizuj. Im większy rozmiar
załadowanych plików, tym dłuższy czas ładowania. Na pasku postępu obserwować możemy
proces przetwarzania wprowadzonych informacji.
Pasek postępu
Pobieranie rezultatów
Efektem przetwarzania danych jest plik z
rezultatami zapisanymi w formacie XLSX,
CSV, TXT (w zależności od
wykonywanego zadania), który
pobieramy, klikając w pole z wynikiem.
Rezultaty niektórych procesów otrzymamy
w archiwum ZIP, w którym znajdują się
pliki w formacie CSV (z rozszerzeniem
.txt), gotowe do zaimportowania
(kodowanie UTF-8). Szczegółowe
informacje na temat rozdzielenia wierszy,
kolumn itp. zostały podane w opisie
każdego zadania w sekcji Opcje, a także
w Opisie zadań - ikona ℹ znajdująca się
przy wyborze zadania.
Zadania
Lematyzacja Lematyzacja, inaczej hasłowanie, polega na wyznaczeniu dla każdego słowa tekstowego
morfologicznej formy podstawowej - leksemu. Proces ten często jest pierwszym krokiem
(szczególnie istotnym dla języka o tak złożonym systemie odmiany jak język polski), który
poprzedza bardziej zaawansowane analizy.
Rezultaty lematyzacji otrzymujemy w pliku tekstowym (spakowanym do archiwum ZIP).
Tekst wyjściowy Rezultat lematyzacji
Dzięki niemu miasto zyskało podziemne połączenie
prawobrzeżnej części z centrum oraz sieć metra.
dzięki on miasto zyskać podziemny połączenie
prawobrzeżny część z centrum oraz sieć metro.
Wyznaczanie części mowy
Operacja polegająca na przypisaniu do każdego
słowa z tekstu (orth) leksemu oraz formy
gramatycznej (tag) zgodnie z systemem znaczników
NKJP.
Rezultaty otrzymujemy w plikach CSV (zapisanych w
archiwum ZIP), które można następnie importować
np. do arkusza kalkulacyjnego jako dane.
Charakterystyki czasownikowe wypowiedzi
Przy pomocy aplikacji LEM użytkownik może uzyskać dane dotyczące liczby i charakterystyki
występowania czasowników (z wyróżnieniem osób, liczb i rodzajów) oraz bezokoliczników we
wprowadzonych dokumentach tekstowych.
Rezultaty otrzymujemy w pliku XLSX w postaci podzielonej na podgrupy tabeli.
Statystyki słów i części mowy
LEM umożliwia użytkownikowi opracowanie statystyk dotyczących liczby i
procentowego udziału lematów i form gramatycznych w całym
wprowadzonym korpusie. Jako korpus rozumiany jest tu wgrany przez
użytkownika plik ZIP i wszystkie zarchiwizowane w nim dokumenty
tekstowe. Rezultaty otrzymujemy w postaci archiwum ZIP, które zawiera
pliki XLSX. Uwaga: system oznaczeń poszczególnych form gramatycznych (tagów) znajduje
się pod tym linkiem: NKJP.
Statystyki dotyczące liczebności różnych form gramatycznych w tekstach literackich.
Statystyki dotyczące procentowego udziału danych lematów w tekstach.
Sposób oznaczeń poszczególnych form gramatycznych związany jest z wyborem notacji NKJP.
Wyznaczanie nazw własnych
Dzięki aplikacji LEM możemy także wyodrębnić nazwy własne w poszczególnych
dokumentach. Funkcja ta przydać się może wtedy, gdy z dużej ilości materiału tekstowego
chcemy wyznaczyć np. nazwiska badaczy w dokumentach naukowych (tworzenie indeksów).
Lista nazw własnych, którą otrzymujemy po przetworzeniu pliku, posortowana jest
alfabetycznie dla każdego dokumentu wejściowego. Rezultaty otrzymujemy w archiwum ZIP w
postaci plików tekstowych, z których każdy zawiera listę nazw własnych, występujących w
konkretnym tekście.
Statystyki nazw własnych
Oprócz wyodrębniania nazw własnych z tekstu, możemy wykorzystać LEM do wyliczenia dla
nich prostych statystyk, które określają liczbę ich wystąpień w poszczególnych dokumentach.
Rezultaty otrzymujemy w pliku XLSX. W poszczególnych arkuszach znajdują się wyniki dla
kolejnych dokumentów.
Ujednoznacznienie znaczeń leksykalnych
Jest to opcja, do której LEM wykorzystuje zasoby Słowosieci (słownika semantycznego).
Pozwala wyznaczyć na podstawie kontekstu, jako które z możliwych znaczeń można
interpretować konkretny, niejednoznaczny semantycznie wyraz, użyty w tekście. Rezultaty
otrzymujemy w archiwum ZIP, zawierającym pliki CSV, które będą bardziej czytelne, jeśli
użytkownik otworzy je np. w arkuszu kalkulacyjnym. W pierwszej kolumnie (orth) znajdziemy
słowo w formie użytej w tekście, w drugiej - leksem, w trzeciej - oznaczenie formy
gramatycznej (NKJP), a w czwartej znaczenie ze Słowosieci w postaci synsetu (zbioru
prawie-synonimów, jednostek leksykalnych, które można uznać za równoznaczne
semantycznie). Na tej podstawie użytkownik może przeszukiwać wprowadzony tekst,
wyodrębniając jednostki przypisane do wybranej kategorii znaczeniowej, a także odszukać te,
które odpowiadają konkretnemu znaczeniu.
orth lemat tag synset
chmurą chmura subst kłąb.1(22:ksz) dym.2(22:ksz) kurzawa.1(22:ksz) tuman.1(22:ksz) kłębowisko.1(22:ksz) obłok.1(22:ksz) chmura.2(22:ksz)
Uwaga: brak wartości w czwartej kolumnie oznacza, że lemat nie występuje w słowniku Słowosieci.
Hiperonimy i hiponimy
Do tego zadania również wykorzystywane są zasoby Słowosieci. LEM, oprócz podania
odpowiedniego znaczenia dla słowa występującego w tekście, wyszukuje dla niego hiponimy i
hiperonimy.
● Hiponimy: jednostki o znaczeniu węższym od danego i podrzędnym wobec niego.
● Hiperonimy: jednostki o znaczeniu ogólnym, nadrzędnym w stosunku do innych.
orth lemat tag synset hiponimy hiperonimy
pociągów pociąg subst pociąg.1(3:wytw) kolej.2(3:wytw)
metro.1;pociąg międzynarodowy.1;pociąg sanitarny.1;pociąg miejscowy.1;pociąg marszrutowy.1;pociąg roboczy.1;wąskotorówka.1 kolejka wąskotorowa.1;szynobus.1 autobus szynowy.1;pociąg pancerny.1 pancerka.2;ekspres.1 expres.3;pociąg towarowy.1;pociąg pasażerski.1;pociąg szpitalny.1;pociąg pocztowy.1;pociąg szybki.1;kolejka metra.1 pociąg metra.1
pojazd szynowy.1 pojazd kolejowy.1
Uwaga: brak wartości w kolumnie 4, 5 i 6 oznacza, że lemat nie występuje w słowniku Słowosieci.
Rezultaty otrzymujemy w archiwum ZIP, zawierającym pliki CSV, które będą bardziej czytelne,
jeśli użytkownik otworzy je w arkuszu kalkulacyjnym.
Sentyment
Analiza sentymentu polega na zliczaniu dla każdego dokumentu liczby wystąpień
czasowników z wyróżnieniem osoby i liczby, zaimków, a także polaryzacji emocjonalnej
(pozytywnej, neutralnej, negatywnej) i wyróżnionych emocji (m.in.: nieużyteczność,
użyteczność, radość, złość, nieszczęście, szczęście, strach, zaufanie, krzywda).
Wyniki otrzymujemy w formacie XLSX (domyślny format MS Excel).
Analiza stylometryczna
Z poziomu narzędzia LEM użytkownik ma dostęp do uproszczonej wersji aplikacji WebSty,
stworzonej w ramach infrastruktury CLARIN-PL. Funkcja ta służy do przeprowadzenia analizy
stylometrycznej, polegającej na wyznaczeniu grup tekstów w obrębie wprowadzonego
korpusu, które wykazują wspólne cechy, wynikające z przynależności do danego stylu
(autorskiego/gatunkowego/literackiego). Uwaga: Liczba plików w korpusie wejściowym powinna być większa niż 2. Rezultaty wyznaczania podobieństwa i grupowania tekstów
otrzymujemy w postaci różnych metod
wizualizacji wyników (m.in. wykresy
kołowe, radarowe, wizualizacja 3D).
Przed wykonaniem analizy
stylometrycznej ustalamy parametry
określające liczbę grup, na które narzędzie dzielić będzie korpus tekstowy. Liczba ta musi wynosić co najmniej 2, ale nie może przekroczyć liczby dokumentów w korpusie.
Po przetworzeniu danych w dolnej części pojawią się odnośniki do ośmiu różnych metod
wizualizacji wyników grupowania i wyznaczania podobieństwa tekstów.
Rezultaty wyznaczania podobieństwa i grupowania tekstów otrzymujemy w postaci różnych metod wizualizacji wyników. Wybranie jednej z dostępnych opcji otworzy nową kartę, znajdziemy w niej zwizualizowane rezultaty analizy stylometrycznej (z wyjątkiem opcji Plik xslx z podziałem na grupy, który zostanie pobrany na dysk użytkownika).
Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM
Interaktywne drzewo - dendrogram umożliwia
wizualizację hierarchicznego grupowania danych
według podobieństwa grup. Kolejne węzły pokazują
stopnie podobieństwa - od pnia (korzenia) drzewa
elementy się różnicują, a każdy kolejny węzeł
pokazuje rozchodzenie się poszczególnych
elementów.
Mapa ciepła - metoda wizualizowania podobieństwa,
polegająca na przydawaniu każdemu elementowi
odcienia (zgodnie z kolorystyką przyjętą do tworzenia
tzw. map termicznych), odpowiadającego wartości,
jaką reprezentuje. Szczegółowe informacje dotyczące
przynależności do grupy i stopnia podobieństwa
wyświetlają się w ramce po najechaniu kursorem na
wybrany element pola.
Wykres radarowy - dane w tym wariancie są
przedstawione na planie koła. Wartości określające
wzajemne powiązania zaznaczone są za pomocą
sieci połączeń pomiędzy poszczególnymi elementami,
zróżnicowanej pod względem koloru i grubości linii.
Przy pomocy tego wykresu użytkownik jest w stanie
określić, z którym z dokumentów w analizowanym
korpusie dany tekst ma najwięcej i najmniej powiązań.
Wykres kołowy - w tym przypadku wyniki wzajemnych
powiązań w obrębie korpusu przedstawione są w
postaci koła. Poszczególne powiązania pozwalają
prześledzić, które z tekstów wykazują podobieństwo w
stosunku do innych.
Plik xslx z podziałem na grupy - aby sprawdzić, do
której grupy zostały przypisane poszczególne
dokumenty wchodzące w skład korpusu, klikamy w
link i uruchamiamy pobieranie pliku w formacie XSLX.
Otrzymujemy tabelę, składającą się z tytułów plików
tekstowych i numerów grup, do których zostały
przypisane.
Skalowanie wielowymiarowe (MDS) - rezultaty
przedstawione są w taki sposób, że o podobieństwie
poszczególnych elementów w obrębie korpusu
świadczy ich rozmieszczenie względem siebie
(obiekty podobne będą znajdowały się bliżej, a różne
dalej). Użytkownik może wybrać metodę skalowania
(np. skalowanie wielowymiarowe metryczne lub
niemetryczne, metoda t-SNE).
Skalowanie wielowymiarowe z wizualizacją 3D -
wizualizacja danych w postaci ruchomej i
przestrzennej, z możliwością wprowadzenia przez
użytkownika parametrów dotyczących metody
skalowania.
Analiza istotności cech w grupach - Interfejs webowy do wyznaczania istotności cech charakterystycznych dla
danej grupy. Wykorzystując wyspecjalizowane metody testów statystycznych (Grupy metod, Weka [miary
informacyjne], testy statystyczne, drzewa losowe, eliminacja cech i algorytmy supervised), pozwala na
wygenerowanie wyników z zastosowaniem różnych algorytmów obliczeniowych.
Modelowanie tematyczne
Za pośrednictwem aplikacji LEM możemy uzyskać dostęp do uproszczonego narzędzia
służącego do modelowania tematycznego - Topic: http://ws.clarin-pl.eu/topic.shtml. Jego
działanie opiera się na statystycznym modelu, który pozwala wyodrębnić abstrakcyjne
“tematy” ze zbioru dokumentów. Polega to na wskazaniu tych leksemów, które ze względu na
częstotliwość i zakres występowania w korpusie tekstowym, uznane zostają za istotne i
specyficzne dla analizowanego zbioru (zlematyzowane i odfiltrowane rzeczowniki, które
pojawiły się w ponad 80% dokumentów).
● Liczba grup tematycznych - użytkownik może określić liczbę grup tematycznych, które
zostaną wyznaczone dla wprowadzonych danych tekstowych.
● Podział plików wejściowych na części - opcja umożliwia automatyczne rozdzielenie
wprowadzanego materiału na mniejsze części.
Rezultaty operacji wykonanych w aplikacji dla funkcji modelowania tematycznego użytkownik
otrzyma w kilku różnych formatach (XSLX, JSON), a także w postaci graficznej:
Grafika (mapa ciepła) ilustruje udział tematów w poszczególnych dokumentach. Jeśli
wyodrębniona grupa tematyczna ma swój udział w analizowanym dokumencie - barwa na
mapie będzie miała cieplejszy odcień, a po najechaniu kursorem na pole wyświetli się ramka z
grafiką: wydzielonymi dla danej grupy tematami.
Uwaga: wszystkie wydzielone grupy tematyczne w formacie .png możemy pobrać, wybierając
opcję: Spakowane pliki graficzne w polu wyników, które otrzymaliśmy po przeprowadzonej
analizie. Pliki graficzne odpowiadają liczbie wydzielonych grup, a podane w nich tematy różnią
się wyrazistością i wielkością liter w zależności od ich udziału w korpusie tekstowym.
Dodatkowe informacje
● prezentacja dotycząca aplikacji LEM http://clarin-pl.eu/wp-content/uploads/2017/06/CLARIN-PL-LEM-cw.pdf
● systemem znaczników (tagów) NKJP