methods for the linguistic summarization of data...
TRANSCRIPT
�ód¹, 11 maja 2008 r.
dr in». Adam NiewiadomskiInstytut Informatyki Politechniki �ódzkiejul. Wólcza«ska 215, 90-924 �ód¹
Streszczenie rozprawy habilitacyjnej
Methods for the Linguistic
Summarization of Data:
Applications of Fuzzy Sets
and Their Extensions
Metody lingwistycznego podsumowywania danych:
zastosowania zbiorów rozmytych i ich rozszerze«
Spis tre±ci
1 Wst¦p 4
I Zbiory rozmyte i ich rozszerzenia 6
2 Zbiory rozmyte 7
3 Interwaªowe (przedziaªowe) zbiory rozmyte 9
4 Zbiory rozmyte typu 2 11
II Rozmyte reprezentowanie informacji lingwistycznej13
5 Reprezentowanie informacji lingwistycznej 14
6 Interwaªowe zbiory rozmyte a informacja lingwistyczna 16
7 Zbiory rozmyte typu 2 a informacja lingwistyczna 20
III Lingwistyczne podsumowania baz danych 24
8 Lingwistyczne podsumowywanie baz danych z u»yciem zbiorówrozmytych 25
9 Interwaªowe podsumowania lingwistyczne baz danych 27
10 Podsumowania na zbiorach rozmytych typu 2 31
Spis tre±ci 3
IV Przykªadowe zastosowania 34
11 Podsumowania lingwistyczne i e-learning 35
12 Automatyczne generowanie komentarzy prasowych 37
13 Zako«czenie 39
Bibliogra�a 40
Rozdziaª 1
Wst¦p
Prezentowana rozprawa koncentruje si¦ na teorii i zastosowaniach metodoblicze« mi¦kkich, soft computing, gªównie teorii zbiorów rozmytych [51]i jej rozszerze«, do reprezentowania nieprecyzyjnej informacji lingwistycznej.Za punkt wyj±cia przyjmuje si¦ reprezentacje wyra»e« j¦zyka naturalnegooraz rachunek kwanty�katorów lingwistycznych proponowany przez Zadeha[52, 53]. W szczególno±ci przedstawione elementy teorii wykorzystywane s¡do konstrukcji i ewaluacji tzw. podsumowa« lingwistycznych baz danych wgYagera [48] z pó¹niejszymi rozszerzeniami Kacprzyka, Yagera i Zadro»nego[9, 10, 11].
Oryginalny wkªad autora w dziedzin¦ polega przede wszystkim na opra-cowaniu rozszerze« ww. metod reprezentacji i podsumowywania w oparciuo interwaªowe zbiory rozmyte [5, 43, 46] i zbiory rozmyte typu 2 w sensieMendla [12, 17]. Zaproponowano mi¦dzy innymi interwaªowe i typu 2 zmi-enne lingwistyczne wraz z operacjami na ich warto±ciach, rachunek wyra»e«kwanty�kowanych lingwistycznie, w których predykaty i/lub kwanty�katoryreprezentowane s¡ poprzez interwaªowe i/lub typu 2 zbiory rozmyte. W tymcelu rozszerzono lub na nowo zde�niowano szereg poj¦¢ zwi¡zanych z tymitypami zbiorów rozmytych, jak np. liczno±ci i analogiczne miary, no±niki,tak»e wªasno±ci normalno±ci, wypukªo±ci, itp. Nast¦pnie na tej podstawie,zaproponowano i przetestowano metody lingwistycznego podsumowywaniabaz danych oraz okre±lania jako±ci powstaªych podsumowa« w oparciu o in-terwaªowe zbiory rozmyte i o zbiory rozmyte typu 2.
�adna z zaproponowanych w rozprawie metod nie wyklucza równolegªegostosowania metod starszych, czyli tych opartych o zwykªe zbiory rozmyte.Przeciwnie, zaproponowane w rozprawie reprezentacje wyra»e« j¦zyka natu-ralnego, rachunki kwanty�katorów i podsumowania baz danych ujmuj¡ metodystarsze jako swoje szczególne przypadki. Przedstawione wyniki bada« opub-likowane zostaªy m.in. w pracach [21, 22, 24, 26, 27, 29, 30, 31, 37, 40].
Rozdziaª 1. Wst¦p 5
Rozprawa, oprócz rozdz. 1. i 13., zatytuªowanych odpowiednio Wst¦pi Zako«czenie podzielona jest na cztery cz¦±ci:
Cz¦±¢ I: Zbiory rozmyte i ich rozszerzenia Rozdziaªy 2., 3. i 4. �opisuj¡ kolejno podstawowe i znane w literaturze poj¦cia z zakresu zbiorówrozmytych, interwaªowych zbiorów rozmytych oraz zbiorów rozmytych typu2 w sensie Mendla.
Cz¦±¢ II: Rozmyte reprezentowanie informacji lingwistycznej Rozdzi-aªy 5., 6. i 7. � przedstawiaj¡ kolejno metody reprezentowania nieprecyzyjnejinformacji lingwistycznej poprzez zbiory rozmyte (wiadomo±ci literaturowe)oraz poprzez interwaªowe zbiory rozmyte i zbiory rozmyte typu 2 (w wi¦k-szo±ci oryginalny dorobek autora).
Cz¦±¢ III: Lingwistyczne podsumowania baz danych Rozdziaªy 8.,9. i 10. � prezentuj¡ metody lingwistycznego podsumowywania danych.Rozdziaª 8. streszcza metody opartych o zwykªe zbiory rozmyte (wiadomo±ciliteraturowe). Rozdziaªy 9. i 10. opisuj¡ autorskie zastosowania odpowied-nio interwaªowych i typu 2 zbiorów rozmytych do budowy i ewaluacji pod-sumowa« lingwistycznych.
Cz¦±¢ IV: Przykªadowe zastosowania Rozdziaªy 11. i 12. � w rozdz. 11.opisano zastosowanie lingwistycznych podsumowa« danych w eksperymenciez dziedziny e-learningu. Rozdziaª 12. przedstawia ide¦, zasad¦ dziaªaniai implementacj¦ systemu generuj¡cego wiadomo±ci tekstowe na podstawiedu»ych zbiorów danych z wykorzystaniem proponowanych w rozprawie in-terwaªowych i typu 2 podsumowa« lingwistycznych.
Podzi¦kowania
Chciaªbym wyrazi¢ swoj¡ wdzi¦czno±¢ ±rodowisku Instytutu Bada« Syste-mowych Polskiej Akademii Nauk za inspiracje i uprzejm¡ pomoc w bada-niach. Jestem tak»e wdzi¦czny pracownikom i studentom Instytutu Infor-matyki Politechniki �ódzkiej za ich istotny wpªyw na ostateczny ksztaªtprezentowanego materiaªu. Last but not least, chciaªbym podzi¦kowa¢ moimnauczycielom i przyjacioªom za ich nieoceniony wysiªek i »yczliw¡ zach¦t¦.
Cz¦±¢ I
Zbiory rozmyte i ich rozszerzenia
Rozdziaª 2
Zbiory rozmyte
Rozdziaª podaje podstawowe poj¦cia i de�nicje dotycz¡ce zbiorów rozmytychw sensie Zadeha [51]. Zbiór rozmyty1 A w niepustej przestrzeni rozwa»a« Xde�niuje si¦ jako:
A = {〈x, µA(x)〉:x ∈ X} (2.1)
gdzie µA(x):X → [0, 1] jest funkcj¡ przynale»no±ci do A traktowan¡ jakouogólnienie funkcji charakterystycznej zbioru zwykªego (klasycznego, ostrego,nierozmytego) i u»ywan¡ gªównie do reprezentowania nieprecyzyjnych wyra»e«j¦zyka naturalnego, np. ±redni wzrost, wysokie zarobki, czyli takich, którychreprezentacja przy zerojedynkowym zbiorze warto±ci przynale»no±ci, mogªabyokaza¢ si¦ nieadekwatna.
Poza takimi elementami teorii zbiorów rozmytych, jak operacje teori-omnogo±ciowe, normy trójk¡tne, czy relacje rozmyte i ich wªasno±ci, rozdziaªzawiera gªównie opisy i przykªady tych poj¦¢ kluczowych dla metod opisanychw dalszych cz¦±ciach. Z najwa»niejszych nale»y wymieni¢ no±nik zbiorurozmytego A w X
supp(A) = {x ∈ X :µA(x) > 0} (2.2)
Poprzez sko«czono±¢, niesko«czono±¢, policzalno±¢, niepoliczalno±¢ no±nikazbioru rozmytego A de�niuje si¦ odpowiednio sko«czono±¢, niesko«czono±¢,policzalno±¢, niepoliczalno±¢ A. Na de�nicji no±nika opiera si¦ poj¦cie stopniarozmycia wg [10] zbioru rozmytego A w X :
in(A) =|{x ∈ X : µA(x) > 0}|
|X |(2.3)
gdzie | · | oznacza stosown¡ miar¦ zbioru w danej przestrzeni. W rozprawiestosowane s¡ dwa rodzaje miar: 1) Liczby kardynalne zbiorów w sko«c-zonych X , zob. (2.5) oraz 2) caªka z funkcji charakterystycznej dla zbiorów
1Okre±lany tak»e jako zwykªy, tradycyjny lub typu 1 zbiór rozmyty.
Rozdziaª 2. Zbiory rozmyte 8
w przestrzeniach nieprzeliczalnych w R, gªównie przedziaªach domkni¦tych[a, b], zob. (2.6).
Poj¦cie no±nika uogólnia si¦ do α-przekroju zbioru rozmytego, α ∈ [0, 1]
Aα = {x ∈ X :µA(x) > α} (2.4)
Na podstawie [3] przyjmujemy liczb¦ kardynaln¡ zbioru rozmytego Aw sko«czonej przestrzeni rozwa»a« X , jako tzw. Σ-count(A):
|A| = Σ-count(A) = card(A) =∑
x∈XµA(x) (2.5)
Poniewa» przy de�niowaniu miar nieprecyzyjno±ci zbiorów rozmytych w Cz¦±ciII. oraz miar jako±ci podsumowa« lingwistycznych w Cz¦±ci III. u»ywane s¡caªki z funkcji przynale»no±ci zbiorów rozmytych w niepoliczalnych X ⊂ R,wprowadzono dodatkowy symbol clm(A) zde�niowany jako2:
|A| = clm(A) =
∫XµA(x)dx (2.6)
Warunki, w których podana caªka z funkcji µA(x) istnieje, omówione s¡ do-datkowo przy zastosowaniach wzoru (2.6).
Do reprezentowania kwanty�katorów lingwistycznych, np. okoªo poªowy,mniej ni» 100, poprzez zbiory rozmyte, konieczne s¡ de�nicje wªasno±ci nor-malno±ci i wypukªo±ci. Zbiór rozmyty A w X jest normalny wtw.
supx∈X
µA(x) = 1 (2.7)
Zbiór rozmyty A w R jest wypukªy wtw. dla ka»dego jego α-przekroju Aα
∀r,s∈Aα ∀λ∈[0,1] λr + (1− λ)s ∈ Aα (2.8)
Wªasno±ci te podane s¡ jako podstawa do ich uogólnie« dla interwaªowychi typu 2 zbiorów rozmytych, odpowiednio w rozdziaªach 3 i 4.
Istotna jest tu tak»e de�nicja rozszerzenia cylindrycznego zbioru rozmytego:zaªó»my, »e X1,. . . ,XN s¡ przestrzeniami rozwa»a«, a X1 × . . . × XN jestich iloczynem kartezja«skimi. Niech A b¦dzie zbiorem rozmytym w Xj,j ∈ {1, . . . , N}. Rozszerzeniem cylindrycznym A do X1 × . . . × XN , jestzbiór rozmyty ce(A) w X1 × . . .×XN :
ce(A) ={⟨〈x1, . . . , xN〉, µce(A)(x1, . . . , xN)
⟩:x1 ∈ X1, . . . , xN ∈ XN
}(2.9)
taki, »e µce(A)(x1, . . . , xN) = µA(xj).
2Skrót �clm� pochodzi od skojarzenia z cardinality-like measure, ale nie wprowadza si¦tej nazwy, by nie nadu»ywa¢ poj¦cia �liczno±ci�, zwªaszcza dla zbiorów niesko«czonych.
Rozdziaª 3
Interwaªowe (przedziaªowe)zbiory rozmyte
Interval-valued fuzzy sets, co tªumaczy si¦ na j¦zyk polski jako interwaªowe(przedziaªowe) zbiory rozmyte, lub dokªadniej: �zbiory rozmyte o warto±ci-ach [funkcji przynale»no±ci] b¦d¡cych przedziaªami�, zaproponowane zostaªyprzez Sambuca [43] jako tzw. φ-�ou function oraz dyskutowane przez Turk-sena [46] oraz Gorzaªczanego [5, 6]. Zbiory te maj¡ za zadanie formalizowa¢intuicje j¦zykowe wyra»aj¡ce niepewno±¢ dotycz¡c¡ stopnia przynale»no±cido zbioru rozmytego, np. element x nale»y do zbioru A w stopniu [0.5, 0.7],gdzie 0.5 wyra»a �dolny�, a 0.7 � �górny� kraniec dopuszczalnych rzeczy-wistych stopni przynale»no±ci. Mo»liwe jest tak»e traktowanie rzeczonegoprzedziaªu jako interwaªowego stopnia przynale»no±ci do zbioru rozmytego1.Formalnie, interwaªowy zbiór rozmyty A w X ma posta¢:
A = {〈x, µA
(x), µA(x)〉:x ∈ X} (3.1)
przy czym ∀x∈X 0 ≤ µA
(x) ≤ µA(x) ≤ 1, gdzie µA
:X → [0, 1] to dolna,a µA:X → [0, 1] � górna funkcja przynale»no±ci. A mo»na te» okre±li¢ jako{〈x, µA(x):x ∈ X〉}, gdzie µA(x):X → Int([0, 1]) funkcja przynale»no±cio warto±ciach w zbiorze wszystkich przedziaªów w [0, 1].
Operacje teoriomnogo±ciowe na interwaªowych zbiorach rozmytych de�ni-uje si¦ z wykorzystaniem norm trójk¡tnych, np. iloczyn A i B w X jestinterwaªowym zbiorem rozmytym w X :
µA∩B(x) = µ
A(x) t µ
B(x), µA∩B(x) = µA(x) t µB(x) (3.2)
1W ogólno±ci, przedziaª ten traktowa¢ mo»na jako szczególny przypadek liczbyrozmytej, czyli normalnego i wypukªego zbioru rozmytego w R o (przynajmniej przedzi-aªami) ci¡gªej funkcji przynale»no±ci.
Rozdziaª 3. Interwaªowe (przedziaªowe) zbiory rozmyte 10
De�nicja ta, podobnie jak wiele innych de�nicji dla tego typu zbiorów, jestrozszerzeniem odpowiedniej de�nicji (tu: iloczynu) dla zwykªych zbiorówrozmytych, a w konsekwencji tak»e i zbiorów klasycznych.
Operowanie stopniami przynale»no±ci b¦d¡cych przedziaªami wymaga zde�n-iowania dziaªa« arytmetycznych oraz relacji porz¡dkuj¡cych. Np. sum¦przedziaªów a, b w R de�niuje si¦ jako:
[a, a] + [b, b] = [a+ b, a+ b] (3.3)
za± przykªadow¡ relacj¦ cz¦±ciowego porz¡dku na zbiorze Int([0, 1]) � jako:
a ≤o b⇔ a ≤ b ∧ a ≤ b (3.4)
Z interwaªowym zbiorem rozmytymA w X wi¡»emy, w szczególno±ci, nast¦pu-j¡ce zwykªe zbiory rozmyte A, A w X
A = {〈x, µA
(x)〉:x ∈ X}, A = {〈x, µA(x)〉:x ∈ X} (3.5)
S¡ to szczególne przypadki operacji redukcji typu [12, 17].
Liczno±¢ interwaªowego zbioru rozmytego de�niujemy na bazie (2.5) jako:
|A| = card(A) = [card(A), card(A)] =
[∑x∈X
µA
(x),∑x∈X
µA(x)
](3.6)
dla sko«czonych A, A. (3.6) sprowadza si¦ do (2.5) dla zwykªych zbiorówrozmytych. Analogicznie de�niuje si¦ miar¦ clm(A) w przypadku niesko«c-zonych i niepoliczalnych A, A.
Je»eli X1,. . . ,XN s¡ przestrzeniami rozwa»a«, cylindryczne rozszerzenie Aw Xj, j = {1, . . . , N}, do X1× . . .×XN jest interwaªowym zbiorem rozmytymce(A) w X1 × . . .×XN :
ce(A) ={⟨〈x1, . . . , xN〉, µce(A)
(x1, . . . , xN), µce(A)(x1, . . . , xN)⟩
:
x1 ∈ X1, . . . , xN ∈ XN}
(3.7)
gdzie µce(A)
(x1, . . . , xN) = µA
(xj), µce(A)(x1, . . . , xN) = µA(xj). Je±li A jest
zwykªym zbiorem rozmytym, (3.7) redukuje si¦ do (2.9), s. 8.
Rozdziaª 4
Zbiory rozmyte typu 2
Pomysª zbioru rozmytego typu 2, type-2 fuzzy set, zaproponowany zostaªprzez Zadeha w 1975 [52]. Idea ta rozwijana jest od 1998 roku [12, 13, 17],a jej gªównym zaªo»eniem jest mo»liwo±¢ wyra»ania stopni przynale»no±cipoprzez zbiory rozmyte, w szczególno±ci: liczby rozmyte, w [0, 1]. Zatemzbiór rozmyty typu 2 A w X de�niuje si¦ jako:
A =
∫XµA(x)/x (4.1)
gdzie µA:X → F([0, 1]) jest funkcj¡ przynale»no±ci typu 2, a F([0, 1]) � zbiórwszystkich zbiorów rozmytych w [0, 1]. St¡d:
µA(x) =
∫u∈Jx
µx(u)/u (4.2)
gdzie u, oznaczane tak»e u eA, jest pierwszym (pierwszorz¦dnym) stopniemprzynale»no±ci x do A, za± Jx ⊆ [0, 1] jest zbiorem wszystkich pierwszychstopni przynale»no±ci x. Funkcja µx: Jx → [0, 1] to druga (drugorz¦dna)funkcja przynale»no±ci x do A. Stosowane s¡ tak»e inne notacje zbiorówrozmytych typu 2, np.: A = {〈x, u, µx(u)〉} lub
A = {〈x, u eA, µ eA(x, u eA)〉} (4.3)
w których zapisy µ eA(x, u eA) i µx(u) s¡ równoznaczne i oznaczaj¡ drugi (dru-gorz¦dny) stopie« przynale»no±ci dla x przy danym u.
Operacje teoriomnogo±ciowe na zbiorach rozmytych typu-2 de�niuje si¦przy pomocy dziaªa« join i meet, ozn. t i u, na funkcjach przynale»no±citypu 2. Przykªadowo,
µA∩B(x) = µA(x) u µB(x) =
∫uA
∫uB
(µx(uA) t1 µx(uB)
)/(uA t2 uB) (4.4)
Rozdziaª 4. Zbiory rozmyte typu 2 12
gdzie t1, t2 � t-normy, za± u eA, u eB � pierwsze stopnie przynale»no±ci x'a odpowied-nio do A, B.
Istnieje wiele sposobów wyra»ania przynale»no±ci elementów do zbiorówrozmytych typu 2, np. górna i dolna funkcja przynale»no±ci (lower and up-per membership functions, LMF (A), UMF (A)), gªówna (principal) funkcjaprzynale»no±ci, µprincipal(A), ±lad niepewno±ci (footprint of uncertainty, FOU(A))[17, 42, 47]. W szczególno±ci, pewne zale»no±ci przedstawia si¦ przy pomocyosadzonych zbiorów rozmytych typu 1 i typu 2. Niech A b¦dzie zbioremrozmytym typu 2 w X i ∀x∈X δx ∈ Jx ⊆ [0, 1]. Osadzony zbiór rozmyty typu2 Aδ w A okre±la funkcja przynale»no±ci typu 2:
µAδ(x) = µx(δx)/δx , δx ∈ Jx (4.5)
Tzw. Twierdzenie o Reprezentacji, The Representation Theorem, opisujeprzedstawienie zbioru rozmytego typu 2 w postaci sumy mnogo±ciowej wszys-tkich jego osadzonych zbiorów rozmytych typu 2 [18].
Przy tych samych zaªo»eniach, osadzonym zbiorem rozmytym typu 1 Aδw A nazwiemy zbiór rozmyty dany funkcj¡ przynale»no±ci µAδ(x) = δx.
Liczno±¢ zbioru rozmytego typu-2 wyra»ona by¢ mo»e na wiele ró»nychsposobów, np. jako skalar, zbiór rozmyty lub zbiór rozmyty typu 2 w N[8]. Na potrzeby reprezentowania informacji lingwistycznej przyj¦to de�nicj¦skalarnej liczno±ci tzw. non-fuzzy sigma-count inn¡ ni» w [8], aby zachowa¢zgodno±¢ z Σ-count dla zwykªych zbiorów rozmytych cf. (2.5) w sko«czonejprzestrzeni1 X :
|A| = nfσ-count(A) =∑x∈X
sup{u ∈ Jx:µx(u) = 1} (4.6)
zakªadaj¡c, »e sup ∅ = 0. De�nicja ta rozszerza (2.5). Analogicznie de�niu-jemy clm(A), zakªadaj¡c caªkowalno±¢ funkcji x→ sup{u ∈ Jx:µx(u) = 1}.
Rozszerzenie cylindryczne A w Xj de�niuje si¦ na podstawie (2.9), s. 8.Jest to zbiór rozmyty typu 2 ce(A) w X1 × . . .×XN :
ce(A) =
∫〈x1,...,xN 〉∈X1×...×XN
µce( eA)(x1, . . . , xN) , xj ∈ Xj, j ∈ {1, . . . , N}
(4.7)przy czym µce( eA)(x1, . . . , xN) = µ eA(xj).
1Dokªadniej: je±li zbiór rozmyty dany przez µprincipal(A) jest sko«czony.
Cz¦±¢ II
Rozmyte reprezentowanieinformacji lingwistycznej
Rozdziaª 5
Reprezentowanie informacjilingwistycznej poprzez zbioryrozmyte
Rozdziaª opisuje znane w literaturze metody reprezentowania informacji ling-wistycznej przy pomocy zbiorów rozmytych, gªównie [52, 53]. Zamieszczoneinformacje s¡ podstaw¡ do zaprezentowania oryginalnego dorobku autorapolegaj¡cego na uogólnieniu tych metod w oparciu o interwaªowe zbioryrozmyte i zbiory rozmyte typu 2, co przedstawiono w rozdz. 6 i 7. W kon-sekwencji, w rozdziaªach 9 i 10 zaprezentowane zostaªy oryginalne rozsz-erzenia metod lingwistycznego podsumowywania baz danych z wykorzys-taniem metod zaproponowanych w rozdziaªach 6 i 7.
Podstawowym poj¦ciem przy reprezentowaniu informacji lingwistycznej zwykorzystaniem zbiorów rozmytych jest zmienna lingwistyczna [52]. Przykªad-owa zmienna lingwistyczna wzrost okre±lona jest przez zbiór warto±ci ling-wistycznych {niski, ±redni, wysoki}, które skojarzone s¡ ze zbiorami rozmy-tymi w pewnej przestrzeni rozwa»a«. Bardziej zªo»one wyra»enia, np. ±rednii nie bardzo niski, reprezentuje si¦ poprzez teoriomnogo±ciowe i inne operacjena funkcjach przynale»no±ci, np. spójniki and, or, not lub tzw. mody�katorylingwistyczne, linguistic hedges, very, more-or-less [1, 16, 41, 52].
Z punktu widzenia lingwistycznego podsumowywania danych, istotne jestoperowanie na wyra»eniach zªo»onych, których skªadniki reprezentowane s¡przez zbiory rozmyte w ró»nych przestrzeniach rozwa»a«, np. niedrogi iokoªo dziesi¦cioletni (o samochodzie), gdzie pierwszy skªadnik okre±lony jestprzykªadowo jako zbiór rozmyty S1 w X1 = [1000, 5000] zªotych, za± drugi �jako S2 w X2 = [5, 20] lat. Wyra»enia takie reprezentujemy wówczas przezzbiory rozmyte b¦d¡ce rezultatami operacji na rozszerzeniach cylindrycznych
Rozdziaª 5. Reprezentowanie informacji lingwistycznej 15
S1 i S2 do X1 ×X2, np.
Sand = ce(S1) ∩ ce(S2) ⊆ X1 ×X2 (5.1)
Powy»sze przykªady wskazuj¡ na u»ycie zbiorów rozmytych jako reprezen-tacji wyra»onych lingwistycznie cech (wªa±ciwo±ci) pewnych obiektów.
Szczególne miejsce w informacji wyra»anej lingwistycznie, zajmuj¡ niepre-cyzyjne okre±lenia liczno±ci zbiorów obiektów, tzw. kwanty�katory lingwisty-czne, np. okoªo 100, czy prawie poªowa. Zakªada si¦, »e rozmyte reprezentacjetakich wyra»e« powinny uwzgl¦dnia¢ kwanty�katory klasyczne, czyli ∀ i ∃,jako przypadki szczególne. W niniejszym opracowaniu skupiono si¦ wi¦c natzw. algebraic approach1, wg którego kwanty�kator lingwistyczny winien by¢reprezentowany przez normalny i wypukªy zbiór rozmyty, zob. (2.7) i (2.8),w R+ ∪ {0} [4, 14, 15, 53].
Podstaw¡ rachunku wyra»e« kwanty�kowanych lingwistycznie s¡ dwieformy takich wyra»e«:
Q x'ów jest S1 (5.2)
Q x'ów b¦d¡cych S2 jest S1 (5.3)
oznaczanych odpowiednio jako QI i QII . Np. wielu studentów jest dobrymiprogramistami i Wielu inteligentnych studentów jest dobrymi programistami,gdzie Q=wielu � kwanty�kator lingwistyczny, za± S1=dobrzy programi±ci,S2=inteligentni � cechy reprezentowane przez zbiory rozmyte w sko«czonejX . W szczególno±ci wyró»nia si¦ dwa typy kwanty�katorów rozmytych: ab-solutne, np. mi¦dzy 10 a 20, okoªo 1000 � zbiory rozmyte w R+ ∪ {0}, orazwzgl¦dne, np. okoªo poªowy, prawie »aden � zbiory w [0, 1]. W pierwszejformie mog¡ by¢ stosowane oba typy, w drugiej � tylko wzgl¦dne.
Stopie« prawdziwo±ci wyra»enia w formie QI dany jest wzorem
T ( Q x'ów jest S1) = µQ
(card(S1)
M
)(5.4)
gdzie M = card(X ) je±li Q jest wzgl¦dny, lub M = 1 dla Q bezwzgl¦dnego.Za± w formie QII :
T ( Q x'ów które s¡ S2 jest S1) = µQ
(card(S1 ∩ S2)
card(S2)
)(5.5)
gdzie card(S1), card(S2) oblicza si¦ poprzez (2.5).Powy»sze wzory s¡ podstaw¡ przy okre±laniu stopni prawdziwo±ci ling-
wistycznych podsumowa« baz danych, co opisano w rozdz. 8.1Podczas gdy inne podej±cie, znane jako substitution approach cf. [44, 45], dotyczy
rozmytego reprezentowania wyra»e« podlegaj¡cych kwanty�kacji, a nie samych kwanty-�katorów.
Rozdziaª 6
Interwaªowe zbiory rozmytea informacja lingwistyczna
Argumenty uzasadniaj¡ce rozszerzenie rozmytych metod nieprecyzyjnego okre±la-nia (wyra»ania) stopni przynale»no±ci, zob. rozdz. 3 i 4, mog¡ odnosi¢ si¦tak»e do mo»liwo±ci rozszerzenia metod reprezentowania nieprecyzyjnej in-formacji lingwistycznej. W szczególno±ci, interwaªowych zbiorów rozmytych izbiorów rozmytych typu 2 u»y¢ mo»na do modelowania warto±ci funkcji przy-nale»no±ci proponowanych przez wielu ekspertów, tak»e ró»ni¡cych si¦ tzw.stopniem zaufania, level of con�dence. Jakiekolwiek operacje na warto±ciachtych funkcji, np. u±rednienie kilku stopni przynale»no±ci dla x w celu otrzy-mania jednej warto±ci rzeczywistej z przedziaªu [0, 1], mog¡ prowadzi¢ doutraty pewnych informacji oraz � w konsekwencji � do otrzymania wynikunieprzystaj¡cego do rzeczywisto±ci. Np. zaªó»my, »e trzech lekarzy oceniaw skali [0, 1] zwi¡zek pewnego symptomu z pewn¡ chorob¡ jako 0.5, 1, 1.U±redniona warto±¢ 0.833 nie oddaje dobrze poszczególnych opinii ekspertów,zwªaszcza nie jest zbli»ona do »adnej z nich, nie zawiera te» informacji o sto-sunkowo du»ej ró»nicy zda« pomi¦dzy ekspertami.
Sugeruje si¦ zatem wykorzystanie rozszerze« teorii zbiorów rozmytych,które modeluj¡ okre±lenia j¦zykowe przy pomocy wi¦cej ni» jednej funkcjiprzynale»no±ci, np. górnej i dolnej, jak w interwaªowych zbiorach rozmy-tych, lub pierwszo- i drugorz¦dnej � w zbiorach rozmytych typu 2.
Interwaªowe zmienne lingwistyczne
Jako punkt wyj±cia do dalszych rozwa»a«, w rozprawie zaproponowano dwarozszerzenia de�nicji zmiennej lingwistycznej, z wykorzystaniem interwaªowych(w tym rozdziale) i typu 2 (w rozdziale nast¦pnym) zbiorów rozmytych.
Rozdziaª 6. Interwaªowe zbiory rozmyte a informacja lingwistyczna 17
De�nicja 6.1 Interwaªow¡ zmienn¡ lingwistyczn¡ L, interval-valued linguis-tic variable, nazywamy pi¡tk¦ uporz¡dkowan¡ 〈L, H(L), X , G, K〉, gdzie Ljest nazw¡ zmiennej, H(L) � zbiorem warto±ci lingwistycznych (etykiet), X �przestrzeni¡ rozwa»a«, G � reguª¡ gramatyczn¡ generuj¡c¡ etykiety z H(L),za± K � reguª¡ semantyczn¡ przypisuj¡c¡ interwaªowe zbiory rozmyte w Xetykietom z H(L).
Stopniem zgodno±ci, compatibility level, CL, pewnego x ∈ X z etykiet¡l ∈ H(L) nazwiemy warto±¢ µSl(x) ∈ Int([0, 1]), gdzie Sl � interwaªowy zbiórrozmyty w X reprezentuj¡cy l.
Dla etykiet z H(L) stosowa¢ mo»na spójniki and, or, not, modelowanepoprzez operacje iloczynu, sumy i dopeªnienia interwaªowych zbiorów rozmy-tych w X . W szczególno±ci, w lingwistycznym podsumowywaniu danychreprezentuje si¦ okre±lenia obiektów, np. auto trwaªe i dobrze wyposa»one, wktórych komponenty reprezentowane s¡ przez S1, S2 nale»¡cych do ró»nychprzestrzeni rozwa»a«, np. X1, X2. Analogicznie do (5.1), stosuje si¦ wówczasoperacje na rozszerzeniach cylindrycznych S1, S2 do X1×X2, np. interwaªowyzbiór rozmyty Sor okre±laj¡ funkcje przynale»no±ci:
µSor(x1, x2) =[µS1
(x1) s µS2(x2), µS1
(x1) s µS2(x2)
], x1 ∈ X1, x2 ∈ X2
(6.1)gdzie s � dowolna t-konorma. W rozprawie zaproponowano tak»e de�nicjemody�katorów lingwistycznych dla wyra»e« reprezentowanych przez inter-waªowe zbiory rozmyte.
Kwanty�kacja wyra»e« reprezentowanych przez interwaªowe zbioryrozmyte
Rozpatrujemy wyra»enia kwanty�kowane lingwistycznie w formach QI (5.2)i QII (5.3), w których kwanty�katory lingwistyczne reprezentowane s¡ przezzwykªe, za± S1, S2 � przez interwaªowe zbiory rozmyte. Zakªadaj¡c sko«c-zono±¢ S1 i S2, stopnie prawdziwo±ci dla tych wyra»e« de�niuje si¦ jako:
T =
inf
r∈"card(S1)
|X| ,card(S1)
|X|
#µQ (r) , sup
r∈"card(S1)
|X| ,card(S1)
|X|
#µQ (r)
(6.2)
dla Q wzgl¦dnego (dla Q absolutnego wzór analogiczny) oraz
T =[t, t]
= [µQ (r∗) , µQ(r∗)] (6.3)
Rozdziaª 6. Interwaªowe zbiory rozmyte a informacja lingwistyczna 18
gdzie
r∗ = min
{card(S1 ∩ S2)
card(S2),card(S1 ∩ S2)
card(S2),card(S1 ∩ S2)
card(S2),card(S1 ∩ S2)
card(S2)
}(6.4)
i r∗ � analogicznie jako maximum. Dodatkowo zakªadamy card(S2) 6= 0i card(S2) 6= 0.
Interwaªowe kwanty�katory rozmyte
Interwaªowe zbiory rozmyte mog¡ modelowa¢ tak»e nieprecyzyjne wyra»e-nia dotycz¡ce liczno±ci zbiorów obiektów. Z punktu widzenia przyj¦tego wrozprawie, modele te musz¡ by¢ zgodne z podej±ciem Zadeha [53] opartymo zwykªe zbiory rozmyte, zob. rozdz. 5. Uogólnia si¦ wi¦c poj¦cia normal-nego i wypukªego zbioru rozmytego w R, po to aby zde�niowa¢ analogicznewªasno±ci dla interwaªowego zbioru rozmytego A w R.
De�nicja 6.2 A jest normalny wtw. A i A s¡ normalne.
De�nicja 6.3 A jest wypukªy wtw. A i A s¡ wypukªe.
gdzie A i A � zob. (3.5). Interwaªowym kwanty�katorem rozmytym nazwiemywi¦c wypukªy i normalny zbiórA, je±li reprezentuje on (nieprecyzyjne) okre±le-nie liczno±ci, np. okoªo 100, wi¦kszo±¢. Dodatkowo, w rozprawie wyró»niono,zgodnie z podej±ciem Zadeha, kwanty�katory absolutne i wzgl¦dne. Stopnieprawdziwo±ci dla wyra»e« w formach QI (5.2) i QII (5.3), w których Q jestreprezentowane przez odpowiedni interwaªowy zbiór rozmyty, de�niuje si¦jako:
T = [t, t] =[µQ
(card(S1)
), µQ
(card(S1)
)](6.5)
dla formy QI i Q absolutnego (wzór dla Q wzgl¦dnego pomijamy), oraz
T = [t, t] =
[µQ
(card(S1 ∩ S2)
card(S2)
), µQ
(card(S1 ∩ S2)
card(S2)
)](6.6)
dla formyQII iQ wzgl¦dnego, zakªadaj¡c, »e S1, S2 s¡ sko«czonymi zwykªymizbiorami rozmytymi.
Nieprecyzyjno±¢ wyra»e« reprezentowanych przez interwaªowe zbio-ry rozmyte
W rozprawie zaproponowano nast¦puj¡ce miary nieprecyzyjno±ci terminówlingwistycznych reprezentowanych przez interwaªowe zbiory rozmyte. In-terwaªowy stopie« rozmycia interwaªowego zbioru rozmytego A w X , zob.
Rozdziaª 6. Interwaªowe zbiory rozmyte a informacja lingwistyczna 19
Def. 6.5, jest rozszerzeniem analogicznej miary dla zwykªych zbiorów rozmy-tych (2.3). Dla peªnej analogii zaproponowano tak»e de�nicj¦ no±ników in-terwaªowego zbioru rozmytego.
De�nicja 6.4 No±nikiem dolnym (w¡skim) A w X nazywamy zbiór zwykªy
supp(A) = {x ∈ X :µA
(x) > 0} (6.7)
No±nikiem górnym (szerokim) nazywamy
supp(A) = {x ∈ X :µA(x) > 0} (6.8)
Dla zwykªego zbioru rozmytego supp(A) = supp(A).
De�nicja 6.5 Stopniem rozmycia A w X nazywamy przedziaª in(A) ⊆ [0, 1]taki »e
in(A) = [in(A), in(A)] =
[ |supp(A)||X |
,|supp(A)||X |
](6.9)
De�nicja 6.6 Interwaªowym ilorazem liczno±ci A w X nazywamy przedziaªrc(A) ⊆ [0, 1]:
rc(A) = [rc(A), rc(A)] =
[|A||X |
,|A||X |
](6.10)
W Def. 6.5 i 6.6 miara | · | jest interpretowana jako Σ-count (2.5) dla Asko«czonego lub jako clm (2.6) dla A niepoliczalnego. Zde�niowane miarynieprecyzyjno±ci znajduj¡ zastosowanie w obliczaniu jako±ci interwaªowychpodsumowa« lingwistycznych, co opisano szerzej w rozdz. 9.
Rozdziaª 7
Zbiory rozmyte typu 2a informacja lingwistyczna
Rozdziaª 7 rozprawy de�niuje przy u»yciu zbiorów rozmytych typu 2 w sen-sie Mendla analogiczne poj¦cia i metody, które przedstawiono w rozdz. 6 dlainterwaªowych zbiorów rozmytych. Gªównym powodem zastosowania kole-jnego rozszerzenia zbiorów Zadeha jest, na podstawie [12, 17, 18] zasadno±¢wprowadzenia dodatkowego [tu: drugiego � przyp. AN] stopnia swobody przy
okre±laniu niepewno±ci informacji. W zbiorach rozmytych typu 2 rol¦ tegodrugiego stopnia przejmuj¡ drugorz¦dne, secondary, stopnie przynale»no±ci,b¦d¡ce warto±ciami drugorz¦dnych funkcji przynale»no±ci.
Zasadniczo zbiory rozmyte typu 2 o dowolnych drugich funkcjach przy-nale»no±ci uwa»a si¦ za uogólnienie interwaªowych zbiorów rozmytych, np.u»ywa si¦ nazwy general type-2 fuzzy sets, czyli uogólnione, ogólne zbioryrozmyte typu 2. Jednak»e nie we wszystkich aspektach reprezentowanie in-formacji lingwistycznej oparte o general type 2 fuzzy sets bezpo±rednio rozwijaanalogiczne metody oparte o interwaªowe zbiory rozmyte (rozdz. 6). Jedn¡z przyczyn s¡ tu odmienne de�nicje liczno±ci i podobnych miar dla inter-waªowych i ogólnych typu 2 zbiorów rozmytych, gdy» dla pierwszych stosujesi¦ interwaªy, dla drugich za± � skalary. W rozprawie rozwa»a si¦ relacjepomi¦dzy tymi podej±ciami, jak równie» kryteria wyboru pod k¡tem zas-tosowa«, zasadniczo jednak uwa»a si¦ je za ró»ne i nie w peªni spójne.
Zmienne lingwistyczne typu 2
De�nicja 7.1 Zmienn¡ lingwistyczn¡ typu 2 L, type-2 linguistic variable,nazywamy pi¡tk¦ uporz¡dkowan¡ 〈L, H(L), X , G, K〉, której elementy in-terpretowane s¡ analogicznie do Def. 6.1, s. 16, z tym »e etykiety z H(L)reprezentowane s¡ przez zbiory rozmyte typu 2 w X .
Rozdziaª 7. Zbiory rozmyte typu 2 a informacja lingwistyczna 21
Stopniem zgodno±ci pewnego x ∈ X z etykiet¡ l ∈ H(L) nazwiemy trady-cyjny zbiór rozmyty µeSl(x) w [0, 1], gdzie Sl � zbiór rozmyty typu 2 w Xreprezentuj¡cy etykiet¦ l.
Podobnie do tradycyjnych i interwaªowych zbiorów rozmytych, wychodz¡cz Def. 7.1, reprezentowa¢ mo»na etykiety zªo»one przy u»yciu spójnikówand, or, and not. Z punktu widzenia lingwistycznego podsumowywaniabaz danych najbardziej interesuj¡ce jest reprezentowanie etykiet zªo»onych,których skªadniki modelowane s¡ poprzez zbiory rozmyte typu-2 w ró»nychprzestrzeniach rozwa»a«. Przez analogi¦ do (5.1) i (6.1), etykiety takiereprezentujemy poprzez operacje teoriomnogo±ciowe na rozszerzeniach cylindrycznychzbiorów rozmytych typu 2 S1 w X1, S2 w X2 reprezentuj¡cych poszczególneskªadniki, np.
µeSand(x1, x2) =µeS1(x1) u µeS2
(x2) =
=
∫ueS1
∫ueS2
(µx1(ueS1
) t1 µx2(ueS2))/
(ueS1t2 ueS2
) (7.1)
gdzie x1 ∈ X1, x2 ∈ X2.Aby zapewni¢ mo»liwo±¢ stosowania (7.1) tak»e dla etykiet reprezen-
towanych przez tradycyjne zbiory rozmyte, stosuje si¦ nast¦puj¡c¡ interpre-tacj¦ zbioru rozmytego A jako zbioru rozmytego typu 2:
A = {〈x, µA(x), 1〉:x ∈ X} (7.2)
co oznacza, »e wszystkie drugorz¦dne stopnie przynale»no±ci w A przyjmujesi¦ za równe 1.
Kwanty�kowanie wyra»e« reprezentowanych przez zbiory rozmytetypu 2
W rozprawie proponuje si¦ rozszerzenia rachunku kwanty�katorów rozmytychZadeha [53]. Punktem wyj±cia s¡ nast¦puj¡ce dwie formy wyra»e« kwanty-�kowanych lingwistycznie:
Q x'ów jest S1 (7.3)
Q x'ów które s¡ S2 jest S1 (7.4)
Z pocz¡tku przyjmijmy, i» Q reprezentowany jest przez zwykªy zbiór rozmyty,za± S1, S2 � przez sko«czone zbiory rozmyte typu 2 w X . Stopnie prawdzi-wo±ci, degrees of truth, wyra»enia (7.3) obliczamy nast¦puj¡co:
T(Q x'ów jest S1
)= µQ
(nfσ-count(S1)
M
)(7.5)
Rozdziaª 7. Zbiory rozmyte typu 2 a informacja lingwistyczna 22
gdzie nfσ-count(S1) jest liczb¡ rzeczywist¡ (4.6),M = |X | je±liQ jest wzgl¦dny,lub M = 1 je±li Q jest absolutny. Natomiast dla (7.4):
T(Q x'ów które s¡ S2 jest S1
)= µQ
(nfσ-count(S1 ∩ S2)
nfσ-count(S2)
)(7.6)
dla Q wzgl¦dnego.
Kwanty�katory rozmyte typu 2
Nieprecyzyjne lingwistyczne okre±lenia liczno±ci mog¡ by¢ tak»e modelowaneprzez zbiory rozmyte typu 2. Dodatkowym warunkiem wymaganym w rozprawiejest spójno±¢ z analogicznym podej±ciem na bazie zwykªych zbiorów rozmy-tych. St¡d te» proponuje si¦ nast¦puj¡ce de�nicje wªasno±ci zbioru rozmytegotypu 2 Q w X eQ ⊆ R+ ∪ {0} reprezentuj¡cego kwanty�kator lingwistyczny.
De�nicja 7.2 A jest normalny wtw.
∃x′∈X u eA = 1 ∧ µx′(u eA) = 1, u eA ∈ Jx′ (7.7)
De�nicja 7.3 A jest wypukªy wtw. dla ka»dego c b¦d¡cego drugorz¦dnymstopniem przynale»no±ci w A, osadzone zbiory rozmyte typu 1, o funkcjachprzynale»no±ci µcmin, µcmax: R→ [0, 1]
µcmin(x) = min{u ∈ Jx:µx(u) = c}µcmax(x) = max{u ∈ Jx:µx(u) = c} (7.8)
s¡ wypukªe w sensie (2.8).
Obie de�nicje s¡ rozwini¦ciami odpowiednio normalno±ci i wypukªo±ci zwykªychzbiorów rozmytych, zob. (2.7) i (2.8). Tak»e analogicznie do tradycyjnychkwanty�katorów rozmytych de�niujemy absolutne i wzgl¦dne kwanty�katoryrozmyte typu 2.
Na podstawie ww. wªasno±ci okre±li¢ mo»na stopnie prawdziwo±ci wyra»e«kwanty�kowanych lingwistycznie, w których okre±lenie liczno±ci reprezen-towane jest przez zbiory rozmyte typu 2. Zatem dla formy (7.3):
T(Q x'ów jest S1
)= µ eQ
(nfσ-count(S1)
)(7.9)
dla Q absolutnego (wzór dla Q wzgl¦dnego pomijamy) oraz dla formy (7.4)
T(Q x'ów które s¡ S2 jest S1
)= µ eQ
(nfσ-count(S1 ∩ S2)
nfσ-count(S2)
)(7.10)
dla Q wzgl¦dnego.
Rozdziaª 7. Zbiory rozmyte typu 2 a informacja lingwistyczna 23
Nieprecyzyjno±¢ wyra»e« reprezentowanych przez zbiory rozmytetypu 2
Sposoby okre±lania nieprecyzyjno±ci wyra»e« modelowanych poprzez zbioryrozmyte typu 2 s¡ nieco odmienne od ich interwaªowych b¡d¹ tradycyjnychodpowiedników. Ma to zwi¡zek z konieczno±ci¡ uwzgl¦dniania wtórnychstopni przynale»no±ci. Niemniej jednak, w rozprawie zaproponowano metody,które mog¡ by¢ stosowane dla tradycyjnych zbiorów rozmytych przy zaªo»e-niu (7.2).
De�nicja 7.4 No±nik zbioru rozmytego typu 2 A w X jest tradycyjnym zbioremrozmytym w X danym funkcj¡ przynale»no±ci:
µsupp( eA)(x) = supu∈Jx\{0}
µx(u) (7.11)
supp(A) nazywamy tak»e no±nikiem rozmytym, fuzzy support.Na bazie no±nika rozmytego de�niujemy stopie« rozmycia, degree of fuzzi-
ness zbioru rozmytego typu 2:
De�nicja 7.5 Stopie« rozmycia A w X jest skalarem:
in(A) =|supp(A)||X |
(7.12)
Tak zde�niowana miara in(·) rozszerza analogiczne do niej (6.9) dla inter-waªowych zbiorów rozmytych i (2.3) � dla zwykªych zbiorów rozmytych. Ana-logicznie de�niujemy miar¦ rc(·):
De�nicja 7.6 Iloraz liczno±ci A w X de�niujemy jako skalar:
rc(A) =|A||X |
(7.13)
W obu powy»szych de�nicjach miara |·| interpretowana jest jako nfσ-count(·)(4.6), lub jako clm(·). Miary in(·) oraz rc(·) sªu»¡ do wyznaczania miarjako±ci podsumowa« lingwistycznych opartych o zbiory rozmyte typu 2, coszerzej opisano w rozdz. 10.
Cz¦±¢ III
Lingwistyczne podsumowaniabaz danych
Rozdziaª 8
Lingwistyczne podsumowywaniebaz danych z u»yciem zbiorówrozmytych
Rozdziaª ten w wi¦kszo±ci zawiera informacje o metodach lingwistycznegopodsumowywania du»ych zbiorów danych opracowanych przez Yagera [48,49, 50] i znacznie rozwini¦tych przez Kacprzyka, Yagera i Zadro»nego [10, 11].Ponadto, zaprezentowane s¡ w nim autorskie de�nicje nowych miar jako±cipodsumowa«, niejako uzupeªniaj¡ce propozycje autorów prac [10, 11]. Za-mieszczone opisy sªu»¡ gªównie jako punkt wyj±cia do przedstawienia rozszer-zonych metod podsumowywania danych przy u»yciu interwaªowych zbiorówrozmytych i zbiorów rozmytych typu 2. Rozszerzenia te stanowi¡ oryginalnydorobek autora; opisano je w rozdz. 9 i 10.
W rozprawie zakªada si¦ model bazy danych na podstawie [2]. NiechY = {y1,. . . , ym} b¦dzie zbiorem obiektów, o których przechowuje si¦ dane,np. samochodów. Niech V = {V1,. . . , Vn} b¦dzie zbiorem atrybutów,których warto±ci opisuj¡ obiekty z Y , np. wiek, cena. Niech X1,. . . , Xnb¦d¡ odpowiednio dziedzinami atrybutów V1,. . . , Vn, np. [0, 20] jest zakre-sem wieku samochodów. Warto±¢ atrybutu Vj dla obiektu yi zapisujemyVj(yi), i ≤ m, j ≤ n. Tabela bazy danych ma zatem posta¢:
D =
V1(y1), . . . , Vn(y1)V1(y2), . . . , Vn(y2)
. . .V1(ym), . . . , Vn(ym)
=
d1
d2
. . .dm
(8.1)
gdzie di = 〈V1(yi), . . . , Vn(yi)〉 ∈ D ⊆ X1×. . .×Xn, jest krotk¡ (rekordem)opisuj¡cym obiekt yi.
Rozdziaª 8. Lingwistyczne podsumowywanie baz danych z u»yciemzbiorów rozmytych 26
Lingwistyczne podsumowanie bazy danych ma posta¢:
Q P jest/ma S [T ] (8.2)
gdzie Q jest kwanty�katorem lingwistycznym, okre±leniem liczno±ci, P � pod-miotem podsumowania, podzbiorem Y , S � sumaryzatorem, summarizer,lingwistycznie opisuj¡cym pewne wªasno±ci obiektów (krotek), za± T ∈ [0, 1]� stopniem prawdziwo±ci podsumowania. Przykªadowe podsumowanie maposta¢ Okoªo poªowy samochodów jest w ±rednim wieku [0.83]. Przyjmijmy,»e S dotycz¡cy atrybutu Vj, j ≤ n, jest reprezentowany przez zbiór rozmytySj w Xj. T dla podsumowania (8.2) obliczamy wówczas jako
T (Q P jest/ma Sj) = µQ
(∑mi=1 µSj(di)
m
)(8.3)
dla Q wzgl¦dnego (dla Q absolutnego przyjmujemy w mianowniku m =1), gdzie symbol µSj(di) jest uproszczonym zapisem stopnia przynale»no±cikrotki di do rozszerzenia cylindrycznego Sj w Xj do X1 × . . .×Xn, cf. (2.9),sk¡d mamy tak»e µSj(di) = µce(Sj)(di) = µce(Sj)
(V1(yi), . . . , Vn(yi)
). Sumaryza-
tor S mo»e by¢ tak»e reprezentowany przez kilka zbiorów rozmytych, ±ci±lejprzez sum¦ b¡d¹ iloczyn ich rozszerze« cylindrycznych do X1× . . .×Xn, ana-logicznie do zªo»onych etykiet zmiennych lingwistycznych, zob. rozdz. 5.
Najciekawszym ulepszeniem propozycji Yagera s¡ opisane w [10, 11] pod-sumowania lingwistyczne z kwali�katorem, wg formy (5.3), o postaci:
Q P które s¡/maj¡ W jest/ma S [T ] (8.4)
gdzieW � kwali�kator, quali�er, reprezentowany, podobnie jak S, przez zbiórrozmyty w X1 × . . .×Xn:
µW (di) = µWg1(di) t/s . . . t/s µWgx
(di), i = 1, . . . ,m (8.5)
Stopie« prawdziwo±ci takiego podsumowania jest interpretacj¡ (5.5):
T = µQ
∑mi=1
(µS(di) ∧ µW (di)
)∑m
i=1 µW (di)
(8.6)
gdzie spójnik ∧ reprezentowany jest przez t-norm¦, za± Q jest wzgl¦dny.Rozdziaª 8 rozprawy opisuje tak»e miary jako±ci podsumowa«, w szczegól-
no±ci te oznaczane T1 ÷ T5, cf. Kacprzyk, Yager i Zadro»ny [10, 11] orazT6 ÷ T10, cf. Niewiadomski [25]. Znalezienie najlepszego podsumowaniapolega na maksymalizacji
T = T (T1, . . . , T10; w1, . . . , w10) =∑10
i=1wi · Ti (8.7)
gdzie w1 + . . .+ w10 = 1 � wagi przypisane poszczególnym miarom jako±ci.
Rozdziaª 9
Interwaªowe podsumowanialingwistyczne baz danych
Z powodów analogicznych do przedstawionych w rozdz. 3 i 4, warto rozwa»y¢metody lingwistycznego podsumowywania danych przy u»yciu interwaªowychzbiorów rozmytych (w tym rozdziale) i zbiorów rozmytych typu 2 (w rozdz. 10)do reprezentowania elementów podsumowa«, czyli kwanty�katorówQ, sumaryza-torów S i kwali�katorów W . W szczególno±ci, interwaªowe podsumowanialingwistyczne, interval-valued linguistic summaries, mog¡ mie¢ zastosowanie,gdy jeden lub wi¦cej ww. elementów podsumowa« reprezentowane jest przezkilka funkcji przynale»no±ci pochodz¡cych od wielu ekspertów. Bezpo±red-nim skutkiem reprezentowania elementów podsumowa« poprzez interwaªowezbiory rozmyte jest przedstawienie stopnia prawdziwo±ci T = T1 i pozostaªychmiar jako±ci Ti jako interwaªów [ti, ti ] ⊆ [0, 1], i = 1, . . . , 10.
Interwaªowe podsumowania lingwistyczne baz danych stanowi¡ oryginalnydorobek autora rozprawy, co zaprezentowane zostaªo w pracach Niewiadom-ski [21, 22] oraz Niewiadomski, Ochelska, Szczepaniak [37]. Zastosowaniainterwaªowych podsumowa« lingwistycznych opisane s¡ m.in. w [28, 40].
Podsumowania z interwaªowym kwanty�katorem rozmytym...
... to podsumowania lingwistyczne o postaci (8.2), w których jedynie okre±le-nie liczno±ci Q (kwanty�kator lingwistyczny) jest reprezentowane przez in-terwaªowy zbiór rozmyty1. Stopie« prawdziwo±ci takiego podsumowaniaobliczamy jako interwaª:
T =[t, t]
=
[µQ
(∑mi=1 µSj(di)
m
), µQ
(∑mi=1 µSj(di)
m
)](9.1)
1Naturalnie, zbiór ten jest okre±lony w R+ ∪ {0} i speªnia warunki normalno±ci i wy-pukªo±ci, zob. Def. 6.2 i 6.3.
Rozdziaª 9. Interwaªowe podsumowania lingwistyczne baz danych 28
dla Q wzgl¦dnego (dla Q absolutnego przyjmuje si¦ w mianownikach m = 1),gdzie oznaczenia � jak dla (8.3). Zauwa»my, »e je±li Q reprezentowanyjest przez zwykªy zbiór rozmyty, (9.1) przedstawia przedziaª zdegenerowany,a wi¦c sprowadza si¦ do (8.3). Tak»e podobnie jak w (8.3), S mo»e by¢reprezentowany przez kilka zbiorów rozmytych, wi¦c na ich rozszerzeniachcylindrycznych � na potrzeby reprezentowania spójników and i or � przeprowadzasi¦ operacje iloczynu i sumy, odpowiednio poprzez pewne t-normy i t-konormy.
Powy»sza metoda dotyczy podsumowa« na bazie pierwszej formy wyra»e-nia kwanty�kowanego lingwistycznie, zob. (5.2). Analogicznie rozpatrywa¢mo»na podsumowania w drugiej formie, (5.3), w których tak»e i kwali�katorW reprezentowany jest poprzez zwykªy zbiór rozmyty.
Podsumowania z sumaryzatorem interwaªowym
Nieco odmienna sytuacja ma miejsce wówczas, gdy to sumaryzator S jestreprezentowany przez interwaªowy zbiór rozmyty, a Q � przez zwykªy zbiórrozmyty. Nadal rozwa»ane s¡ tu podsumowania o postaci (8.2). Funkcjeprzynale»no±ci dla sumaryzatora interwaªowego maj¡ posta¢:
µS(di) = µ
S1(di) t/s . . . t/s µSn
(di), i = 1, 2, . . . ,m (9.2)
i µS(di) � analogicznie. Stopie« prawdziwo±ci oblicza sie wówczas jako:
T =[t, t]
=
[infr∈[r,r]
µQ
( rm
), supr∈[r,r]
µQ
( rm
)](9.3)
dla Q wzgl¦dnego (dla Q absolutnego � w mianownikach m = 1), gdzie
[r, r] =[∑m
i=1µS(di),
∑m
i=1µS(di)
](9.4)
Równanie (9.3) upro±ci¢ mo»na do postaci:
T =[t, t]
= [µQ(r), µQ(r)] (9.5)
przy zaªo»eniu, i» funkcja przynale»no±ci µQ jest monotonicznie niemalej¡ca.
Podsumowania z interwaªowym kwali�katorem...
... s¡ to podsumowania na bazie drugiej formy wyra»enia kwanty�kowanegolingwistycznie, czyli o postaci (8.4), w których sumaryzator S i kwali�katorW reprezentowane s¡ przez interwaªowe zbiory rozmyte, a kwanty�kator Q
Rozdziaª 9. Interwaªowe podsumowania lingwistyczne baz danych 29
� przez zwykªy zbiór rozmyty. Analogicznie do (9.2), funkcje przynale»no±cidla W maj¡ posta¢:
µW
(di) = µWg1
(di) t/s . . . t/s µWgx(di), i = 1, 2, . . . ,m (9.6)
i µW (di) � analogicznie, g1, . . . , gx ∈ {1, . . . , n}. Stopie« prawdziwo±ci inter-waªowego podsumowania z kwali�katorem to:
T =[t, t]
=
[infr∈[r,r]
µQ(r), supr∈[r,r]
µQ(r)
](9.7)
gdzie
r = min
{ Pmi=1 (µ
S(di)∧µW (di))Pm
i=1 µW (di),
Pmi=1 (µS(di)∧µW (di))Pm
i=1 µW (di),
Pmi=1 (µ
S(di)∧µW (di))Pm
i=1 µW (di),
Pmi=1 (µS(di)∧µW (di))Pm
i=1 µW (di)
}(9.8)
i r � analogicznie jako maximum. Dla W i S reprezentowanych przez zwykªezbiory rozmyte, (9.7) sprowadza si¦ do (8.6).
Nadmieni¢ nale»y, i» podsumowania lingwistyczne, w których zarównokwanty�katory jak i sumaryzatory i/lub kwali�katory reprezentowane s¡przez uogólnienia zbiorów rozmytych (±ci±lej: przez zbiory rozmyte typu2), rozpatruje si¦ w rozdz. 10, co zwi¡zane jest z konieczno±ci¡ stosowaniaskalarnych (nie za± � jak w tym rozdziale � interwaªowych) liczno±ci tychzbiorów.
Miary jako±ci interwaªowych podsumowa« lingwistycznych
Rozdziaª 9 de�niuje tak»e miary jako±ci dla interwaªowych podsumowa« ling-wistycznych. S¡ to uogólnienia miar przedstawionych w rozdz. 8, gªówniepoprzez wyra»enie ich w formie interwaªów, których kra«ce zale»ne s¡ od dol-nych i górnych funkcji przynale»no±ci dla Q, S, i/lub W . W konsekwencji,miary te sprowadzaj¡ si¦ do swoich odpowiedników opisanych w rozdz. 8rozprawy, je±li tylko do reprezentowania danego elementu podsumowaniau»yto zwykªego zbioru rozmytego.
Przykªadowa miara nieprecyzyjno±ci kwanty�katora interwaªowego, inter-val-valued degree of quanti�er imprecision, zde�niowana jest jako:
T6 =[t6, t6
]= 1−
[in(Q), in(Q)
]=[1− in(Q), 1− in(Q)
]=
=
[1−
(|supp(Q)||XQ|
), 1−
( |supp(Q)||XQ|
)](9.9)
Rozdziaª 9. Interwaªowe podsumowania lingwistyczne baz danych 30
gdzie in(Q) dane jest wzorem (6.9). Inne dwie miary jako±ci podsumowaniainterwaªowego oparte s¡ o charakterystyki interwaªowych zbiorów rozmytychreprezentuj¡cych kwali�kator W :
T9 = [t9, t9] =
1−
(x∏j=1
in(Wgj)
)1/x
, 1−
(x∏j=1
in(Wgj)
)1/x (9.10)
oraz
T10 = [t10, t10] =
1−
(x∏j=1
rc(Wgj)
)1/x
, 1−
(x∏j=1
rc(Wgj)
)1/x (9.11)
Dla tak okre±lonych miar jako±ci mo»liwe jest ponowne postawienie problemuznalezienia najlepszego podsumowania � polega on na znalezieniu mo»liwienajwi¦kszej warto±ci miary:
T = [t, t] =[∑10
i=1wi · ti,
∑10
i=1wi · ti
](9.12)
gdzie relacja porz¡dku pomi¦dzy interwaªami ustalana jest poprzez (3.4) lubinne opisane w rozdz. 3 rozprawy.
Rozdziaª 10
Podsumowania lingwistycznena zbiorach rozmytych typu 2
Rozdziaª 10 jest analogonem rozdziaªu poprzedniego � opisane s¡ tu pod-sumowania lingwistyczne konstruowane w oparciu o zbiory rozmyte typu 2.Przedstawione metody mog¡ by¢ postrzegane jako uogólnienie metod opar-tych o zwykªe zbiory rozmyte, a tak»e, przy pewnych zaªo»eniach przyj¦-tych co do liczno±ci i innych charakterystyk, tak»e tych u»ywaj¡cych in-terwaªowych zbiorów rozmytych. Rozdziaª prezentuje gªównie oryginalnydorobek autora, opublikowany wcze±niej w pracach [23, 27, 29, 30].
Podsumowania lingwistyczne z sumaryzatorami typu 2
Podsumowanie lingwistyczne typu 2 na bazie pierwszej formy wyra»eniakwanty�kowanego lingwistycznie, zob. (7.3), ma posta¢:
Q P jest/ma S [T ] (10.1)
gdzie symbole interpretowane s¡ analogicznie do (8.2), przy czym okre±lenieliczno±ci Q oraz sumaryzator S reprezentowane s¡ przez zbiory rozmyte typu2. W konsekwencji, stopie« prawdziwo±ci T jest reprezentowany przez zbiórrozmyty w [0, 1].
W szczególno±ci, je±li Q jest opisane zwykªym zbiorem rozmytym, stopie«prawdziwo±ci T jest liczb¡ rzeczywist¡ (nierozmyt¡). Je±li sumaryzator reprezen-towany jest przez jeden zbiór rozmyty typu 2 Sj w Xj, T obliczamy jako:
T(Q P jest/ma Sj
)= µQ
(∑mi=1 max{ueSj :µeSj(di, ueSj) = 1}
M
)(10.2)
gdzie µeSj :X1 × . . .×Xn × [0, 1]→ [0, 1] jest nieco zmody�kowanym zapisem
drugorz¦dnej funkcji przynale»no±ci rozszerzenia cylindrycznego Sj na X1 ×
Rozdziaª 10. Podsumowania na zbiorach rozmytych typu 2 32
. . . × Xn, por. (4.3). M = 1 dla Q absolutnego, lub M = m = |D| dla Qwzgl¦dnego. (10.2) mo»na tak»e zapisa¢ jako:
T = µQ
(nfσ-count(Sj ∩ D)
M
)(10.3)
gdzie funkcja przynale»no±ci dla Sj∩D jest dana jako µeSj � D:D → F([0, 1]),(µeSj � D)(di) = µeS(di). Obydwie formy stopnia prawdziwo±ci sprowadzaj¡si¦ do przypadku (8.3), je±li wszystkie zbiory rozmyte w (10.1) s¡ typu 1.
Podsumowania z kwali�katorem typu 2
Podsumowania typu 2 mog¡ wyst¦powa¢ tak»e w drugiej formie wyra»e-nia kwanty�kowanego lingwistycznie, zob. (7.4). Kwali�kator W mo»e by¢reprezentowany przez jeden lub kilka zbiorów rozmytych typu 2 Wgx , gx ∈{1, . . . , n}, a ±ci±lej przez sum¦ b¡d¹ iloczyn rozszerze« cylindrycznych tychzbiorów na X1 × . . . × Xn. Funkcj¦ przynale»no±ci kwali�katora okre±lamyjako:
µfW (di) = µfWg1(di) u / t . . . u / t µfWgx
(di) (10.4)
gdzie zapis µfWgj(di) jest analogiczny do opisanego pod wzorem (10.2). Stopie«
przynale»no±ci, przy zaªo»eniu, i» Q reprezentowany jest przez zwykªy zbiórrozmyty, wyznaczamy jako liczb¦ rzeczywist¡ w [0, 1]:
T = µQ
(∑mi=1 max{ueS:µeS(di, ueS) = 1} ∧max{ufW :µfW (di, ufW ) = 1}∑m
i=1 max{ufW :µfW (di, ufW ) = 1}
)(10.5)
Wzór (10.5) zapisa¢ mo»na tak»e jako:
T = µQ
(nfσ-count(S ∩ W ∩ D)
nfσ-count(W ∩ D)
)(10.6)
gdzie funkcja przynale»no±ci dla S ∩ W ∩ D jest dana jako µeS∩fW � D:D →F([0, 1]) czyli
(µeS∩fW � D)(di) = µeS∩fW (di) (10.7)
Podsumowania lingwistyczne z kwanty�katorami rozmytymi typu 2
Rozpatrywane s¡ podsumowania w pierwszej i drugiej formie wyra»enia kwan-ty�kowanego lingwistycznie, odpowiednio (5.2) i (5.3), w których okre±lenieliczno±ci Q reprezentuje si¦ poprzez zbiór rozmyty typu 2, za± W i S � przez
Rozdziaª 10. Podsumowania na zbiorach rozmytych typu 2 33
zbiory rozmyte typu 1 b¡d¹ 2. Stopie« prawdziwo±ci T obliczamy wówczasjako zbiór rozmyty typu 1 w [0, 1]:
T = µ eQ(nfσ-count(S ∩ D)
m
)(10.8)
dla formy pierwszej i kwanty�katora wzgl¦dnego (dla absolutnego � m = 1w mianowniku), oraz
T = µ eQ(nfσ-count(S ∩ W ∩ D)
nfσ-count(W ∩ D)
)(10.9)
dla formy drugiej (tylko kwanty�katory wzgl¦dne).
Miary jako±ci podsumowa« typu 2
Miary jako±ci podsumowa« lingwistycznych typu 2 s¡ rozwini¦ciami analog-icznych miar wyznaczanych dla podsumowa« na zbiorach typu 1. Wszystkiemiary T1÷T10 dla podsumowa« typu 2 s¡ tak zde�niowane, »e w przypadku,gdyby dany element podsumowania, W , Q lub S byª reprezentowany przezzbiór rozmyty typu 1, sprowadzaj¡ sie one do analogicznych miar dla pod-sumowa« opisanych w rozdz. 8. Poni»ej przedstawiono przykªadowe miaryjako±ci dla podsumowa« typu 2. Np.
T3 =
∑mi=1 ti∑mi=1 hi
(10.10)
gdzieti = µsupp(fW∩eS∩D)(di), i = 1, . . . ,m (10.11)
hi = µsupp(fW∩D)(di), i = 1, . . . ,m (10.12)
oraz
T7 = 1− rc(Q) = 1− |Q||X eQ| (10.13)
dla Q absolutnego lubT7 = 1− |Q| (10.14)
dla Q wzgl¦dnego. Uogólnione postawienie problemu znalezienia najlepszegopodsumowania typu 2 polega na maksymalizacji równania (8.7) przy analog-icznych co w rozdz. 8 zaªo»eniach.
Cz¦±¢ IV
Przykªadowe zastosowania
Rozdziaª 11
Podsumowania lingwistycznei e-learning
Rozdziaª 11 opisuje przykªadowe zastosowanie mechanizmów lingwistycznegopodsumowywania baz danych w dziedzinie e-learningu, czyli nauczania naodlegªo±¢ z wykorzystaniem elektronicznych ±rodków komunikacji, zwªaszczasystemów komputerowych. Dokªadniej, konstrukcja i ewaluacja podsumowa«jest cz¦±ci¡ szerzej zakrojonych interdyscyplinarnych bada«, których idea po-zostaje w wi¦kszo±ci poza zakresem niniejszej pracy; wyniki caªo±ci tych»ebada« opisano w pracach [7, 19, 20, 31, 32, 33, 34, 35, 36, 38, 39].
Warto jednak wspomnie¢ o przeprowadzonym do±wiadczeniu, cho¢by dlapodkre±lenia ró»norodno±ci mo»liwych zastosowa« podsumowa« lingwisty-cznych. Do±wiadczenie polegaªo na opracowaniu klasy algorytmów, którychcelem byªo okre±lanie w skali [0, 1] poprawno±ci odpowiedzi udzielonych przezstudentów na pytania w testach elektronicznych (zdalnych) z j¦zyka niemieck-iego. Na 45 pyta« udzielono w sumie 250 odpowiedzi poprawnych, cz¦±-ciowo poprawnych i niepoprawnych. Te same odpowiedzi oceniane byªytak»e przez trzech ekspertów � nauczycieli j¦zyka niemieckiego. Gªównymzadaniem metod podsumowywania lingwistycznego byªo scharakteryzowaniew j¦zyku naturalnym zbie»no±ci ocen proponowanych przez algorytmy z oce-nami ekspertów. Potrzeba taka spowodowana byªa prac¡ w zespole inter-dyscyplinarnym (germani±ci, metodycy, informatycy), gdy» wska¹niki podobie«stwa,np. wspóªczynniki korelacji, zob. [20, 36, 39], nie byªy wystarczaj¡co czytel-nym opisem.
Podsumowywanie oparte o zwykªe zbiory rozmyte (co opisano w rozdz. 8),przeprowadzono na bazie danych o postaci zilustrowanej przez Tab. 11.1. Za-stosowano m.in. nast¦puj¡ce sumaryzatory i kwanty�katory.
Rozdziaª 11. Podsumowania lingwistyczne i e-learning 36
Tab. 11.1: Baza danych z ocenami proponowanymi przez ekspertów i przezalgorytmy (fragment)
Odpowiedzi Oceny ekspertów Mediana Oceny algorytmów# E1 E2 E3 Emed A1 · · · A4
1 1 0.75 0.75 0.75 0.97 · · · 0.922 0.5 0.5 0.75 0.5 0.45 · · · 0.583 0.5 0.5 0.75 0.5 0.63 · · · 0.74· · · · · · · · · · · ·250 1 1 1 1.0 0.99 · · · 0.89
Tab. 11.2: Podsumowanie: Q ocen zaproponowanych przez algorytm j jestpodobnych do ocen eksperta k
Alg. Expert 1 Expert 2 Expert 3 median
1 ok.poª. [0.74] ok.poª. [0.87] ok.poª. [0.98] ok.poª. [0.99]
niewiele [0.26] niewiele [0.12] wiele [0.04] niewiele [0.02]
2 ok.poª. [0.85] ok.poª. [0.93] OK.PO�. [0.96] ok.poª. [0.99]
niewiele [0.14] niewiele [0.07] WIELE [0.05] niewiele [0.02]
3 ok.poª. [0.71] ok.poª. [0.71] ok.poª. [0.99] ok.poª. [0.89]
niewiele [0.30] niewiele [0.30] niewiele [0.02] niewiele [0.11]
4 ok.poª. [0.96] ok.poª. [0.88] ok.poª. [0.99] ok.poª. [0.98]
niewiele [0.04] niewiele [0.12] niewiele [0.02] niewiele [0.03]
Sumaryzator ocena algorytmu podobna do oceny eksperta:
µpodobna (mij) =
{1, je±li mij ∈ [eik − 0.125, eik + 0.125]0,w przeciwnym przypadku
(11.1)
gdzie mij ∈ Aj jest ocen¡ zaproponowan¡ przez algorytm Aj dla odpowiedzii, za± eik ∈ Eik jest ocen¡ zaproponowan¡ przez eksperta, i ∈ {1, . . . , 250},j ∈ {1, 2, 3, 4}, k ∈ {1, 2, 3,med}.
Przykªadowy kwanty�kator rozmyty:
µwiele(x) = exp
(−(x− 0.76
0.13
)2)
(11.2)
Badaniom poddano 4 algorytmy, oznaczone A1,. . . , A4, których klasadokªadnie opisana jest w [19]. Przykªadowe wyniki zebrano w Tab. 11.2
Rozdziaª 12
Automatyczne generowaniekomentarzy prasowych
Jako przykªad zastosowania podsumowa« lingwistycznych na interwaªowychzbiorach rozmytych i zbiorach rozmytych typu 2, zaprezentowano metod¦generowania krótkich wiadomo±ci tekstowych z zamiarem wykorzystania ichw komentarzach prasowych lub podobnych, np. RSS. Idea i szczegóªy ró»nychwariantów do±wiadczenia zaprezentowane zostaªy przez autora w [24, 26, 28,29, 40].
Dziaªanie generatora zakªada istnienie pewnego zbioru krotek, w którychwarto±ci poszczególnych pól mog¡ by¢ opisywane lingwistycznie terminamiS1,. . . , Sz, z ∈ N. Terminy te reprezentujemy poprzez zbiory rozmyteró»nych typów, np. interwaªowe zbiory rozmyte, których funkcje przynale»no±ciproponowane s¡ przez ekspertów. Podobnie zakªadamy na wej±ciu pewn¡ilo±¢ kwanty�katorów lingwistycznych Q1,. . . , Qk, k ∈ N, w tym warianciedo±wiadczenia reprezentowane przez zwykªe zbiory rozmyte.
Algorytm generowania wiadomo±ci tekstowych zakªada znalezienie i u»y-cie wszystkich mo»liwych kombinacji S1,. . . , Sz jako sumaryzatorów i kwali-�katorów oraz przyporz¡dkowanie ka»dej kombinacji kwanty�katorów, któredaj¡ najwy»sze miary jako±ci utworzonych w ten sposób podsumowa«. �atwoobliczy¢, i» ogólna liczba podsumowa« dla ustalonych z, k wynosi:
k(z0
)((z1
)+ · · ·+
(zz
))+ · · ·+ k
(zz−1
)(11
)=
= k(z0
)(2z − 1) + . . .+ k
(zz−1
)(21 − 1) = k
z−1∑i=0
(z
i
)(2z−i − 1
) (12.1)
Poni»ej przedstawiamy fragment algorytmu generuj¡cego podsumowaniaw pierwszej formie (5.2):
Rozdziaª 12. Automatyczne generowanie komentarzy prasowych 38
1. for each non-empty S ⊆ {S1, ..., Sz}1.1. determine µS(di), i = 1, . . . ,m1.2. for each quantifier Qh, h = 1, ..., k
if Qh is absolute
compute: T1,h
T6,h = 1−[|supp(Qh)|
m,|supp(Qh)|
m
]T7,h = 1− |Qh|
m
else // i.e. if Qh is relative
compute: T1,h for r: = [ rm, rm
]T6,h = [1− |supp(Qh)|, 1− |suppQh|],T7,h = 1− |Qh|
1.3. compute Thmax = maxh∈{1,...,k}
{t: t = w1T1,h + w6T6,h + w7T7,h}
remember hmax
.........
1.8. T = Thmax + w2 · T2 + w4 · T4 + w5 · T5 + w8 · T8
1.9. generate the summary Qhmax P are/have S [T]
Przykªadowy generator zostaª zaimplementowany w j¦zyku C#, z baz¡danych w formatach *.mdb i *.mdf. Podsumowywano zbiór ok. 10 000 krotek(reprezentuj¡cych pracowników pewnego przedsi¦biorstwa) o postaci
〈Age, Education, Salary, Gender〉 (12.2)
Przykªadowe otrzymane wyniki dla kwanty�katorów Q1= �About half�,Q2=�Much more than 2000�, Q3=�Many� oraz sumaryzatorów S1=�about30�, S2=�earn about 4000�, przedstawiaj¡ si¦ nast¦puj¡co:
About half of workers are about 30 [0.58, 0.61]
About half of workers earn about 4000 [0.53, 0.53]
Many workers earn about 4000 and are about 30 [0.31, 0.36]
Many of workers who are about 30 earn about 4000 [0.39, 0.41]
.........
Otrzymany komentarz mo»e zosta¢ zapisany przez oprogramowanie w pli-ku tekstowym, np. w celu jego dalszej edycji.
Rozdziaª 13
Zako«czenie
Rozprawa opisuje zastosowanie teorii zbiorów rozmytych Zadeha oraz jejwybranych rozszerze« w reprezentowaniu nieprecyzyjnych danych lingwisty-cznych oraz metodach lingwistycznego podsumowywania baz danych. Pod-czas gdy metody oparte na zwykªych zbiorach rozmytych s¡ stosunkowo do-brze znane w literaturze i szeroko wykorzystywane, rozszerzenia i uogólnieniatych metod bazuj¡ce na interwaªowych zbiorach rozmytych, interval-valuedfuzzy sets, oraz na zbiorach rozmytych typu 2 w sensie Mendla, type-2 fuzzysets, stanowi¡ oryginalny dorobek autora. Podkre±li¢ nale»y, i» przedstaw-ione nowe podej±cia s¡ w peªni spójne z podej±ciami poprzednimi oraz uj-muj¡ je jako swoje szczególne przypadki (w pewnych zaªo»eniach redukuj¡si¦ do nich). Dla zaproponowanych metod przedstawiono dwa przykªady za-stosowa«.
Materiaª zamieszczony w rozprawie zostaª przez autora opublikowanyw ok. 20 publikacjach naukowych, w tym 6-ciu artykuªach (w wi¦kszo±cisamodzielnych) w czasopismach notowanych na ISI Thomson List [23, 24,26, 29, 30, 37].
Autor »ywi szczer¡ nadziej¦, »e opisane prace i wyniki stanowi¡ pewiennowatorski wkªad w dziedzin¦ sztucznej inteligencji i tzw. oblicze« mi¦kkich,soft computing.
Bibliogra�a
[1] C.-Y. Chen, B.-D. Liu. Linguistic hedges and fuzzy rule based systems.J. Cassillas, O. Cordon, F. Herrera, L. Magdalena, redaktorzy, AccuracyImprovement in Linguistic Fuzzy Modeling, strony 165�192. Physica-Verlag, c/o Springer-Verlag, Heidelberg, New York, 2003.
[2] E. F. Codd. A relational model of data for large shared data banks.Communications of the ACM, 13(6):377�387, 1970.
[3] A. De Luca, S. Termini. A de�nition of the non-probabilistic entropy inthe setting of fuzzy sets theory. Information and Control, 20:301�312,1972.
[4] M. Delgado, D. Sanchez, M. A. Vila. Fuzzy cardinality based evaluationof quanti�ed sentences. International Journal of Approximate Reason-ing, 23:23�66, 2000.
[5] M. B. Gorzaªczany. A method of inference in approximate reasoningbased on interval-valued fuzzy sets. Fuzzy Sets and Systems, 21:1�17,1987.
[6] M. B. Gorzaªczany. An interval-valued fuzzy inference method in ap-proximate reasoning. Fuzzy Sets and Systems, 31:243�251, 1989.
[7] R. Grzybowski, M. Majcher, A. Niewiadomski. Inketron � wyszuki-wanie informacji w tekstowych bazach wiedzy. Zeszyty Naukowe AGH,seria Automatyka, 7(3):673�684., 2003.
[8] L.-C. Jang, D. Ralescu. Cardinality concept for type-two fuzzy sets.Fuzzy Sets and Systems, 118:479�487, 2001.
[9] J. Kacprzyk, R. R. Yager. Linguistic summaries of data using fuzzylogic. International Journal of General Systems, 30:133�154, 2001.
Bibliogra�a 41
[10] J. Kacprzyk, R. R. Yager, S. Zadro»ny. A fuzzy logic based approachto linguistic summaries of databases. International Journal of AppliedMathematics and Computer Sciences, 10:813�834, 2000.
[11] J. Kacprzyk, R. R. Yager, S. Zadro»ny. Fuzzy linguistic summaries ofdatabases for an e�cient business data analysis and decision support.W. Abramowicz, J. �urada, redaktorzy, Knowledge Discovery for Busi-ness Information Systems, strony 129�152. Kluwer Academic Publisher,B. V. and Boston, 2001.
[12] N. N. Karnik, J. M. Mendel. An Introduction to Type-2 Fuzzy LogicSystems. University of Southern California, Los Angeles, 1998.
[13] N. N. Karnik, J. M. Mendel, Q. Liang. Type-2 fuzzy logic systems.IEEE Transactions on Fuzzy Systems, 7(6):643�658, 1999.
[14] Y. Liu, E. E. Kerre. An overview of fuzzy quanti�ers, part I: Interpre-tations. Fuzzy Sets and Systems, 95:1�21, 1998.
[15] Y. Liu, E. E. Kerre. An overview of fuzzy quanti�ers, part II: Reasoningand applications. Fuzzy Sets and Systems, 96:1�12, 1998.
[16] G. Malinowski. Logiki wielowarto±ciowe. PWN, 2006.
[17] J. M. Mendel. Uncertain Rule-Based Fuzzy Logic Systems: Introductionand New Directions. Prentice-Hall, Upper Saddle River, NJ, 2001.
[18] J. M. Mendel, R. I. John. Type-2 fuzzy sets made simple. IEEE Trans-actions on Fuzzy Systems, 10(2):117�127, 2002.
[19] A. Niewiadomski. Intuicjonistyczne zbiory rozmyte w komputerowymokre±laniu podobie«stwa dokumentów tekstowych. Instytut Bada« Sys-temowych PAN, 2001, Warszawa.
[20] A. Niewiadomski. Interval-valued data structures and their applicationto e-learning. Lecture Notes in Computer Science, 3381:403�407, 2005.
[21] A. Niewiadomski. Interval-valued linguistic variables. an application tolinguistic summaries. O. Hryniewicz, J. Kacprzyk, J. Koronacki, S. T.Wierzcho«, redaktorzy, Issues in Intelligent Systems. Paradigms, strony167�183. Akademicka O�cyna Wydawnicza EXIT, Warszawa, 2005.
[22] A. Niewiadomski. Interval-valued quality measures for linguistic sum-maries. P. Grzegorzewski, M. Krawczak, S. Zadro»ny, redaktorzy, Is-sues in Soft Computing. Theory and Applications, strony 211�224. Aka-demicka O�cyna Wydawnicza EXIT, Warszawa, 2005.
Bibliogra�a 42
[23] A. Niewiadomski. On two possible roles of type-2 fuzzy sets in linguisticsummaries. Lecture Notes in Arti�cial Intelligence, 3528:341�347, 2005.
[24] A. Niewiadomski. News generating via fuzzy summarization ofdatabases. Lecture Notes in Computer Science, 3831:419�429, 2006.
[25] A. Niewiadomski. Six new informativeness indices of data linguistic sum-maries. P. S. Szczepaniak, K. W�egrzyn-Wolska, redaktorzy, Advances inIntelligent Web Mastering, strony 254�259. Springer-Verlag, 2007.
[26] A. Niewiadomski. Type-2 fuzzy summarization of data. An improvednews generating. Lecture Notes in Arti�cial Intelligence, 4585:241�250,2007.
[27] A. Niewiadomski. Imprecision measures for type-2 fuzzy sets. Applica-tions to linguistic summarization of databases. Lecture Notes in Arti�-cial Intelligence, 5097:285�294, 2008.
[28] A. Niewiadomski. Interval-valued linguistic summarization of data. newquality measures and applications. International Journal of InformationTechnology and Intelligent Computing, 3(2), 2008. (w druku).
[29] A. Niewiadomski. A type-2 fuzzy approach to linguistic summarizationof data. IEEE Transactions on Fuzzy Systems, 16(1):198�212, 2008.
[30] A. Niewiadomski, M. Bartyzel. Elements of type-2 semantics in summa-rizing databases. Lecture Notes in Arti�cial Intelligence, 4029:278�287,2006.
[31] A. Niewiadomski, M. Bartyzel, P. S. Szczepaniak. Podsumowania ling-wistyczne w ocenianiu algorytmów zautomatyzowanego egzaminowa-nia na odlegªo±¢. Materiaªy XV Krajowej Konferencji Automatyki,Warszawa, 27�30 czerwca, strony t.3, 81�86, 2005.
[32] A. Niewiadomski, R. Grzybowski. Rozmyte miary podobie«stwa tek-stów w automatycznej ewaluacji testów egzaminacyjnych. InformatykaTeoretyczna i Stosowana, 6(4):73�80, 2004.
[33] A. Niewiadomski, A. Indrzejczak. Rachunek sekwentów Goentzenaw automatycznej ewaluacji testów egzaminacyjnych. Zeszyty naukoweWSHE, Seria 3(5):51�58, 2004.
[34] A. Niewiadomski, A. Indrzejczak. The Gentzen sequent calculus in e-testing. Part I: Foundations. D. Rutkowska, J. Kacprzyk, A. Cader,
Bibliogra�a 43
K. Przybyszewski, redaktorzy, Some aspects of Computer Science. Aka-demicka O�cyna Wydawnicza EXIT, Warszawa, 2007. (w druku).
[35] A. Niewiadomski, A. Indrzejczak. The Gentzen sequent calculusin e-testing. Part II: algorithms and implementation. D. Rutkowska,J. Kacprzyk, A. Cader, K. Przybyszewski, redaktorzy, Some aspects ofComputer Science. Akademicka O�cyna Wydawnicza EXIT, Warszawa,2007. (w druku).
[36] A. Niewiadomski, A. Jedynak, R. Grzybowski. Automatycznesprawdzanie testów egzaminacyjnych. Materialy 4-tej Ukrai«sko-Polskiej Konferencji Mechanika �rodowiska, Metody Informatyczne iSymulacje, Lwów, Ukraina, 24�26 czerwca, strony 133�140, 2004.
[37] A. Niewiadomski, J. Ochelska, P. S. Szczepaniak. Interval-valued lin-guistic summaries of databases. Control and Cybernetics, 35(2):415�444,2006.
[38] A. Niewiadomski, B. Rybusi«ski. Fuzzy sets-based retranslation ofnumerical data in e-learning. Lecture Notes in Arti�cial Intelligence,3528:348�354, 2005.
[39] A. Niewiadomski, B. Rybusi«ski, K. Sakowski, R. Grzybowski. Zas-tosowanie wielowarto±ciowych relacji podobie«stwa w automatycznymsprawdzaniu testów gramatycznych. J. Mischke, redaktor, AkademiaOn-Line, strony 149�154. Wydawnictwo WSHE w �odzi, 2005.
[40] A. Niewiadomski, P. S. Szczepaniak. News generating based on intervaltype-2 linguistic summaries of databases. Proceedings of IPMU 2006Conference, July 2�7, 2006, Paris, France, strony 1324�1331, 2006.
[41] V. Novak. Fuzzy Sets and Their Applications. Adam Hilger, 1989.
[42] L. Rutkowski. Metody i techniki sztucznej inteligencji. PWN, 2006.
[43] R. Sambuc. Fonctions Φ-�oues. Application à l`aide au diagnostic enpathologie thyroidienne. Praca doktorska, Univ. Marseille, France, 1975.(in French).
[44] H. Thiele. On T -quanti�ers and S-quanti�ers. Proceedings ofthe Twenty-Fourth International Symposium on Multiple-Valued Logic,strony 264�269, 1994.
Bibliogra�a 44
[45] H. Thiele. On fuzzy quanti�ers. Z. Bien, K. C. Min, redaktorzy, FuzzyLogic and its Applications to Engineering, Information Science and In-telligent Systems, strony 343�352. Kluwer Academic Publishers, 1995.
[46] I. B. Turksen. Interval-valued fuzzy sets based on normal forms. FuzzySets and Systems, 20:191�210, 1986.
[47] H. Wu, J. M. Mendel. Uncertainty bounds and their use in the designof interval type�2 fuzzy logic systems. IEEE Transactions on FuzzySystems, 10(5):622�639, 2002.
[48] R. R. Yager. A new approach to the summarization of data. InformationSciences, 28:69�86, 1982.
[49] R. R. Yager. Linguistic summaries as a tool for database discovery. Pro-ceedings of FUZZ�IEEE'95/IFES'95, Workshop on Fuzzy Database Sys-tem and Information Retrieval, Yokohama, Japan, strony 79�82, 1995.
[50] R. R. Yager, M. Ford, A. J. Canas. An approach to the linguistic sum-marization of data. Proceedings of 3rd International Conference, Infor-mation Processing and Management of Uncertainty in Knowledge-BasedSystem, Paris, France, strony 456�468, 1990.
[51] L. A. Zadeh. Fuzzy sets. Information and Control, 8:338�353, 1965.
[52] L. A. Zadeh. The concept of linguistic variable and its application forapproximate reasoning (I). Information Sciences, 8:199�249, 1975.
[53] L. A. Zadeh. A computational approach to fuzzy quanti�ers in naturallanguages. Computers and Maths with Applications, 9:149�184, 1983.