methods for the linguistic summarization of data...

�ód¹, 11 maja 2008 r.

dr in». Adam NiewiadomskiInstytut Informatyki Politechniki �ódzkiejul. Wólcza«ska 215, 90-924 �ód¹

Streszczenie rozprawy habilitacyjnej

Methods for the Linguistic

Summarization of Data:

Applications of Fuzzy Sets

and Their Extensions

Metody lingwistycznego podsumowywania danych:

zastosowania zbiorów rozmytych i ich rozszerze«

Spis tre±ci

1 Wst¦p 4

I Zbiory rozmyte i ich rozszerzenia 6

2 Zbiory rozmyte 7

3 Interwaªowe (przedziaªowe) zbiory rozmyte 9

4 Zbiory rozmyte typu 2 11

II Rozmyte reprezentowanie informacji lingwistycznej13

5 Reprezentowanie informacji lingwistycznej 14

6 Interwaªowe zbiory rozmyte a informacja lingwistyczna 16

7 Zbiory rozmyte typu 2 a informacja lingwistyczna 20

III Lingwistyczne podsumowania baz danych 24

8 Lingwistyczne podsumowywanie baz danych z u»yciem zbiorówrozmytych 25

9 Interwaªowe podsumowania lingwistyczne baz danych 27

10 Podsumowania na zbiorach rozmytych typu 2 31

Spis tre±ci 3

IV Przykªadowe zastosowania 34

11 Podsumowania lingwistyczne i e-learning 35

12 Automatyczne generowanie komentarzy prasowych 37

13 Zako«czenie 39

Bibliogra�a 40

Rozdziaª 1

Wst¦p

Prezentowana rozprawa koncentruje si¦ na teorii i zastosowaniach metodoblicze« mi¦kkich, soft computing, gªównie teorii zbiorów rozmytych [51]i jej rozszerze«, do reprezentowania nieprecyzyjnej informacji lingwistycznej.Za punkt wyj±cia przyjmuje si¦ reprezentacje wyra»e« j¦zyka naturalnegooraz rachunek kwanty�katorów lingwistycznych proponowany przez Zadeha[52, 53]. W szczególno±ci przedstawione elementy teorii wykorzystywane s¡do konstrukcji i ewaluacji tzw. podsumowa« lingwistycznych baz danych wgYagera [48] z pó¹niejszymi rozszerzeniami Kacprzyka, Yagera i Zadro»nego[9, 10, 11].

Oryginalny wkªad autora w dziedzin¦ polega przede wszystkim na opra-cowaniu rozszerze« ww. metod reprezentacji i podsumowywania w oparciuo interwaªowe zbiory rozmyte [5, 43, 46] i zbiory rozmyte typu 2 w sensieMendla [12, 17]. Zaproponowano mi¦dzy innymi interwaªowe i typu 2 zmi-enne lingwistyczne wraz z operacjami na ich warto±ciach, rachunek wyra»e«kwanty�kowanych lingwistycznie, w których predykaty i/lub kwanty�katoryreprezentowane s¡ poprzez interwaªowe i/lub typu 2 zbiory rozmyte. W tymcelu rozszerzono lub na nowo zde�niowano szereg poj¦¢ zwi¡zanych z tymitypami zbiorów rozmytych, jak np. liczno±ci i analogiczne miary, no±niki,tak»e wªasno±ci normalno±ci, wypukªo±ci, itp. Nast¦pnie na tej podstawie,zaproponowano i przetestowano metody lingwistycznego podsumowywaniabaz danych oraz okre±lania jako±ci powstaªych podsumowa« w oparciu o in-terwaªowe zbiory rozmyte i o zbiory rozmyte typu 2.

�adna z zaproponowanych w rozprawie metod nie wyklucza równolegªegostosowania metod starszych, czyli tych opartych o zwykªe zbiory rozmyte.Przeciwnie, zaproponowane w rozprawie reprezentacje wyra»e« j¦zyka natu-ralnego, rachunki kwanty�katorów i podsumowania baz danych ujmuj¡ metodystarsze jako swoje szczególne przypadki. Przedstawione wyniki bada« opub-likowane zostaªy m.in. w pracach [21, 22, 24, 26, 27, 29, 30, 31, 37, 40].

Rozdziaª 1. Wst¦p 5

Rozprawa, oprócz rozdz. 1. i 13., zatytuªowanych odpowiednio Wst¦pi Zako«czenie podzielona jest na cztery cz¦±ci:

Cz¦±¢ I: Zbiory rozmyte i ich rozszerzenia Rozdziaªy 2., 3. i 4. �opisuj¡ kolejno podstawowe i znane w literaturze poj¦cia z zakresu zbiorówrozmytych, interwaªowych zbiorów rozmytych oraz zbiorów rozmytych typu2 w sensie Mendla.

Cz¦±¢ II: Rozmyte reprezentowanie informacji lingwistycznej Rozdzi-aªy 5., 6. i 7. � przedstawiaj¡ kolejno metody reprezentowania nieprecyzyjnejinformacji lingwistycznej poprzez zbiory rozmyte (wiadomo±ci literaturowe)oraz poprzez interwaªowe zbiory rozmyte i zbiory rozmyte typu 2 (w wi¦k-szo±ci oryginalny dorobek autora).

Cz¦±¢ III: Lingwistyczne podsumowania baz danych Rozdziaªy 8.,9. i 10. � prezentuj¡ metody lingwistycznego podsumowywania danych.Rozdziaª 8. streszcza metody opartych o zwykªe zbiory rozmyte (wiadomo±ciliteraturowe). Rozdziaªy 9. i 10. opisuj¡ autorskie zastosowania odpowied-nio interwaªowych i typu 2 zbiorów rozmytych do budowy i ewaluacji pod-sumowa« lingwistycznych.

Cz¦±¢ IV: Przykªadowe zastosowania Rozdziaªy 11. i 12. � w rozdz. 11.opisano zastosowanie lingwistycznych podsumowa« danych w eksperymenciez dziedziny e-learningu. Rozdziaª 12. przedstawia ide¦, zasad¦ dziaªaniai implementacj¦ systemu generuj¡cego wiadomo±ci tekstowe na podstawiedu»ych zbiorów danych z wykorzystaniem proponowanych w rozprawie in-terwaªowych i typu 2 podsumowa« lingwistycznych.

Podzi¦kowania

Chciaªbym wyrazi¢ swoj¡ wdzi¦czno±¢ ±rodowisku Instytutu Bada« Syste-mowych Polskiej Akademii Nauk za inspiracje i uprzejm¡ pomoc w bada-niach. Jestem tak»e wdzi¦czny pracownikom i studentom Instytutu Infor-matyki Politechniki �ódzkiej za ich istotny wpªyw na ostateczny ksztaªtprezentowanego materiaªu. Last but not least, chciaªbym podzi¦kowa¢ moimnauczycielom i przyjacioªom za ich nieoceniony wysiªek i »yczliw¡ zach¦t¦.

Cz¦±¢ I

Zbiory rozmyte i ich rozszerzenia

Rozdziaª 2

Zbiory rozmyte

Rozdziaª podaje podstawowe poj¦cia i de�nicje dotycz¡ce zbiorów rozmytychw sensie Zadeha [51]. Zbiór rozmyty1 A w niepustej przestrzeni rozwa»a« Xde�niuje si¦ jako:

A = {〈x, µA(x)〉:x ∈ X} (2.1)

gdzie µA(x):X → [0, 1] jest funkcj¡ przynale»no±ci do A traktowan¡ jakouogólnienie funkcji charakterystycznej zbioru zwykªego (klasycznego, ostrego,nierozmytego) i u»ywan¡ gªównie do reprezentowania nieprecyzyjnych wyra»e«j¦zyka naturalnego, np. ±redni wzrost, wysokie zarobki, czyli takich, którychreprezentacja przy zerojedynkowym zbiorze warto±ci przynale»no±ci, mogªabyokaza¢ si¦ nieadekwatna.

Poza takimi elementami teorii zbiorów rozmytych, jak operacje teori-omnogo±ciowe, normy trójk¡tne, czy relacje rozmyte i ich wªasno±ci, rozdziaªzawiera gªównie opisy i przykªady tych poj¦¢ kluczowych dla metod opisanychw dalszych cz¦±ciach. Z najwa»niejszych nale»y wymieni¢ no±nik zbiorurozmytego A w X

supp(A) = {x ∈ X :µA(x) > 0} (2.2)

Poprzez sko«czono±¢, niesko«czono±¢, policzalno±¢, niepoliczalno±¢ no±nikazbioru rozmytego A de�niuje si¦ odpowiednio sko«czono±¢, niesko«czono±¢,policzalno±¢, niepoliczalno±¢ A. Na de�nicji no±nika opiera si¦ poj¦cie stopniarozmycia wg [10] zbioru rozmytego A w X :

in(A) =|{x ∈ X : µA(x) > 0}|

|X |(2.3)

gdzie | · | oznacza stosown¡ miar¦ zbioru w danej przestrzeni. W rozprawiestosowane s¡ dwa rodzaje miar: 1) Liczby kardynalne zbiorów w sko«c-zonych X , zob. (2.5) oraz 2) caªka z funkcji charakterystycznej dla zbiorów

1Okre±lany tak»e jako zwykªy, tradycyjny lub typu 1 zbiór rozmyty.

Rozdziaª 2. Zbiory rozmyte 8

w przestrzeniach nieprzeliczalnych w R, gªównie przedziaªach domkni¦tych[a, b], zob. (2.6).

Poj¦cie no±nika uogólnia si¦ do α-przekroju zbioru rozmytego, α ∈ [0, 1]

Aα = {x ∈ X :µA(x) > α} (2.4)

Na podstawie [3] przyjmujemy liczb¦ kardynaln¡ zbioru rozmytego Aw sko«czonej przestrzeni rozwa»a« X , jako tzw. Σ-count(A):

|A| = Σ-count(A) = card(A) =∑

x∈XµA(x) (2.5)

Poniewa» przy de�niowaniu miar nieprecyzyjno±ci zbiorów rozmytych w Cz¦±ciII. oraz miar jako±ci podsumowa« lingwistycznych w Cz¦±ci III. u»ywane s¡caªki z funkcji przynale»no±ci zbiorów rozmytych w niepoliczalnych X ⊂ R,wprowadzono dodatkowy symbol clm(A) zde�niowany jako2:

|A| = clm(A) =

∫XµA(x)dx (2.6)

Warunki, w których podana caªka z funkcji µA(x) istnieje, omówione s¡ do-datkowo przy zastosowaniach wzoru (2.6).

Do reprezentowania kwanty�katorów lingwistycznych, np. okoªo poªowy,mniej ni» 100, poprzez zbiory rozmyte, konieczne s¡ de�nicje wªasno±ci nor-malno±ci i wypukªo±ci. Zbiór rozmyty A w X jest normalny wtw.

supx∈X

µA(x) = 1 (2.7)

Zbiór rozmyty A w R jest wypukªy wtw. dla ka»dego jego α-przekroju Aα

∀r,s∈Aα ∀λ∈[0,1] λr + (1− λ)s ∈ Aα (2.8)

Wªasno±ci te podane s¡ jako podstawa do ich uogólnie« dla interwaªowychi typu 2 zbiorów rozmytych, odpowiednio w rozdziaªach 3 i 4.

Istotna jest tu tak»e de�nicja rozszerzenia cylindrycznego zbioru rozmytego:zaªó»my, »e X1,. . . ,XN s¡ przestrzeniami rozwa»a«, a X1 × . . . × XN jestich iloczynem kartezja«skimi. Niech A b¦dzie zbiorem rozmytym w Xj,j ∈ {1, . . . , N}. Rozszerzeniem cylindrycznym A do X1 × . . . × XN , jestzbiór rozmyty ce(A) w X1 × . . .×XN :

ce(A) ={⟨〈x1, . . . , xN〉, µce(A)(x1, . . . , xN)

⟩:x1 ∈ X1, . . . , xN ∈ XN

}(2.9)

taki, »e µce(A)(x1, . . . , xN) = µA(xj).

2Skrót �clm� pochodzi od skojarzenia z cardinality-like measure, ale nie wprowadza si¦tej nazwy, by nie nadu»ywa¢ poj¦cia �liczno±ci�, zwªaszcza dla zbiorów niesko«czonych.

Rozdziaª 3

Interwaªowe (przedziaªowe)zbiory rozmyte

Interval-valued fuzzy sets, co tªumaczy si¦ na j¦zyk polski jako interwaªowe(przedziaªowe) zbiory rozmyte, lub dokªadniej: �zbiory rozmyte o warto±ci-ach [funkcji przynale»no±ci] b¦d¡cych przedziaªami�, zaproponowane zostaªyprzez Sambuca [43] jako tzw. φ-�ou function oraz dyskutowane przez Turk-sena [46] oraz Gorzaªczanego [5, 6]. Zbiory te maj¡ za zadanie formalizowa¢intuicje j¦zykowe wyra»aj¡ce niepewno±¢ dotycz¡c¡ stopnia przynale»no±cido zbioru rozmytego, np. element x nale»y do zbioru A w stopniu [0.5, 0.7],gdzie 0.5 wyra»a �dolny�, a 0.7 � �górny� kraniec dopuszczalnych rzeczy-wistych stopni przynale»no±ci. Mo»liwe jest tak»e traktowanie rzeczonegoprzedziaªu jako interwaªowego stopnia przynale»no±ci do zbioru rozmytego1.Formalnie, interwaªowy zbiór rozmyty A w X ma posta¢:

A = {〈x, µA

(x), µA(x)〉:x ∈ X} (3.1)

przy czym ∀x∈X 0 ≤ µA

(x) ≤ µA(x) ≤ 1, gdzie µA

:X → [0, 1] to dolna,a µA:X → [0, 1] � górna funkcja przynale»no±ci. A mo»na te» okre±li¢ jako{〈x, µA(x):x ∈ X〉}, gdzie µA(x):X → Int([0, 1]) funkcja przynale»no±cio warto±ciach w zbiorze wszystkich przedziaªów w [0, 1].

Operacje teoriomnogo±ciowe na interwaªowych zbiorach rozmytych de�ni-uje si¦ z wykorzystaniem norm trójk¡tnych, np. iloczyn A i B w X jestinterwaªowym zbiorem rozmytym w X :

µA∩B(x) = µ

A(x) t µ

B(x), µA∩B(x) = µA(x) t µB(x) (3.2)

1W ogólno±ci, przedziaª ten traktowa¢ mo»na jako szczególny przypadek liczbyrozmytej, czyli normalnego i wypukªego zbioru rozmytego w R o (przynajmniej przedzi-aªami) ci¡gªej funkcji przynale»no±ci.

Rozdziaª 3. Interwaªowe (przedziaªowe) zbiory rozmyte 10

De�nicja ta, podobnie jak wiele innych de�nicji dla tego typu zbiorów, jestrozszerzeniem odpowiedniej de�nicji (tu: iloczynu) dla zwykªych zbiorówrozmytych, a w konsekwencji tak»e i zbiorów klasycznych.

Operowanie stopniami przynale»no±ci b¦d¡cych przedziaªami wymaga zde�n-iowania dziaªa« arytmetycznych oraz relacji porz¡dkuj¡cych. Np. sum¦przedziaªów a, b w R de�niuje si¦ jako:

[a, a] + [b, b] = [a+ b, a+ b] (3.3)

za± przykªadow¡ relacj¦ cz¦±ciowego porz¡dku na zbiorze Int([0, 1]) � jako:

a ≤o b⇔ a ≤ b ∧ a ≤ b (3.4)

Z interwaªowym zbiorem rozmytymA w X wi¡»emy, w szczególno±ci, nast¦pu-j¡ce zwykªe zbiory rozmyte A, A w X

A = {〈x, µA

(x)〉:x ∈ X}, A = {〈x, µA(x)〉:x ∈ X} (3.5)

S¡ to szczególne przypadki operacji redukcji typu [12, 17].

Liczno±¢ interwaªowego zbioru rozmytego de�niujemy na bazie (2.5) jako:

|A| = card(A) = [card(A), card(A)] =

[∑x∈X

µA

(x),∑x∈X

µA(x)

](3.6)

dla sko«czonych A, A. (3.6) sprowadza si¦ do (2.5) dla zwykªych zbiorówrozmytych. Analogicznie de�niuje si¦ miar¦ clm(A) w przypadku niesko«c-zonych i niepoliczalnych A, A.

Je»eli X1,. . . ,XN s¡ przestrzeniami rozwa»a«, cylindryczne rozszerzenie Aw Xj, j = {1, . . . , N}, do X1× . . .×XN jest interwaªowym zbiorem rozmytymce(A) w X1 × . . .×XN :

ce(A) ={⟨〈x1, . . . , xN〉, µce(A)

(x1, . . . , xN), µce(A)(x1, . . . , xN)⟩

:

x1 ∈ X1, . . . , xN ∈ XN}

(3.7)

gdzie µce(A)

(x1, . . . , xN) = µA

(xj), µce(A)(x1, . . . , xN) = µA(xj). Je±li A jest

zwykªym zbiorem rozmytym, (3.7) redukuje si¦ do (2.9), s. 8.

Rozdziaª 4

Zbiory rozmyte typu 2

Pomysª zbioru rozmytego typu 2, type-2 fuzzy set, zaproponowany zostaªprzez Zadeha w 1975 [52]. Idea ta rozwijana jest od 1998 roku [12, 13, 17],a jej gªównym zaªo»eniem jest mo»liwo±¢ wyra»ania stopni przynale»no±cipoprzez zbiory rozmyte, w szczególno±ci: liczby rozmyte, w [0, 1]. Zatemzbiór rozmyty typu 2 A w X de�niuje si¦ jako:

A =

∫XµA(x)/x (4.1)

gdzie µA:X → F([0, 1]) jest funkcj¡ przynale»no±ci typu 2, a F([0, 1]) � zbiórwszystkich zbiorów rozmytych w [0, 1]. St¡d:

µA(x) =

∫u∈Jx

µx(u)/u (4.2)

gdzie u, oznaczane tak»e u eA, jest pierwszym (pierwszorz¦dnym) stopniemprzynale»no±ci x do A, za± Jx ⊆ [0, 1] jest zbiorem wszystkich pierwszychstopni przynale»no±ci x. Funkcja µx: Jx → [0, 1] to druga (drugorz¦dna)funkcja przynale»no±ci x do A. Stosowane s¡ tak»e inne notacje zbiorówrozmytych typu 2, np.: A = {〈x, u, µx(u)〉} lub

A = {〈x, u eA, µ eA(x, u eA)〉} (4.3)

w których zapisy µ eA(x, u eA) i µx(u) s¡ równoznaczne i oznaczaj¡ drugi (dru-gorz¦dny) stopie« przynale»no±ci dla x przy danym u.

Operacje teoriomnogo±ciowe na zbiorach rozmytych typu-2 de�niuje si¦przy pomocy dziaªa« join i meet, ozn. t i u, na funkcjach przynale»no±citypu 2. Przykªadowo,

µA∩B(x) = µA(x) u µB(x) =

∫uA

∫uB

(µx(uA) t1 µx(uB)

)/(uA t2 uB) (4.4)

Rozdziaª 4. Zbiory rozmyte typu 2 12

gdzie t1, t2 � t-normy, za± u eA, u eB � pierwsze stopnie przynale»no±ci x'a odpowied-nio do A, B.

Istnieje wiele sposobów wyra»ania przynale»no±ci elementów do zbiorówrozmytych typu 2, np. górna i dolna funkcja przynale»no±ci (lower and up-per membership functions, LMF (A), UMF (A)), gªówna (principal) funkcjaprzynale»no±ci, µprincipal(A), ±lad niepewno±ci (footprint of uncertainty, FOU(A))[17, 42, 47]. W szczególno±ci, pewne zale»no±ci przedstawia si¦ przy pomocyosadzonych zbiorów rozmytych typu 1 i typu 2. Niech A b¦dzie zbioremrozmytym typu 2 w X i ∀x∈X δx ∈ Jx ⊆ [0, 1]. Osadzony zbiór rozmyty typu2 Aδ w A okre±la funkcja przynale»no±ci typu 2:

µAδ(x) = µx(δx)/δx , δx ∈ Jx (4.5)

Tzw. Twierdzenie o Reprezentacji, The Representation Theorem, opisujeprzedstawienie zbioru rozmytego typu 2 w postaci sumy mnogo±ciowej wszys-tkich jego osadzonych zbiorów rozmytych typu 2 [18].

Przy tych samych zaªo»eniach, osadzonym zbiorem rozmytym typu 1 Aδw A nazwiemy zbiór rozmyty dany funkcj¡ przynale»no±ci µAδ(x) = δx.

Liczno±¢ zbioru rozmytego typu-2 wyra»ona by¢ mo»e na wiele ró»nychsposobów, np. jako skalar, zbiór rozmyty lub zbiór rozmyty typu 2 w N[8]. Na potrzeby reprezentowania informacji lingwistycznej przyj¦to de�nicj¦skalarnej liczno±ci tzw. non-fuzzy sigma-count inn¡ ni» w [8], aby zachowa¢zgodno±¢ z Σ-count dla zwykªych zbiorów rozmytych cf. (2.5) w sko«czonejprzestrzeni1 X :

|A| = nfσ-count(A) =∑x∈X

sup{u ∈ Jx:µx(u) = 1} (4.6)

zakªadaj¡c, »e sup ∅ = 0. De�nicja ta rozszerza (2.5). Analogicznie de�niu-jemy clm(A), zakªadaj¡c caªkowalno±¢ funkcji x→ sup{u ∈ Jx:µx(u) = 1}.

Rozszerzenie cylindryczne A w Xj de�niuje si¦ na podstawie (2.9), s. 8.Jest to zbiór rozmyty typu 2 ce(A) w X1 × . . .×XN :

ce(A) =

∫〈x1,...,xN 〉∈X1×...×XN

µce( eA)(x1, . . . , xN) , xj ∈ Xj, j ∈ {1, . . . , N}

(4.7)przy czym µce( eA)(x1, . . . , xN) = µ eA(xj).

1Dokªadniej: je±li zbiór rozmyty dany przez µprincipal(A) jest sko«czony.

Cz¦±¢ II

Rozmyte reprezentowanieinformacji lingwistycznej

Rozdziaª 5

Reprezentowanie informacjilingwistycznej poprzez zbioryrozmyte

Rozdziaª opisuje znane w literaturze metody reprezentowania informacji ling-wistycznej przy pomocy zbiorów rozmytych, gªównie [52, 53]. Zamieszczoneinformacje s¡ podstaw¡ do zaprezentowania oryginalnego dorobku autorapolegaj¡cego na uogólnieniu tych metod w oparciu o interwaªowe zbioryrozmyte i zbiory rozmyte typu 2, co przedstawiono w rozdz. 6 i 7. W kon-sekwencji, w rozdziaªach 9 i 10 zaprezentowane zostaªy oryginalne rozsz-erzenia metod lingwistycznego podsumowywania baz danych z wykorzys-taniem metod zaproponowanych w rozdziaªach 6 i 7.

Podstawowym poj¦ciem przy reprezentowaniu informacji lingwistycznej zwykorzystaniem zbiorów rozmytych jest zmienna lingwistyczna [52]. Przykªad-owa zmienna lingwistyczna wzrost okre±lona jest przez zbiór warto±ci ling-wistycznych {niski, ±redni, wysoki}, które skojarzone s¡ ze zbiorami rozmy-tymi w pewnej przestrzeni rozwa»a«. Bardziej zªo»one wyra»enia, np. ±rednii nie bardzo niski, reprezentuje si¦ poprzez teoriomnogo±ciowe i inne operacjena funkcjach przynale»no±ci, np. spójniki and, or, not lub tzw. mody�katorylingwistyczne, linguistic hedges, very, more-or-less [1, 16, 41, 52].

Z punktu widzenia lingwistycznego podsumowywania danych, istotne jestoperowanie na wyra»eniach zªo»onych, których skªadniki reprezentowane s¡przez zbiory rozmyte w ró»nych przestrzeniach rozwa»a«, np. niedrogi iokoªo dziesi¦cioletni (o samochodzie), gdzie pierwszy skªadnik okre±lony jestprzykªadowo jako zbiór rozmyty S1 w X1 = [1000, 5000] zªotych, za± drugi �jako S2 w X2 = [5, 20] lat. Wyra»enia takie reprezentujemy wówczas przezzbiory rozmyte b¦d¡ce rezultatami operacji na rozszerzeniach cylindrycznych

Rozdziaª 5. Reprezentowanie informacji lingwistycznej 15

S1 i S2 do X1 ×X2, np.

Sand = ce(S1) ∩ ce(S2) ⊆ X1 ×X2 (5.1)

Powy»sze przykªady wskazuj¡ na u»ycie zbiorów rozmytych jako reprezen-tacji wyra»onych lingwistycznie cech (wªa±ciwo±ci) pewnych obiektów.

Szczególne miejsce w informacji wyra»anej lingwistycznie, zajmuj¡ niepre-cyzyjne okre±lenia liczno±ci zbiorów obiektów, tzw. kwanty�katory lingwisty-czne, np. okoªo 100, czy prawie poªowa. Zakªada si¦, »e rozmyte reprezentacjetakich wyra»e« powinny uwzgl¦dnia¢ kwanty�katory klasyczne, czyli ∀ i ∃,jako przypadki szczególne. W niniejszym opracowaniu skupiono si¦ wi¦c natzw. algebraic approach1, wg którego kwanty�kator lingwistyczny winien by¢reprezentowany przez normalny i wypukªy zbiór rozmyty, zob. (2.7) i (2.8),w R+ ∪ {0} [4, 14, 15, 53].

Podstaw¡ rachunku wyra»e« kwanty�kowanych lingwistycznie s¡ dwieformy takich wyra»e«:

Q x'ów jest S1 (5.2)

Q x'ów b¦d¡cych S2 jest S1 (5.3)

oznaczanych odpowiednio jako QI i QII . Np. wielu studentów jest dobrymiprogramistami i Wielu inteligentnych studentów jest dobrymi programistami,gdzie Q=wielu � kwanty�kator lingwistyczny, za± S1=dobrzy programi±ci,S2=inteligentni � cechy reprezentowane przez zbiory rozmyte w sko«czonejX . W szczególno±ci wyró»nia si¦ dwa typy kwanty�katorów rozmytych: ab-solutne, np. mi¦dzy 10 a 20, okoªo 1000 � zbiory rozmyte w R+ ∪ {0}, orazwzgl¦dne, np. okoªo poªowy, prawie »aden � zbiory w [0, 1]. W pierwszejformie mog¡ by¢ stosowane oba typy, w drugiej � tylko wzgl¦dne.

Stopie« prawdziwo±ci wyra»enia w formie QI dany jest wzorem

T ( Q x'ów jest S1) = µQ

(card(S1)

M

)(5.4)

gdzie M = card(X ) je±li Q jest wzgl¦dny, lub M = 1 dla Q bezwzgl¦dnego.Za± w formie QII :

T ( Q x'ów które s¡ S2 jest S1) = µQ

(card(S1 ∩ S2)

card(S2)

)(5.5)

gdzie card(S1), card(S2) oblicza si¦ poprzez (2.5).Powy»sze wzory s¡ podstaw¡ przy okre±laniu stopni prawdziwo±ci ling-

wistycznych podsumowa« baz danych, co opisano w rozdz. 8.1Podczas gdy inne podej±cie, znane jako substitution approach cf. [44, 45], dotyczy

rozmytego reprezentowania wyra»e« podlegaj¡cych kwanty�kacji, a nie samych kwanty-�katorów.

Rozdziaª 6

Interwaªowe zbiory rozmytea informacja lingwistyczna

Argumenty uzasadniaj¡ce rozszerzenie rozmytych metod nieprecyzyjnego okre±la-nia (wyra»ania) stopni przynale»no±ci, zob. rozdz. 3 i 4, mog¡ odnosi¢ si¦tak»e do mo»liwo±ci rozszerzenia metod reprezentowania nieprecyzyjnej in-formacji lingwistycznej. W szczególno±ci, interwaªowych zbiorów rozmytych izbiorów rozmytych typu 2 u»y¢ mo»na do modelowania warto±ci funkcji przy-nale»no±ci proponowanych przez wielu ekspertów, tak»e ró»ni¡cych si¦ tzw.stopniem zaufania, level of con�dence. Jakiekolwiek operacje na warto±ciachtych funkcji, np. u±rednienie kilku stopni przynale»no±ci dla x w celu otrzy-mania jednej warto±ci rzeczywistej z przedziaªu [0, 1], mog¡ prowadzi¢ doutraty pewnych informacji oraz � w konsekwencji � do otrzymania wynikunieprzystaj¡cego do rzeczywisto±ci. Np. zaªó»my, »e trzech lekarzy oceniaw skali [0, 1] zwi¡zek pewnego symptomu z pewn¡ chorob¡ jako 0.5, 1, 1.U±redniona warto±¢ 0.833 nie oddaje dobrze poszczególnych opinii ekspertów,zwªaszcza nie jest zbli»ona do »adnej z nich, nie zawiera te» informacji o sto-sunkowo du»ej ró»nicy zda« pomi¦dzy ekspertami.

Sugeruje si¦ zatem wykorzystanie rozszerze« teorii zbiorów rozmytych,które modeluj¡ okre±lenia j¦zykowe przy pomocy wi¦cej ni» jednej funkcjiprzynale»no±ci, np. górnej i dolnej, jak w interwaªowych zbiorach rozmy-tych, lub pierwszo- i drugorz¦dnej � w zbiorach rozmytych typu 2.

Interwaªowe zmienne lingwistyczne

Jako punkt wyj±cia do dalszych rozwa»a«, w rozprawie zaproponowano dwarozszerzenia de�nicji zmiennej lingwistycznej, z wykorzystaniem interwaªowych(w tym rozdziale) i typu 2 (w rozdziale nast¦pnym) zbiorów rozmytych.

Rozdziaª 6. Interwaªowe zbiory rozmyte a informacja lingwistyczna 17

De�nicja 6.1 Interwaªow¡ zmienn¡ lingwistyczn¡ L, interval-valued linguis-tic variable, nazywamy pi¡tk¦ uporz¡dkowan¡ 〈L, H(L), X , G, K〉, gdzie Ljest nazw¡ zmiennej, H(L) � zbiorem warto±ci lingwistycznych (etykiet), X �przestrzeni¡ rozwa»a«, G � reguª¡ gramatyczn¡ generuj¡c¡ etykiety z H(L),za± K � reguª¡ semantyczn¡ przypisuj¡c¡ interwaªowe zbiory rozmyte w Xetykietom z H(L).

Stopniem zgodno±ci, compatibility level, CL, pewnego x ∈ X z etykiet¡l ∈ H(L) nazwiemy warto±¢ µSl(x) ∈ Int([0, 1]), gdzie Sl � interwaªowy zbiórrozmyty w X reprezentuj¡cy l.

Dla etykiet z H(L) stosowa¢ mo»na spójniki and, or, not, modelowanepoprzez operacje iloczynu, sumy i dopeªnienia interwaªowych zbiorów rozmy-tych w X . W szczególno±ci, w lingwistycznym podsumowywaniu danychreprezentuje si¦ okre±lenia obiektów, np. auto trwaªe i dobrze wyposa»one, wktórych komponenty reprezentowane s¡ przez S1, S2 nale»¡cych do ró»nychprzestrzeni rozwa»a«, np. X1, X2. Analogicznie do (5.1), stosuje si¦ wówczasoperacje na rozszerzeniach cylindrycznych S1, S2 do X1×X2, np. interwaªowyzbiór rozmyty Sor okre±laj¡ funkcje przynale»no±ci:

µSor(x1, x2) =[µS1

(x1) s µS2(x2), µS1

(x1) s µS2(x2)

], x1 ∈ X1, x2 ∈ X2

(6.1)gdzie s � dowolna t-konorma. W rozprawie zaproponowano tak»e de�nicjemody�katorów lingwistycznych dla wyra»e« reprezentowanych przez inter-waªowe zbiory rozmyte.

Kwanty�kacja wyra»e« reprezentowanych przez interwaªowe zbioryrozmyte

Rozpatrujemy wyra»enia kwanty�kowane lingwistycznie w formach QI (5.2)i QII (5.3), w których kwanty�katory lingwistyczne reprezentowane s¡ przezzwykªe, za± S1, S2 � przez interwaªowe zbiory rozmyte. Zakªadaj¡c sko«c-zono±¢ S1 i S2, stopnie prawdziwo±ci dla tych wyra»e« de�niuje si¦ jako:

T =

inf

r∈"card(S1)

|X| ,card(S1)

|X|

#µQ (r) , sup

r∈"card(S1)

|X| ,card(S1)

|X|

#µQ (r)

(6.2)

dla Q wzgl¦dnego (dla Q absolutnego wzór analogiczny) oraz

T =[t, t]

= [µQ (r∗) , µQ(r∗)] (6.3)


gdzie

r∗ = min

{card(S1 ∩ S2)

card(S2),card(S1 ∩ S2)



card(S2)

}(6.4)

i r∗ � analogicznie jako maximum. Dodatkowo zakªadamy card(S2) 6= 0i card(S2) 6= 0.

Interwaªowe kwanty�katory rozmyte

Interwaªowe zbiory rozmyte mog¡ modelowa¢ tak»e nieprecyzyjne wyra»e-nia dotycz¡ce liczno±ci zbiorów obiektów. Z punktu widzenia przyj¦tego wrozprawie, modele te musz¡ by¢ zgodne z podej±ciem Zadeha [53] opartymo zwykªe zbiory rozmyte, zob. rozdz. 5. Uogólnia si¦ wi¦c poj¦cia normal-nego i wypukªego zbioru rozmytego w R, po to aby zde�niowa¢ analogicznewªasno±ci dla interwaªowego zbioru rozmytego A w R.

De�nicja 6.2 A jest normalny wtw. A i A s¡ normalne.

De�nicja 6.3 A jest wypukªy wtw. A i A s¡ wypukªe.

gdzie A i A � zob. (3.5). Interwaªowym kwanty�katorem rozmytym nazwiemywi¦c wypukªy i normalny zbiórA, je±li reprezentuje on (nieprecyzyjne) okre±le-nie liczno±ci, np. okoªo 100, wi¦kszo±¢. Dodatkowo, w rozprawie wyró»niono,zgodnie z podej±ciem Zadeha, kwanty�katory absolutne i wzgl¦dne. Stopnieprawdziwo±ci dla wyra»e« w formach QI (5.2) i QII (5.3), w których Q jestreprezentowane przez odpowiedni interwaªowy zbiór rozmyty, de�niuje si¦jako:

T = [t, t] =[µQ

(card(S1)

), µQ

(card(S1)

)](6.5)

dla formy QI i Q absolutnego (wzór dla Q wzgl¦dnego pomijamy), oraz

T = [t, t] =

[µQ

(card(S1 ∩ S2)

card(S2)

), µQ

(card(S1 ∩ S2)

card(S2)

)](6.6)

dla formyQII iQ wzgl¦dnego, zakªadaj¡c, »e S1, S2 s¡ sko«czonymi zwykªymizbiorami rozmytymi.

Nieprecyzyjno±¢ wyra»e« reprezentowanych przez interwaªowe zbio-ry rozmyte

W rozprawie zaproponowano nast¦puj¡ce miary nieprecyzyjno±ci terminówlingwistycznych reprezentowanych przez interwaªowe zbiory rozmyte. In-terwaªowy stopie« rozmycia interwaªowego zbioru rozmytego A w X , zob.


Def. 6.5, jest rozszerzeniem analogicznej miary dla zwykªych zbiorów rozmy-tych (2.3). Dla peªnej analogii zaproponowano tak»e de�nicj¦ no±ników in-terwaªowego zbioru rozmytego.

De�nicja 6.4 No±nikiem dolnym (w¡skim) A w X nazywamy zbiór zwykªy

supp(A) = {x ∈ X :µA

(x) > 0} (6.7)

No±nikiem górnym (szerokim) nazywamy

supp(A) = {x ∈ X :µA(x) > 0} (6.8)

Dla zwykªego zbioru rozmytego supp(A) = supp(A).

De�nicja 6.5 Stopniem rozmycia A w X nazywamy przedziaª in(A) ⊆ [0, 1]taki »e

in(A) = [in(A), in(A)] =

[ |supp(A)||X |

,|supp(A)||X |

](6.9)

De�nicja 6.6 Interwaªowym ilorazem liczno±ci A w X nazywamy przedziaªrc(A) ⊆ [0, 1]:

rc(A) = [rc(A), rc(A)] =

[|A||X |

,|A||X |

](6.10)

W Def. 6.5 i 6.6 miara | · | jest interpretowana jako Σ-count (2.5) dla Asko«czonego lub jako clm (2.6) dla A niepoliczalnego. Zde�niowane miarynieprecyzyjno±ci znajduj¡ zastosowanie w obliczaniu jako±ci interwaªowychpodsumowa« lingwistycznych, co opisano szerzej w rozdz. 9.

Rozdziaª 7

Zbiory rozmyte typu 2a informacja lingwistyczna

Rozdziaª 7 rozprawy de�niuje przy u»yciu zbiorów rozmytych typu 2 w sen-sie Mendla analogiczne poj¦cia i metody, które przedstawiono w rozdz. 6 dlainterwaªowych zbiorów rozmytych. Gªównym powodem zastosowania kole-jnego rozszerzenia zbiorów Zadeha jest, na podstawie [12, 17, 18] zasadno±¢wprowadzenia dodatkowego [tu: drugiego � przyp. AN] stopnia swobody przy

okre±laniu niepewno±ci informacji. W zbiorach rozmytych typu 2 rol¦ tegodrugiego stopnia przejmuj¡ drugorz¦dne, secondary, stopnie przynale»no±ci,b¦d¡ce warto±ciami drugorz¦dnych funkcji przynale»no±ci.

Zasadniczo zbiory rozmyte typu 2 o dowolnych drugich funkcjach przy-nale»no±ci uwa»a si¦ za uogólnienie interwaªowych zbiorów rozmytych, np.u»ywa si¦ nazwy general type-2 fuzzy sets, czyli uogólnione, ogólne zbioryrozmyte typu 2. Jednak»e nie we wszystkich aspektach reprezentowanie in-formacji lingwistycznej oparte o general type 2 fuzzy sets bezpo±rednio rozwijaanalogiczne metody oparte o interwaªowe zbiory rozmyte (rozdz. 6). Jedn¡z przyczyn s¡ tu odmienne de�nicje liczno±ci i podobnych miar dla inter-waªowych i ogólnych typu 2 zbiorów rozmytych, gdy» dla pierwszych stosujesi¦ interwaªy, dla drugich za± � skalary. W rozprawie rozwa»a si¦ relacjepomi¦dzy tymi podej±ciami, jak równie» kryteria wyboru pod k¡tem zas-tosowa«, zasadniczo jednak uwa»a si¦ je za ró»ne i nie w peªni spójne.

Zmienne lingwistyczne typu 2

De�nicja 7.1 Zmienn¡ lingwistyczn¡ typu 2 L, type-2 linguistic variable,nazywamy pi¡tk¦ uporz¡dkowan¡ 〈L, H(L), X , G, K〉, której elementy in-terpretowane s¡ analogicznie do Def. 6.1, s. 16, z tym »e etykiety z H(L)reprezentowane s¡ przez zbiory rozmyte typu 2 w X .

Rozdziaª 7. Zbiory rozmyte typu 2 a informacja lingwistyczna 21

Stopniem zgodno±ci pewnego x ∈ X z etykiet¡ l ∈ H(L) nazwiemy trady-cyjny zbiór rozmyty µeSl(x) w [0, 1], gdzie Sl � zbiór rozmyty typu 2 w Xreprezentuj¡cy etykiet¦ l.

Podobnie do tradycyjnych i interwaªowych zbiorów rozmytych, wychodz¡cz Def. 7.1, reprezentowa¢ mo»na etykiety zªo»one przy u»yciu spójnikówand, or, and not. Z punktu widzenia lingwistycznego podsumowywaniabaz danych najbardziej interesuj¡ce jest reprezentowanie etykiet zªo»onych,których skªadniki modelowane s¡ poprzez zbiory rozmyte typu-2 w ró»nychprzestrzeniach rozwa»a«. Przez analogi¦ do (5.1) i (6.1), etykiety takiereprezentujemy poprzez operacje teoriomnogo±ciowe na rozszerzeniach cylindrycznychzbiorów rozmytych typu 2 S1 w X1, S2 w X2 reprezentuj¡cych poszczególneskªadniki, np.

µeSand(x1, x2) =µeS1(x1) u µeS2

(x2) =

=

∫ueS1

∫ueS2

(µx1(ueS1

) t1 µx2(ueS2))/

(ueS1t2 ueS2

) (7.1)

gdzie x1 ∈ X1, x2 ∈ X2.Aby zapewni¢ mo»liwo±¢ stosowania (7.1) tak»e dla etykiet reprezen-

towanych przez tradycyjne zbiory rozmyte, stosuje si¦ nast¦puj¡c¡ interpre-tacj¦ zbioru rozmytego A jako zbioru rozmytego typu 2:

A = {〈x, µA(x), 1〉:x ∈ X} (7.2)

co oznacza, »e wszystkie drugorz¦dne stopnie przynale»no±ci w A przyjmujesi¦ za równe 1.

Kwanty�kowanie wyra»e« reprezentowanych przez zbiory rozmytetypu 2

W rozprawie proponuje si¦ rozszerzenia rachunku kwanty�katorów rozmytychZadeha [53]. Punktem wyj±cia s¡ nast¦puj¡ce dwie formy wyra»e« kwanty-�kowanych lingwistycznie:

Q x'ów jest S1 (7.3)

Q x'ów które s¡ S2 jest S1 (7.4)

Z pocz¡tku przyjmijmy, i» Q reprezentowany jest przez zwykªy zbiór rozmyty,za± S1, S2 � przez sko«czone zbiory rozmyte typu 2 w X . Stopnie prawdzi-wo±ci, degrees of truth, wyra»enia (7.3) obliczamy nast¦puj¡co:

T(Q x'ów jest S1

)= µQ

(nfσ-count(S1)

M

)(7.5)


gdzie nfσ-count(S1) jest liczb¡ rzeczywist¡ (4.6),M = |X | je±liQ jest wzgl¦dny,lub M = 1 je±li Q jest absolutny. Natomiast dla (7.4):

T(Q x'ów które s¡ S2 jest S1

)= µQ

(nfσ-count(S1 ∩ S2)

nfσ-count(S2)

)(7.6)

dla Q wzgl¦dnego.

Kwanty�katory rozmyte typu 2

Nieprecyzyjne lingwistyczne okre±lenia liczno±ci mog¡ by¢ tak»e modelowaneprzez zbiory rozmyte typu 2. Dodatkowym warunkiem wymaganym w rozprawiejest spójno±¢ z analogicznym podej±ciem na bazie zwykªych zbiorów rozmy-tych. St¡d te» proponuje si¦ nast¦puj¡ce de�nicje wªasno±ci zbioru rozmytegotypu 2 Q w X eQ ⊆ R+ ∪ {0} reprezentuj¡cego kwanty�kator lingwistyczny.

De�nicja 7.2 A jest normalny wtw.

∃x′∈X u eA = 1 ∧ µx′(u eA) = 1, u eA ∈ Jx′ (7.7)

De�nicja 7.3 A jest wypukªy wtw. dla ka»dego c b¦d¡cego drugorz¦dnymstopniem przynale»no±ci w A, osadzone zbiory rozmyte typu 1, o funkcjachprzynale»no±ci µcmin, µcmax: R→ [0, 1]

µcmin(x) = min{u ∈ Jx:µx(u) = c}µcmax(x) = max{u ∈ Jx:µx(u) = c} (7.8)

s¡ wypukªe w sensie (2.8).

Obie de�nicje s¡ rozwini¦ciami odpowiednio normalno±ci i wypukªo±ci zwykªychzbiorów rozmytych, zob. (2.7) i (2.8). Tak»e analogicznie do tradycyjnychkwanty�katorów rozmytych de�niujemy absolutne i wzgl¦dne kwanty�katoryrozmyte typu 2.

Na podstawie ww. wªasno±ci okre±li¢ mo»na stopnie prawdziwo±ci wyra»e«kwanty�kowanych lingwistycznie, w których okre±lenie liczno±ci reprezen-towane jest przez zbiory rozmyte typu 2. Zatem dla formy (7.3):

T(Q x'ów jest S1

)= µ eQ

(nfσ-count(S1)

)(7.9)

dla Q absolutnego (wzór dla Q wzgl¦dnego pomijamy) oraz dla formy (7.4)

T(Q x'ów które s¡ S2 jest S1

)= µ eQ

(nfσ-count(S1 ∩ S2)

nfσ-count(S2)

)(7.10)

dla Q wzgl¦dnego.


Nieprecyzyjno±¢ wyra»e« reprezentowanych przez zbiory rozmytetypu 2

Sposoby okre±lania nieprecyzyjno±ci wyra»e« modelowanych poprzez zbioryrozmyte typu 2 s¡ nieco odmienne od ich interwaªowych b¡d¹ tradycyjnychodpowiedników. Ma to zwi¡zek z konieczno±ci¡ uwzgl¦dniania wtórnychstopni przynale»no±ci. Niemniej jednak, w rozprawie zaproponowano metody,które mog¡ by¢ stosowane dla tradycyjnych zbiorów rozmytych przy zaªo»e-niu (7.2).

De�nicja 7.4 No±nik zbioru rozmytego typu 2 A w X jest tradycyjnym zbioremrozmytym w X danym funkcj¡ przynale»no±ci:

µsupp( eA)(x) = supu∈Jx\{0}

µx(u) (7.11)

supp(A) nazywamy tak»e no±nikiem rozmytym, fuzzy support.Na bazie no±nika rozmytego de�niujemy stopie« rozmycia, degree of fuzzi-

ness zbioru rozmytego typu 2:

De�nicja 7.5 Stopie« rozmycia A w X jest skalarem:

in(A) =|supp(A)||X |

(7.12)

Tak zde�niowana miara in(·) rozszerza analogiczne do niej (6.9) dla inter-waªowych zbiorów rozmytych i (2.3) � dla zwykªych zbiorów rozmytych. Ana-logicznie de�niujemy miar¦ rc(·):

De�nicja 7.6 Iloraz liczno±ci A w X de�niujemy jako skalar:

rc(A) =|A||X |

(7.13)

W obu powy»szych de�nicjach miara |·| interpretowana jest jako nfσ-count(·)(4.6), lub jako clm(·). Miary in(·) oraz rc(·) sªu»¡ do wyznaczania miarjako±ci podsumowa« lingwistycznych opartych o zbiory rozmyte typu 2, coszerzej opisano w rozdz. 10.

Cz¦±¢ III

Lingwistyczne podsumowaniabaz danych

Rozdziaª 8

Lingwistyczne podsumowywaniebaz danych z u»yciem zbiorówrozmytych

Rozdziaª ten w wi¦kszo±ci zawiera informacje o metodach lingwistycznegopodsumowywania du»ych zbiorów danych opracowanych przez Yagera [48,49, 50] i znacznie rozwini¦tych przez Kacprzyka, Yagera i Zadro»nego [10, 11].Ponadto, zaprezentowane s¡ w nim autorskie de�nicje nowych miar jako±cipodsumowa«, niejako uzupeªniaj¡ce propozycje autorów prac [10, 11]. Za-mieszczone opisy sªu»¡ gªównie jako punkt wyj±cia do przedstawienia rozszer-zonych metod podsumowywania danych przy u»yciu interwaªowych zbiorówrozmytych i zbiorów rozmytych typu 2. Rozszerzenia te stanowi¡ oryginalnydorobek autora; opisano je w rozdz. 9 i 10.

W rozprawie zakªada si¦ model bazy danych na podstawie [2]. NiechY = {y1,. . . , ym} b¦dzie zbiorem obiektów, o których przechowuje si¦ dane,np. samochodów. Niech V = {V1,. . . , Vn} b¦dzie zbiorem atrybutów,których warto±ci opisuj¡ obiekty z Y , np. wiek, cena. Niech X1,. . . , Xnb¦d¡ odpowiednio dziedzinami atrybutów V1,. . . , Vn, np. [0, 20] jest zakre-sem wieku samochodów. Warto±¢ atrybutu Vj dla obiektu yi zapisujemyVj(yi), i ≤ m, j ≤ n. Tabela bazy danych ma zatem posta¢:

D =

V1(y1), . . . , Vn(y1)V1(y2), . . . , Vn(y2)

. . .V1(ym), . . . , Vn(ym)

=

d1

d2

. . .dm

(8.1)

gdzie di = 〈V1(yi), . . . , Vn(yi)〉 ∈ D ⊆ X1×. . .×Xn, jest krotk¡ (rekordem)opisuj¡cym obiekt yi.

Rozdziaª 8. Lingwistyczne podsumowywanie baz danych z u»yciemzbiorów rozmytych 26

Lingwistyczne podsumowanie bazy danych ma posta¢:

Q P jest/ma S [T ] (8.2)

gdzie Q jest kwanty�katorem lingwistycznym, okre±leniem liczno±ci, P � pod-miotem podsumowania, podzbiorem Y , S � sumaryzatorem, summarizer,lingwistycznie opisuj¡cym pewne wªasno±ci obiektów (krotek), za± T ∈ [0, 1]� stopniem prawdziwo±ci podsumowania. Przykªadowe podsumowanie maposta¢ Okoªo poªowy samochodów jest w ±rednim wieku [0.83]. Przyjmijmy,»e S dotycz¡cy atrybutu Vj, j ≤ n, jest reprezentowany przez zbiór rozmytySj w Xj. T dla podsumowania (8.2) obliczamy wówczas jako

T (Q P jest/ma Sj) = µQ

(∑mi=1 µSj(di)

m

)(8.3)

dla Q wzgl¦dnego (dla Q absolutnego przyjmujemy w mianowniku m =1), gdzie symbol µSj(di) jest uproszczonym zapisem stopnia przynale»no±cikrotki di do rozszerzenia cylindrycznego Sj w Xj do X1 × . . .×Xn, cf. (2.9),sk¡d mamy tak»e µSj(di) = µce(Sj)(di) = µce(Sj)

(V1(yi), . . . , Vn(yi)

). Sumaryza-

tor S mo»e by¢ tak»e reprezentowany przez kilka zbiorów rozmytych, ±ci±lejprzez sum¦ b¡d¹ iloczyn ich rozszerze« cylindrycznych do X1× . . .×Xn, ana-logicznie do zªo»onych etykiet zmiennych lingwistycznych, zob. rozdz. 5.

Najciekawszym ulepszeniem propozycji Yagera s¡ opisane w [10, 11] pod-sumowania lingwistyczne z kwali�katorem, wg formy (5.3), o postaci:

Q P które s¡/maj¡ W jest/ma S [T ] (8.4)

gdzieW � kwali�kator, quali�er, reprezentowany, podobnie jak S, przez zbiórrozmyty w X1 × . . .×Xn:

µW (di) = µWg1(di) t/s . . . t/s µWgx

(di), i = 1, . . . ,m (8.5)

Stopie« prawdziwo±ci takiego podsumowania jest interpretacj¡ (5.5):

T = µQ

∑mi=1

(µS(di) ∧ µW (di)

)∑m

i=1 µW (di)

(8.6)

gdzie spójnik ∧ reprezentowany jest przez t-norm¦, za± Q jest wzgl¦dny.Rozdziaª 8 rozprawy opisuje tak»e miary jako±ci podsumowa«, w szczegól-

no±ci te oznaczane T1 ÷ T5, cf. Kacprzyk, Yager i Zadro»ny [10, 11] orazT6 ÷ T10, cf. Niewiadomski [25]. Znalezienie najlepszego podsumowaniapolega na maksymalizacji

T = T (T1, . . . , T10; w1, . . . , w10) =∑10

i=1wi · Ti (8.7)

gdzie w1 + . . .+ w10 = 1 � wagi przypisane poszczególnym miarom jako±ci.

Rozdziaª 9

Interwaªowe podsumowanialingwistyczne baz danych

Z powodów analogicznych do przedstawionych w rozdz. 3 i 4, warto rozwa»y¢metody lingwistycznego podsumowywania danych przy u»yciu interwaªowychzbiorów rozmytych (w tym rozdziale) i zbiorów rozmytych typu 2 (w rozdz. 10)do reprezentowania elementów podsumowa«, czyli kwanty�katorówQ, sumaryza-torów S i kwali�katorów W . W szczególno±ci, interwaªowe podsumowanialingwistyczne, interval-valued linguistic summaries, mog¡ mie¢ zastosowanie,gdy jeden lub wi¦cej ww. elementów podsumowa« reprezentowane jest przezkilka funkcji przynale»no±ci pochodz¡cych od wielu ekspertów. Bezpo±red-nim skutkiem reprezentowania elementów podsumowa« poprzez interwaªowezbiory rozmyte jest przedstawienie stopnia prawdziwo±ci T = T1 i pozostaªychmiar jako±ci Ti jako interwaªów [ti, ti ] ⊆ [0, 1], i = 1, . . . , 10.

Interwaªowe podsumowania lingwistyczne baz danych stanowi¡ oryginalnydorobek autora rozprawy, co zaprezentowane zostaªo w pracach Niewiadom-ski [21, 22] oraz Niewiadomski, Ochelska, Szczepaniak [37]. Zastosowaniainterwaªowych podsumowa« lingwistycznych opisane s¡ m.in. w [28, 40].

Podsumowania z interwaªowym kwanty�katorem rozmytym...

... to podsumowania lingwistyczne o postaci (8.2), w których jedynie okre±le-nie liczno±ci Q (kwanty�kator lingwistyczny) jest reprezentowane przez in-terwaªowy zbiór rozmyty1. Stopie« prawdziwo±ci takiego podsumowaniaobliczamy jako interwaª:

T =[t, t]

=

[µQ

(∑mi=1 µSj(di)

m

), µQ

(∑mi=1 µSj(di)

m

)](9.1)

1Naturalnie, zbiór ten jest okre±lony w R+ ∪ {0} i speªnia warunki normalno±ci i wy-pukªo±ci, zob. Def. 6.2 i 6.3.

Rozdziaª 9. Interwaªowe podsumowania lingwistyczne baz danych 28

dla Q wzgl¦dnego (dla Q absolutnego przyjmuje si¦ w mianownikach m = 1),gdzie oznaczenia � jak dla (8.3). Zauwa»my, »e je±li Q reprezentowanyjest przez zwykªy zbiór rozmyty, (9.1) przedstawia przedziaª zdegenerowany,a wi¦c sprowadza si¦ do (8.3). Tak»e podobnie jak w (8.3), S mo»e by¢reprezentowany przez kilka zbiorów rozmytych, wi¦c na ich rozszerzeniachcylindrycznych � na potrzeby reprezentowania spójników and i or � przeprowadzasi¦ operacje iloczynu i sumy, odpowiednio poprzez pewne t-normy i t-konormy.

Powy»sza metoda dotyczy podsumowa« na bazie pierwszej formy wyra»e-nia kwanty�kowanego lingwistycznie, zob. (5.2). Analogicznie rozpatrywa¢mo»na podsumowania w drugiej formie, (5.3), w których tak»e i kwali�katorW reprezentowany jest poprzez zwykªy zbiór rozmyty.

Podsumowania z sumaryzatorem interwaªowym

Nieco odmienna sytuacja ma miejsce wówczas, gdy to sumaryzator S jestreprezentowany przez interwaªowy zbiór rozmyty, a Q � przez zwykªy zbiórrozmyty. Nadal rozwa»ane s¡ tu podsumowania o postaci (8.2). Funkcjeprzynale»no±ci dla sumaryzatora interwaªowego maj¡ posta¢:

µS(di) = µ

S1(di) t/s . . . t/s µSn

(di), i = 1, 2, . . . ,m (9.2)

i µS(di) � analogicznie. Stopie« prawdziwo±ci oblicza sie wówczas jako:

T =[t, t]

=

[infr∈[r,r]

µQ

( rm

), supr∈[r,r]

µQ

( rm

)](9.3)

dla Q wzgl¦dnego (dla Q absolutnego � w mianownikach m = 1), gdzie

[r, r] =[∑m

i=1µS(di),

∑m

i=1µS(di)

](9.4)

Równanie (9.3) upro±ci¢ mo»na do postaci:

T =[t, t]

= [µQ(r), µQ(r)] (9.5)

przy zaªo»eniu, i» funkcja przynale»no±ci µQ jest monotonicznie niemalej¡ca.

Podsumowania z interwaªowym kwali�katorem...

... s¡ to podsumowania na bazie drugiej formy wyra»enia kwanty�kowanegolingwistycznie, czyli o postaci (8.4), w których sumaryzator S i kwali�katorW reprezentowane s¡ przez interwaªowe zbiory rozmyte, a kwanty�kator Q


� przez zwykªy zbiór rozmyty. Analogicznie do (9.2), funkcje przynale»no±cidla W maj¡ posta¢:

µW

(di) = µWg1

(di) t/s . . . t/s µWgx(di), i = 1, 2, . . . ,m (9.6)

i µW (di) � analogicznie, g1, . . . , gx ∈ {1, . . . , n}. Stopie« prawdziwo±ci inter-waªowego podsumowania z kwali�katorem to:

T =[t, t]

=

[infr∈[r,r]

µQ(r), supr∈[r,r]

µQ(r)

](9.7)

gdzie

r = min

{ Pmi=1 (µ

S(di)∧µW (di))Pm

i=1 µW (di),

Pmi=1 (µS(di)∧µW (di))Pm

i=1 µW (di),

Pmi=1 (µ

S(di)∧µW (di))Pm

i=1 µW (di),

Pmi=1 (µS(di)∧µW (di))Pm

i=1 µW (di)

}(9.8)

i r � analogicznie jako maximum. Dla W i S reprezentowanych przez zwykªezbiory rozmyte, (9.7) sprowadza si¦ do (8.6).

Nadmieni¢ nale»y, i» podsumowania lingwistyczne, w których zarównokwanty�katory jak i sumaryzatory i/lub kwali�katory reprezentowane s¡przez uogólnienia zbiorów rozmytych (±ci±lej: przez zbiory rozmyte typu2), rozpatruje si¦ w rozdz. 10, co zwi¡zane jest z konieczno±ci¡ stosowaniaskalarnych (nie za± � jak w tym rozdziale � interwaªowych) liczno±ci tychzbiorów.

Miary jako±ci interwaªowych podsumowa« lingwistycznych

Rozdziaª 9 de�niuje tak»e miary jako±ci dla interwaªowych podsumowa« ling-wistycznych. S¡ to uogólnienia miar przedstawionych w rozdz. 8, gªówniepoprzez wyra»enie ich w formie interwaªów, których kra«ce zale»ne s¡ od dol-nych i górnych funkcji przynale»no±ci dla Q, S, i/lub W . W konsekwencji,miary te sprowadzaj¡ si¦ do swoich odpowiedników opisanych w rozdz. 8rozprawy, je±li tylko do reprezentowania danego elementu podsumowaniau»yto zwykªego zbioru rozmytego.

Przykªadowa miara nieprecyzyjno±ci kwanty�katora interwaªowego, inter-val-valued degree of quanti�er imprecision, zde�niowana jest jako:

T6 =[t6, t6

]= 1−

[in(Q), in(Q)

]=[1− in(Q), 1− in(Q)

]=

=

[1−

(|supp(Q)||XQ|

), 1−

( |supp(Q)||XQ|

)](9.9)


gdzie in(Q) dane jest wzorem (6.9). Inne dwie miary jako±ci podsumowaniainterwaªowego oparte s¡ o charakterystyki interwaªowych zbiorów rozmytychreprezentuj¡cych kwali�kator W :

T9 = [t9, t9] =

1−

(x∏j=1

in(Wgj)

)1/x

, 1−

(x∏j=1

in(Wgj)

)1/x (9.10)

oraz

T10 = [t10, t10] =

1−

(x∏j=1

rc(Wgj)

)1/x

, 1−

(x∏j=1

rc(Wgj)

)1/x (9.11)

Dla tak okre±lonych miar jako±ci mo»liwe jest ponowne postawienie problemuznalezienia najlepszego podsumowania � polega on na znalezieniu mo»liwienajwi¦kszej warto±ci miary:

T = [t, t] =[∑10

i=1wi · ti,

∑10

i=1wi · ti

](9.12)

gdzie relacja porz¡dku pomi¦dzy interwaªami ustalana jest poprzez (3.4) lubinne opisane w rozdz. 3 rozprawy.

Rozdziaª 10

Podsumowania lingwistycznena zbiorach rozmytych typu 2

Rozdziaª 10 jest analogonem rozdziaªu poprzedniego � opisane s¡ tu pod-sumowania lingwistyczne konstruowane w oparciu o zbiory rozmyte typu 2.Przedstawione metody mog¡ by¢ postrzegane jako uogólnienie metod opar-tych o zwykªe zbiory rozmyte, a tak»e, przy pewnych zaªo»eniach przyj¦-tych co do liczno±ci i innych charakterystyk, tak»e tych u»ywaj¡cych in-terwaªowych zbiorów rozmytych. Rozdziaª prezentuje gªównie oryginalnydorobek autora, opublikowany wcze±niej w pracach [23, 27, 29, 30].

Podsumowania lingwistyczne z sumaryzatorami typu 2

Podsumowanie lingwistyczne typu 2 na bazie pierwszej formy wyra»eniakwanty�kowanego lingwistycznie, zob. (7.3), ma posta¢:

Q P jest/ma S [T ] (10.1)

gdzie symbole interpretowane s¡ analogicznie do (8.2), przy czym okre±lenieliczno±ci Q oraz sumaryzator S reprezentowane s¡ przez zbiory rozmyte typu2. W konsekwencji, stopie« prawdziwo±ci T jest reprezentowany przez zbiórrozmyty w [0, 1].

W szczególno±ci, je±li Q jest opisane zwykªym zbiorem rozmytym, stopie«prawdziwo±ci T jest liczb¡ rzeczywist¡ (nierozmyt¡). Je±li sumaryzator reprezen-towany jest przez jeden zbiór rozmyty typu 2 Sj w Xj, T obliczamy jako:

T(Q P jest/ma Sj

)= µQ

(∑mi=1 max{ueSj :µeSj(di, ueSj) = 1}

M

)(10.2)

gdzie µeSj :X1 × . . .×Xn × [0, 1]→ [0, 1] jest nieco zmody�kowanym zapisem

drugorz¦dnej funkcji przynale»no±ci rozszerzenia cylindrycznego Sj na X1 ×

Rozdziaª 10. Podsumowania na zbiorach rozmytych typu 2 32

. . . × Xn, por. (4.3). M = 1 dla Q absolutnego, lub M = m = |D| dla Qwzgl¦dnego. (10.2) mo»na tak»e zapisa¢ jako:

T = µQ

(nfσ-count(Sj ∩ D)

M

)(10.3)

gdzie funkcja przynale»no±ci dla Sj∩D jest dana jako µeSj � D:D → F([0, 1]),(µeSj � D)(di) = µeS(di). Obydwie formy stopnia prawdziwo±ci sprowadzaj¡si¦ do przypadku (8.3), je±li wszystkie zbiory rozmyte w (10.1) s¡ typu 1.

Podsumowania z kwali�katorem typu 2

Podsumowania typu 2 mog¡ wyst¦powa¢ tak»e w drugiej formie wyra»e-nia kwanty�kowanego lingwistycznie, zob. (7.4). Kwali�kator W mo»e by¢reprezentowany przez jeden lub kilka zbiorów rozmytych typu 2 Wgx , gx ∈{1, . . . , n}, a ±ci±lej przez sum¦ b¡d¹ iloczyn rozszerze« cylindrycznych tychzbiorów na X1 × . . . × Xn. Funkcj¦ przynale»no±ci kwali�katora okre±lamyjako:

µfW (di) = µfWg1(di) u / t . . . u / t µfWgx

(di) (10.4)

gdzie zapis µfWgj(di) jest analogiczny do opisanego pod wzorem (10.2). Stopie«

przynale»no±ci, przy zaªo»eniu, i» Q reprezentowany jest przez zwykªy zbiórrozmyty, wyznaczamy jako liczb¦ rzeczywist¡ w [0, 1]:

T = µQ

(∑mi=1 max{ueS:µeS(di, ueS) = 1} ∧max{ufW :µfW (di, ufW ) = 1}∑m

i=1 max{ufW :µfW (di, ufW ) = 1}

)(10.5)

Wzór (10.5) zapisa¢ mo»na tak»e jako:

T = µQ

(nfσ-count(S ∩ W ∩ D)

nfσ-count(W ∩ D)

)(10.6)

gdzie funkcja przynale»no±ci dla S ∩ W ∩ D jest dana jako µeS∩fW � D:D →F([0, 1]) czyli

(µeS∩fW � D)(di) = µeS∩fW (di) (10.7)

Podsumowania lingwistyczne z kwanty�katorami rozmytymi typu 2

Rozpatrywane s¡ podsumowania w pierwszej i drugiej formie wyra»enia kwan-ty�kowanego lingwistycznie, odpowiednio (5.2) i (5.3), w których okre±lenieliczno±ci Q reprezentuje si¦ poprzez zbiór rozmyty typu 2, za± W i S � przez

Rozdziaª 10. Podsumowania na zbiorach rozmytych typu 2 33

zbiory rozmyte typu 1 b¡d¹ 2. Stopie« prawdziwo±ci T obliczamy wówczasjako zbiór rozmyty typu 1 w [0, 1]:

T = µ eQ(nfσ-count(S ∩ D)

m

)(10.8)

dla formy pierwszej i kwanty�katora wzgl¦dnego (dla absolutnego � m = 1w mianowniku), oraz

T = µ eQ(nfσ-count(S ∩ W ∩ D)

nfσ-count(W ∩ D)

)(10.9)

dla formy drugiej (tylko kwanty�katory wzgl¦dne).

Miary jako±ci podsumowa« typu 2

Miary jako±ci podsumowa« lingwistycznych typu 2 s¡ rozwini¦ciami analog-icznych miar wyznaczanych dla podsumowa« na zbiorach typu 1. Wszystkiemiary T1÷T10 dla podsumowa« typu 2 s¡ tak zde�niowane, »e w przypadku,gdyby dany element podsumowania, W , Q lub S byª reprezentowany przezzbiór rozmyty typu 1, sprowadzaj¡ sie one do analogicznych miar dla pod-sumowa« opisanych w rozdz. 8. Poni»ej przedstawiono przykªadowe miaryjako±ci dla podsumowa« typu 2. Np.

T3 =

∑mi=1 ti∑mi=1 hi

(10.10)

gdzieti = µsupp(fW∩eS∩D)(di), i = 1, . . . ,m (10.11)

hi = µsupp(fW∩D)(di), i = 1, . . . ,m (10.12)

oraz

T7 = 1− rc(Q) = 1− |Q||X eQ| (10.13)

dla Q absolutnego lubT7 = 1− |Q| (10.14)

dla Q wzgl¦dnego. Uogólnione postawienie problemu znalezienia najlepszegopodsumowania typu 2 polega na maksymalizacji równania (8.7) przy analog-icznych co w rozdz. 8 zaªo»eniach.

Cz¦±¢ IV

Przykªadowe zastosowania

Rozdziaª 11

Podsumowania lingwistycznei e-learning

Rozdziaª 11 opisuje przykªadowe zastosowanie mechanizmów lingwistycznegopodsumowywania baz danych w dziedzinie e-learningu, czyli nauczania naodlegªo±¢ z wykorzystaniem elektronicznych ±rodków komunikacji, zwªaszczasystemów komputerowych. Dokªadniej, konstrukcja i ewaluacja podsumowa«jest cz¦±ci¡ szerzej zakrojonych interdyscyplinarnych bada«, których idea po-zostaje w wi¦kszo±ci poza zakresem niniejszej pracy; wyniki caªo±ci tych»ebada« opisano w pracach [7, 19, 20, 31, 32, 33, 34, 35, 36, 38, 39].

Warto jednak wspomnie¢ o przeprowadzonym do±wiadczeniu, cho¢by dlapodkre±lenia ró»norodno±ci mo»liwych zastosowa« podsumowa« lingwisty-cznych. Do±wiadczenie polegaªo na opracowaniu klasy algorytmów, którychcelem byªo okre±lanie w skali [0, 1] poprawno±ci odpowiedzi udzielonych przezstudentów na pytania w testach elektronicznych (zdalnych) z j¦zyka niemieck-iego. Na 45 pyta« udzielono w sumie 250 odpowiedzi poprawnych, cz¦±-ciowo poprawnych i niepoprawnych. Te same odpowiedzi oceniane byªytak»e przez trzech ekspertów � nauczycieli j¦zyka niemieckiego. Gªównymzadaniem metod podsumowywania lingwistycznego byªo scharakteryzowaniew j¦zyku naturalnym zbie»no±ci ocen proponowanych przez algorytmy z oce-nami ekspertów. Potrzeba taka spowodowana byªa prac¡ w zespole inter-dyscyplinarnym (germani±ci, metodycy, informatycy), gdy» wska¹niki podobie«stwa,np. wspóªczynniki korelacji, zob. [20, 36, 39], nie byªy wystarczaj¡co czytel-nym opisem.

Podsumowywanie oparte o zwykªe zbiory rozmyte (co opisano w rozdz. 8),przeprowadzono na bazie danych o postaci zilustrowanej przez Tab. 11.1. Za-stosowano m.in. nast¦puj¡ce sumaryzatory i kwanty�katory.

Rozdziaª 11. Podsumowania lingwistyczne i e-learning 36

Tab. 11.1: Baza danych z ocenami proponowanymi przez ekspertów i przezalgorytmy (fragment)

Odpowiedzi Oceny ekspertów Mediana Oceny algorytmów# E1 E2 E3 Emed A1 · · · A4

1 1 0.75 0.75 0.75 0.97 · · · 0.922 0.5 0.5 0.75 0.5 0.45 · · · 0.583 0.5 0.5 0.75 0.5 0.63 · · · 0.74· · · · · · · · · · · ·250 1 1 1 1.0 0.99 · · · 0.89

Tab. 11.2: Podsumowanie: Q ocen zaproponowanych przez algorytm j jestpodobnych do ocen eksperta k

Alg. Expert 1 Expert 2 Expert 3 median

1 ok.poª. [0.74] ok.poª. [0.87] ok.poª. [0.98] ok.poª. [0.99]

niewiele [0.26] niewiele [0.12] wiele [0.04] niewiele [0.02]

2 ok.poª. [0.85] ok.poª. [0.93] OK.PO�. [0.96] ok.poª. [0.99]

niewiele [0.14] niewiele [0.07] WIELE [0.05] niewiele [0.02]


niewiele [0.30] niewiele [0.30] niewiele [0.02] niewiele [0.11]


niewiele [0.04] niewiele [0.12] niewiele [0.02] niewiele [0.03]

Sumaryzator ocena algorytmu podobna do oceny eksperta:

µpodobna (mij) =

{1, je±li mij ∈ [eik − 0.125, eik + 0.125]0,w przeciwnym przypadku

(11.1)

gdzie mij ∈ Aj jest ocen¡ zaproponowan¡ przez algorytm Aj dla odpowiedzii, za± eik ∈ Eik jest ocen¡ zaproponowan¡ przez eksperta, i ∈ {1, . . . , 250},j ∈ {1, 2, 3, 4}, k ∈ {1, 2, 3,med}.

Przykªadowy kwanty�kator rozmyty:

µwiele(x) = exp

(−(x− 0.76

0.13

)2)

(11.2)

Badaniom poddano 4 algorytmy, oznaczone A1,. . . , A4, których klasadokªadnie opisana jest w [19]. Przykªadowe wyniki zebrano w Tab. 11.2

Rozdziaª 12

Automatyczne generowaniekomentarzy prasowych

Jako przykªad zastosowania podsumowa« lingwistycznych na interwaªowychzbiorach rozmytych i zbiorach rozmytych typu 2, zaprezentowano metod¦generowania krótkich wiadomo±ci tekstowych z zamiarem wykorzystania ichw komentarzach prasowych lub podobnych, np. RSS. Idea i szczegóªy ró»nychwariantów do±wiadczenia zaprezentowane zostaªy przez autora w [24, 26, 28,29, 40].

Dziaªanie generatora zakªada istnienie pewnego zbioru krotek, w którychwarto±ci poszczególnych pól mog¡ by¢ opisywane lingwistycznie terminamiS1,. . . , Sz, z ∈ N. Terminy te reprezentujemy poprzez zbiory rozmyteró»nych typów, np. interwaªowe zbiory rozmyte, których funkcje przynale»no±ciproponowane s¡ przez ekspertów. Podobnie zakªadamy na wej±ciu pewn¡ilo±¢ kwanty�katorów lingwistycznych Q1,. . . , Qk, k ∈ N, w tym warianciedo±wiadczenia reprezentowane przez zwykªe zbiory rozmyte.

Algorytm generowania wiadomo±ci tekstowych zakªada znalezienie i u»y-cie wszystkich mo»liwych kombinacji S1,. . . , Sz jako sumaryzatorów i kwali-�katorów oraz przyporz¡dkowanie ka»dej kombinacji kwanty�katorów, któredaj¡ najwy»sze miary jako±ci utworzonych w ten sposób podsumowa«. �atwoobliczy¢, i» ogólna liczba podsumowa« dla ustalonych z, k wynosi:

k(z0

)((z1

)+ · · ·+

(zz

))+ · · ·+ k

(zz−1

)(11

)=

= k(z0

)(2z − 1) + . . .+ k

(zz−1

)(21 − 1) = k

z−1∑i=0

(z

i

)(2z−i − 1

) (12.1)

Poni»ej przedstawiamy fragment algorytmu generuj¡cego podsumowaniaw pierwszej formie (5.2):

Rozdziaª 12. Automatyczne generowanie komentarzy prasowych 38

1. for each non-empty S ⊆ {S1, ..., Sz}1.1. determine µS(di), i = 1, . . . ,m1.2. for each quantifier Qh, h = 1, ..., k

if Qh is absolute

compute: T1,h

T6,h = 1−[|supp(Qh)|

m,|supp(Qh)|

m

]T7,h = 1− |Qh|

m

else // i.e. if Qh is relative

compute: T1,h for r: = [ rm, rm

]T6,h = [1− |supp(Qh)|, 1− |suppQh|],T7,h = 1− |Qh|

1.3. compute Thmax = maxh∈{1,...,k}

{t: t = w1T1,h + w6T6,h + w7T7,h}

remember hmax

.........

1.8. T = Thmax + w2 · T2 + w4 · T4 + w5 · T5 + w8 · T8

1.9. generate the summary Qhmax P are/have S [T]

Przykªadowy generator zostaª zaimplementowany w j¦zyku C#, z baz¡danych w formatach *.mdb i *.mdf. Podsumowywano zbiór ok. 10 000 krotek(reprezentuj¡cych pracowników pewnego przedsi¦biorstwa) o postaci

〈Age, Education, Salary, Gender〉 (12.2)

Przykªadowe otrzymane wyniki dla kwanty�katorów Q1= �About half�,Q2=�Much more than 2000�, Q3=�Many� oraz sumaryzatorów S1=�about30�, S2=�earn about 4000�, przedstawiaj¡ si¦ nast¦puj¡co:

About half of workers are about 30 [0.58, 0.61]

About half of workers earn about 4000 [0.53, 0.53]

Many workers earn about 4000 and are about 30 [0.31, 0.36]

Many of workers who are about 30 earn about 4000 [0.39, 0.41]

.........

Otrzymany komentarz mo»e zosta¢ zapisany przez oprogramowanie w pli-ku tekstowym, np. w celu jego dalszej edycji.

Rozdziaª 13

Zako«czenie

Rozprawa opisuje zastosowanie teorii zbiorów rozmytych Zadeha oraz jejwybranych rozszerze« w reprezentowaniu nieprecyzyjnych danych lingwisty-cznych oraz metodach lingwistycznego podsumowywania baz danych. Pod-czas gdy metody oparte na zwykªych zbiorach rozmytych s¡ stosunkowo do-brze znane w literaturze i szeroko wykorzystywane, rozszerzenia i uogólnieniatych metod bazuj¡ce na interwaªowych zbiorach rozmytych, interval-valuedfuzzy sets, oraz na zbiorach rozmytych typu 2 w sensie Mendla, type-2 fuzzysets, stanowi¡ oryginalny dorobek autora. Podkre±li¢ nale»y, i» przedstaw-ione nowe podej±cia s¡ w peªni spójne z podej±ciami poprzednimi oraz uj-muj¡ je jako swoje szczególne przypadki (w pewnych zaªo»eniach redukuj¡si¦ do nich). Dla zaproponowanych metod przedstawiono dwa przykªady za-stosowa«.

Materiaª zamieszczony w rozprawie zostaª przez autora opublikowanyw ok. 20 publikacjach naukowych, w tym 6-ciu artykuªach (w wi¦kszo±cisamodzielnych) w czasopismach notowanych na ISI Thomson List [23, 24,26, 29, 30, 37].

Autor »ywi szczer¡ nadziej¦, »e opisane prace i wyniki stanowi¡ pewiennowatorski wkªad w dziedzin¦ sztucznej inteligencji i tzw. oblicze« mi¦kkich,soft computing.

Bibliogra�a

[1] C.-Y. Chen, B.-D. Liu. Linguistic hedges and fuzzy rule based systems.J. Cassillas, O. Cordon, F. Herrera, L. Magdalena, redaktorzy, AccuracyImprovement in Linguistic Fuzzy Modeling, strony 165�192. Physica-Verlag, c/o Springer-Verlag, Heidelberg, New York, 2003.

[2] E. F. Codd. A relational model of data for large shared data banks.Communications of the ACM, 13(6):377�387, 1970.

[3] A. De Luca, S. Termini. A de�nition of the non-probabilistic entropy inthe setting of fuzzy sets theory. Information and Control, 20:301�312,1972.

[4] M. Delgado, D. Sanchez, M. A. Vila. Fuzzy cardinality based evaluationof quanti�ed sentences. International Journal of Approximate Reason-ing, 23:23�66, 2000.

[5] M. B. Gorzaªczany. A method of inference in approximate reasoningbased on interval-valued fuzzy sets. Fuzzy Sets and Systems, 21:1�17,1987.

[6] M. B. Gorzaªczany. An interval-valued fuzzy inference method in ap-proximate reasoning. Fuzzy Sets and Systems, 31:243�251, 1989.

[7] R. Grzybowski, M. Majcher, A. Niewiadomski. Inketron � wyszuki-wanie informacji w tekstowych bazach wiedzy. Zeszyty Naukowe AGH,seria Automatyka, 7(3):673�684., 2003.

[8] L.-C. Jang, D. Ralescu. Cardinality concept for type-two fuzzy sets.Fuzzy Sets and Systems, 118:479�487, 2001.

[9] J. Kacprzyk, R. R. Yager. Linguistic summaries of data using fuzzylogic. International Journal of General Systems, 30:133�154, 2001.

Bibliogra�a 41

[10] J. Kacprzyk, R. R. Yager, S. Zadro»ny. A fuzzy logic based approachto linguistic summaries of databases. International Journal of AppliedMathematics and Computer Sciences, 10:813�834, 2000.

[11] J. Kacprzyk, R. R. Yager, S. Zadro»ny. Fuzzy linguistic summaries ofdatabases for an e�cient business data analysis and decision support.W. Abramowicz, J. �urada, redaktorzy, Knowledge Discovery for Busi-ness Information Systems, strony 129�152. Kluwer Academic Publisher,B. V. and Boston, 2001.

[12] N. N. Karnik, J. M. Mendel. An Introduction to Type-2 Fuzzy LogicSystems. University of Southern California, Los Angeles, 1998.

[13] N. N. Karnik, J. M. Mendel, Q. Liang. Type-2 fuzzy logic systems.IEEE Transactions on Fuzzy Systems, 7(6):643�658, 1999.

[14] Y. Liu, E. E. Kerre. An overview of fuzzy quanti�ers, part I: Interpre-tations. Fuzzy Sets and Systems, 95:1�21, 1998.

[15] Y. Liu, E. E. Kerre. An overview of fuzzy quanti�ers, part II: Reasoningand applications. Fuzzy Sets and Systems, 96:1�12, 1998.

[16] G. Malinowski. Logiki wielowarto±ciowe. PWN, 2006.

[17] J. M. Mendel. Uncertain Rule-Based Fuzzy Logic Systems: Introductionand New Directions. Prentice-Hall, Upper Saddle River, NJ, 2001.

[18] J. M. Mendel, R. I. John. Type-2 fuzzy sets made simple. IEEE Trans-actions on Fuzzy Systems, 10(2):117�127, 2002.

[19] A. Niewiadomski. Intuicjonistyczne zbiory rozmyte w komputerowymokre±laniu podobie«stwa dokumentów tekstowych. Instytut Bada« Sys-temowych PAN, 2001, Warszawa.

[20] A. Niewiadomski. Interval-valued data structures and their applicationto e-learning. Lecture Notes in Computer Science, 3381:403�407, 2005.

[21] A. Niewiadomski. Interval-valued linguistic variables. an application tolinguistic summaries. O. Hryniewicz, J. Kacprzyk, J. Koronacki, S. T.Wierzcho«, redaktorzy, Issues in Intelligent Systems. Paradigms, strony167�183. Akademicka O�cyna Wydawnicza EXIT, Warszawa, 2005.

[22] A. Niewiadomski. Interval-valued quality measures for linguistic sum-maries. P. Grzegorzewski, M. Krawczak, S. Zadro»ny, redaktorzy, Is-sues in Soft Computing. Theory and Applications, strony 211�224. Aka-demicka O�cyna Wydawnicza EXIT, Warszawa, 2005.

Bibliogra�a 42

[23] A. Niewiadomski. On two possible roles of type-2 fuzzy sets in linguisticsummaries. Lecture Notes in Arti�cial Intelligence, 3528:341�347, 2005.

[24] A. Niewiadomski. News generating via fuzzy summarization ofdatabases. Lecture Notes in Computer Science, 3831:419�429, 2006.

[25] A. Niewiadomski. Six new informativeness indices of data linguistic sum-maries. P. S. Szczepaniak, K. W�egrzyn-Wolska, redaktorzy, Advances inIntelligent Web Mastering, strony 254�259. Springer-Verlag, 2007.

[26] A. Niewiadomski. Type-2 fuzzy summarization of data. An improvednews generating. Lecture Notes in Arti�cial Intelligence, 4585:241�250,2007.

[27] A. Niewiadomski. Imprecision measures for type-2 fuzzy sets. Applica-tions to linguistic summarization of databases. Lecture Notes in Arti�-cial Intelligence, 5097:285�294, 2008.

[28] A. Niewiadomski. Interval-valued linguistic summarization of data. newquality measures and applications. International Journal of InformationTechnology and Intelligent Computing, 3(2), 2008. (w druku).

[29] A. Niewiadomski. A type-2 fuzzy approach to linguistic summarizationof data. IEEE Transactions on Fuzzy Systems, 16(1):198�212, 2008.

[30] A. Niewiadomski, M. Bartyzel. Elements of type-2 semantics in summa-rizing databases. Lecture Notes in Arti�cial Intelligence, 4029:278�287,2006.

[31] A. Niewiadomski, M. Bartyzel, P. S. Szczepaniak. Podsumowania ling-wistyczne w ocenianiu algorytmów zautomatyzowanego egzaminowa-nia na odlegªo±¢. Materiaªy XV Krajowej Konferencji Automatyki,Warszawa, 27�30 czerwca, strony t.3, 81�86, 2005.

[32] A. Niewiadomski, R. Grzybowski. Rozmyte miary podobie«stwa tek-stów w automatycznej ewaluacji testów egzaminacyjnych. InformatykaTeoretyczna i Stosowana, 6(4):73�80, 2004.

[33] A. Niewiadomski, A. Indrzejczak. Rachunek sekwentów Goentzenaw automatycznej ewaluacji testów egzaminacyjnych. Zeszyty naukoweWSHE, Seria 3(5):51�58, 2004.

[34] A. Niewiadomski, A. Indrzejczak. The Gentzen sequent calculus in e-testing. Part I: Foundations. D. Rutkowska, J. Kacprzyk, A. Cader,

Bibliogra�a 43

K. Przybyszewski, redaktorzy, Some aspects of Computer Science. Aka-demicka O�cyna Wydawnicza EXIT, Warszawa, 2007. (w druku).

[35] A. Niewiadomski, A. Indrzejczak. The Gentzen sequent calculusin e-testing. Part II: algorithms and implementation. D. Rutkowska,J. Kacprzyk, A. Cader, K. Przybyszewski, redaktorzy, Some aspects ofComputer Science. Akademicka O�cyna Wydawnicza EXIT, Warszawa,2007. (w druku).

[36] A. Niewiadomski, A. Jedynak, R. Grzybowski. Automatycznesprawdzanie testów egzaminacyjnych. Materialy 4-tej Ukrai«sko-Polskiej Konferencji Mechanika �rodowiska, Metody Informatyczne iSymulacje, Lwów, Ukraina, 24�26 czerwca, strony 133�140, 2004.

[37] A. Niewiadomski, J. Ochelska, P. S. Szczepaniak. Interval-valued lin-guistic summaries of databases. Control and Cybernetics, 35(2):415�444,2006.

[38] A. Niewiadomski, B. Rybusi«ski. Fuzzy sets-based retranslation ofnumerical data in e-learning. Lecture Notes in Arti�cial Intelligence,3528:348�354, 2005.

[39] A. Niewiadomski, B. Rybusi«ski, K. Sakowski, R. Grzybowski. Zas-tosowanie wielowarto±ciowych relacji podobie«stwa w automatycznymsprawdzaniu testów gramatycznych. J. Mischke, redaktor, AkademiaOn-Line, strony 149�154. Wydawnictwo WSHE w �odzi, 2005.

[40] A. Niewiadomski, P. S. Szczepaniak. News generating based on intervaltype-2 linguistic summaries of databases. Proceedings of IPMU 2006Conference, July 2�7, 2006, Paris, France, strony 1324�1331, 2006.

[41] V. Novak. Fuzzy Sets and Their Applications. Adam Hilger, 1989.

[42] L. Rutkowski. Metody i techniki sztucznej inteligencji. PWN, 2006.

[43] R. Sambuc. Fonctions Φ-�oues. Application à l`aide au diagnostic enpathologie thyroidienne. Praca doktorska, Univ. Marseille, France, 1975.(in French).

[44] H. Thiele. On T -quanti�ers and S-quanti�ers. Proceedings ofthe Twenty-Fourth International Symposium on Multiple-Valued Logic,strony 264�269, 1994.

Bibliogra�a 44

[45] H. Thiele. On fuzzy quanti�ers. Z. Bien, K. C. Min, redaktorzy, FuzzyLogic and its Applications to Engineering, Information Science and In-telligent Systems, strony 343�352. Kluwer Academic Publishers, 1995.

[46] I. B. Turksen. Interval-valued fuzzy sets based on normal forms. FuzzySets and Systems, 20:191�210, 1986.

[47] H. Wu, J. M. Mendel. Uncertainty bounds and their use in the designof interval type�2 fuzzy logic systems. IEEE Transactions on FuzzySystems, 10(5):622�639, 2002.

[48] R. R. Yager. A new approach to the summarization of data. InformationSciences, 28:69�86, 1982.

[49] R. R. Yager. Linguistic summaries as a tool for database discovery. Pro-ceedings of FUZZ�IEEE'95/IFES'95, Workshop on Fuzzy Database Sys-tem and Information Retrieval, Yokohama, Japan, strony 79�82, 1995.

[50] R. R. Yager, M. Ford, A. J. Canas. An approach to the linguistic sum-marization of data. Proceedings of 3rd International Conference, Infor-mation Processing and Management of Uncertainty in Knowledge-BasedSystem, Paris, France, strony 456�468, 1990.

[51] L. A. Zadeh. Fuzzy sets. Information and Control, 8:338�353, 1965.

[52] L. A. Zadeh. The concept of linguistic variable and its application forapproximate reasoning (I). Information Sciences, 8:199�249, 1975.

[53] L. A. Zadeh. A computational approach to fuzzy quanti�ers in naturallanguages. Computers and Maths with Applications, 9:149�184, 1983.

methods for the linguistic summarization of data...

Documents