notatki do wykładu, wersja na 10 maja 2015 (pdf)

LOGIKA STOSOWANAWykład monograficzny

Semestr letni, 2016/2017

Nguyen Hung Son, Marcin SzczukaInstytut Informatyki UWWarszawa, ul.Banacha [email protected]

Spis treści

1 Rachunek zdań 51.1 Język rachunku zdań . . . . . . . . . . . . . . . . . . . . . . . 51.2 Semantyka dwuwartościowa . . . . . . . . . . . . . . . . . . . 61.3 Syntaktyka . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 Twierdzenie o pełności . . . . . . . . . . . . . . . . . . . . . . 91.5 Twierdzenie o zwartości . . . . . . . . . . . . . . . . . . . . . 11

2 Logika Modalna 132.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Języki logiki modalnej . . . . . . . . . . . . . . . . . . . . . . 132.3 Strukturalna Semantyka . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 Podstawowa relacja spełnialności . . . . . . . . . . . . 162.3.2 Przykład . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3.3 Trzy relacje spełnialności . . . . . . . . . . . . . . . . . 19

2.4 Relacje konsekwencji sematycznej . . . . . . . . . . . . . . . . 212.5 Podstawowy system dowodzenia . . . . . . . . . . . . . . . . . 22

2.5.1 Przykład . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5.2 Inne systemy formalne . . . . . . . . . . . . . . . . . . 242.5.3 Poprawność systemu dowodzenia . . . . . . . . . . . . 26

2.6 Pełność logik modalnych . . . . . . . . . . . . . . . . . . . . . 282.6.1 Twierdzenie i główne ścieżki dowodu . . . . . . . . . . 282.6.2 Konstrukcja modelu kanonicznego . . . . . . . . . . . . 292.6.3 Dowód twierdzenia 25 (o pełności logiki modalnej) . . . 31

2.7 Pełność w sensie Kripkego . . . . . . . . . . . . . . . . . . . . 312.8 Roztrzygalność . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3

4 SPIS TREŚCI

3 Zbiory i logiki rozmyte 373.1 Rachunek zbiorów rozmytych . . . . . . . . . . . . . . . . . . 37

3.1.1 Relacje rozmyte . . . . . . . . . . . . . . . . . . . . . . 403.2 Logiczne operatory rozmyte . . . . . . . . . . . . . . . . . . . 413.3 Logika possybilistyczna . . . . . . . . . . . . . . . . . . . . . . 433.4 Prawdziwościowa logika rozmyta . . . . . . . . . . . . . . . . . 48

4 Wnioskowanie indukcyjne 534.1 Problem indukcji . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.1.1 Rozumowania indukcyjne - wprowadzenie . . . . . . . . 534.2 Typy rozumowań indukcyjnych . . . . . . . . . . . . . . . . . 55

4.2.1 Indukcja zupełna . . . . . . . . . . . . . . . . . . . . . 554.2.2 Indukcja eliminacyjna . . . . . . . . . . . . . . . . . . 55

4.3 Niezupełne wnioskowanie indukcyjne . . . . . . . . . . . . . . 564.3.1 Kryterium zgodności . . . . . . . . . . . . . . . . . . . 574.3.2 Rodzaje wnioskowań indukcyjnych . . . . . . . . . . . 584.3.3 W stronę logiki indukcyjnej . . . . . . . . . . . . . . . 62

4.4 Indukcyjne wnioskowania bayesowskie . . . . . . . . . . . . . . 654.4.1 Probabilistyczna logika indukcyjna . . . . . . . . . . . 664.4.2 Wnioskowanie bayesowskie . . . . . . . . . . . . . . . . 674.4.3 Bayesowska predykcja i wspomaganie decyzji . . . . . . 684.4.4 Wybór hipotezy w ogólności . . . . . . . . . . . . . . . 74

4.5 Indukcja reguł . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.5.1 Reguły decyzyjne . . . . . . . . . . . . . . . . . . . . . 774.5.2 Reguły asocjacyjne . . . . . . . . . . . . . . . . . . . . 794.5.3 ILP - Inductive Logic Programming . . . . . . . . . . . 82

Rozdział 1

Rachunek zdań

1.1 Język rachunku zdań

Język rachunku zdań składa się z następujących elementów:

1. Symbole:

• Nieskończony zbiór zmiennych zdaniowych V AR = p, q, r, ...

• 4 wyróżnione symbole: ¬,∨, (, ).

2. Reguły składania: Podajemy definicję rekurencyjną pojęcia ”popraw-nie zdefiniowanych formuł zdaniowych” lub krótko formuł zdaniowych

• Zmienne zdaniowe ze zbioru V AR = p, q, r, ... są formułamizdaniowymi.

• Jeśli φ jest formułą zdaniową to ¬φ też jest formułą zdaniową

• Jeśli φ i ψ są formułami zdaniowymi, to (φ ∨ ψ) jest formułązdaniową.

Zbiór wszystkich formuł oznaczamy przez FORM . Symbole ¬ i ∨ nazywa-my spójnikami logicznymi (lub operatorami logicznymi). Intuicyjnie, nawiasysą wprowadzone po to, aby określić kolejność działania, dlatego mogą onebyć usunięte z języka. W celu uproszczenia opisów oraz ułatwienia pisaniaformuł, wprowadzamy do języka dodatkowe stałe >,⊥ oraz operatory ∧,⇒,

5

6 ROZDZIAŁ 1. RACHUNEK ZDAŃ

⇔, które są definowane następująco:

φ ∧ ψ =def ¬(¬φ ∨ ¬ψ)φ⇒ ψ =def ¬φ ∨ ψφ⇔ ψ =def (¬φ ∨ ψ) ∧ (¬ψ ∨ φ)

> =def p ∨ ¬p dla pewnej zmiennej p ∈ V AR⊥ =def p ∧ ¬p dla pewnej zmiennej p ∈ V AR

Znaczenia operatorów logicznych i stałych (które mogą być traktowanejako operatory 0-argumentowe) są podane w następnym rozdziale.

1.2 Semantyka dwuwartościowa

Rozpatrujemy zbiór B = 0, 1. Utożsamiamy 0 z wartością logiczną FAŁSZ,a 1 – PRAWDA. Wówczas operatory logiczne są skojarzone z odpowiednimifunkcjami na B. Spójnik ¬ jest skojarzony z funkcją ¬ : B → B taką, że¬(x) = 1 − x. Dwuczłonowe spójniki logiczne są skojarzone z funkcjamipostaci

∗ : B × B → B

gdzie ∗ oznacza dowolny operator ze zbioru ∨,∧,→,⇔. Funkcje te są de-finiowane przez następującą tabelkę (truth table):

x y x ∨ y x ∧ y x→ y x⇔ y0 0 0 0 1 10 1 1 0 1 01 0 1 0 0 01 1 1 1 1 1

Intuicyjnie, ∨,∧,→ można traktować jak spójniki ... lub ..., ... i ... orazjeśli ... to ... w języku naturalnym. Nazywamy je odpowiednio: alternatywą,koniunkcją, implikacją. Wprowadźmy formalną definicję semantyki formułzdaniowych:

Definicja 1. Wartościowaniem nazywamy każdą funkcję

v : V AR→ B

1.2. SEMANTYKA DWUWARTOŚCIOWA 7

Dla każdego wartościowania możemy definiować semantykę dla formuł, czylifunkcję :

[[.]]v : FORM → B

przez rekursję względem struktury następująco:

(Const)

[[>]]v = 1; [[⊥]] = 0

(Var) dla zmiennych p ∈ V AR

[[p]]v = v(p)

(¬) dla dowolnej formuły φ ∈ FORM

[[¬φ]]v = 1− [[φ]]v

(∗) dla dowolnych formuł φ, ψ ∈ FORM

[[φ ∗ ψ]]v = [[φ]]v ∗ [[ψ]]v

gdzie ∗ jest dowolnym operatorem logicznym (np. ∨,∧,⇒, ...)

Mówimy, że wartościowanie v jest modelem dla formuły φ wtedy, i tylkowtedy, gdy

[[φ]]v = 1

wówczas mówimy, że φ jest prawdziwa w modelu v. W roku 1936, Tarskiwprowadził pojęcie ”wynikania logicznego” (lub relację ”semantycznej kon-sekwencji”). Ta relacja jest zdefiniowana w sposób następujący. Mówimy, żeformuła φ wynika logicznie ze zbioru formuł Φ i piszemy

Φ |= φ

jeśli formuła φ jest prawdziwa w każdym modelu dla wszystkich formuł z Φ.Formuły φ, dla których zachodzi relacja

|= φ

(czyli są prawdziwe dla wszystkich wartościowań) nazywamy tautologiami.


1.3 Syntaktyka

Celem rachunku zdań jest opisywanie ”syntaktycznego wynikania” dla relacjisemantycznej konsekwencji |= poprzez definiowanie przybliżonego, formalne-go systemu dedukcji (system dowodzeń). W tym rozdziale, wprowadzamy takisystem dedukcji (Hilbert), który łatwo można będzie uogólnić w przypadkulogiki modalnej. Każdy system dedukcji składa się ze zbioru aksjomatów izbioru reguł dedukcyjnych. W przypadku rachunku zdań, system dedukcjiskłada się z:

• Aksjomatów. Aksjomatami są tautologie oraz formuły postaci

(k) φ→ (θ → φ)

(l) (θ → (ψ → φ))→ ((θ → ψ)→ (θ → φ))

wraz z aksjomatami dotyczącymi innych spójników logicznych.

• Jednej reguły dedukcyjnej zwanej modus ponens lub regułą odrywania:

θ , θ → φ

φ(Modus ponens)

Są one użyte do zdefiniowania relacji ”syntaktycznej konsekwencji”

Definicja 2. Niech Φ będzie zbiorem formuł.

(a) Przez wywód z Φ rozumiemy każdy ciąg formuł

φ0, φ1, ..., φn

taki, że dla każdej formuły φi z ciągu, zachodzi conajmniej jeden z na-stępujących warunków:

1. φi ∈ Φ

2. φi jest aksjomatem

3. Istnieją formuły φj, φk występujące wcześniej w tym ciągu (tzn.j, k < i) takie, że φk = (φj → φi)

(b) Dla każdej formuły φ, relacja

Φ ` φ

zachodzi wtedy, i tylko wtedy, gdy istnieje wywód z Φ, na końcu któregootrzymujemy φ.

1.4. TWIERDZENIE O PEŁNOŚCI 9

Relacja Φ ` φ jest symulacją pojęcia logicznej konsekwencji. Przypomnij-my, że ten system ma ”własność dedukcyjną”:

Twierdzenie 3 (o dedukcji). Dla każdego zbioru formuł Φ oraz pary formułθ, φ, zachodzi implikacja

Φ, θ ` φ ⇒ Φ ` (θ → φ) (1.1)

Niestety, ta ważna własność nie zachodzi dla większości systemów modal-nych.

1.4 Twierdzenie o pełności

Można łatwo udowodnić (przez indukcję), że system dedukcyjny jest rozsąd-ny, tzn.

Φ ` φ ⇒ Φ |= φ

Pokażemy jego zupełność. Mówimy, że zbiór formuł Φ jest niesprzeczny jeślinie zachodzi relacja

Φ ` ⊥Niech CON będzie zbiorem wszystkich niesprzecznych zbiorów formuł Φ.Zbiór CON spełnia następujące warunki:

1. Dla każdego zbioru Φ mamy Φ ∈ CON wtw, gdy Ψ ∈ CON dlakażdego skończnego podzbioru Ψ ⊆ Φ.

2. Dla każdej zmiennej p ∈ V AR mamy p,¬p /∈ CON oraz, oczywiście⊥ /∈ CON

3. Dla każdego zbioru Φ ∈ CON oraz dla dowolnych formuł φ, θ mamy

(φ ∧ θ) ∈ Φ ⇒ Φ ∪ φ, θ ∈ CON¬(φ ∨ θ) ∈ Φ ⇒ Φ ∪ ¬φ,¬θ ∈ CON¬(φ→ θ) ∈ Φ ⇒ Φ ∪ φ,¬θ ∈ CON

4. Dla każdego zbioru Φ ∈ CON oraz dla dowolnych formuł φ, θ mamy

(φ ∨ θ) ∈ Φ ⇒ Φ ∪ φ ∈ CON lub Φ ∪ θ ∈ CON¬(φ ∧ θ) ∈ Φ ⇒ Φ ∪ ¬φ ∈ CON lub Φ ∪ ¬θ ∈ CON(φ→ θ) ∈ Φ ⇒ Φ ∪ ¬φ ∈ CON lub Φ ∪ θ ∈ CON


5. Dla każdego zbioru Φ ∈ CON i każdej formuły φ mamy

¬¬φ ∈ Φ ⇒ Φ ∪ φ ∈ CON

Oznaczmy przez MAXCON rodzinę maksymalnie niesprzecznych zbio-rów formuł, tzn. takich zbiorów Ψ ∈ CON, że dla każdego zbioru formułΦ ∈ CON mamy

jeśli Ψ ⊆ Φ to Ψ = Φ

Następujący lemat jest bardzo ważny dla dowodu o pełności systemu dowo-dzenia.

Lemat 4. Dla każdego zbioru Φ ∈ CON istnieje Σ ∈ MAXCON taki, żeΦ ⊆ Σ.

Dowód: Niech ψi : i < ω będzie numeracją wszystkich formuł. Definiujemyciąg zbiorów formuł ∆r : r < ω następująco:

∆0 = Φ

∆r+1 =

∆r ∪ φr jeśli ten zbiór należy do CON,∆r w przeciwnym przypadku.

Zauważmy, że ∆ ∈ CON dla wszystkich r < ω, wówczas definiujemy

Σ =⋃∆r : r < ω ∈ CON

Z przeprowadzonej konstrukcji również mamy Σ ∈MAXCON

Twierdzenie 5. Każdy zbiór formuł Φ ∈ CON ma model.

Dowód: Niech Σ będzie maksymalnie niesprzecznym zbiorem formuł takim, żeΦ ⊆ Σ. Definiujemy wartościowanie vΣ : V AR→ 0, 1 następujaco:

vΣ(p) =

1 jeśli p ∈ Σ,0 jeśli p /∈ Σ.

Łatwo można pokazać, że wartościowanie vΣ jest modelem dla Φ.

Twierdzenie 6. Dla każdego zbioru formuł Φ oraz każdej formuły φ mamy

Φ ` φ ⇔ Φ |= φ

1.5. TWIERDZENIE O ZWARTOŚCI 11

Dowód: Implikacja (⇒) jest oczywista. Zatem wystarczy udowodnić (⇐). Załóż-my, że Φ |= φ, wówczas zbiór Φ∪¬φ nie posiada modelu, i na mocy Twierdzenia5 mamy

Φ ∪ ¬φ /∈ CONczyli

Φ, ¬φ ` ⊥Z własności Dedukcji (por. równanie 1.1) mamy

Φ ` (¬φ→ ⊥)

czyli (z pewnego aksjomatu)

Φ ` (¬⊥ → φ)

Ale wiemy, że Φ ` ¬⊥ zawsze zachodzi, stąd mamy Φ ` φ. (c.n.d)

1.5 Twierdzenie o zwartości

Przypominamy, że zbiór fromuł Φ jest niesprzeczny jeśli nie zachodzi rela-cja Φ ` ⊥, co oznacza (por. twierdzenie o pełności), że posiada on modeltzn. istnieje wartościowanie, w którym wszystkie formuły z Φ są prawdziwe.Dlatego niesprzeczny zbiór formuł nazywamy również spełnialnym. Rozważ-my problem decyzyjny, w którym sprawdzamy czy dany zbiór jest spełnialny(problem spełnialność formuł). To oznacza, że spełnialność zbioru formuł Φmożna sprawdzić dwiema równoważnymi metodami:

• Metodą ekperymentalną: sprawdzenie czy istnieje model dla Φ wśródwszystkich możliwych wartościowań

• Metodą teoretyczną: sprawdzenie czy można dowieść ⊥ z Φ za pomocąreguł dedukcyjnych.

W tym rozdziale podajemy jeszcze jedną metodę sprawdzenia spełnial-ności zbioru formuł. Pokażemy następujące twierdzenie zwane twierdzeniemo zwartości:

Twierdzenie 7. Jeśli każdy skończony podzbiór zbioru formuł Φ ma modelto Φ również ma model.


Dowód: Niech Φ będzie dowolnym zbiorem formuł takim, że każdy jego skoń-czony podzbiór ma model, wystarczy pokazać, że Φ jest niesprzeczny.Istotnie, gdyby Φ był sprzeczny, to istniałby wywód

W = 〈φ0, φ1, ...φn,⊥〉

dla relacji Φ ` ⊥. Wówczas istnieje skończnony zbiór Ψ ⊆ Φ, dla którego Wrównież jest wywodem. Zatem Ψ ` ⊥, czyli skończony zbiór Ψ nie ma modelu cojest sprzeczne z założeniem.

ZADANIA

1. Wyprowadź formalne wywody dla następujących tautologii jedynie zapomocą logicznych aksjomatów (k) i (l):

(a) ` φ→ φ;

(b) ` (ψ → φ)→ ((θ → ψ)→ (θ → φ));

(c) ` (θ → (ψ → φ))→ (ψ → (θ → φ))

(d) ` (θ → ψ)→ ((ψ → φ)→ (θ → φ))

(e) ` (θ → (θ → ψ))→ (θ → ψ)

Jakie są długości tych wywodów.

2. Udowodnij Twierdzenie o własności dedukcji (por. 1.1).

Φ, θ ` φ ⇒ Φ ` (θ → φ)

Wsk. Stosuj indukcję względem długości dowodu.

3. Udowodnij prawdziwość tautologii z zadania 1 za pomocą własnościdedukcji. Porównaj długości dowodów w obu przypadkach.

Rozdział 2

Logika Modalna

2.1 Wstęp

Logika modalna, obok klasycznych spójników logicznych, posiada funktorymodalne. Funktor modalny jest to funkcja, która przypisuje wartości logicz-ne termom, które same mogą zawierać funktory modalne. Cechą charaktery-styczną funktorów modalnych jest fakt, że nie są ekstensjonalne, czyli funktormoże przyporządkowywać inną wartość dwóm równoważnym zdaniom.

Niekiedy termin “logika modalna” rozumie się szerzej, włączając w je-go obręb takie podejścia jak: logiki epistemiczne, logiki temporalne, logikideontyczne i logiki programów.

2.2 Języki logiki modalnej

W języku logiki modalnej nad sygnaturą I korzystamy z następujących sym-boli:

• zbiór zmiennych zdaniowych V AR = p, q, r, ...

• Spójniki rachunku zdań:

¬,∨,>,⊥,→,∧

• Rodzina spójników modalnych

i : i ∈ I

13

14 ROZDZIAŁ 2. LOGIKA MODALNA

wraz z nawiasami ’(’ i ’)’ do określenia kolejności obliczeń.

Definicja 8. Formuły w języku modalnym nad sygnaturą I są definiowanerekurencyjnie następująco:

[Formuły atomowe:] Zmienne zdaniowe ze zbioru V AR = p, q, r, ...oraz >,⊥ są formułami.

[Formuły zdaniowe:] Jeśli φ i ψ są formułami, to

¬φ, (φ ∨ ψ), (φ ∧ ψ), (φ→ ψ)

są formułami.

[Formuły modalne:] Jeśli φ jest formułą, to

iφ

dla każdej etykiety i ∈ I też jest formułą.

Zbiór wszystkich formuł oznaczamy przez FORM .

Przykładem formuły modalnej jest

1((p ∧ q) ∨2¬p)→ p

Pierwsze badania nad logiką modalną dotyczą języka z jednym spójni-kiem. Wówczas formuła φ może być różnie interpretowana np.:

• Koniecznie, że φ zachodzi

• Wiadomo, że φ

• ...

Operator modalny może być traktowany jako kwantyfikator ogólny. Mo-żemy wprowadzić dodatkowy operator analogiczny do kwantyfikatora szcze-gólnego ♦i przez:

♦iφ =def ¬i¬φ

który może być czytany: możliwe, że φ zachodzi.

2.3. STRUKTURALNA SEMANTYKA 15

Binarna wersja logiki modalnej (zwana logiką temporalną) ma dwa ope-ratory modalne: oraz . One mogą być traktowane jako operatory tempo-ralne, tzn. formuła φ jest czytana jako ”φ zajdzie w przyszłości” a formułaφ jest czytana jako ”φ zaszła w przeszłości”.

W tym kursie ograniczamy nasze zainteresowanie do dwóch wyżej wymie-nionych języków logiki modalnej.

Pewne rodziny formuł mają szczególne znaczenie w logice modalnej. Przyj-mujemy te oznaczenia z pewnych historycznych powodów. Są to:

D(φ) : φ→ ♦φT(φ) : φ→ φB(φ) : φ→ ♦φ4(φ) : φ→ φ5(φ) : ♦φ→ ♦φP(φ) : φ→ φQ(φ) : ♦φ→ φR(φ) : φ→ φG(φ) : ♦φ→ ♦φL(φ) : T(φ)→ φM(φ) : ♦φ→ ♦φ

2.3 Strukturalna Semantyka

Modelem Kripke’go nazywamy parę K = 〈Γ, val〉 gdzie Γ = (W,E) jest skie-rowanym grafem określającym relację przejścia między stanami (lub świata-mi) ze zbioru W , a val : W × V AR→ 0, 1 jest wartościowaniem.

Semantyka formuły φ w modelu K i w stanie q ∈ W jest definiowanaprzez relację (K, val, s) |= φ pomiędzy

• modelem A

• wartościowaniem val

• stanem s (element struktury K)

• formułą modalną φ

Jeśli model K jest ustalony, to będziemy pisali s |= φ dla uproszczenia.


2.3.1 Podstawowa relacja spełnialności

Definicja 9. Dla każdego stanu s ∈ W , definiujemy funkcję

[[.]]s : FORM → 0, 1

przez indukcję względem konstrukcji formuły φ:

(Const)

[[>]]s = 1; [[⊥]]s = 0

(Var) dla zmiennych p ∈ V AR

[[p]]s = val(s, p)

(¬) dla dowolnej formuły φ ∈ FORM

[[¬φ]]s = 1− [[φ]]s

(∗) dla dowolnych formuł φ, ψ ∈ FORM

[[φ ∗ ψ]]s = [[φ]]s ∗ [[ψ]]s

gdzie ∗ jest dowolnym operatorem logicznym (np. ∨,∧,⇒, ...)

() dla dowolnej formuły φ ∈ FORM

[[φ]]s =∏

s′∈R(s)

[[φ]]s′

gdzie R(s) jest zbiorem stanów osiągalnych ze stanu s.

Relacja s |= φ zachodzi wtedy i tylko wtedy, gdy [[φ]]s = 1.

Formalnie, relacja K, val, s |= φ jest odczytywana jako ”s wymusza φ”.Możemy również rozumiec to jako:

φ jest spełniona w modelu (K, val, s);φ jest prawdziwa w stanie s;

Łatwo można się przekonać, że zachodzi następujące twierdzenie:

Twierdzenie 10. Jeśli formuła φ jest tautologią rachunku zdań, to φ jestspełniona we wszystkich stanach modelu Kripke’go.


2.3.2 Przykład

Załóżmy, że V AR = p. Rozpatrujemy model Kripke’go

6

-@@

@@@

@I

-

?d c

a b

Rozpatrzmy następujące wartościowanie:

val(a, p) = val(c, p) = 1;

val(b, p) = val(d, p) = 0;

Bezpośrednio z tego wartościowania mamy:

a |= p b |= ¬pc |= p d |= ¬p

Dalej, z grafu mamy: R(a) = b, R(b) = c, R(d) = a, b, R(c) = a.Stąd prawdziwość semantyczna zachodzi dla następujących formuł:

a |= ¬p b |= p d |= p

Możemy przerysować przykładowy graf razem z formułami prawdziwymi se-mantycznie w wierzchołkach:

6

-@@

@@@

@I

-

?d c

a b

¬p,p p,p

p,¬p ¬p,p

Rozpatrzmy formuły o dwóch operatorach modalnych. Zauważmy, że:

a |= p b |= p c |= ¬p

Ponadto stan d jest bardzo interesujący, gdyż z niego można dojść do innychstanów następująco:


@@@R

d

a - b - c - a . . .

c - a - b - c . . .

Dla stanu d mamy:

d |= p d |= ¬2p d |= ¬3p d |= 4p

itp... Dla stanu a mamy tylko jedną ścieżkę o długości 3:

a - b - c - a

Zatem dla każdej formuły φ:

a |= 3φ ⇔ a |= φ

czylia |= (3φ↔ φ)

Z tego samego powodu, formuła (3φ ↔ φ) jest pradziwa w stanach b i c.Stąd możemy pokazać, że

d |= (4φ↔ φ)

Twierdzenie 11. Niech (K, val) będzie modelem Kripke’go. Wówczas

a |= ♦φ ⇔ (∃x ∈ R(a))[x |= φ]

Dowód:

a |= ♦φ ⇔ a |= ¬¬φ⇔ ¬[a |= ¬φ]⇔ ¬(∀x ∈ R(a))[x |= ¬φ]⇔ (∃x ∈ R(a))¬[x |= ¬φ]⇔ (∃x ∈ R(a))[x |= φ]


2.3.3 Trzy relacje spełnialności

Wprowadzamy trzy relacje spełnialności

|=p |=v |=u

dla formuł modalnych. Są one zdefiniowane następująco:

• Relacja punktowa |=p jest po prostu relacją |= z poprzedniej sekcji.Relacja ’|=p’ oznacza model punktowy (stanowy) z wartościowaniem.

• Relacja |=v jest stosowana dla modeli z wartościowaniem. Jest ona de-finiowana z relacji punktowej poprzez uogólnienia stanów, czyli

K, val |=v φ ⇔ (∀s ∈ W ) K, val, s |= φ

• Relację |=u nazywamy spełnialnością strukturalną, gdyż jest ona defi-niowana z relacji |=v następująco

K |=u φ ⇔ (∀val) K, val |=v φ

Na przykład dla modelu w poprzedniej sekcji mamy

K, val |=v P → 3P

ale (np. dla wartościowania val(P, a, b, c, d = 0, 0, 0, 1)) mamy

nieprawda, że K |=u ¬P → 3P

Za to relacja spełnialności strukturalnej zachodzi dla

K |=u 4P ↔ P

Lemat 12. Jeżeli dana struktura K = (W,E) jest odpowiednio

1. zwrotna

2. przechodnia

3. dyskretna

4. gęsta


to, w każdej sytuacji następujące formuły

1. φ→ φ

2. φ→ 2φ

3. φ→ φ

4. 2φ→ φ

są spełnialne w K (w relacji |=u)

ZADANIA

1. Rozpatrzmy modele N = 〈N,→〉, gdzie dla dowolnych x, y ∈ N

(a) x→ y ⇔ x < y

(b) x→ y ⇔ x ¬ y

(c) x→ y ⇔ x > y

(d) x→ y ⇔ x y

Dla formuł Φ ∈ D, T, B, 4, 5... definiowanych na stronie 11, uzu-pełnić następującą tabelę znakami√

– jeśli N |= Φ

× – jeśli N |= ¬Φ

– jeśli nie zachodzi N |= Φ ani N |= ¬Φ

D T B 4 5 P Q R G L M(a)

√

(b)√

(c) (d)

√

2. Pokazać, że w każdego przechodniego modelu K spełnialne są nastę-pujące formuły:

• K |= ♦♦φ↔ ♦φ

• K |= (♦)2φ↔ ♦φ

2.4. RELACJE KONSEKWENCJI SEMATYCZNEJ 21

2.4 Relacje konsekwencji sematycznej

Wzorując na logice rachunku zdań, chcemy definiować pojęcie

”Formuła modalna φ jest logiczną kosekwencją zbioru Φ modalnych hipotez”

Na pierwszy rzut oka, problem wygląda na dość oczywisty. Np. to zachodziwówczas, gdy φ jest prawdziwa w każdym modelu dla zbioru Φ. Ale są dwazasadnicze problemy:

• Po pierwsze, nie jest oczywiste którego z trzech modeli należy użyć.Z postaci trzech wprowadzonych relacji nie mamy wskazania, która znich jest lepsza od innych.

• Po drugie, na razie nie wiadomo która formuła modalna może być for-mułą bazową (aksjomatem), a która nie.

Przypomnijmy, że rozróżnialiśmy trzy typy relacji spełnialności t.j. punk-tową, wartościowaniową, i strukturalną (i oznaczaliśmy je przez p, v i u).

Definicja 13. Niech k ∈ u, v, p będzie typem spełnialności. Dla każdegozbioru formuł Ψ i formuły φ, relacja

Φ |=k φ

zachodzi wtedy i tylko wtedy, gdy każda k-struktura, która jest modelem dlaΨ jest również modelem dla φ. Relację tę nazywamy relacją konsekwencjilogicznej lub relacją konsekwencji semantycznej.

Między tymi relacjami zachodzi następujące twierdzenie

Twierdzenie 14. Dla każdego zbioru formuł Ψ i każdej formuły φ zachodząnastępujące implikacje:

Φ |=p φ ⇒ Φ |=v φ ⇒ Φ |=u φ

Dowód: Załóżmy, żeΦ |=p φ

oraz, że v-struktura (K, val) jest modelem dla Φ. Pokażemy, że (K, val) jest rów-nież modelem dla φ. Jeżeli wybierzemy dowolny stan s w strukturze K to z założe-nia (K, val, s) jest modelem punktowym dla Φ, a zatem także dla φ. Ale ponieważwybieraliśmy dowolny stan s, to poprzednie zdanie jest prawdziwe dla wszystkichstanów w K. To zaś oznacza, że dla każdego stanu s mamy spełnialność punktowąφ, co jest równoważne (z definicji), spełnialności φ dla (K, val).Dowód implikacji Φ |=v φ ⇒ Φ |=u φ jest całkowicie analogiczny.


Na ogół tych implikacji nie można odwrócić. Na przykład dla każej for-muły φ zachodzi:

φ |=v φ,

ale dla dowolnej zmiennej p można bez trudu pokazać model punktowyp,¬p, w którym φ |=p φ nie musi zachodzić.

Na zakończenie, pokażemy lemat, który określa pewne własności relacjikonsekwencji semantycznej. Własności te stanowią podstawowe aksjomaty ww systemach dowodzenia.

Lemat 15. Następujące implikacje są prawdziwe dla każdego zbioru formułΨ i dla dowolnych formuł θ, φ:

(P) φ ∈ Ψ ⇒ Ψ |=v φ

(MP)Ψ |=v θ → φΨ |=v θ

⇒ Ψ |=v φ

(N) Ψ |=v φ ⇒ Ψ |=v φ

2.5 Podstawowy system dowodzenia

Aksjomaty:

Zbiór aksjomatów składa się z:

1. Wszystkich tautologii rachunku zdań (bez operatorów modalnych)

2. Tautologii typu (K) dla logiki modalnej, gdzie:

(K) (φ→ θ)⇔ (φ→ θ)

3. Wszystkich formuł otrzymanych z wyżej wymienionych tautologii przezpodstawienie zmiennych formułami

W kolejnych systemach, zbiór S będzie wzbogacony o kolejne formuły zezbioru D, T, B, 4, 5... formuł zdefiniowanych na końcu podrozdziału 2.2.

2.5. PODSTAWOWY SYSTEM DOWODZENIA 23

Reguły wnioskowania

System dowodzenia dla logiki modalnej posiada dwie reguły wnioskowania:

1. Modus ponens:

(MP )θ θ → φ

φ

2. Reguła wymuszania:

(N)θ

θ

Standardowy system formalny

Podajemy formalną definicję wywodu w systemie dowodzenia S (określonymprzez zbiór aksjomatów S):

Definicja 16. Niech Φ będzie dowolnym zbiorem formuł modalnych:

(a) Wywodem w systemie S ze zbioru Φ nazywamy każdy ciąg formuł

φ0, φ1, ..., φn

taki, że dla każdej formuły φi z ciągu, zachodzi co najmniej jeden znastępujących warunków:

(hyp) φi ∈ Φ

(aks) φi jest aksjomatem (tzn. φi ∈ S)

(mp) Istnieją formuły φj, φk występujące wcześniej w tym ciągu (tzn.j, k < i) takie, że

φk = (φj → φi)

(n) Istnieje indeks s < i taki, że

φi = φs

(b) Formuła φ jest S-konsekwencją zbioru Φ (tzn. konsekwencją wsystemie S)

Φ `S φ

wtedy, i tylko wtedy, gdy istnieje w systemie S wywód z Φ, na końcuktórego otrzymujemy φ.


2.5.1 Przykład

Aby ułatwić rozumienie systemu S, pokażemy niektóre jego własności:

Lemat 17. Dla dowolnych formuł modalnych φ, θ mamy

`S φ→ θ ⇒ `S φ→ θ

Dowód: Niech α = φ→ θ, kolejne formuły w wywodzie są następujące:

1. α = φ→ θ (hipoteza)

2. (α) (reguła N)

3. (α)→ (φ→ θ) (aksjomat K)

4. φ→ θ(Modus ponens)

Czyli jest to wywód o długości 4 w systemie S

2.5.2 Inne systemy formalne

Do systemu standartowego, oprócz aksjomatów typu K, możemy dołązczyćdo zbioru aksjomatów jeszcze formuły typu D, T, B, 4 lub 5. Np. systemstandartowy oznaczamy zwykle przez K, gdyż zawiera tylko formuły typuK. Systemy KD, KB, KT, K4, K5 są rozszerzeniami systemu K o aksjomatytypu D, T, B, 4 lub 5, odpowiednio. Analogicznie możemy rozszerzyć tesystemy do np. KD4, KD5, ... Będziemy oznaczać przez

S4 = KT4 S5 = KT5

W ten sposób, możemy otrzymać 32 różne kombinacje. Ale, jak się późniejokaże, wśród nich jest tylko 15 istotnie różnych systemów dowodzenia (patrzRys. 2.5.2).

Wprowadzamy pojęcie mocy systemu. Mówimy, że system S1 jest niemocniejszy niż system S2, i oznaczmy to przez S1 ¬ S2, jeśli

∀φ (`S1 φ ⇒ `S2 φ)

Dwa systemy S1, S2 są równoważne jeśli S1 ¬ S2 i S2 ¬ S1. Mamy następującefakty:


Lemat 18. Formuły D są słabsze niż T , tzn.

KD ¬ KT

czyli KD4 ¬ S4 i KD5 ¬ S5

Dowód: Niechα = ¬φ β = φ γ = ¬α = ♦φ

α→ ¬φ (T)(α→ ¬φ)→ (φ→ ¬α) (Tautologia)

φ→ γ (Modus ponens)β → φ (T)

(β → φ)→ ((φ→ γ)→ (β → γ)) (Tautologia)((φ→ γ)→ (β → γ)) (MP)

β → γ (MP)

Lemat 19.

KDB5 ¬ S5

Lemat 20.

K4 ¬ KB5 KDB4 ¬ KDB5

Lemat 21.

K5 ¬ KB5 KT5 ¬ KTB4

Twierdzenie 22.

S5 = KDB4 = KDB5Dowód: MamyS5 = KT5

¬ KTB4¬ KDB4¬ KDB5¬ S5

Zależności między istotnie nietrywialnymi systemami modalnymi, którepowstają przez wykorzystanie kombinacji aksjomatów K,T,B,D, 4, 5 zostałyzilustrowane na Rys. 2.5.2.


Rysunek 2.1: Zależności między modalnymi systemami formalnymi.

2.5.3 Poprawność systemu dowodzenia

W poprzednich rozdziałach definiowaliśmy 3 relację konsekwencji semantycz-nej |=k dla k = u, v, p. Wprowadzamy pojęcie logicznej prawdziwości formułmodalnych:

Definicja 23. Niech S będzie standardowym systemem o zbiorze aksjomatówS. Niech k ∈ u, v, p będzie typem spełnialności. Dla każdego zbioru formułΦ i formuły φ, relacja

Φ |=kS φ

zachodzi wtedy i tylko wtedy, gdy każda k-struktura, która jest modelem dlaS i dla Φ, jest również modelem dla φ

UWAGA: W zasadzie relacja |=kS może być zastąpiona przez |=k, gdyż

Φ |=kS φ ⇔ Φ ∪ S |=k φ


ale używamy parametryzowanej wersji |=kS w dalszych częściach kursu ze

względu na jej prosty sposób zapisu.'

&

$

%

Dotąd wprowadziliśmy dla każdego systemu formalnego S cztery rela-cje konsekwencji; w tym relację syntaktycznej konsekwencji:

`S

i trzy relacje semantycznej konsekwencji:

|=pS , |=v

S i |=uS

Próbujemy odpowiadać na pytanie:

Jak te relacje mają się do siebie?

Jako wniosek z Twierdzenia 14 (przez postawienie Ψ = Φ ∪ S) mamy

Φ |=pS φ ⇒ Φ |=v

S φ ⇒ Φ |=uS φ

Możemy dodać do tej listy jeszcze twierdzenie o poprawności systemu dowo-dzenia:

Twierdzenie 24. Dla każdego systemu S, zbioru hipotez Φ i formuły φ ma-my zależność:

Φ `S φ ⇒ Φ |=vS φ

Dowód: Indukcja względem długości wywodu dla Φ `S φ. Główne kroki induk-cyjne dowodzi się za pomocą Lematu 15.

Twierdzenie o poprawności możemy wykorzystac do pokazania, że dwaformalne systemy są istotnie różne. Np. wiemy, że KD ¬ KT. Aby pokazać,że te systemy są różne, wystarczy znaleźć formułę φ taką, że

`KT φ i nie prawda, że `KD φ

Z Twierdzenia o poprawności wynika, że drugi warunek jest spełniony jeślipokażemy, że

nie prawda, że |=vKD φ


2.6 Pełność logik modalnych

Niech S będzie formalnym systemem opartym na zbiorze aksjomatów S.Oznaczamy przezMOD(S) rodzinę wszystkich modeli, w których S są przaw-dziwe (które modelują S). W poprzednich rozdziałach definiowaliśmy już re-lację |=v

S. Możemy ją przedefiniować następująco:

|=vS φ ⇔def ∀M∈MOD(S)M |=v φ

2.6.1 Twierdzenie i główne ścieżki dowodu

W tym rozdziale zakładamy, że S jest ustalonym systemem dowodzenia. Peł-ność systemu dowodzenia oznacza, że

`S φ ⇔ |=vS φ

Z twierdzenia o poprawności mamy już jedną implikację:

`S φ ⇒ |=vS φ

Aby pokazać drugą implikację, skonstrujemy specjalny model (v-strukturę)(C, ν) ∈ MOD(S) zwany modelem kononicznym dla S. Model (CS, νS) jest wpewnym sensie najbardziej uniwersalnym modelem w MOD(S). Własnośćtę wyrażamy w następnym twierdzeniu.

Twierdzenie 25. Dla każdego standardowego systemu wraz z modelem ka-nonicznym (CS, νS) i dla każdej formuły φ, następujące warunki są równo-ważne

(i) (CS, νS) |=v φ

(ii) `S φ

(iii) |=vS φ

Zauważmy, że implikacja (ii)⇒ (iii) jest po prostu poprawność systemudowodzenia. Implikacja (iii) ⇒ (i) jest oczywista, gdyż (C, ν) ∈ MOD(S).Zatem główną treścią tego twierdzenia jest implikacja (i)⇒ (ii)

2.6. PEŁNOŚĆ LOGIK MODALNYCH 29

2.6.2 Konstrukcja modelu kanonicznego

Intuicyjnie, zbiór formuł Φ jest sprzeczny względem systemu S jeśli możnawyprowadzić formułę ⊥ ze zbioru Φ. Ponieważ WŁASNOŚĆ DEDUKCJInie zachodzi dla relacji konsekwencji syntaktycznej, definiujemy pojęcie nie-sprzecznego zbioru formuł modalnych poprzez relację konsekwencji słabegodowodu `wS :

Definicja 26. Zbiór formuł modalnych Φ nazywamy niesprzecznym z S (lubS–niesprzecznym) jeżeli ¬[Φ `wS ⊥] tzn. jeśli nie istnieją formuły φ1, ..., φn ∈Φ takie, że

`S φ1 ∧ ... ∧ φn → ⊥Oznaczamy przez CON(S) zbiór wszystkich S-niesprzecznych zbiorów formuł.

Definicja 27. Zbiór formuł modalnych Φ nazywamy maksymalnie niesprze-czny z S (lub maksymalnie S–niesprzecznym) jeżeli Φ jest S–niesprzecznyi żaden jego właściwy nadzbiór nie jest S–niesprzeczny. Oznaczamy przezMAXCON(S) ⊆ CON(S) zbiór wszystkich maksymalnie S–niesprzecznychzbiorów.

Zbiór MAXCON(S) ma kilka ciekawych własności. Po pierwsze, z de-finicji wynika, że każdy zbiór Φ ∈ MAXCON(S) jest również elementemzbioru CON(S), oraz dla każdej formuły φ mamy

Φ ∪ φ ∈MAXCON(S)⇒ φ ∈ Φ

Po drugie, z niesprzeczności wynika, że nie istnieje taka formuła φ, że zarównoφ jak i ¬φ należą do Φ. Z maksymalności wynika, że dla każdej formuły φ,albo φ albo ¬φ musi należeć do Φ. Dowód tego faktu i następnego twierdzeniapozostawiamy czytelnikom jako ćwiczenia.

Twierdzenie 28. Niech Φ ∈MAXCON(S). Mamy > ∈ Φ, ⊥ /∈ Φ oraz

¬φ ∈ Φ ⇔ φ /∈ Φψ ∧ θ ∈ Φ ⇔ ψ ∈ Φ i θ ∈ Φψ ∨ θ ∈ Φ ⇔ ψ ∈ Φ lub θ ∈ Φ

¬ψ → θ ∈ Φ ⇔ ψ /∈ Φ lub θ ∈ Φ

Musimy pokazać, że MAXCON(S) jest niepusty i zawiera dostateczniedużo zbiorów formuł żeby odróżnić formuły, które powinny być rozróżnialne.Szczegóły są wyrażone w dwóch lematach:


Lemat 29. (O istnieniu)Dla każdego zbioru formuł Φ ∈ CON(S) istnieje Σ ∈ MAXCON(S) taki,że Φ ⊆ Σ.

Dowód: Niech ψi : i < ω będzie numeracją wszystkich formuł. Definiujemyciąg zbiorów formuł ∆r : r < ω następująco:

∆0 = Φ

∆r+1 =

∆r ∪ φr jeśli ten zbiór należy do CON(S),∆r w przeciwnym przypadku.

Zauważmy, że ∆ ∈ CON dla wszystkich r < ω, wówczas definiujemy

Σ =⋃∆r : r < ω ∈ CON

Z przeprowadzonej konstrukcji również mamy Σ ∈MAXCON

Z Lematu o istnieniu możemy pokazać, że

Lemat 30. Dla każdego zbioru formuł Ψ i formuły φ, mamy równoważność

Ψ `wS φ ⇔ ∀Σ∈MAXCON(S) [Ψ ⊆ Σ⇒ φ ∈ Σ]

Stąd mamy wniosek: dla każdej formuły φ mamy

`S φ ⇔ ∀Σ∈MAXCON(S) [φ ∈ Σ]

'

&

$

%

Jesteśmy już gotowi do skonstruowania struktury modelu kano-nicznego CS = (S,−→). Zbiór stanów definiujemy przez S =MAXCON(S). Relację przejścia −→ między stanami Σ,Λ ∈ S okre-ślamy następująco:

Σ −→ Λ ⇔ ∀φ [φ ∈ Σ⇒ φ ∈ Λ]

Czasem używamy oznaczenia Λ ≺ Σ (czyt.: Λ jest następnikiem Σ)zamiast Σ −→ Λ. Wartościowanie kanoniczne νS : V AR×S→ 0, 1dla CS = (S,−→) definiujemy przez

νS(p,Σ) =

1 jeśli p ∈ Σ,0 w przeciwnym przypadku.

dla dowolnej zmiennej p ∈ V AR i stanu Σ ∈ S.

Z Lematu o istnieniu mamy:

2.7. PEŁNOŚĆ W SENSIE KRIPKEGO 31

Lemat 31. Dla każdego stanu Σ ∈ S i każdej formuły φ mamy równoważ-ność:

φ ∈ Σ ⇔ ∀Υ≺Σ [φ ∈ Υ]

Możemy również przez indukcję względem konstrukcji formuły udowodnićnastępujący lemat

Lemat 32. Dla każdego stanu Σ ∈ S i każdej formuły φ mamy równoważ-ność:

((CS, νS),Σ) |= φ ⇔ φ ∈ Σ

Stąd mamy wniosek

Wniosek 33. Model kanoniczny (CS, νS) jest modelem dla S

2.6.3 Dowód twierdzenia 25 (o pełności logiki modal-nej)

Dowód: Pokażmy implikację (i) ⇒ (ii). Niech φ będzie dowolną formułą. Zpowyższych lematów mamy

(CS, νS) |=v φ ⇔ ∀Σ∈S((CS, νS),Σ) |= φ

⇔ ∀Σ∈Sφ ∈ Σ⇔ `S φ

Co kończy dowód twierdzenia o pełności.

2.7 Pełność w sensie Kripkego

NiechMOD będzie rodziną wszystkich modeli Kripkego. Każdy model Krip-kego (dla logiki jedno-modalnej) możemy interpretować jak relację na zbiorzestanów. Wyróżniamy pewne modele według własności odpowiadającej mu re-lacji. Oznaczmy przez:

MODr : rodzinę wszystkich modeli zwrotnych (reflexive)

MODs : rodzinę wszystkich modeli symetrycznych (symmetric)

MODt : rodzinę wszystkich modeli przechodnich (transitive)


MODl : rodzinę wszystkich modeli szeregowych (serial)1

MODe : rodzinę wszystkich modeli Euklidesowych (Euclidean)2

Możemy również używać jednocześnie kilka górnych indeksów, np. MODrstoznacza rodzinę wszystkich modeli zwrotnych, symetrycznych i przechodnich(czyli relacji równoważności).

Z własności aksjomatów możemy pokazać, że

MODr ⊆MOD(T) ;

MODrt ⊆MOD(S4)

MODrts ⊆MOD(S5)

MODelt ⊆MOD(KD45)

Niestety, nie wszystkie inkluzje są odwracalne. Np. nie każdy model wMOD(S5)musi być relacją równoważności. Dowód tych obserwacji pozostawiamy czy-telnikom jako ćwiczenie.

Definicja 34. Mówimy, że system formalny S jest pełny w sensie Kripkegojeśli

`S φ ⇔ |=uS φ

dla dowolnej formuły φ

Definicja 35. Mówimy, że system formalny S jest kanoniczny jeśli jego mo-del kanoniczny CS jest strukturalnym modelem dla S.

Twierdzenie 36. Każdy kanoniczny system jest pełny w sensie Kripkego

Przykładami systemów kanonicznych są K, KD i KR.

1R jest szeregowa wtw, gdy ∀s∃t(s, t) ∈ R)2R jest Euclidesowa wtw, gdy ∀s,t,u((s, t) ∈ R ∧ (s, u) ∈ R⇒ (t, u) ∈ R)

2.8. ROZTRZYGALNOŚĆ 33

2.8 Roztrzygalność

W tym rozdziale rozpatrujemy problemy spełnialności i prawdziwości formułmodalnych w danym systemie dowodzenia. Pokażemy, że problem badaniaprawdziwości formuł modalnych w zadanym systemie formalnym jest roz-trzygalny tzn., że dla każdego systemu dowodzenia S istnieje algorytm AS,który dla każdej formuły φ sprawdza w czasie skończonym czy φ jest praw-dziwa w S (tzn., czy zachdzi relacja `S φ).

Najpierw zdefinujemy dwa pojęcia: długości formuły i podformuły dla da-nej formuły ψ. Intuicyjnie, długość formuły ψ (oznaczona przez |ψ|) jestliczbą symboli logicznych wystepujących w ψ. Formalnie długość formułymożemy definiowac rekurencyjnie względem budowy formuły:

|p| = 1 dla p ∈ V AR|¬ψ| = |ψ|+ 1

|ψ ∧ φ| = |ψ ∨ φ| = |ψ → φ| = |ψ|+ |φ|+ 1|ψ| = |♦ψ| = |ψ|+ 1

Na przykład dla formuły

ψ = (p→ (q ∨ ¬r)) ∧ ¬r (2.1)

mamy |ψ| = 11. Pojęcie podformuły też można definiować rekurencyjnie:

Definicja 37. Formułę φ nazywamy podformułą formuły ψ wtedy i tylkowtedy, gdy spełnia jeden z następujących warunków:

• φ = ψ;

• ψ = ¬θ i φ jest podformułą θ;

• ψ = ψ1 ψ2 (gdzie ∈ ∨,∧,→) i φ jest albo podformułą ψ1 lubpodformułą φ2;

• ψ = θ i φ jest podformułą θ;

Zbiór wszystkich podformuł ψ oznaczamy przez Sub(ψ)

Na przykład dla formuły ψ definiowanej wzorem (2.1) mamy

Sub(ψ) = p, q, r,¬r, q∨¬r,(q∨¬r), p→ (q∨¬r),(p→ (q∨¬r)), ψ

Następny lemat jest ważny dla dalszych rozważań. Jego dowód pozosta-wiamy czytelnikowi jako ćwiczenie


Lemat 38. Dla każdej formuły ψ zachodzi nierówność

|Sub(ψ)| ¬ |ψ|

Zanim udowodnimy twierdzenie o rozstrzygalności, pokażemy następującetwierdzenia

Twierdzenie 39. Dla każdej struktury (K, val, s) i formuły ψ, relację

(K, val, s) |= ψ

można sprawdzić w czasie O(|ψ| · |K|2)

Dowód: Uporządkujemy podformuły ψ według ich długości:

Sub(ψ) = φ1, φ2, ...., φk

Po kolei, dla i = 1, 2, ..., sprawdzamy relację (K, val, s) |= φi dla wszystkichstanów s w K. Dla każdej ustalonej formuły φi, czas sprawdzeń dla wszystkichstanów wynosi O(|K|2).

Twierdzenie 40. Jeśli formuła ψ jest niesprzeczna w systemie dowodzeniaS to istnieje model K dla S o niewięcej niż 2|ψ| stanach taki, że:

K |=S ψ

2.8. ROZTRZYGALNOŚĆ 35

Dowód: Przez Sub∗(ψ) oznaczamy zbiór wszystkich podformuł i ich negacje tzn.:

Sub∗(ψ) = Sub(ψ) ∪ ¬φ : φ ∈ Sub(ψ)

Podobnie jak w przypadku twierdzenia o pełności, rozpatrujemy pewne podzbioryformuł Σ ∈ Sub∗(ψ), które są niesprzeczne (tzn. Σ 0S ⊥). Niech MAXCON(ψ)będzie rodziną maksymalnie niesprzecznych zbiorów formuł z Sub∗(ψ). Konstru-jemy model Kripkego K = (S,−→). Zbiór stanów definiujemy przez S = sΣ :Σ ∈MAXCON(ψ). Relację przejścia −→między stanami sΣ, sΛ ∈ S określamynastępująco:

sΣ −→ sΛ ⇔ ∀θ [θ ∈ Σ⇒ θ ∈ Λ]

dla dowolnej zmiennej p ∈ Sub(ψ) i stanu Σ ∈ S, wartościowanie val definiujemyprzez

val(p,Σ) =

1 jeśli p ∈ Σ,0 w przeciwnym przypadku.

Pokażemy, że dla każdej formuły φ ∈ Sub(ψ) mamy

K, sΣ |=S φ ⇔ φ ∈ Σ (2.2)

Pokażemy to przez indukcję. Jeśli φ = p jest zmienną to (2.2) jest prawdziwe zdefinicji wartościowania. Jeśli φ = ¬φ1 lub φ = φ1 φ2 dla ∈ ∧,∨,→, .., to(2.2) też jest prawdziwe.

Rozpatrujemy przypadek, gdy φ = θ i φ ∈ Σ. Pokażemy, że (K, sΣ) |=S φ. Istot-nie, niech sΛ1 , ..., sΛk będą następnikami wierzchołka sΣ w modelu K, wówczasformuła θ musi należeć do zbiorów Λ1, ...,Λk. Z założenia indukcyjnego mamy(K, sΛ1) |=S θ i (K, sΛ2) |=S θ, ..., (K, sΛ1) |=S θ. Czyli K, sΣ |= φ.

Z drugiej strony, niech φ = θ i (K, sΣ) |=S φ. Niech Σ/ = θ : θ ∈ Σ. Wów-czas możemy pokazać, że (Σ/)∪¬θmusi być sprzecznym zbiorem formuł, bo wprzeciwnym przypadku, istniałoby rozszerzenie (Σ/)∪¬θ ⊆ Λ ∈MAXCON.Stan sΛ jest następnikiem stanu sΣ według definicji i z założenia indukcyj-nego mamy (K, sΛ) |=S ¬θ co jest sprzeczne z tym, że (K, sΣ) |=S φ. Skoro(Σ/)∪¬θ jest sprzecznym zbiorem, to istnieją formuły φ1, ...φk ∈ Σ/ takie,że S, φ1, ..., φk,¬θ ` ⊥, czyli

S ` φ1 ∧ ... ∧ φk → θ

Stosując regułę wymuszania mamy:

S ` (φ1 ∧ ... ∧ φk → θ)

czyliS ` φ1 ∧ ... ∧φk → θ

Skoro φ1, ...,φk ∈ Σ to θ też musi należeć do Σ

Rozdział 3

Zbiory i logiki rozmyte

3.1 Rachunek zbiorów rozmytych

W 1965 Lotfi Zadeh zaproponował nowe spojrzenie na pojęcie zbioru i nale-żenia. Jego celem było umożliwienie wyrażania zależności, które są ze swojejnatury niedokładne, ”rozmyte” (ang. fuzzy). Przykładem takiego pojęcia mo-że być stwierdzenie w języku naturalnym:

Jaś jest wysoki.

Jeżeli wiemy, że Jaś ma 175 cm wzrostu, to możemy się zastanawiać nadprawdziwością powyższego stwierdzenia. W terminach klasycznej teorii mno-gości, musielibyśmy twardo zdecydować, czy 175cm kwalifikuje Jasia jakowysokiego czy nie. W teorii zbiorów rozmytych, możemy wyrazić to subtel-niej, określając w jakim stopniu można uznać Jasia za osobę wysoką.

W klasycznej teorii mnogości każdy podzbiór A w pewnej przestrzeni Xmożna utożsamić z jego funkcją charakterystyczną określoną jako:

χA(x) =

1 gdy x ∈ A0 gdy x /∈ A

W przypadku teorii zbiorów rozmytych zastępujemy binarną funkcję cha-rakterystyczną χA przez funkcję przynależnoci µA : X → [0, 1]. Funkcję µAnazywamy funkcją przynależności lub funkcją należenia. Jeżeli ∀x∈XµA(x) ∈0, 1 to zbiór A jest zbiorem w zwykłym sensie i jest nazywany zbioremostrym (lub dokładnym, ang. crisp). Opiszemy teraz podstawowe własnościzwiązane ze zbiorami rozmytymi.

37

38 ROZDZIAŁ 3. ZBIORY I LOGIKI ROZMYTE

Definicja 41. Powiemy, że zbiór rozmyty A zadany przez funkcję przynależ-ności µA : X → [0, 1] jest normalny jeśli ∃x∈X µA(x) = 1.

Definicja 42. Dla danego zbioru rozmytego A określamy następujące warto-ści:

• Wysokość A: height(A) = h(A) = maxx∈X µA(x).

• Nośnik A: Supp(A) = x ∈ X : µA(x) > 0.

• Jądro A: Core(A) = x ∈ X : µA(x) = 1.

Dla dobrego określenia własności zbiorów rozmytych musimy wprowadzićpodstawowe pojęcia takie jak zawieranie czy zbiór pusty.

Definicja 43. Niech A,B - zbiory rozmyte w pewnej przestrzeni X. Powiemyże zbiór rozmyty A jest zawarty w zbiorze rozmytym B (ozn. A ⊆ B) wtedyi tylko wtedy gdy ∀x∈X µA(x) ¬ µB(x).

Definicja 44. Powiemy że zbiór rozmyty ∅ jest pusty wtedy i tylko wtedy gdy∀x∈X µ∅(x) = 0

W przypadku zwykłych zbiorów moc zbioru mierzymy liczbą jego elemen-tów. W przypadku zbiorów rozmytych posługujemy się funkcją przynależno-ści.

Definicja 45. Dla danego zbioru rozmytego A określamy jego moc

Power(A) = A = ∑n

i=1 µA(x) gdy X = x1, . . . , xn∫X µA(x)dx w p.p.

W przypadku klasycznych zbiorów posługujemy się jednoznacznie okre-ślonymi operacjami takimi jak suma, dopełnienie, przecięcie czy różnica sy-metryczna. W przypadku zbiorów rozmytych możemy definiować takie ope-racje na wiele sposobów. Od operacji na zbiorach rozmytych będziemy wyma-gali spełniania podstawowych warunków, intuicyjnie naturalnych dla operacjiteoriomnogościowych. Odpowiednikiem przecięcia dla zbiorów rozmytych jestpojęcie T-normy. Oznacza to, że każda operacja spełniająca warunki stawia-ne T-normie może być wykorzystana jako odpowiednik przecięcia dla zbiorówrozmytych.

Definicja 46. T-normą nazwiemy każdą funkcję T : [0, 1]2 → [0, 1] spełnia-jącą następujące warunki dla a, b, c, d ∈ [0, 1]:

3.1. RACHUNEK ZBIORÓW ROZMYTYCH 39

• Przemienność: T (a, b) = T (b, a);

• Łączność: T (a, T (b, c)) = T (T (a, b), c);

• Monotoniczność: T (a, b) T (c, d) gdy a c, b d;

• Tożsamość jedynki: T (a, 1) = a

Analogicznie, sumę zbiorów rozmytych będziemy definiowali używając po-jęcia S-normy (zwanej też T-konormą).

Definicja 47. S-normą (T-konormą) nazwiemy każdą funkcję S : [0, 1]2 →[0, 1] spełniającą następujące warunki dla a, b, c, d ∈ [0, 1]:

• Przemienność: S(a, b) = S(b, a);

• Łączność: S(a, S(b, c)) = S(S(a, b), c);

• Monotoniczność: S(a, b) S(c, d) gdy a c, b d;

• Tożsamość zera: S(a, 0) = a

Najczęściej stosowanymi operacjami na zbiorach rozmytych jest branieminimum (jako przecięcia) i maksimum (jako sumy). Ważną własnością tejpary operacji jest spełnianie praw rozdzielności:

• A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C)

• A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

Ponadto, min (max) są jedynymi idempotentnymi operacjami w klasie T-norm (T-konorm). Operacja minimum jest także maksymalna w klasie T-norm. Inne przykłady operacji:

• T (a, b) = max(0, a+ b− 1) - tzw. Łukasiewiczowska

• S(a, b) = min(1, a+ b) - tzw. Łukasiewiczowska

• T (a, b) = a+ b− ab - tzw. produktowa

• S(a, b) = ab - tzw. produktowa

Uzupełnienie zbioru (negację) możemy także zdefiniować dla zbiorów roz-mytych na wiele sposobów.


Definicja 48. Operatorem neacji nazwiemy każdą funkcję N : [0, 1]→ [0, 1]spełniającą następujące warunki dla a, b ∈ [0, 1]:

• Zachowywanie stałych: N(0) = 1;N(1) = 0;

• Odwracanie porządku: N(a) ¬ N(b) gdy b ¬ a;

• Inwolucja: N(N(a)) = a.

Jeżeli nie jest spełniony warunek iwolucji to mamy do czynienia z takzwaną negacją intuicjonistyczną. Najcześciej (praktycznie zawsze) używanymprzykładem operacji dopełnienia jest µ\A(x) = 1− µA(x).

Posiadanie operatora negacji pozwala na definiowanie T-konormy dualnejdo zadanej T-normy (i vice versa) zgodnie z formułą:

S(a, b) = N(T (N(a), N(b)))

W większości przypadków będziemy się posługiwać szczególnym przypadkiemtej fomuły:

S(a, b) = 1− T (1− a, 1− b)

3.1.1 Relacje rozmyte

W zwykłej teorii mnogości relację definiuje się jako podzbiór produktu kar-tezjańskiego. W przypadku zbiorów rozmytych ta definicja jest analogicz-na. Dalej będziemy się zajmować tylko relacjami binarnymi. Ma to na ce-lu uproszczenie notacji, bo wszystkie podane dalej pojęcia przenoszą się naprzypadek relacji o więcej niz dwóch argumentach.

Definicja 49. Relacją rozmytą określoną na X×Y nazwiemy każdy podzbiórrozmyty iloczynu katezjańskiego X × Y .

Tak określona relacja rozmyta ma wszystkie pożądane własności. Zauważ-my jednak, że do jej wprowadzenia nie jest używane pojęcie iloczynu karte-zjańskiego zbiorów rozmytych. Powstaje zatem pytanie czym jest taki iloczyni jak ma się on do wprowadzonego właśnie pojęcia relacji rozmytej.

Definicja 50. Niech A,B zbiory rozmyte w przestrzeniach (odpowiednio) Xi Y . Iloczynem katezjańskim A × B nazwiemy relację R (ozn. R = A × B)określoną na X × Y przez:

µR(x, y) = min(µA(x), µB(y))

3.2. LOGICZNE OPERATORY ROZMYTE 41

W ogólnym przypadku:

µR(x1, . . . , xn) = mini

(µAi(xi))

W pewnych sytuacjach potrzebujemy rozważać własności realcji rozmy-tych ze względu na poszczególne współrzędne. Służą temu między innymipojęcia rozszerzenia cylindrycznego i projekcji.

Definicja 51. Niech A będzie zbiorem rozmytym w X. Rozszerzeniem cylin-drycznym zbioru A na iloczyn kartezjański X×Y nazywamy relację rozmytąA = A× Y zadaną przez funkcję przynależności:

µA(x, y) = T (µA(x), µY (y)) = T (µA(x), 1) = µA(x),

gdzie T jest T-normą.

Definicja 52. Niech R będzie relacją rozmytą określona na X×Y . ProjekcjąR na X (analogicznie na inne współrzędne) nazywamy zbiór rozmyty A wX oznaczany A = Projx(A) i zadany przez:

µA(x) = maxy

(µA(x, y)).

3.2 Logiczne operatory rozmyte

W przypadku klasycznej teorii mnogości operacje na zbiorach są jednoznacz-nie związane z operacjami logicznymi na zdaniach. W przypadku zbiorów roz-mytych sytuacja jest bardziej złożona choćby ze względu na wiele możliwychsposobów wprowadzenia operacji na zbiorach. Dlatego przy rozpatrywaniuoperacji logicznych związanych z pojęciami zbiorów rozmytych przyjmuje sięinny sposób określania wartości logicznej dla formuły. W klasycznej logicezdaniowej podstawienie było funkcją v : V AR → 0, 1. W logice rozmytejbędziemy przyjmować, że formuła może przyjmować wartość logiczną po-między 0 a 1. Dokładniej, [[φ]]v ∈ [0, 1].

Operatory logiczne rozmyte nie mogą już być określane za pomocą ta-belek (truth table). Są to bowiem funkcje [0, 1]2 → [0, 1] ([0, 1] → [0, 1] wprzypadku negacji). Używając T-norm i T-konorm możemy w naturalny spo-sób wprowadzić koniunkcję i alternatywę jako:

[[φ ∧ ψ]]v = T ([[φ]]v, [[ψ]]v), [[φ ∨ ψ]]v = S([[φ]]v, [[ψ]]v)


Podobnie dla negacji możemy się posłużyć funkcją spełniającą warunki zdefinicji 48. Najczęściej przyjmować będziemy, że:

[[¬φ]]v = 1− [[φ]]v

Równoważność określamy za pomocą implikacji i koniunkcji jako:

[[φ⇔ ψ]]v = [[(φ⇒ ψ) ∧ (ψ ⇒ φ)]]v

Przyjmując założenie, że

[[φ]]v ¬ [[ψ]]v ⇒ [[φ⇒ ψ]]v = 1,

otrzymujemy [[φ ⇒ ψ]]v = 1 lub [[ψ ⇒ φ]]v = 1. Dla koniunkcji określonej zapomocą jakiejś T-normy otrzymujemy zatem

[[φ⇔ ψ]]v = min([[φ⇒ ψ)]]v, [[ψ ⇒ φ)]]v)

i to niezależnie od wyboru operatora koniunkcji (T-normy).Pozostaje nam zdefiniować operator implikacji. Nie jest wielkim zasko-

czeniem fakt, że można to zrobić na wiele sposobów. W tabeli 3.2 zostałyprzedstawione najpowszechniej używane operatory implikacji rozmytej:

nazwa implikacji [[φ⇒ ψ]]vŁukasiewicza min(1− [[φ]]v + [[ψ]]v, 1)

Godla

1 gdy [[φ]]v ¬ [[ψ]]v[[ψ]]v w p.p.

Goguen’a

1 gdy [[φ]]v = 0min(1, [[ψ]]v

[[φ]]v) w p.p.

Kleene-Dienes’a max(1− [[φ]]v, [[ψ]]v)Zadeha max(1− [[φ]]v,min([[ψ]]v, [[φ]]v))Reichenbacha 1− [[φ]]v + [[ψ]]v · [[φ]]v

W przypadku operacji rozmytych można, podobnie jak w przypadku kla-sycznych spójników logicznych, definiować jedne za pomocą innych korzy-stając z różnych między nimi zależności. Trzeba jednak zachowac przy tymostrożność, gdyż zależnie od używanej metody możemy uzyskać różne wyni-ki. I tak na przykład, używając implikacji Łukasiewicza możemy wprowadzić

3.3. LOGIKA POSSYBILISTYCZNA 43

dwie różne operacje alternatywy wykorzystując dwie znane zależności międzyspójnikami logicznymi.

[[φ ∨1 ψ]]v = [[¬φ⇒ ψ]]v = min([[φ]]v + [[ψ]]v, 1) (3.1)

[[φ ∨2 ψ]]v = [[¬φ⇒ ¬(ψ ⇒ φ)]]v = max([[φ]]v, [[ψ]]v) (3.2)

W klasycznej logice obie formuły ¬φ ⇒ ψ i φ ⇒ ¬(ψ ⇒ φ) są równoważnealternatywie. W zwykłej logice moglibyśmy wydefiniować implikację za po-mocą dowolnej z nich. W przypadku logiki rozmytej i implikacji Łukasiewiczamożemy się posłużyć tylko negacją i alternatywą, czyli tylko formułą (3.1).

3.3 Logika possybilistyczna

Podstawową ideą logiki possybilistycznej jest związanie z każdą formułą pew-nej liczby, odzwierciedlajacej stopień konieczności w jakim ta formuła jestprawdziwa. W dalszych rozważaniach będziemy się opierać na pewnym zbio-rze zdań atomowych (atomów) P = p0, p1, . . .. Przez L oznaczymy zbiórwszystkich wyrażeń logicznych, które mogą być zbudowane z atomów wybra-nych z P za pomocą klasycznych operacji logicznych ∧,∨,¬ oraz nawiasów.

Klauzulą nazwiemy wyrażenie postaci:

ϕ1 ∨ ϕ2 ∨ . . . ∨ ϕn,

gdzie ϕ1 (i = 1, . . . , n) jest literałem atomowym tj. formułą atomową lubnegacją takiej formuły.

Klauzule są zwykle interpretowane jako reguły, gdyż klauzula postaci¬pi1 ∨ . . .∨¬pik ∨ pik+1 ∨ . . .∨ pin jest równoważna implikacji pi1 ∧ . . .∧ pik ⇒pik+1 ∨ . . .∨ pin . Zbiór wszystkich klauzul będziemy oznaczać przez K0. Zbiórklauzul w naszych rozważaniach rozszerzymy ponadto o formuły > i ⊥, któ-re są odpowiednio zawsze prawdziwe lub zawsze fałszywe. Będziemy używaćoznaczenia K = K0 ∪ >,⊥.

Definicja 53. Miarą konieczności nazwiemy przyporządkowanie N : L −→[0, 1] spełniające:

1. N(>) = 1

2. N(⊥) = 0


3. N(ϕ ∧ ψ) = min(N(ϕ), N(ψ))

4. N(ϕ) = N(ψ) gdy ϕ i ψ są wyrażeniami logicznie równoważnymi.

Wartość N(ϕ) odpowiada na pytanie w jakim stopniu jest koniecznaprawdziwość formuły ϕ. Z powyższej definicji wynika, że dla każdej formułyϕ ∈ L jedna z wartości N(ϕ) lub N(¬ϕ) musi być zerem. Do policzenia war-tości N(ϕ ∧ ψ) dla koniunkcji wystarczy tylko znajomość N(ϕ) i N(ψ). Niejest to jednak wystarczające do określenia wartości alternatywy i negacji. Ztego powodu logika possybilistyczna nie jest logiką prawdziwościową (ang.truth-functional).Przykład

Niech N : L −→ [0, 1] będzie zdefiniowane jako:

N(ϕ) =

1 ϕ jest tautologią0 w p.p.

Wtedy dla pewnych formuł atomowych p0, p1 nie będących tautologiami ma-my N(p0) = N(¬p0) = N(p1) = N(¬p1) = 0, ale N(p0 ∨ ¬p0) = N(>) =1 6= 0 = N(p0 ∨ p1) Analogicznie dla negacji N(⊥) = N(p0) = 0, aleN(¬⊥) = N(>) = 1 6= 0 = N(¬p0). Dla alternatywy w ogólnym przypadkumożna tylko określić, że:

N(ϕ ∨ ψ) max(N(ϕ), N(ψ))

gdyż zachodzi:

N(ϕ) = N(ϕ ∧ (ϕ ∨ ψ)) = min(N(ϕ), N(ϕ ∨ ψ))

orazN(ψ) = N(ψ ∧ (ϕ ∨ ψ)) = min(N(ψ), N(ϕ ∨ ψ))

Definicja 54. Przekształcenie Π : L −→ [0, 1] nazywamy miarą możliwościdla L, gdy istnieje taka miara konieczności N , że: Π(ϕ) = 1−N(¬ϕ).

Π(ϕ) ma własności 1,2 i 4 z definicji 53, a ponadto

Π(ϕ ∨ ψ) = max(Π(ϕ),Π(ψ)).

Definicja 55. W ⊆ K×(0, 1] nazywamy niepewną bazą wiedzy gdy (>, α) :α ∈ (0, 1] ⊆ W


Baza wiedzy to zbiór formuł, z których każdej towarzyszy liczba z prze-działu (0,1]. Parę postaci (ϕ, α) ∈ K × (0, 1] nazywamy klauzulą niepewną.α wyznacza dolną granicę dla miary (nieznanej) konieczności tj. (ϕ, α) ∈ Woznacza, że N(ϕ) α.

Warunek (>, α) : α ∈ (0, 1] ⊆ W jest potrzebny ze względów formal-nych, aby możliwe było wykazanie (ϕ, β) gdy zachodzi (ϕ, α) i β ¬ α. Zwy-kła baza wiedzy, czyli zbiór aksjomatów W ⊆ K odpowiada bazie niepewnejW = W × 1.

Aby móc dedukować niepewne klauzule ze zbioru niepewnych klauzul(niepewnej bazy wiedzy) potrzebujemy reguły wnioskowania. Taką regułąjest w tym przypadku reguła rezolucji possybilistycznej :

(ψ ∨ ϕ1, α1) (¬ψ ∨ ϕ2, α2)(ϕ1 ∨ ϕ2,min(α1, α2))

Possybilistyczna rezolucja orzeka, że informacja o (ψ∨ϕ1, α1) i (¬ψ∨ϕ2, α2),co odpowiada N(ψ∨ϕ1) α1 i N(¬ψ∨ϕ2) α2 wystarcza do stwierdzenia,że N(ϕ1 ∨ ϕ2) min(α1, α2).

Definicja 56. Niech W i W ′ będą niepewnymi bazami wiedzy. Powiemy, żeW ′ może być besposrednio wywiedziona z W jeśli istnieje klauzula niepewna(ϕ, α) ∈ K × (0, 1] taka, że:

1. W =W ′ \ (ϕ, α)

2. Istnieją klauzule ψ, ϕ1, ϕ2 ∈ K oraz α1, α2 ∈ (0, 1] takie, że:

(a) α = min(α1, α2)

(b) ϕ jest równoważne z ϕ1 ∨ ϕ2

(c) (ψ ∨ ϕ1, α1) ∈ W i (¬ψ ∨ ϕ2, α2) ∈ W

Definicja 57. Niech W będzie niepewną bazą wiedzy, a (ϕ, α) ∈ K × (0, 1]klauzulą niepewną. Powiemy, że (ϕ, α) może być dowiedziona zW (ozn.W `(ϕ, α)) jeśli istnieje sekwencjaW0,W1, . . . ,Wn niepewnych baz wiedzy takich,że:

1. W =W0

2. Wi+1 można bezpośrednio wywieść z Wi


3. (ϕ, α) ∈ Wn

Powyższa definicja stanowi zakończenie konstrukcji części syntaktycznejdla logiki possybilistycznej. Dalej wprowadzamy semantykę dla tej logiki.

Dla wyraźnego wyróżnienia ”klasycznych” wartości logicznych prawdy(1) i fałszu (0) w tej części wykładu będziemy się posługiwać oznaczeniamiv-verum na oznaczenie prawdy i f -falsum na oznaczenie fałszu.

Definicja 58. Przypożądkowanie I : P −→ v, f przypisujące każdej formu-le atomowej wartość prawdy lub fałszu nazywamy interpretacją standardową(podtawieniem standardowym).

Interpretacja standardowa I , może być za pomocą odpowiednich formułdla ∨,∧,¬ kanonicznie rozszerzona do interpretacji I∗ : L −→ v, f. Zbiórwszystkich interpretacji nad P oznaczamy przez B(P). Przez F(B(P)) bę-dziemy oznaczać rodzinę wszystkich zbiorów rozmytych w B(P). Z każdąniepewną bazą wiedzy możemy związać podzbiór rozmyty w B(P).

Definicja 59. Niech W będzie niepewną bazą wiedzy i (ϕ, α) ∈ K × (0, 1]klauzulą niepewną.

(i) Zbiór rozmyty µ(ϕ,α) ∈ F(B(P)) jest zadany przez funkcję przynależno-ści:

µ(ϕ,α)(I) =

1 gdy I∗(ϕ) = v1− α w p.p.

(ii) Zbiór rozmyty µW ∈ F(B(P)) jest zadany przez:

µW(I) = infµ(ϕ,α)(I) : (ϕ, α) ∈ W

(iii) Wartośćcons(W) = supµW(I) : I ∈ B(P)

nazywamy stopniem zgodności (niesprzeczności) W.

(iv) Wartośćinc(W) = 1− cons(W)

nazywamy stopniem niezgodności (sprzeczności) W.


Wartość µ(ϕ,α) ∈ [0, 1] określa w jakim stopniu podstawienie I jest zgodnez klauzulą (ϕ, α). Jeśli ϕ jest prawdziwe przy przy podstawieniu I, to Ijest całkowicie zgodne z (ϕ, α). Gdy I∗(ϕ) = f pomimo, że wiemy (ϕ, α),zgodnośc zachodzi tylko w stopniu nie większym niż 1 − α. Analogicznie,zgodność niepewnej bazy wiedzy to infimum po zgodnościach formuł do niejnależących.

Definicja 60. Niech W będzie niepewną bazą wiedzy i (ϕ, α) ∈ K × (0, 1]klauzulą niepewną. Powiemy, że W |= (ϕ, α), gdy inc(W ∪ (¬ϕ, 1)) α.

Powyższa definicja odpowiada własności logiki klasycznej, w której formu-łę ϕ można było udowodnić ze zbioru formuł W przez pokazanie, że W∪¬ϕjest sprzeczny. Zauważmy, że ¬ϕ nie musi być klauzulą, ale definicja poprzed-nia odnosi się do dowolnego zbioru formuł. Mamy zatem wprowadzone za-równo semantykę jak i syntaktykę dla logiki possybilistycznej. Sprawdzimyteraz, że te dwa pojęcia pozostają ze sobą w związku.

Twierdzenie 61. (Poprawność logiki possybilistycznej)Niech W będzie niepewną bazą wiedzy i (ϕ, α) ∈ K× (0, 1] klauzulą niepewną.Wtedy

W ` (ϕ, α) ⇒ W |= (ϕ, α).

Dowód: NiechW(ϕ,α) ⊆ W będzie zbiorem wszystkich klauzul niepewnych, którezostały wykorzystane w wywodzie (ϕ, α) zW za pomocą rezolucji possybilistycz-nej. Oczywiście W(ϕ,α) ⊆ K × [α, 1]. W zapisie formalnym:

W(ϕ,α) = ψ : ∃β∈[α,1](ψ, β) ∈ W(ϕ,α)

Jeżeli zaniedbamy stopnie prawdziwości w possybilistycznym wywodzie rezolu-cyjnym ϕ z W(ϕ,α) to otrzymamy zwykły (klasyczny) wywód rezolucyjny. To zaśoznacza, że W ′ =W(ϕ,α) ∪(¬ϕ, 1) jest sprzecznym zbiorem formuł (w klasycz-nym sensie). Zatem dla każdej interpretacji I istnieje formuła ψI ∈ W ′ taka, żeI∗(ψI) = f . Stąd zaś wynika, że dla wszystkich interpretacji I zachodzi

µW∪(¬ϕ,1)(I) ¬ 1− α.

Stąd zaś

inc(W ∪ (¬ϕ, 1)) = 1− supµW∪(¬ϕ,1)(I) : I ∈ B(P) 1− (1− α) = α.


Twierdzenie 62. Niech W będzie niepewną bazą wiedzy i (ϕ, α) ∈ K× (0, 1]klauzulą niepewną. Wtedy

W |= (ϕ, α) ⇒ W ` (ϕ, α).

Dowód: Zgodnie z definicją W |= (ϕ, α) mamy

α ¬ inc(W ∪ (¬ϕ, 1)) = 1− supµW∪(¬ϕ,1)(I) : I ∈ B(P),

czyli dla każdej interpretacji I zachodzi

µW∪(¬ϕ,1)(I) ¬ 1− α

To oznacza, że zbiór

W ′′ = ψ : ∃β∈[α,1](ψ, β) ∈ W ∪ (¬ϕ, 1)

jest sprzeczny. Zatem klauzula ϕ może być wyprowadzona ze zbioru formułW = W ′′ \ ¬ϕ za pomocą zwykłej (nie possybilistycznej) rezolucji. Taki kla-syczny dowód rezolucyjny może być przekształcony w possybilistyczny dowódrezolucyjny, w którym używane są tylko klauzule postaci (ψ, β) ∈ W ′′ dla β α.W ten sposób otrzymujemy, że W ` (ϕ, γ) dla pewnego γ α. Stosując poje-dyńczy krok rezolucji possybilistycznej dla klauzul (ϕ, γ) i (>, α) otrzymujemyżądany wynik.

3.4 Prawdziwościowa logika rozmyta

Logika possybilistyczna przedstawiona poprzednio nie była prawdziwościo-wa. Przedstawimy teraz kolejny system logiczny związany z pojęciami teoriizbiorów rozmytych, który będzie systemem prawdziwościowym.

Ponownie będziemy rozpatrywać zbiór formuł atomowych P . Będziemysię ograniczać do operacji⇒,∧,∨. Zbiór wszystkich wyrażeń zbudowanych zatomów za pomocą operacji logicznych oznaczymy, jak poprzednio, przez L.

W tym systemie całkowicie odchodzimy od klasycznych wartości logicz-nych prawdy i fałszu reprezentowanych przez 0 i 1. Zamiast tego będziemy sięposługiwali liczbami z przedziału [0,1] przy czym nadal 0 oznacza całkowityfałsz a 1 całkowitą prawdę. Interpretacja (podstawienie) w naszym systemiebędzie zatem przyporządkowaniem I : P −→ [0, 1]. Ponownie, przez wyko-rzystanie operacji możemy rozszerzyć I do I∗ : L −→ [0, 1]. Dla uproszczeniabędziemy dalej zakładać, że ⇒ oznacza implikację Łukasiewiczowską a ∧ i ∨są odpowiednio ciągłą T-normą i ciągłą T-konormą.

3.4. PRAWDZIWOŚCIOWA LOGIKA ROZMYTA 49

Definicja 63. Wyrażenie postaci

ϕ⇒ p,

gdzie p ∈ P, a ϕ jest formułą logiczną złożona z atomów i operatorów ∨,∧,nazywamy formułą implikacyjną. Przez I oznaczamy zbiór wszystkich formułimplikacyjnych.

Dla dowodu poprawności i pełności będziemy w głównej mierze zajmowaćsię atomami i formułami implikacyjnymi.

Definicja 64. Rozmytą bazą wiedzy nazwiemy przyporządkowanie

w : I ∪ P −→ [0, 1]

Rozmyta baza wiedzy może być rozpatrywana jako dolne ograniczenie dlaI∗ indukowanego przez interpretację I. Inaczej mówiąc, dla każdej formuływ ϕ ∈ I ∪P stopień prawdziwości winien być nie mniejszy niż w(ϕ). Zwykłabaza wiedzy W ⊆ I ∪P może być interpretowana jako rozmyta baza wiedzyw : I ∪ P −→ [0, 1] taka, że w(ϕ) = 1 gdy ϕ ∈ W i 0 w przeciwnymprzypadku.

Definicja 65. Niech w będzie rozmytą bazą wiedzy, a I : P −→ [0, 1] inter-pretacją. Powiemy, że I jest zgodne z w, gdy dla każdego ϕ ∈ I ∪P zachodziw(ϕ) ¬ I∗(ϕ).

Definicja 66. Niech w będzie rozmytą bazą wiedzy. Przekształcenie Thw :L −→ [0, 1] jest zadane przez:

Thw = infI∗(ϕ) : I jest interpretacj zgodn z w

Thw odpowiada zbiorowi rozmytemu wszystkich wyrażeń, które mogą byćsemantycznie wyprowadzone z w. Definicja ta odpowiada uproszczonej defini-cji teorii w logice klasycznej. W klasycznym sensie Th(klas.)

W jest zdefiniowanajako zbiór tych wszystkich formuł ϕ, dla których z faktu że I∗(ψ) = prawdadla każdego ψ ∈ W , wynika I∗(ϕ) = prawda. W jest klasyczną bazą wiedzytzn. zbiorem formuł.

Powyższe definicje dostarczają nam semantyki dla naszego systemu lo-gicznego. Dla wprowadzenia częsci syntaktycznej posłużymy się uogólnie-niem reguł modus ponens. Rozważmy rozmytą bazę wiedzy w, formułę im-plikacyjną ϕ ⇒ p i interpretację I zgodną z w. Wprowadzamy interpretację


Iw, gdzie Iw(q) = w(q) dla q ∈ P . Ponieważ I jest zgodna z w, mamyIw ¬ I. Dzięki monotoniczności i ciągłości T-normy i T-konormy otrzymuje-my I∗w(ϕ) ¬ I∗(ϕ), a ponieważ I zgodna z w, mamy:

w(ϕ⇒ p) ¬ I∗(ϕ⇒ p) = min(1− I∗(ϕ) + I(p), 1).

Stądw(ϕ⇒ p) ¬ 1− I∗(ϕ) + I(p).

Zatem

w(ϕ⇒ p) + I∗w(ϕ)− 1 ¬ w(ϕ⇒ p) + I∗(ϕ)− 1 ¬ I(p).

To oznacza, że dzieki znajomości w możemy wprowadzić nowe dolne ogra-niczenie na prawdziwość atomu p. Następna definicja wprowadza formalnepojęcie wywodu.

Definicja 67. Niech w i w′ będa rozmytymi bazami wiedzy.

(i) w′ może być bezpośrednio wywiedzione z w jeśli istnieje fomuła impli-kacyjna ϕ⇒ p taka, że:

(a) w′(p) ¬ max(w(ϕ⇒ p) + I∗w(ϕ)− 1, w(p))

(b) dla każdego ψ ∈ (I ∪ P) \ p zachodzi w′(ψ) ¬ w(ψ).

(ii) w′ może być wywiedzione z w jeśli istnieje sekwencja rozmytych bazwiedzy w0, w1, . . . , wn taka, że:

(a) w0 = w

(b) wn = w′

(c) wi+1 może być bezpośrednio wywiedziona z wi.

Definicja 68. Niech w będzie rozmytą bazą wiedzy. Przekształcenie thw :P −→ [0, 1] jest zadane jako:

thw(p) = supw′(p) : w′ może być wyprowadzona z w

thw jest zbiorem rozmytym wszystkich atomów , które mogą byc syntak-tycznie wywiedzione z w.

3.4. PRAWDZIWOŚCIOWA LOGIKA ROZMYTA 51

Twierdzenie 69. (poprawność) Niech w będzie rozmytą bazą wiedzy i p ∈ P.Wtedy:

thw(p) ¬ Thw(p)

Dowód: Wywodliwość została zdefiniowana tak, by zachowywać zgodność tzn.,że jeśli interpretacja I jest zgodna z w, to I jest także zgodna z każdą rozmytąbazą wiedzy w′ bezpośrednio wywodliwą z w. Wykorzystując tę własność możemy(przez zwykłą indukcję zupełną) pokazać, że jeśli I jest zgodna z w, to I jesttakże zgodna z każdą rozmytą bazą wiedzy wywodliwą z w. Zatem dla wszystkichwyrażeń i wszystkich baz wiedzy rozmytej w′, dla których zgodnie z definicjami66 i 68 liczymy odpowiednio infima i suprema zachodzi nierówność w′(p) ¬ I(p).To zaś pociąga za sobą prawdziwość twierdzenia o poprawności.


Twierdzenie 70. (pełność) Niech w będzie rozmytą bazą wiedzy i p ∈ P.Wtedy:

thw(p) Thw(p)

Dowód: Kładziemy I0 = thw. Najpierw wykażemy, że interpretacja I0 jest zgod-na z w. Zgodnie z definicją thw dla każdego atomu q ∈ P zachodzi nierównośćw(q) ¬ I0(q). Niech ϕ⇒ q będzie formułą implikacyjną. Zakładamy, że zachodzi

w(ϕ⇒ q) > I∗0 (ϕ⇒ q) = I0(q)− I∗0 (ϕ) + 1

to jestw(ϕ⇒ q) + I∗0 (ϕ)− 1 > I0(q)

Niech pi1 , . . . , pin będą atomami występującymi w ϕ. Ponieważ T-norma i T-konorma, których używamy są z założenia ciągłe i monotoniczne, istnieją takieε1, . . . , εn > 0 że warunek:

w(ϕ⇒ q) + I∗1 (ϕ)− 1 > I0(q)

jest spełniony dla

I1(r) =I0(r)− εj gdy r = pij0 w p.p.

Definiujemy rozmytą bazę wiedzy w′ następująco:

w′(ψ) =I1(ψ) gdy ψ ∈ Pw(ψ) gdy ψ ∈ I

Dla każdego atomu pij (j = 1, . . . , n) istnieje rozmyta baza wiedzy wj , która możezostać wyprowadzona z w przez wykorzystanie nierówności wj(pij ) > w′(pij ),gdyż zachodzi w′(pij ) < thw(pij ). Zatem w′ też może być wywiedziona z w. Alejednocześnie z w′ możemy bezpośrednio wywieść rozmytą bazę wiedzy w′′, taką,że:

w′′(ψ) =w(ϕ⇒ q) + I∗w′(ϕ)− 1 gdy ψ = qw′(ψ) w p.p.

To zaś prowadzi do sprzeczności, bo:

I0(q) < w(ϕ⇒ q) + I∗1 (ϕ)− 1 = w′′(q) < thw(q)

Zatem I0 nie może być zgodne z w, a stąd wynika, że dla wszystkich p ∈ Pzachodzi:

thw(p) = infI(p) : I jest zgodne z w = Thw(p)

Rozdział 4

Wnioskowanie indukcyjne

4.1 Problem indukcji

Wszystkie systemy wnioskowania poznane dotąd na tym wykładzie były sys-temami dedukcyjnymi, czyli działającymi w sposób całkowicie pewny w opar-ciu o przyjęty zbiór przesłanek (założeń, aksjomatów) za pomocą niezawod-nych reguł wnioskowania. W szczególności, niesprzeczne systemy dedukcyjnesą zamknięte ze względu na tworzenie nowych pojęć i wyciąganie prawdzi-wych wniosków.

Rozumowania czysto dedukcyjne są stosunkowo rzadko spotykane w praw-dziwym świecie. Najczęściej mamy z nimi do czynienia w przypadku mate-matycznych modeli świata (fizyka teoretyczna, matematyka, informatyka)których opis poddaje się uporządkowaniu. Znamienitym przykładem stoso-wania podejścia (głównie) dedukcyjnego są Elementy Euklidesa. Jednak ry-gorystyczne trzymanie się dedukcji i zasada zachowywania absolutnej praw-dziwości wniosków bardzo szybko napotykają na wielkie problemy.

Dlatego istotnym dopełnieniem metod dedukcyjnych w nauce są rozu-mowania innego rodzaju, w szczególności oparte o indukcję, abdukcję i/lubkombinację tychże.

4.1.1 Rozumowania indukcyjne - wprowadzenie

W największym uproszczeniu, rozumowania indukcyjne można rozumieć jakownioskowania

od szczegółu do ogółu czyli od przykładów do reguły.

53

54 ROZDZIAŁ 4. WNIOSKOWANIE INDUKCYJNE

Wnioskowania indukcyjne są ze swojej natury niedokładne.Wnioskowanie indukcyjne jest oparte na wrodzonej ludziom zdolności do

znajdowania wzorców i reguł na podstawie skończonej (i być może niekom-pletnej i niedokładnej) próbki pochodzącej z obserwacji.

Na przykład na podstawie obserwacji każdy “rozsądny” badacz stwierdziempirycznie prawdziwość stwierdzenia:

Wszystkie kruki są czarne, ale nie wszystkie koty są czarne.

Zagadnieniem przeprowadzania wywodów w oparciu o obserwację, czyliindukcyjnych, zajmowali się badacze od zarania dziejów. Jednakże aż doschyłku średniowiecza za niepodważalną metodę badawczą uważano dedukcjęw formie wprowadzonej przez Arystotelesa.

Dzisiejsze pojęcie indukcji jest znacznie precyzyjniejsze niemniej jednakarystotelesowskie podejście też wymagało przyjęcia założeń i prowadzenia ro-zumowania w sposób, który ich nie podważa. Arystoteles rozważał wprawdziemetodę rozumowania indukcyjnego, ale tylko w formie prymitywnej indukcjienumeracyjnej zupełnej.

Pierwsze znaczące wątpliwości co do tej metody badawczej przedstawiłFrancis Bacon (1561-1626) jednocześnie proponując zasadę indukcji elimina-cyjnej. Zasada indukcji eliminacyjnej została dokładniej sformułowana przezJohna Stuarta Milla w Systemie logiki dedukcyjnej i indukcyjnej (1843) wformie tzw. kanonów Milla.

Indukcję niezupełną eliminacyjną poddał krytycznej analizie David Hume(1748). Swoje trzy grosze dorzucił też Immanuel Kant. W swoich dziełachfilozoficznych, zajmujących się przede wszystkim zagadnieniami poznania ikwestiami przyczynowości, Hume zaproponował nowe spojrzenie na indukcjęi przeprowadził jej krytyczną analizę.

Jego postulaty stały się początkiem współczesnego rozumienia zagadnie-nia indukcji - w ujęciu Hume’a stanowi ono alternatywę głoszącą, że albowiedza jest pewna i dotyczy idei (abstraktów, np. obiektów matematycz-nych), albo jest niepewna i dotyczy faktów z rzeczywistości. Współcześniepogląd, że wiedza o faktach świata materialnego nie jest pewna jest przyjętypowszechnie, w czasach Hume’a stanowił jednak szokujący paradoks, głównieze względu na rozwój fizyki newtonowskiej.

Współczesne rozumienie wnioskowań indukcyjnych odeszło od idei Kantai Hume’a w stronę logik indukcyjnych, które na zamiast na pytanie “co uza-sadnia prawdziwość?” starają się odpowiadać na pytanie “dlaczego stwier-dzenie jest prawdopodobne/możliwe?”. Tego typu podejście reprezentował

4.2. TYPY ROZUMOWAŃ INDUKCYJNYCH 55

m.in. Rudolf Carnap.Obecnie rozumowania indukcyjne są istotną częścią wielu systemów rze-

czywistych. Elementy wnioskowania w oparciu o indukcję stanowią międzyinnymi podstawę dla takich działów jak systemy uczące się (ang. Machine Le-arning) czy odkrywanie wiedzy z danych (ang. KDD – Knowledge Discoveryin Databases).

4.2 Typy rozumowań indukcyjnych

4.2.1 Indukcja zupełna

Indukcja zupełna (indukcja enumeracyjna zupełna, indukcja wyczerpująca)to wnioskowanie, w którym jakąś ogólną prawidłowość uznaje się za praw-dziwą na podstawie zdań stwierdzających wszystkie możliwe przypadkiwystąpienia tej prawidłowości.

Indukcja zupełna jest w rzeczywistości rozumowaniem dedukcyjnym ipewnym, gdyż wyklucza sprzeczność przez wyliczenie (enumerację) wszyst-kich pozytywnych przypadków. Jest też w większości nietrywialnych przy-padków całkowicie nieefektywną metodą prowadzenia praktycznego rozumo-wania.

Szczególnym przypadkiem indukcji zupełnej jest indukcja matema-tyczna powszechnie stosowana do dowodzenia twierdzeń. Niejako wbrewswojej nazwie, jest to metoda dedukcyjna.

4.2.2 Indukcja eliminacyjna

...when you have eliminated all which is impossible, then whateverremains, however improbable, must be the truth.

Sherlock Holmes

Źródło: Arthur Conan Doyle, The Blanched Soldier

Prosta indukcja eliminacyjna (Bacon) polega na sformułowaniu listy hi-potez, które wzajemnie się wykluczają, a następnie dokonaniu eliminacji zużyciem narzędzia jakim jest eksperyment.

J.S. Mill rozwinął indukcję eliminacyjną poprzez dodanie pięciu reguł eli-minacji hipotez (kanonów Milla) które pozwalają częściowo sformalizować


proces wnioskowania. Kanony Milla pozwalają ustalać związki przyczynowo-skutkowe typu “przyczyna A powoduje skutek a”, na podstawie serii obserwa-cji. Na przykład metoda zgodności (kanon pierwszy) pozwala przeprowadzićwnioskowanie:

Metoda zgodności - 1 kanon Milla

Sytuacja 1: Obserwujemy przyczyny A, B, C i skutki a, b, c.

Sytuacja 2: Obserwujemy przyczyny A, D, E i skutki a, d, e.

Wniosek: Eliminujemy niepowtarzające się (niezgodne) obserwacje imamy “przyczyna A powoduje skutek a”.

Indukcja niezupełna (indukcja enumeracyjna niezupełna), polega na uzna-niu jakiejś ogólnej prawidłowości na podstawie skończonej liczby zdaństwierdzających niektóre wystąpienia tej prawidłowości. Wnioskujemy zatemna podstawie próbki o prawidłowościach ogólnych.

Niezupełność tego rozumowania jest naturalną manifestacją rzeczywisto-ści którą próbujemy opisać. Prawie nigdy nie mamy możliwości obserwowaniadostatecznie wielu (wszystkich możliwych) przypadków. Niezupełność ozna-cza także, że raz zbudowane teorie nie są zamknięte i mogą być uzupełnianew miarę napływania nowych przypadków (obserwacji), które nie dają sie do-brze wyjaśnić za pomocą dotychczasowej wiedzy. Tak, na przykład, teoriawzględności Einsteina uzupełniła mechanikę Newtona.

Indukcja niezupełna jest jednym z podstawowych narzędzi nauk doświad-czalnych. Na potrzeby jej stosowania zostały opracowane liczne metodologiebadawcze (np. rachunek błędów, ewaluacja statystyczna, etc.), które pozwa-lają eliminować negatywne skutki niezupełności.

4.3 Niezupełne wnioskowanie indukcyjne

Problem indukcji niezupełnej był rozważany i poddawany krytycznej analizieod wieków. Zasadność, wiarygodność i konieczność stosowania tego podejściado formułowania stwierdzeń opisujących świat dyskutował już Sextus Empi-ricus (3-2 wiek p.n.e.). Na przestrzeni wieków wielu najwybitniejszych uczo-nych odnosiło się do tego zagadnienia, np. Bacon, Kartezjusz, Kant, Newton,

4.3. NIEZUPEŁNE WNIOSKOWANIE INDUKCYJNE 57

Mill, Hume. Współcześnie własną wersję tego podejścia przedstawiali emi-nentni filozofowie nauki, m.in. Karl Popper, Wesley C. Salmon i David Miller.

W konstrukcji systemu opartego na indukcji niezupełnej napotykamy nazasadniczy problem. Logika taka powinna rozszerzać systemy dedukcyjne omechanizm do wyprowadzania niekoniecznie całkowicie prawdziwychtwierdzeń. Chcielibyśmy, aby taki system pozwalał w jak największym stop-niu odzwierciedlić podstawową własność systemów dedukcyjnych, tj.

Prawdziwość przesłanek gwarantuje prawdziwość wniosków.

4.3.1 Kryterium zgodności

Aby logika indukcyjna zachowywała pożądaną spójność zazwyczaj wymagasię od niej, aby możliwe było ustalenie stopnia wsparcia dla prawdziwościsformułowanych w niej wniosków. Mierzy on siłę wpływu prawdziwościprzesłanek na prawdziwość wniosku. Od takiej miary wymaga się spełnianiaCoA (Criterion of Adequacy - kryterium zgodności).

CoA - Criterion of Adequacy

As evidence accumulates, the degree to which the collection of trueevidence statements comes to support a hypothesis, as measured bythe logic, should tend to indicate that false hypotheses are probablyfalse and that true hypotheses are probably true.

CoA - Kryterium zgodności

W miarę rozszerzania zbioru faktów stopień w jakim zawarte w nimprzesłanki pozytywne (prawdziwe) wspierają wniosek powinien wska-zywać na wzrastające prawdopodobieństwo prawdziwości dla wnio-sków prawdziwych i spadające prawdopodobieństwo prawdziwości dlafałszywych.

Aby z powodzeniem stosować systemy wnioskowania indukcyjnego (logikiindukcyjne) należy się zabezpieczać przed pułapkami, które mogą prowadzićdo powstawania paradoksów lub dowodzenia sofizmatów. Na przykład:


Indukcyjny dowód nieśmiertelności

Fakty 1− n Wiele razy (n 1) słyszałem, że ktoś umarł.

Fakt n+ 1 Za każdym razem gdy słyszałem, że ktoś umarł, nie by-łem to ja.

Konkluzja Nic nie wskazuje na to, że mogę umrzeć, więc jestemnieśmiertelny.

Oczywiście powyższe wnioskowanie jest błędne, bo nie uwzględnia prze-słanek negatywnych i nie spełnia choćby podstawowych kryteriów “przyzwo-itości” dla kompletności zbioru przesłanek. Niemniej jednak, w rzeczywistychsystemach indukcyjnych musimy bardzo uważać na zabezpieczanie się przednonsensownymi wnioskami.

4.3.2 Rodzaje wnioskowań indukcyjnych

W praktyce codziennego (formalnego) wnioskowania indukcyjnego stosuje sięwiele schematów (metod), często pochodzących z innych dziedzin nauki. Sąwśród nich:

1. Uogólnienie indukcyjne (ang. inductive generalisation).

2. Sylogizm statystyczny (ang. statistical syllogism).

3. Indukcja prosta/bezpośrednia (ang. simple/direct induction).

4. Wnioskowanie przez analogię (ang. argument from analogy).

5. Predykcja (ang. prediction).

6. Wnioskowanie przyczynowe lub przyczynowo-skutkowe (ang. causal in-ference). Etiologia.

UWAGA: wnioskowanie przez analogię może być rozpatrywane jako bardzoszczególny przypadek prostej indukcji.


Uogólnienie indukcyjne

Uogólnienie indukcyjne to metoda, która rozszerza przesłankę prawdziwą dlapróbki na wniosek dla całej populacji.

Reguła

Przesłanka:W próbce p wybranej z populacji P odsetek q przypadków w spełniawarunek A.Wniosek:W populacji P odsetek q przypadków w spełnia warunek A.

Zauważmy, że na razie nie zajmujemy się kwestią tego jak duża jest prób-ka, jak jest reprezentatywna, jak duży jest odsetek q, etc. Wpływ tych czynni-ków nie może być jednak w ogólności zaniedbany, gdyż może to doprowadzićdo błędnych wniosków.

Sylogizm statystyczny

Sylogizm to technika wnioskowania o dwóch przesłankach, przy czym obieprzesłanki zawierają wspólny element, a każdy element wniosku zawarty jestw dokładnie jednej z nich.

Sylogizm statystyczny to wnioskowanie o pojedynczym przypadku napodstawie przesłanek mówiących o całej populacji.

Reguła

Przesłanki:– W populacji P odsetek q przypadków w spełnia warunek A.– Nowy przypadek s jest w P .Wniosek:Z prawdopodobieństwem będącym w (jakimś) związku z q przypadeks spełnia warunek A.

Wnioskowanie przez sylogizm statystyczny jest narażone na błędy typusecundum quid typowe dla sylogizmów.


Fallacia dicto simpliciter

Błędy (fallacia) typu secundum quid pojawiają się przy niewłaściwym stoso-waniu sylogizmów, takich jak np. sylogizm Arystotelesa:

Jeżeli każdy A jest B oraz każdy B jest C, to każdy A jest B.W przypadku sylogizmu statystycznego możemy napotkać dwie odmiany

takich błędów.

1. Błąd akcydentacji – Fallacia a dicto simpliciter ad dictum secundumquid – wyprowadzenie zdania szczegółowego ze zdania ogólnego przypominięciu koniecznych domyślnych ograniczeń, np. “Skoro jest takwielu leniwych studentów, to niektórzy studenci w tej grupie są leniwi”.

2. Błąd odwróconej akcydentacji – Fallacia a dicto secundum quid ad dic-tum simpliciter – wyprowadzenie zdania ogólnego ze zdania szczegóło-wego przez opuszczenie niezbędnego dookreślenia występującego w tymzdaniu ogólnym, np. “Skoro można zabijać w obronie koniecznej, to za-bijanie jest dozwolone”.

Indukcja prosta

Indukcja bezpośrednia (prosta) działa przez zastosowanie przesłanki praw-dziwej dla części znanych wcześniej przykładów (populacji) do nowego przy-kładu.

Reguła

Przesłanki:– W populacji P odsetek q przypadków spełnia warunek A.– Nowy przypadek s jest w P .Wniosek:s spełnia A z prawdopodobieństwem proporcjonalnym do q

W tym konkretnym przykładzie prosta indukcja jest wynikiem złożeniauogólnienia i sylogizmu statystycznego. Wniosek z uogólnienia staje się pierw-szą przesłanką sylogizmu.

Wnioskowanie przez analogię

Podobieństwo w jednych aspektach przesądza o podobieństwie w innych.


Reguła

Przesłanki:– Przypadki (obiekty) s i t są zgodne ze względu na warunki A,B,C.– Przypadek (obiekt) s spełnia też warunek D.Wniosek:t z dużym prawdopodobieństwem spełnia D.

Analogię stosuje się bardzo często w rozumowaniach zdroworozsądko-wych, naukowych (ścisłych i humanistycznych), prawniczych i filozoficznych.Doprecyzowana i uregulowana wersja tego rozumowania stanowi dział in-formatyki (poddział Sztucznej Inteligencji) znany jako CBR (od ang. CaseBased Reasoning).

Predykcja

Predykcja to wyciąganie wniosków o nowych obiektach (obserwowanych wprzyszłości) na podstawie obserwacji zebranych z posiadanej próbki obiektów(w przeszłości/teraźniejszości).

Reguła

Przesłanka:W dotychczas zaobserwowanej populacji P odsetek q przypadkówspełnia warunek A.Wniosek:Nowo zaobserwowany przypadek s spełnia A z prawdopodobień-stwem proporcjonalnym do q

Predykcja jest jednym z najczęściej wykorzystywanych schematów rozu-mowania indukcyjnego. Po uzbrojeniu w ścisły aparat matematyczny stanowipunkt wyjściowy współczesnych metod odkrywania wiedzy z danych w wieludziedzinach zastosowań informatyki.

Etiologia – przyczynowość

Etiologia (αιτιoλoγια - aitiologıa) to dział nauki badający przyczyny zja-wisk, procesów, faktów, zwłaszcza przyczyny przestępczości i chorób.


W sensie rozumowania indukcyjnego, szczególnie w wydaniu informatycz-nym, badanie związków przyczynowo-skutkowych najczęściej sprowadza siędo rozstrzygania następującej kwestii.

Szukanie przyczynowości w danych

W najprostszym przypadku w danych obserwujemy dwa fakty (dwiezmienne) X i Y . Zwykle przyjmujemy, że te fakty nie zależą od czasu.Sprawdzamy na podstawie zgromadzonych danych która z zależnościX → Y czy Y → X ma więcej przesłanek wspierających (większewsparcie) jako hipoteza (potencjalny wniosek).

Sposób ustalania wsparcia dla każdej z hipotez na podstawie danych od-różnia metody badania przyczynowości.

4.3.3 W stronę logiki indukcyjnej

Rozważmy, jakie wymagania dla logiki indukcyjnej chcielibyśmy postawić.Od systemu (semi-)formalnego, który odważymy się nazwać logiką indukcyj-ną powinniśmy wymagać:

1. Spełniania kryterium zgodności (CoA).

2. Zapewnienia, aby stopień pewności, z jakim przyjmujemy wniosek nieprzewyższał stopnia pewności z którym uznajemy przesłanki oraz stop-nia ufności w stosowane reguły inferencji (quasi-monotoniczność).

3. Możliwości wskazania jednoznacznej granicy między prawidłowymi anonsensownymi wnioskami (patrz dowód nieśmiertelności).

Dodatkowym wymogiem jest intuicyjność, choć z tym bywa różnie (patrzprzykład poniżej).

Problem (paradoks) Monty Halla nazwany tak na cześć wieloletniego go-spodarza teleturnieju “Let’s Make a Deal”. Jest nie tyle paradoksem, co de-monstracją, że nasza intuicja “statystyczna / probabilistyczna” jest czasembardzo płytka i zawodna.


Problem (paradoks) Monty Halla

Gracz ma przed sobą troje drzwi za którymi są odpowiednio nagroda idwie kozy. Wybiera jedne z drzwi. Gospodarz programu, który wie zaktórymi drzwiami jest nagroda, otwiera jedne spośród dwóch nie wybra-nych przez gracza drzwi. Za tymi drzwiami jest koza. Gospodarz pytagracza, czy chciałby zmienić wybór?

Co powinien zrobić gracz by zmaksymalizować swoje szanse na nagrodę,zmienić wybór czy pozostać przy dotychczasowym?

Odpowiedź jest na tyle nieintuicyjna, że nawet Paul Erdos nie uwierzyłdopóki nie pokazano mu w 1995 roku dowodu za pomocą drzewa decyzyjnegoi potwierdzenia za pomocą symulacji komputerowej.

Indukcyjne = statystyczne?

Bardzo często i (przy zachowaniu odpowiedniej ostrożności) przeważnie zsukcesem do realizacji praktycznych systemów indukcyjnych wykorzystujesię elementy probabilistyczne i statystyczne. Były to pierwsze historycznie,uporządkowane podejścia do zagadnienia ustalania wsparcia dla stwierdzeń.

Jednym z najczęściej wykorzystywanych podejść są wnioskowania bay-esowskie (probabilistyczne). Mówi się nawet, nieco na wyrost, o logice bay-esowskiej (BLOG – Bayesian LOGic). Wykorzystanie prawdopodobieństwa,w tym warunkowego, jako miary wsparcia, pewności czy wiarygodności po-zwala nam skorzystać z osiągnięć rachunku prawdopodobieństwa i dokonaćformalizacji rozumowania. Trzeba jednak być ostrożnym, bo złożone wywodyprobabilistyczne mają tendencję do wymykania się “naturalnej” intuicji.

Wnioskowania niepewne

Jak już wcześniej zaznaczyliśmy, wszelkie wnioskowania związane z indukcjąniezupełną są wnioskowaniami niepewnymi (ang. uncertain reasoning). Wwiększości przypadków są to także wnioskowania niemonotoniczne, tzn.przy pojawieniu się nowych przykładów (nowych przesłanek) może dojść dowykluczenia (zaprzeczenia) wniosków uważanych dotąd za wysoce prawdo-podobne. Wnioskowania w obecności niepewności były i są szeroko badanew wielu dziedzinach nauki. Kilka najważniejszych podejść:


• Relacje wiarygodności – plausibility relations

• Funkcje przekonań Dempstera-Shafera – Dempster-Shafer belief func-tions

• Jakościowe relacje prawdopodobieństwa – qualitative probability rela-tions

• Funkcje probabilistyczne – probability functions

• Funkcje possybilistyczne (rozmyte) – possibility functions in Fuzzy Lo-gic

• Funkcje rankujące (sic!) – ranking functions

Poniższy rysunek (Rys. 4.1) pokazuje zależności między podejściami downioskowań niepewnych. Strzałki prowadzą od podejść bardziej do mniejogólnych.

Jakościowe relacje prawdopodobieństwa

Funkcje possybilistyczne

(rozmyte)

Relacje wiarygodności

Funcje rankujące

Funkcje probabilistyczne

Funkcje przekonań Dempstera-Shafera

Rysunek 4.1: Zależności między typami wnioskowań niepewnych.

4.4. INDUKCYJNE WNIOSKOWANIA BAYESOWSKIE 65

4.4 Indukcyjne wnioskowania bayesowskie

Niezorientowani w ogólnej teorii nieprawdopodobieństwa po dziśdzień zapytują, czemu właściwie Trurl uprawdopodobnił smoka, anie elfa czy krasnala, a czynią tak z ignorancji, nie wiedzą bowiem,że smok jest po prostu bardziej od krasnala prawdopodobny (...)

Stanisław LemCyberiada: Wyprawa trzecia, czyli smoki prawdopodobieństwa

Przypomnijmy, że aby indukcyjny system wnioskowania zachowywał po-żądaną spójność zazwyczaj wymaga się od niego, aby możliwe było ustaleniestopnia wsparcia dla prawdziwości sformułowanych w nim wniosków. Mie-rzy on siłę wpływu prawdziwości przesłanek na prawdziwość wniosku.

Jak poprzednio, od systemu (semi-)formalnego i miary prawdziwości bę-dziemy wymagać:

1. Spełniania kryterium zgodności (CoA).

2. Zapewnienia, aby stopień pewności, z jakim przyjmujemy wniosek nieprzewyższał stopnia pewności z którym uznajemy przesłanki oraz stop-nia ufności w stosowane reguły inferencji (quasi-monotoniczność).

3. Możliwości wskazania granicy między pożądanymi, a nonsensownymiwnioskami.

4. Możliwie wysokiej intuicyjności.

Już pierwsze próby uporządkowania rozumowań indukcyjnych zmierza-ły w stronę wykorzystania prawdopodobieństwa i statystyki, często rozu-mianych w sposób płytki i nieścisły. Z czasem rozumowania oparte o meto-dy probabilistyczne, szczególnie o wnioskowanie bayesowskie, znalazły się wcentrum zainteresowania filozofów i logików dążących do uporządkowania isformalizowania wnioskowania przez indukcję (logiki indukcyjnej).

Elementy wnioskowań probabilistycznych można znaleźć u Pascala, Fer-mata i wielu innych. Współczesne podejście formalne do logiki indukcyjnejopartej na prawdopodobieństwie zainaugurował John Maynard Keynes wTreatise on Probability (1921). Rudolf Carnap rozwinął te idee w LogicalFoundations of Probability (1950) i wielu kolejnych pracach. Po “uporząd-kowaniu” teorii prawdopodobieństwa przez Kołmogorowa wnioskowania pro-babilistyczne uzyskały też przyzwoitą podstawę teoretyczną.


4.4.1 Probabilistyczna logika indukcyjna

W przypadku logik indukcyjnych (w tym probabilistycznych) nie ma więk-szego sensu rozważać relacji ` i jej związku z relacją |=. Natomiast dla relacji|= zamiast mówić o wynikaniu logicznym w ścisłym sensie, mówimy o funkcjiwsparcia (prawdopodobieństwie) prawdziwości.

Funkcja wsparcia

Definicja 71. Funkcja P : L 7→ [0, 1], gdzie L jest zbiorem wyrażeń (języ-kiem), jest funkcją wsparcia, jeżeli dla A,B,C będących wyrażeniami w L:

1. Istnieje co najmniej jedna para wyrażeń D,E ∈ L dla której P (D|E) <1.

2. Jeżeli B |= A, to P (A|B) = 1.

3. Jeżeli |= (B ≡ C), to P (A|B) = P (A|C).

4. Jeżeli C |= ¬(A ∧ B), to albo P (A ∨ B|C) = P (A|C) + P (B|C) albo∀D∈LP (D|C) = 1.

5. P ((A ∧B)|C) = P (A|(B ∧ C))× P (B|C)

Łatwo zauważyć, że warunki dla funkcji wsparcia P , są niczym innymjak warunkami dla miary prawdopodobieństwa. W warunkach dla funkcjiP operator | odpowiada koncepcyjnie wynikaniu (logical entailment), czylipodstawowemu krokowi wnioskowania.

Łatwo zauważyć, że dla ustalonego systemu formalnego funkcja P nie mu-si być wyznaczona jednoznacznie. Zauważmy, że warunki na P zgadzają sie wpodstawowych punktach z warunkami dla prawdopodobieństwa (bezwarun-kowego), wystarczy położyć P (A) = P (A|(D∨¬D)) dla jakiegoś D. Jednakżete warunki pozwalają też ustalić wartość P (A|C) w sytuacji gdy prawdopo-dobieństwo przesłanki C jest równe 0 (czyli P (C) = P (C|(D ∨ ¬D)) = 0).

Warunek 1 (nietrywialność) można wyrazić też jako:

∃A∈LP ((A ∧ ¬A)|(A ∨ ¬A)) < 1.


4.4.2 Wnioskowanie bayesowskie

Prawdopodobieństwo

Zanim przejdziemy dalej musimy ustalić (uproszczone) aksjomaty i podsta-wowe własności dla miary (prawdopodobieństwa), którą będziemy się posłu-giwać. Dla odróżnienia od poprzednich oznaczeń, będziemy używać Pr naoznaczenie miary prawdopodobieństwa.

Aksjomaty prawdopodobieństwa dyskretnego (Kołmogorow)

1. Dla każdego zdarzenia A ∈ Ω wartość Pr(A) ∈ [0, 1].

2. Prawdopodobieństwo całkowite Pr(Ω) = 1.

3. Addytywność – jeśli A1, . . . , An są wzajemnie wykluczające, to

n∑i=1

Pr(Ai) = 1⇒ Pr(B) =n∑i=1

Pr(B|Ai) Pr(Ai).

Z aksjomatem 2 możemy mieć trudności.Z powodów, które staną sie jasne w następnej sekcji, będziemy używać

następujących oznaczeń:

• T ⊂ X - zbiór przesłanek (evidence set) pochodzących z jakiejś (ogrom-nej) przestrzeni.

• h ∈ H - wniosek (hipoteza) pochodząca z (ogromnej) przestrzeni hipo-tez.

• V SH,T - przestrzeń wersji, podzbiór tych hipotez z H, które są zgodnez T .

Reguła wnioskowania (Bayes’a)

Dla dowolnej hipotezy h ∈ H i zbioru danych T ⊂ X zachodzi:

Pr(h|T ) =Pr(T |h) · Pr(h)

Pr(T )


Czyli prawdopodobieństwo (stopień wiarygodności) wniosku h ustalamyna podstawie prawdopodobieństwa przesłanek i stopnia w jakim hipotezauprawdopodobnia przesłanki.

Bayesowska reguła wnioskowania wymaga kilku komentarzy:

• Pr(h|T ) - prawdopodobieństwo a posteriori hipotezy h przy posiadaniuprzesłanek (danych) T - tego szukamy.

• Pr(T ) - prawdopodobieństwo zbioru przesłanek (danych). Nie musimygo znać (na szczęście), żeby porównywać prawdopodobieństwa a poste-riori hipotez. Jeżeli jednak musimy je wyznaczyć explicite, to możemymieć kłopot.

• Potrzebujemy wyznaczyć Pr(h) i Pr(T |h). Na razie zakładamy, że po-trafimy je wyznaczyć, a także, że mamy ustalone H.

• Pr(T |h) określa stopień w jakim wybór hipotezy h uprawdopodobniawystąpienie (prawdziwość) przesłanek ze zbioru T .

4.4.3 Bayesowska predykcja i wspomaganie decyzji

Zadanie klasyfikacji

Prawdziwą przydatność wnioskowania bayesowskiego można ocenić w zasto-sowaniach, z których najpopularniejszym jest wspomaganie decyzji (klasyfi-kacji).

Wspomaganie decyzji (klasyfikacji) jest szczególnym przykładem wyko-rzystania metod wnioskowań indukcyjnych takich jak predykcja, wnioskowa-nie przez analogię i indukcja eliminacyjna.

Będziemy konstruować klasyfikatory bayesowskie, to jest algorytmy(procedury), które na podstawie próbki “nauczą się” wyznaczać prawdopo-dobieństwo wartości decyzji (klasyfikacji) dla nowych przykładów. Ogranicze-nie wnioskowania do zadania klasyfikacji pozwala na uzyskanie efektywnychobliczeniowo metod jego automatyzacji.

Wprowadzimy teraz zestaw podstawowych pojęć związanych z zadaniemklasyfikacji (predykcji wartości decyzji).

• Dziedzina (przestrzeń, uniwersum) to pewien zbiór X, z którego po-chodzą (którego elementami są) nasze przykłady.


• Element x ∈ X nazywamy przykładem (instancją, przypadkiem, rekor-dem, entką, wektorem, obiektem, wierszem).

• Atrybut (cecha, zmienna, pomiar, kolumna) to pewna funkcja

a : X → A.

Zbiór A jest nazywany dziedziną wartości atrybutu, lub prościej – dzie-dziną atrybutu. Zakładamy, że każdy przykład x ∈ X jest całkowiciereprezentowany przez wektor

a1(x), ..., an(x),

gdzieai : X → Ai

dla i = 1, ..., n. n nazywamy czasem rozmiarem (długością) przykładu.

• W naszych zastosowaniach wyróżniamy specjalny atrybut nazywanydecyzją (klasą) lub atrybutem decyzyjnym, tradycyjnie oznaczany declub d.

Najczęściej w zadaniach związanych z predykcją decyzji mamy do czynie-nia ze zbiorem przykładów (pomiarów) zebranych wcześnie i stablicowanych.Na przykład, dla zadania podjęcia decyzji czy przy danej pogodzie będziemyuprawiać nasz ulubiony sport, może to być tabela taka, jak Tabela 4.1.

Przy konstrukcji klasyfikatorów, to jest metod i algorytmów wspomaga-jących podejmowanie decyzji i/lub klasyfikację, często posługujemy się na-stępującymi pojęciami:

• Zbiór treningowy (próbka treningowa/ucząca) to podzbiór T ⊆ X. Toodpowiednik zbioru przesłanek.

• T d - podzbiór danych treningowych o decyzji d. To odpowiednik zbioruprzesłanek wspierających konkretną hipotezę.

• T dai=v - podzbiór danych treningowych o wartości atrybutu ai równejv i decyzji d. To odpowiednik zbioru przesłanek konkretnego rodzaju,wspierających konkretną hipotezę.

• Zbiór hipotez H to teraz zbiór możliwych warunków na decyzję postaci(dec = d), gdzie d ∈ Vdec.


Zadanie klasyfikacji

Mając daną próbkę treningową T wyznaczyć jak najlepiej (najbardziejwiarygodnie) wartość dec(x) dla nowego przykładu x ∈ X (tj. x /∈ T ).

Pytanie: Jak wybrać najlepszą wartość decyzji?

Tabela 4.1: Przykład danych tablicowych, tzw. tablica decyzyjna.Outlook Temp Humid Wind EnjoySptsunny hot high FALSE nosunny hot high TRUE noovercast hot high FALSE yesrainy mild high FALSE yesrainy cool normal FALSE yesrainy cool normal TRUE noovercast cool normal TRUE yessunny mild high FALSE nosunny cool normal FALSE yesrainy mild normal FALSE yessunny mild normal TRUE yesovercast mild high TRUE yesovercast hot normal FALSE yesrainy mild high TRUE no

Wybór hipotezy - MAP i ML

W zadaniu klasyfikacji bayesowskiej chodzi o to, by znając przykłady z prze-szłości (treningowe) i wartości atrybutów (poza decyzją) dla nowego przy-kładu x wyznaczyć dla niego najprawdopodobniejszą wartość decyzji. Trzebazatem wyznaczyć za pomocą wzoru Bayesa taką hipotezę h, która maksyma-lizuje wsparcie.


Hipoteza MAP - Maximum A Posteriori

Mając dany zbiór T , klasyfikujemy nowy przykład x ∈ X wykorzystu-jąc hipotezę hMAP ∈ H czyli przypisujemy obiektowi x wartość decyzjizwróconą przez hMAP (x), gdzie:

hMAP = arg maxh∈H

Pr(h|T ) = arg maxh∈H

Pr(T |h) · Pr(h)

W typ podejściu wybieramy hipotezę która jest najbardziej prawdopo-dobna wśród dostępnych.

Hipoteza ML - Maximum Likelihood

Mając dany zbiór T , klasyfikujemy nowy przykład x ∈ X wykorzystu-jąc hipotezę hML ∈ H czyli przypisujemy obiektowi x wartość decyzjizwróconą przez hML(x), gdzie:

hML = arg maxh∈H

Pr(T |h).

W typ podejściu wybieramy hipotezę która najlepiej uzasadnia (upraw-dopodobnia) zbiór przykładów treningowych. Zwróćmy uwagę, że sama hipo-teza h może w tym podejściu być bardzo mało prawdopodobna, za to bardzodobrze dopasowana do danych.

Przy korzystaniu z ML i MAP trzeba mieć na względzie następujące kwe-stie:

• Obie metody wymagają znajomości Pr(T |h). W przypadku MAP mu-simy też znać Pr(h), aby wykorzystać wzór Bayesa.

• MAP jest dość naturalny, ale ma pewne istotne słabości. W szczegól-ności, promuje dominujące wartości decyzji.

• Obie metody zakładają, że zbiór treningowy nie zawiera błędów i żeposzukiwana hipoteza występuje w H.


• ML jest bliski intuicyjnemu rozumieniu uczenia w oparciu o przykła-dy. Jest to proces wyboru hipotezy, która podaje najlepszy powód dlaistnienia posiadanego przez nas zbioru danych.

Reguła MAP wybiera najbardziej prawdopodobną hipotezę, pod-czas gdy nas tak naprawdę interesuje wybranie najbardziej prawdopo-dobnej wartości decyzji dla konkretnego przykładu.

Przyjmijmy Vdec = 0, 1, H = hMAP , h1, . . . , hm, ∀1¬i¬mh(x) = 0,hMAP (x) = 1 oraz

Pr(hMAP |T )m∑i=1

Pr(hi|T )

Aby wyznaczyć ostateczną odpowiedź musimy znać Pr(h) i Pr(T |h).Wyznaczanie prawdopodobieństw:

• Pr(h) - prostszy kawałek. To prawdopodobieństwo może wynikać zestosowanej metody konstruowania hipotez, lub (najczęściej) wszystkiehipotezy są jednakowo prawdopodobne. W tym drugim przypadku:

Pr(h) =1|H|

Problem stanowi rozmiar H. To może być ogromna przestrzeń. Po-nadto, w wielu rzeczywistych zastosowaniach nie znamy całego H.

• Pr(T |h) - trudniejszy kawałek. Zauważmy, że nas interesuje tylko po-dejmowanie decyzji. Chcemy tylko wiedzieć, jakie jest prawdopodo-bieństwo, że zbiór przykładów T będzie zgodny (będzie miał tą samądecyzję) z hipotezą h. To daje nam:

Pr(T |h) =

1 gdy h ∈ V SH,T0 gdy h /∈ V SH,T

Niestety, pozostaje stary problem z rozmiarem i znajomością H.MAP i/lub ML mogą, pomimo wad, znaleźć zastosowanie w pewnych

szczególnych sytuacjach, na przykład gdy:

• Przestrzeń hipotez jest bardzo ściśle ograniczona (i mała).

• Wykorzystujemy MAP i/lub ML do porównania (kilku) konkurującychhipotez skonstruowanych wcześniej innymi metodami. To wiąże się zzagadnieniami tzw. uczenia warstwowego (ang. layered learning).


Optymalny klasyfikator bayesowski

Optymalny klasyfikator bayesowski (Bayesian Optimal Classifier – BOC) za-wsze zwraca najbardziej prawdopodobną wartość decyzji dla danego przy-kładu i próbki uczącej. Nie może zatem być pokonany przez żaden algorytmuczący, jeśli porównujemy błędy rzeczywiste (globalne). Niestety, BOC jestniezbyt dobrze stosowalny w praktyce, gdyż wykorzystuje pełną przestrzeńhipotez.

Niech c(.) będzie przybliżaną decyzją, T próbką treningową.

hBOC = arg maxd∈Vdec

Pr(c(x) = d|T )

gdzie:Pr(c(x) = d|T ) =

∑h∈H

Pr(c(x) = d|h) Pr(h|T )

Pr(c(x) = d|h) =

1 if h(x) = d0 if h(x) 6= d

UWAGA: Hipoteza, którą zwraca BOC może nie należeć do H.

Naiwny klasyfikator bayesowski

Niech x∗ będzie nowym przykładem, który mamy sklasyfikować. Powinniśmywybrać taką hipotezę (decyzję) h, że:

h(x∗) = arg maxd∈Vdec

Pr(c(x) = d|n∧i=1

ai(x) = ai(x∗))

czyli, ze wzoru Bayesa

arg maxd∈C

Pr(c(x) = d) · Pr(n∧i=1

ai(x) = ai(x∗)|c(x) = d)

Jeżeli przyjmiemy (naiwne) założenie, że poszczególne atrybuty (kolum-ny) są niezależne jako zmienne losowe, to:

arg maxd∈C

Pr(c(x) = d) ·n∏i=1

Pr(ai(x) = ai(x∗)|c(x) = d)

Rzeczy, które pozostaje nam wyliczyć (z danych) to Pr(c(x) = d) i Pr(ai(x) =v|c(x) = d).


Zwykle wykorzystujemy m-estymatę by otrzymać:

Pr(ai(x) = v|c(x) = d) =|T daiv|+mp

|T |+m

Jeśli nie mamy dodatkowej wiedzy o rozkładzie wartości atrybutów to zwykleustalamy jednakowe prawdopodobieństwo wszystkich wartości czyli p = 1

|Ai| ,gdzie Ai jest (skończonym) zbiorem możliwych wartości atrybutu ai. Najczę-ściej ustalamy m = |Ai|.

Złożoność NBC

Dla każdego przykładu musimy zwiększać licznik wystąpień odpowiedniejklasy decyzyjnej i wartości odpowiednich atrybutów. To daje razem:

O(n · |T |)

Jest to najniższa złożoność (liczba kroków), jaką może osiągnąć “rozsądny”algorytm uczący się klasyfikacji. Ponadto, każdy pojedynczy krok w NBCjest bardzo prosty i szybki.

4.4.4 Wybór hipotezy w ogólności

Przechodząc na nieco wyższy poziom abstrakcji, możemy postawić wymaga-nie, by wybierana hipoteza nie tylko dobrze pasowała do rzeczywistości, alebyła także jak najprostsza. Jest to swoiste odwołanie do brzytwy Ockhama(lex parsimoniae). Przyjmujemy najprostsze z możliwych wyjaśnienie, przyczym w ujęciu Williama z Ockham za najprostszą powinniśmy przyjmowaćhipotezę, która wymaga poczynienia najsłabszych (najmniej licznych) zało-żeń.

W praktyce, szczególnie informatycznej, lex parsimoniae zastępuje się czę-sto zasadą najkrótszego (minimalnego) opisu (MDL - Minimum DescriptionLength).


MDL - zasada najkrótszego opisu

Za najlepszą hipotezę uważamy taką, która prowadzi do najlepszej kom-presji danych. To znaczy, ze przy przyjęcie tej hipotezy pozwala napisaćmożliwie najkrótszy/najprostszy algorytm odtwarzający dane.W przypadku klasyfikatorów, często oznacza to po prostu przyjęcie hi-potezy o najkrótszym opisie.

Klasyfikatory bayesowskie są ogólnie uważane za jedne z najlepszych “pro-ducentów” hipotez zgodnych z zasadą MDL. Dla porównywania długości opi-sów w najprostszym przykładzie przyjmiemy, że długość ta jest logarytmem(dwójkowym) opisu (prawdopodobieństwa).Logarytmując stronami wzór Bayesa dostajemy:

log Pr(h|T ) = log Pr(h) + log Pr(T |h)− log Pr(T )

Podstawiając L(.) za − log Pr(.) otrzymujemy:

L(h|T ) = L(h) + L(T |h)− L(T )

gdzie L(h), L(T |h) reprezentują długość opisu h i długość opisu danych Tprzy ustalonym h, przy założeniu znajomości odpowiednich optymalnych ko-dowań.Wybieramy zatem hipotezę minimalizującą długość opisu, czyli:

hMDL = arg minh∈H

LEncH(h) + LEncD(T |h)

Przyjmując, że EncH i EncD są optymalnymi kodowaniami dla, odpowiednio,hipotezy i danych, dostajemy:

hMDL = hMAP .

Intuicyjnie, zasada najkrótszego opisu (MDL) pomaga znaleźć balans mię-dzy jakością, a prostotą hipotezy. MDL jest może być praktycznie użytecznaw ocenie (rankingu) hipotez pochodzących z różnych źródeł, np. uzyskanychprzez konkurujące rodzaje algorytmów klasyfikacji. Przydaje się także w me-todach upraszczających hipotezy np. przy filtrowaniu reguł decyzyjnych czyprzycinaniu drzew decyzyjnych. Często jest także wykorzystywana w roli wa-runku stopu dla algorytmów uczenia się reguł z danych.


Złożoność Kołmogorowa

MDL jest także silnie związana z pojęciem złożoności Kołmogorowa (Kol-mogorov Complexity, descriptive complexity, Kolmogorov–Chaitin complexi-ty, algorithmic entropy).Złożoność Kołmogorowa – dla łańcucha symboli (ciągu danych), skończo-nego lub nieskończonego, to długość najkrótszego programu, który generujedany łańcuch.

Oczywiście pojęcie długości programu jest dość skomplikowane i wyma-ga formalizacji, przeważnie z wykorzystaniem języków akceptowanych przezmaszyny Turinga. Wyliczanie złożoności Kołmogorowa jest zwykle bardzotrudne, a czasami niewykonalne (nierozstrzygalne).

Weźmy na przykład dwa ciągi:

• 1415926535897932384626433832795028841971 - ma bardzo niską złożo-ność Kołmogorowa, ponieważ istnieje bardzo prosty program generują-cy cyfry rozwinięcia liczby π.

• 5230619672181840811135324016881717004139 - jako losowy ciąg liczbma potencjalnie dużą złożoność Kołmogorowa.

4.5 Indukcja reguł

Indukcyjne wyszukiwanie reguł na podstawie posiadanych danych jest jed-nym z najczęściej stosowanych podejść w takich dziedzinach jak systemyuczące się (Machine Learning) i eksploracja danych (Data Mining). Regułysą popularnym sposobem reprezentacji wiedzy wydobytej z danych ze wzglę-du na swoją czytelności bezpośrednie powiązanie z intuicjami. Niestety, wy-dobycie dobrej reguły lub zbioru reguł z danych nie jest proste, ze względuna duży koszt obliczeniowy i pamięciowy.Rozważane przez nas reguły będą postaci:

IF warunki THEN wniosekco zwykle będziemy reprezentować jako:

warunki ⇒ wniosekWśród reguł, jakie możemy wydobyć (wyuczyć) z danych, wyróżniamy

kilka rodzajów. W dalszej części wykładu omówimy dwa przypadki szczegól-ne, reguły decyzyjne i reguły asocjacyjne.

4.5. INDUKCJA REGUŁ 77

4.5.1 Reguły decyzyjne

W przypadku danych zadanych przez tablicę (system informacyjny) z wy-różnionym atrybutem decyzyjnym interesują nas reguły postaci:

warunki ⇒ decyzja

Na przykład (patrz tabelka 4.1):

(Temp = hot) & (Humid=high) ⇒ (EnjoySpt=no)

Zgodnie z postulatami Ryszarda Michalskiego, interesuje nas znajdowaniereguł, które są zgodne z danymi, kompletne, łatwe do wyliczenia (przy stoso-waniu) i zrozumiałe. Procedura generowania reguł decyzyjnych dla zadanegozbioru treningowego T powinna zatem spełniać następujące warunki:

1. Generować reguły, które mają wysokie wsparcie (support). Liczba przy-kładów spełniających warunki w poprzedniku reguły powinna stanowićistotny odsetek całej znanej populacji (całego T ).

2. Generować reguły, które mają wysoki stopień ufności (confidence). Licz-ba przykładów w spełniających warunki w poprzedniku i następniku(zgodna decyzja) reguły powinna stanowić istotny odsetek przykładówspełniających warunki w poprzedniku.

3. Generować jak najprostsze i najogólniejsze reguły. Interesują nas krót-kie, proste reguły (mało warunków w poprzedniku), które mają wysokiewsparcie i zaufanie.

4. Generować możliwie najmniejszy zbiór reguł, które wspólnie pokrywająwszystkie przypadki występujące w T .

Najczęściej stosowanym podejściem do generowania reguł decyzyjnychjest metoda “oddziel i rządź” (ang. separate-and-conquer).


Zarys metody zupełnej “oddziel i rządź”

Dany jest zbiór przykładów treningowych T .1. Znajdź jedną regułę, która dobrze (najlepiej) pasuje do aktualnych

danych treningowych.

2. Usuń z T wszystkie przykłady pokrywane (pasujące do poprzedni-ka) przez skonstruowaną regułę.

3. Jeżeli T 6= ∅, powtórz od początku.

W praktyce warunek stopu w punkcie 3 jest często osłabiany, aby zapo-biec generowaniu słabych “szczątkowych” reguł w ostatnich krokach proce-dury. Mówimy wtedy o pragmatycznej metodzie “oddziel i rządź”. Technikęopartą na podejściu “oddziel i rządź” nazywa się także metodą pokryciowągenerowania reguł decyzyjnych.

W procedurze przedstawionej powyżej główna trudności leży we właści-wym wykonaniu kroku 1 (generowanie reguły). Przez lata badacze dopra-cowali się wielu praktycznych i skutecznych algorytmów generowania reguł.Zagadnienie szukania najlepszej reguły jest zwykle przedstawiane jako za-dnie przeszukiwania przestrzeni możliwych rozwiązań. Wyróżniamy tu kilkapodejść:

• Metody “od ogółu do szczegółu” (general-to-specific search), np. algo-rytmy CN2 i PRISM.

• Metody “od ogółu do szczegółu w zadanym kierunku” (directionalgeneral-to-specific search), np. rodzina algorytmów AQ.

• Metody wyszukiwania z przycinaniem (pruned search), np. algorytmRIPPER.

• Metody redukcyjne (reduct based) rodem z teorii zbiorów przybliżo-nych - np. LEM2.

• Metody przeszukiwania ewolucyjnego takie jak algorytmy genetyczne,mrówkowe, rojowe et consortes.


Gdy przychodzi do stosowania reguł wyuczonych z danych dla nowych,wcześniej nie widzianych przypadków, możemy się spotkać z sytuacją, w któ-rej dwie reguła stosują sie do niego, ale wskazują na rożne (sprzeczne) decyzje.Mówimy wtedy o konflikcie.

Najczęściej stosowane podejścia do zagadnienia konfliktów:

• Wprowadzenie preferencji. Niektóre reguły są preferowane ze względuna wskazywaną klasę decyzyjną, ogólność/sczegółowość, łatwość wyli-czania, stosowalność, intuicyjność, itp. Część algorytmów znajdującychreguły jest zdolna nadawać preferencje regułom w trakcie ich konstru-owania.

• Głosowanie. Reguły stosujące się do danego przypadku oddają “głosy”na poszczególne wartości decyzji. Głosowanie może być proste (jednareguła jeden głos) lub ważone za pomocą wartości różnych numerycz-nych charakterystyk dla poszczególnych reguł.

• Modyfikacja zbioru reguł. Przeważnie kosztowna i skomplikowana. Po-lega na badaniu podzbiorów reguł w celu eliminacji potencjalnych kon-fliktów.

4.5.2 Reguły asocjacyjne

Dziedzina eksploracji danych (Data Mining), szczególnie w swoich począt-kach, często była utożsamiana z wyliczaniem reguł asocjacyjnych (skojarze-niowych).

Tym razem nie mamy wyróżnionego atrybutu decyzyjnego. Dla uprosz-czenia przyjmiemy, że wszystkie atrybuty (cechy, kolumny) w danych są bi-narne, tzn. reprezentują występowanie jakiejś cechy (lub jej brak) w bada-nym obiekcie. Często używa się terminologii rodem z analizy koszykowej, wktórej występowanie poszczególnych cech (wartość pojedynczego atrybutu)utożsamia się z występowaniem produktu (item).


Reguły asocjacyjne

Reguła asocjacyjna to wyrażenie typu p⇒ q, gdzie p,q są zbiorami (wy-stępujących) atrybutów (itemsets) tj. koniunkcjami warunków (literałów)odpowiadających atrybutom. Na przykład:

(Status−Open = Y es)∧(Gender−Male = Y es)∧(Age−Y oung = Y es)

⇒ (Active = Y es) ∧ (ClientType−N = Y es)

Częste wzorce i reguły

W praktycznych zastosowaniach nie możemy sobie pozwolić na żadne skom-plikowane metody znajdowania reguł. Zgrubne oszacowanie pokazuje, że dlan atrybutów może teoretycznie istnieć O(3n) reguł. Trochę bardziej zgodne zrzeczywistością oszacowanie O(n · 2n−1) też niewiele pomaga, bo z założeniachcemy się zajmować dużymi zbiorami danych.

W większości praktycznych algorytmów znajdowania reguł asocjacyjnychproces ten składa się z dwóch kroków:

1. Znajdź zbiór częstych wzorców (frequent itemsets) dla tablicy danych(transakcji).

2. Na podstawie zbioru częstych wzorców wyznacz zbiór “dobrych” regułasocjacyjnych.

Częsty wzorzec (frequent itemset) można rozumieć jako regułę asocja-cyjną bez następnika, tj. koniunkcję warunków na występowanie atrybutów(items).

Interesuje nas znalezienie rodziny częstych wzorców, czyli takich które ma-ją wsparcie (support) powyżej ustalonego progu min supp. Ponieważ chcemyminimalizować liczbę kroków i częstość sięgania do danych które mogą byćolbrzymie, staramy się jak najoszczędniej gospodarować zasobami. Najbar-dziej znany algorytm znajdowania wzorców – Apriori – wykorzystuje w tymcelu tzw. podejście kaskadowe. Apriori bazuje na pewnej bardzo ważnej ob-serwacji:

Każdy podwzorzec częstego wzorca jest częsty.


W algorytmie Apriori najpierw wyznacza się bezpośrednio z danych zbiórczęstych 1-wzorców i 2-wzorców, a następnie sprytnie wykorzystując powyż-szą własność tworzy się kandydatów na dłuższe częste wzorce z wcześniejwyznaczonych krótszych. Na koniec sumuje się zbiory uzyskane w kolejnychkrokach otrzymując ostateczny wynik.

W generowaniu częstych wzorców chcemy, by poziom wsparcia był po-wyżej założonego min supp. W generowaniu reguł będziemy wymagali bypoziom zaufania (confidence) dla tworzonej reguły był powyżej założonegoprogu min conf . Poziom zaufania dla reguły jest wyznaczony przez stosunekliczby obiektów w danych, które spełniają regułę do liczby obiektów, którespełniają poprzednik. Czyli dla reguły p⇒ q liczymy ile obiektów pasuje dowzorca p ∧ q i dzielimy przez liczbę spełniających p.

Mając dany częsty wzorzec s możemy z niego uzyskać 2|s|−1 rożnych reguł,ale nie wszystkie warto badać. Dla efektywnego wyznaczania reguł ponownieposłużymy się podejściem kaskadowym (Apriori). Tym razem jednak skorzy-stamy z następującej własności.

Każda podreguła reguły akceptowalnej o tym samympoprzedniku, a krótszym następniku jest akceptowalna.

Oznacza to, że jeśli reguła która ma taki sam poprzednik a krótszy (aletożsamy) następnik nie przekracza progu min conf , to dłuższa reguła niemoże być akceptowalna.

Ponieważ wyznaczanie reguł asocjacyjnych jest bardzo istotną częściąwspółczesnej analizy danych (Data Science) rozwinięto wiele algorytmów,które pozwalają je efektywnie wyliczać. Oryginalny algorytm Apriori Agra-wala został rozszerzony na na bardziej skomplikowane (niebinarne) typy atry-butów, a także uzupełniony o metody radzenia sobie z danymi rzadkimi,wielkimi (np. AprioriTID) i niekompletnymi.

Wiele współcześnie stosowanych algorytmów wyznaczania wzorców i re-guł, aby ograniczyć “przebiegi” przez całe dane, tworzy zaawansowane po-mocnicze struktury danych takie jak grafy, TRIE, rozszerzone BST itp. Na-leżą do nich np. często stosowane w praktyce metody FP-Tree i ECLAT.

Istnieje także wiele metod opartych na innych podejściach do zagadnieniaszukania reguł, np. oparte o zbiory przybliżone. Co najmniej jeden algorytmdo generowania reguł asocjacyjnych można znaleźć w każdym szanującym sięsystemie oprogramowania do analizy danych.


4.5.3 ILP - Inductive Logic Programming

Techniki uczenia maszynowego i eksploracji danych tradycyjnie wykorzystująreprezentację obiekt-atrybut-wartość. To zapewnia nam:

• Prostotę reprezentacji.

• Efektywność i (względną) łatwość przetwarzania.

• Możliwość wykorzystania wielu metod uwzględniania niedoskonałościdanych.

• Możliwość wykorzystania wielu metod i algorytmów uczenia się.

Niestety, ta reprezentacja ma ograniczenia:

• Ubogi język reprezentacji.

• Brak możliwości wyrażenia relacji między obiektami i/lub ich częściami.

• Bardzo ograniczona możliwość uwzględniania wiedzy dziedzinowej (back-ground/domain knowledge).

Przypuśćmy że chcemy się nauczyć co powoduje, że pociąg podąża na wschód,jak w klasycznym przykładzie Ryszarda Michalskiego (Rys. 4.2).

Rysunek 4.2: Przykład zadania dla ILP


Rysunek 4.3: Przykład alternatywnego zadania dla ILP - Za: M. Craven &J. Kumlien (1999). Constructing Biological Knowledge Bases by ExtractingInformation from Text Sources. ISMB 99.

Inny przykład, przypuśćmy że chcemy się nauczyć na podstawie tekstów na-ukowych z dziedziny biologii komórkowej (Rys. 4.3), tego gdzie występują(na poziomie komórki), określone białka. W szczególności dla tekstu przed-stawionego na Rys. 4.3 chcielibyśmy umieć wyekstrahować relację:

subcellullar-localization(collagen, endoplasmic-reticulum)

Dla wzbogacenia języka i zwiększenia ekspresywności dokonano rozszerza-nia paradygmatu programowania w logice na zadanie uczenia się (wnioskowa-nia indukcyjnego). W ten sposób powstała dziedzina znana jako IndukcyjneProgramowanie w Logice (ILP).

Podstawą reprezentacji w ILP jest logika predykatów. Dzięki tej repre-zentacji możemy używać zmiennych. Uczenie się w wersji ILP polega na znaj-dowaniu formuły (formuł) logicznej opisującej pojęcie docelowe w oparciu oinne (zdefiniowane) relacje w dziedzinie. Najczęściej tak pojęcie docelowe jaki wiedza dziedzinowa są opisane zbiorami klauzul.

Dzięki wykorzystaniu języka logiki predykatów zyskujemy wyrażalność iregularność. Dzięki wykorzystaniu “silnika” (Prolog et consortes) programo-wania w logice zyskujemy narzędzia do praktycznego wnioskowania induk-cyjnego z danych. Trzeba jednak pamiętać, że ILP ma liczne ograniczenia.

Zadanie ILP

Zadanie jakie stawiamy przed systemem uczącym się z danych za pomocąILP możemy scharakteryzować następująco:


Zadanie Inductive Logic Programming

Dane:

1. Zbiór przykładów pozytywnych (positive Evidence) E+. Dany jakokoniunkcja literałów.

2. Zbiór przykładów negatywnych (negative Evidence) E−. Dany jakokoniunkcja literałów.

3. Wiedza dziedzinowa (background knowledge) B. Najczęściej wiedzadziedzinowa składa się z definicji predykatów opisujących domyślne(default/background) zależności w przestrzeni którą badamy.

Szukane:

Formuła (hipoteza) logiczna h spełniająca następujące warunki na peł-ność, spójność i nietrywialność.

UWAGA: E = E+∪E− - zbiór wszystkich przykładów (collective evidence).Formuła (hipoteza) logiczna h zwrócona przez ILP powinna spełniać nastę-pujące warunki:

1. Pełność (completeness/sufficiency) - B∧h |= E+ - wszystkie przykładypozytywne można wyprowadzić z wiedzy dziedzinowej przy przyjęciuhipotezy.

2. Spójność (słaba spójność - weak consistency) - ∀φ∈E−B∧h 2 φ - żadenprzykład negatywny nie da się wyprowadzić przy przyjęciu hipotezy.

3. Zgodność (silna spójność - consistency) - B ∧ h 2⊥ - hipoteza jestzgodna z wiedzą dziedzinową, nie można przy jej przyjęciu doprowadzićdo sprzeczności.

4. Nietrywialność (necessity) - B 2 E+ - przykładów pozytywnych nie dasię wyprowadzić (wyjaśnić) z wiedzy dziedzinowej bez przyjęcia hipo-tezy.

Wróćmy do przykładu z klasyfikacją pociągów jadących na wschód z Rys.4.2. Dla przedstawionego na obrazku przykładu możemy wziąć:


• B - zbiór definicji relacji określających własności (atrybuty) pocią-gów (np. has car(x,y), after(x,y)) i wagonów (np. lenght(x,y), ro-of(x,y), shape(x,y) ).

• E - zbiór przykładów (u nas 10) pociągów. Ponieważ interesuje nasznajdowanie tych jadących na wschód (east(x)), bierzemy po 5 przy-kładów z E do E+ i E−, odpowiednio.

• Interesuje nas znalezienie T - teorii pozwalającej wyrazić klasyfikatoreast(), przy czym ta teoria powstaje jako koniunkcja hipotez h.

Przykładowa hipoteza h:

east(T) :- has car(T,C), length(C,short), roof(C, ).

ILP w praktyce

Przez lata powstały dwa liczne podejścia (metody, algorytmy) do praktycz-nego rozwiązywania zadania ILP. Większość z nich opiera się na wspólnymschemacie przeszukiwania przestrzeni możliwych odpowiedzi.

Generyczna metoda znajdowania hipotez (reguł)

1. Initialize(Rules,Examples): Zainicjalizuj zbiór hipotez (reguł)na podstawie przykładów, aby mieć punkt startowy przeszukiwa-nia.

2. Select(Rules,Examples): wybierz najbardziej “obiecującą” hipo-tezę (regułę) R.

3. Refine(R,Examples): wygeneruj “sąsiadów” (hipotezy podobnedo) R wykorzystując uogólnienie (generalization) lub uszczegóło-wienie (specialisation).

4. Reduce(Rules,Examples): usuń “nadmiarowe”, nie przynoszącepoprawy teorie (grupy hipotez). Na przykład przy przeszukiwaniutypu hill-climbing zostaje tylko jedna, przy przeszukiwaniu best-first nie usuwamy nic.

Dwa najbardziej znane podejścia (algorytmy) do poszukiwania reguł w ILPto:


• FOIL (Quinlan & Cameron-Jones, 1993) – Uczy się (wyszukuje) re-guł pierwszego rzędu bez negacji w literałach występujących w głowiereguły.

• Progol (Muggleton, 1995) – Uczy się (wyszukuje) reguł w postaci klau-zul Horna bez negacji (ani w głowie ani w ciele klauzuli).

Inne przykłady to: Golem (Muggleton & Feng, 1992), LINUS (Lavrac & Dze-roski, 1994), Aleph (∼Progol), Tilde. Metody te różnią sie przede wszystkimsposobami wyboru kandydatów i kryteriami odcinania nadmiarowych hipo-tez.

ILP znalazło zastosowania w dziedzinach takich jak:

• Bioinformatyka i farmacja: predykcja mutagenności związków chemicz-nych, projektowanie nowych związków chemicznych (np. leków), klasy-fikacja i predykcja funkcji i struktury białek.

• Mechanika i projektowanie: metoda elementów skończonych (tzw. mesh),analiza sterowania procesami technologicznymi.

• Ochrona środowiska: klasyfikacja wody w rzekach, predykcja biodegra-dacji związków chemicznych.

• Przetwarzanie języka naturalnego: automatyczna konstrukcja parserówjęzyka naturalnego, tłumaczenie zapytań w jęz. naturalnym do deduk-cyjnych baz danych, uczenie się form obocznych (np. past tense) cza-sowników w języku angielskim, analiza morfologiczna języka natural-nego (także lematyzacja).

• Text-mining / Web-mining.

notatki do wykładu, wersja na 10 maja 2015 (pdf)

Documents