technologie semantyczne - wykłady
DESCRIPTION
Technologie Semantyczne - Wykład dr Paweł Kapłański, Cognitum Sp. z o.o.TRANSCRIPT
2
Agenda
• Wprowadzenie
• Logika (rachunek predykatów, pierwszego rzędu)
• Logika Opisowa i OWL
• Kontrolowane języki naturalne
• Systemy zarządzania wiedzą
• Przyszłość ...
3
Trzy światy
Three Worlds (Roger Penrose 1995)
Mental world
Platonic mathematical
worldPhysical world
3
4
AI - Gdzie jesteśmy
Język naturalny
Komputer
Język sztuczny
Człowiek
Knowledge Representation
& Reasoning
Komunikacja międzyludzka
Programowanie
Text Mining
HAL 9000
4
5 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Formalna reprezentacja wiedzy
1) Oparta o logikę
2) Ontologie (informatyczne)
3) Monotoniczność wiedzy zapisanej w logice (pierwszego rzędu)
4) Systemy dowodzenia (przykład: autor - Lewis Carroll)
a. Kaczki nie tańczą walca
b. Oficer nigdy nie odmawia walca
c. Czy wśród moich kaczek są oficerowie?
Aristotle (the Organon - term
logic - 384-322 BC)
Gottlob Frege (Begriffsschrift –
formal logic system -1879)
Kurt Goedel (incompleteness
theorem - 1931)
Alfred Tarski (model-theoretic
definition of semantic - 1936)
Saul Kripke ("possible worlds"
semantics for modal logic -
1959)
6 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
System zarządzania wiedzą
1) Klasyfikacja
a. Semi-Formalne (Frames, Semantic-Nets)
b. Formalne (bazują na logice)
c. Przechowują wiedzę (ontologie) i pozwalają
na jej przetwarzanie
2) Bazujące na Logice Opisowej
a. Baza technologii semantycznych z rodziny
OWL
b. …
7 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
1) Szybkość działania
1) Formalizmy są trudne do „policzenia”
2) SRIOQ => N2NExpTime
2) Trudne do stosowania przez „zwykłych” ludzi.
3) Kontrolowany Język naturalny
a. Podzbiór języka naturalnego o zredukowanej gramatyce i słownictwie
b. Posiada semantykę formalną
c. Powinien być pozbawiony niejednoznaczności
d. Powinien być intuicyjny
e. Powinien pozwalać na stworzenie edytora predyktywnego (strukturalnego)
4) Cognitum FluentEdytor
Bariery
[Newspeak (Nowomowa) –
George Orwell (powieść:
„1984”)] bazujacy na Basic
English (Orwell 1942-1944)
ACE (Attempto Controlled
English) - University of Zurich
PENG (Processable English)
9
What is logic?
• Logic is a formal system for manipulating facts so that true conclusions may be drawn – “The tool for distinguishing between the true and the false”
(Averroes)
• Syntax: rules for constructing valid sentences – E.g., x + 2 y is a valid arithmetic sentence, x2y + is not
• Semantics: “meaning” of sentences, or relationship between logical sentences and the real world – Specifically, semantics defines truth of sentences
– E.g., x + 2 y is true in a world where x = 5 and y = 7
10
Propositional logic: Syntax
(Rachunek zdań) • Atomic sentence:
– A proposition symbol representing a true or false statement
• Negation: – If P is a sentence, P is a sentence
• Conjunction: – If P and Q are sentences, P Q is a sentence
• Disjunction: – If P and Q are sentences, P Q is a sentence
• Implication: – If P and Q are sentences, P Q is a sentence
• Biconditional: – If P and Q are sentences, P Q is a sentence
• , , , , are called logical connectives
11
Propositional logic: Semantics
• A model specifies the true/false status of each proposition symbol in the knowledge base – E.g., P is true, Q is true, R is false
– With three symbols, there are 8 possible models, and they can be enumerated exhaustively
• Rules for evaluating truth with respect to a model: P is true iff P is false
P Q is true iff P is true and Q is true
P Q is true iff P is true or Q is true
P Q is true iff P is false or Q is true
P Q is true iff P Q is true and Q P is true
12
Truth tables
• A truth table specifies the truth value of a composite sentence for each possible assignments of truth values to its atoms
• The truth value of a more complex sentence can be evaluated recursively or compositionally
13
Logical equivalence
• Two sentences are logically equivalent iff true in same
models: α ≡ ß iff α╞ β and β╞ α
(╞ - logical consequence)
14
Entailment
(konsekwencja)
• Entailment means that a sentence follows from the premises contained in the knowledge base:
KB ╞ α
• Knowledge base KB entails sentence α if and only if α is true in all models where KB is true – E.g., x + y = 4 entails 4 = x + y
15
Inference/Reasoning
(wnioskowanie)
• Logical inference: a procedure for generating sentences that follow from a knowledge base KB
• An inference procedure is sound (słuszna, prawidłowa) if whenever it derives a sentence α, KB╞ α (consequence) – A sound inference procedure can derive only true sentences
=> all provable statements are true
• An inference procedure is complete (kompletna) if whenever KB╞ α, α can be derived by the procedure – A complete inference procedure can derive every entailed
sentence
16
Inference
• How can we check whether a sentence α is entailed by KB?
• How about we enumerate all possible models of the KB (truth assignments of all its symbols), and check that α is true in every model in which KB is true?
– Is this sound?
– Is this complete?
• Problem: if KB contains n symbols, the truth table will be of size 2n
• Better idea: use inference rules, or sound procedures to generate new sentences or conclusions given the premises in the KB
20
Resolution
• Example:
: “The weather is dry”
: “The weather is rainy”
γ: “I carry an umbrella”
,
,or
21
Resolution is complete
• To prove KB╞ α, assume KB α and derive a contradiction
• Rewrite KB α as a conjunction of clauses, or disjunctions of literals – Conjunctive normal form (CNF)
• Keep applying resolution to clauses that contain complementary literals and adding resulting clauses to the list – If there are no new clauses to be added, then KB does not entail α
– If two clauses resolve to form an empty clause, we have a contradiction and KB╞ α
,
22
Inference, validity, satisfiability A sentence is valid (zawsze prawdziwe) if it is true in all models,
e.g., True, A A, A A, (A (A B)) B
Validity is connected to inference via the Deduction Theorem: KB ╞ α if and only if (KB α) is valid
A sentence is satisfiable if it is true in some model e.g., A B, C
A sentence is unsatisfiable if it is true in no models e.g., AA
Satisfiability is connected to inference via the following: KB ╞ α if and only if (KB α) is unsatisfiable
23
Decidability?
• The question of the existence of an effective
algorithm that can and will return a Boolean true
or false value (instead of looping indefinitely).
• Propositional logic is decidable!
24
Complexity of inference
• Every known inference algorithm has worst-case
exponential running time
• Efficient inference possible for restricted cases
25
Summary
• Basic concepts of logic:
– syntax: formal structure of sentences
– semantics: truth of sentences wrt models
– entailment: necessary truth of one sentence given another
– inference: deriving sentences from other sentences
– soundness: derivations produce only entailed sentences
– completeness: derivations can produce all entailed sentences
• Resolution is complete for propositional logic
26
First-order logic
(Logika Pierwszego Rzędu)
• Propositional logic assumes the world consists of
atomic facts
• First-order logic assumes the world contains
objects, relations, and functions
27
Syntax of FOL
• Constants: John, Sally, 2, ...
• Variables: x, y, a, b,...
• Predicates: Person(John), Siblings(John, Sally), IsOdd(2), ...
• Functions: MotherOf(John), Sqrt(x), ...
• Connectives: , , , ,
• Equality: =
• Quantifiers: ,
• Term: Constant or Variable or Function(Term1, ... , Termn)
• Atomic sentence: Predicate(Term1, ... , Termn) or Term1 = Term2
• Complex sentence: made from atomic sentences using connectives and quantifiers
28
Using FOL: The Kinship Domain
• Brothers are siblings
x,y Brother(x,y) Sibling(x,y)
• “Sibling” is symmetric
x,y Sibling(x,y) Sibling(y,x)
• One's mother is one's female parent
m,c (Mother(c) = m) (Female(m) Parent(m,c))
29
Semantics of FOL
• Sentences are true with respect to a model and an interpretation
• Model contains objects (domain elements) and relations among them
• Interpretation specifies referents for
constant symbols → objects
predicate symbols → relations
function symbols → functional relations
• An atomic sentence Predicate(Term1, ... , Termn) is true iff the objects referred to by Term1, ... , Termn are in the relation referred to by predicate
30
Universal quantification
• x P(x)
• Example: “Everyone at PW is smart” x At(x,PW) Smart(x)
Why not x At(x,PW) Smart(x)?
• Roughly speaking, equivalent to the conjunction of all possible instantiations of the variable: At(John, PW) Smart(John) ...
At(Richard, PW) Smart(Richard) ...
• x P(x) is true in a model m iff P(x) is true with x being each possible object in the model
31
Existential quantification
• x P(x)
• Example: “Someone at PW is smart” x At(x,PW) Smart(x)
Why not x At(x,PW) Smart(x)?
• Roughly speaking, equivalent to the disjunction of all possible instantiations:
[At(John,PW) Smart(John)]
[At(Richard,PW) Smart(Richard)] …
• x P(x) is true in a model m iff P(x) is true with x being some possible object in the model
32
Properties of quantifiers
• x y is the same as y x
• x y is the same as y x
• x y is not the same as y x x y Loves(x,y)
“There is a person who loves everyone”
y x Loves(x,y)
“Everyone is loved by at least one person”
• Quantifier duality: each quantifier can be expressed using the other with the help of negation x Likes(x,IceCream) x Likes(x,IceCream)
x Likes(x,Broccoli) x Likes(x,Broccoli)
33
Equality
• Term1 = Term2 is true under a given model if
and only if Term1 and Term2 refer to the same
object
• E.g., definition of Sibling in terms of Parent:
x,y Sibling(x,y)
[(x = y) m,f (m = f) Parent(m,x)
Parent(f,x) Parent(m,y) Parent(f,y)]
34
Decidable?
(Rozstrzygalna?)
• Sound (all provable statements are true)
• Complete (all true statements are provable).
• The logical consequence relation is not
decidable.
35
Why “First order”?
• FOL permits quantification over variables
• Higher order logics permit quantification over
functions and predicates:
P,x [P(x) P(x)]
x,y (x=y) [P (P(x)P(y))]
37
“John gave Mary a book
about frogs.”
person
isa isa
john mary
actor recipient
event1
object
B1
isa topic
book frogs
is
a GivingEvent
38
Description Logic
• Mostly used in Semantic-Web – The math behind OWL
• DL is fragment of FOL (mapping exists): – (i) Decidable, (ii) Variable free syntax
• Complexity vs. Responsiveness – Effective reasoning implemented (In Optimistic scenarios)
• It is possible to Verbalize it in CNL – ACE OWL
– Fluent-English OWL
43
*.jpg
RD
F enhanced W
ebsite
”Semantic Web In A Box”
• A Semantic Web in A Box Architecture
RDF Repository
Search View Update Manage
Intern
et Agents
*.gif *.asp *.html
*.jsp
From Jens Jacob Anderson’s Semantic Web Tutorial
44
What is Semantic Web?
• Semantic Web is an initiative of World Wide Web consortium (http://www.w3.org/2001/sw/)
• Semantic Web is a set of Languages and Tools for machine processing of information stored in WWW
• You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked Knowledge Base
. • Task: Semantic Web is about efficient Knowledge Representation mechanism for
WWW. (AI)
• Goal: Semantic Web is about efficient Reasoning/understanding Systems required for integration of distributed data .
45
Web Languages
+ Web languages already extended to facilitate content description XML Schema (XMLS) RDF and RDF Schema (RDFS) + RDFS recognisable as an ontology language Classes and properties Range and domain of properties Sub/super-classes (and properties) + But RDFS not a suitable foundation for Semantic Web Too weak to describe resources in sufficient detail + Requirements for web ontology language: Compatible with existing Web standards (XML, RDF, RDFS) Easy to understand and use (based on familiar KR idioms) Formally specified and of “adequate” expressive power
possible to provide automated reasoning support Ian Horroks, Logical Foundations for the Semantic Web
46
Why DL are used as formalism of Semantic Web ?
• FOL –sound, complete, but not decidable
• Proposition Logic- sound, complete, decidable,
but has low expressive power
• DL- has sound, complete, decidable inference
procedure; has reasonable expressive power
• Alternatives to DL- decidable fragments of FOL-
Horn logic (prolog), F-Logic
49
OWL-Web Ontology Language
Extracts from: Ian Horroks, Logical Foundations for the Semantic Web
+ Three species of OWL OWL full is union of OWL syntax and RDF OWL DL restricted to FOL fragment - SROIQ
OWL EL restricted to EL++.
+ Benefits from many years of DL research Well defined semantics Formal properties well understood (complexity,
decidability) Known reasoning algorithms
Implemented systems (highly optimised)
51
Controlled Natural Language
• A subset of natural language with a reduced grammar and vocabulary
• Translates to the logic.
• Should be unambiguous
• Should be intuitive
• Should be supported by a predictive editor
• [Newspeak – George Orwell „1984”]
• ACE (Attempto Controlled English) - University of Zurich
• PENG (Processable English)
• OASE-English
52
Problems
• Ambiguity
– “I see the girl with a telescope”
• Common meaning – background knowledge
• Knowledge engineering
59 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Przykład:
Historia Haliny i Edwarda: Czy ożenek popłaca?
A-Box
Halina ma-wiek 16 lat. Edward ma-wiek 21 lat. Edward ma-żonę Halinę. Edward sprzedał-narkotyki Helenie.
T-Box
Każdy pełnoletni jest osobą-fizyczną, która ma-wiek większy-równy 18 lat, i/lub zwarł-związek-małżeński.
Ktoś jest małoletni wtedy-i-tylko-wtedy-gdy nie jest pełnoletni. Każdy nieletni jest osobą-fizyczną, która ma-wiek mniejszy-niż 17 lat. Jeśli ktoś ma-żonę lub ma-męża to ten ktoś zawarł-związek-małżeński. Jeśli pewien mężczyzna ma-żonę pewną kobietę to ta kobieta ma-męża tego mężczyznę. Każdy, kto zawarł-związek-małżeński jest mężczyzną, który ma-wiek większy-równy 18 lat, lub jest kobietą, która ma-wiek większy-równy 16 lat.
60 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Przykład:
Historia Haliny i Edwarda: Czy ożenek popłaca?
Wnioski
Edward sprzedał-narkotyki nieletniej. Helena zawarła-związek-małżeński. => Helena jest pełnoletnia. Helena jest nieletnia i jest pełnoletnia.
Interpretacja-Akcja
Sprzedaż narkotyków małoletniemu jest kwalifikowaną postacią przestępstwa, to jest powoduje zaostrzenie kary za popełnienie tego rodzaju przestępstwa.
Czy Edward powinien mieć zaostrzoną karę, jako że sprzedał narkotyki osobie nieletniej?
Nie Gdyby z nią się nie ożenił miałby zaostrzenie kary (byłaby małoletnia). Nieletni został tutaj wprowadzony dla zmylenia postrzegania problemu.
61
Przykład:
Historia Haliny i Edwarda: Czy ożenek popłaca?
• Moduły
MirekHalina, EdwardRomek
Pełnoletni, Małoletni
Związek-małżeński
Nieletni Sprzedaż narkotyków
Osoba-fizyczna
62 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Źródła złożoności wnioskowania
przyczynowo - skutkowego • Dowodzenie prawdziwości twierdzenia (powszechny algorytm tableau):
polega na przeszukiwaniu w systematyczny sposób wszystkich możliwości, w celu znalezienia kontrprzykładu na twierdzenie przeciwne do danego => gdy znajdziemy to znaczy ze twierdzenie jest prawdziwe.
• W ogólności (np. w logice pierwszego rzędu) nie jest możliwe skonstruowanie algorytmu, który to dla wszystkich twierdzeń da w skończonym czasie kompletną (tak/nie, a nie tak/nie/może) odpowiedź - jest to zagadnienie w ogólności nierozstrzygalne.
• Logika pierwszego rzędu jest monotoniczna - dodanie kolejnych twierdzeń dodaje nową wiedzę, lecz nie wpływa na dotychczasowe wnioski.
• To, co jest dla nas zawsze dostępne (teoretycznie) jest rozstrzygalne i kompletne.
• Logika opisowa (podzbiór logiki pierwszego rzędu) pozwala na zapis wiedzy dostępnej (teoretycznie) dla nas. W logice opisowej SROIQ (o dużej ekspresywności) (górne ograniczenie = NExp2Time - 2^2^n na niedeterministycznej maszynie Turinga). W rzeczywistości (praktycznie) możliwe dzięki modularnej strukturze praktycznych ontologii.
http://www.nature.com/nphys/journal/v1/n2/fig_tab/nphys162_F1.html
63 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Modyfikacje
• Monotoniczność a modyfikacje w wiedzy
- Dodawanie kolejnych twierdzeń nie generuje problemów
- Problemy pojawiają się, gdy fragmenty wiedzy usuwamy by zamienić je z innymi – modyfikujemy.
• Jednoczesność dostępu
- problem zachowania spójności,
- edycja kolaboratywna: wielu chce zmodyfikować wiedzę
- problem również dotyczy modyfikacji (gdy jedynie dodajemy jedynie wiedzę w sposób kolaboratywny to problem redukuje się do przecięcia czasowego wiedzy) – różni ludzie mogą otrzymać w tym samym czasie różne wnioski, ale po pewnym czasie otrzymają takie same).
- Gdy wielu modyfikuje wiedzę, wówczas potrzeba jest synchronizacja. Bez synchronizacji możliwa jest utrata spójności logicznej -> wnioski nie będą odpowiadały wnioskom powstałym przy bazie wiedzy synchronicznej.
http://notebookofjay.blogspot.com/2011/08/page-282-library-so-big-it-doesnt-need.html
64 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Widoczność
Monotoniczność:
1) Dodawanie wiedzy, bez modyfikowania – nie wprowadza żadnych
dodatkowych kosztów.
2) Złożoność zadania modyfikacji wiedzy zależy od liczby modułów od
niej zależnych. Im „wyżej-poziomowy” moduł tym większy koszt ->
Wówczas trzeba unieważnić wszystkie wnioski, które wynikały z
poprzedniego stanu wiedzy i co gorsza – wywnioskować WSZYSTKO,
co jest związane z nową wiedzą w zmienionym świecie. Np. rewolucja
kopernikańska -> jak przepisać wszystkie podręczniki?
3) Widoczność wiedzy, zachowanie spójności – różni użytkownicy mogą w
różnych momentach czasu, z różnych miejsc widzieć „odrobinę” inną
wiedzę – ze względu na rozproszenie
65 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
OWA i Monotonicznosc
1) Brak wiedzy to nie jest negacja – Open World Assumption, Brak
wiedzy znaczy tylko tyle, że nie wiadomo – nic ponadto
2) Jeśli Romek jest pełnoletni i nie wyspecyfikowano czy sprzedaje
narkotyki czy też ich nie sprzedaje to znaczy ze nic o tym nie
wiadomo – (w prawie – domniemanie niewinności – Default Logic
(nie jest monotoniczna!)– np. pingwiny – domyśłnie ptaki latają).
3) Musimy wyspecyfikować, lub musi bezpośrednio wynikać z
przesłanek, że Romek nie sprzedaje narkotyków, aby mieć dowód w
logice nie posługując się domniemaniem niewinności (np. Romek
jest w śpiączce …. )
67 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Możliwości technologiczne
1) Prawo Moora działa – otwierają się nowe możliwości
2) Potrafimy składować olbrzymie ilości danych
a. Pojedynczy komputer (laptop) ma dysk około 1 TB = 1000 GB
b. Klastry komputerów składują setki/tysiące PB (PB = 1000 TB)
3) Przetwarzanie tak dużych ilości informacji możliwe dzięki rozproszeniu
na klaster (partycjonowaniu) – BigData - algorytmy działające na
klastrze muszą być odpowiednio zaprojektowane
4) Chmura – możemy dzierżawić duże klastry obliczeniowe na godziny
68 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Cognitum Ontorion
1) Algorytm modularyzacji
2) Partycjonowanie
wnioskowania –
rozpraszanie na klaster
3) Uruchamianie zadań
4) Rozproszony magazyn
wiedzy – oparty o
Cassandre NoSQL
5) Edytor w CNL
6) Wydajny
7) Skalowalny
69
distributed knowledge database connectivity manipulate and query knowledge with Ontorion server directly
70
Scenariusz: Wyszukiwarka semantyczna
• Wyniki wyszukiwania bazują na ontologii
wyższego poziomu (twardej wiedzy) nałożonej
na zwykłą wyszukiwarkę pełnotekstową
• Inteligentne podpowiedzi
71
System will support semantic enhanced search with reasoning and keywords suggestions.
Results: 1. “… Flood in Damascus. …” 2. “… Tornado over Liban. …” 3. “… Explosion kills people in Cairo. …” 4.
Disasters in Middle-East ? violence in Syria
violence in Syria violence in Slovakia violence in South-Afrika
?
72
System will support semantic enhanced search with reasoning and keywords suggestions.
Results: 1. “… Assassination of Al-Assad. …” 2. “… Kidnapping of Syrian-official. …”
Results: 1. “… Flood in Damascus. …” 2. “… Tornado over Liban. …” 3. “… Explosion kills people in Cairo. …”
Violence-Act against Syrian-government ?
Disasters in Middle-East ?
violence
violence violin violet
?
violence in Syria
violence in Syria violence in Slovakia violence in South-Afrika
?
74
Scenariusz: Zarządzanie wiedzą (call-center)
• Automatyczne generowanie formularzy
(Semantic Guidelines)
• Edycja wiedzy w CNL
76
New event
Are people injured?
Done
Risk of dangerous substance involved.
Event is a Communication-Disaster.
Tanker induces Black-Smoke.
Tanker induces Sick-Children-Result.
1
enter where?
/ /
X12-1234-A
Ambulance will be called.
Special Fire-Fighters squad will be called.
Risk of unavailable team.
click on item to learn
the details
User
77
Clinical Decision Support System
Wnioskowanie w logice
opisowej
KOMPUTER
CNL
Generated MVC
Terapeuta
Expert Onkolog
78
Clinical Decision Support System (Onco-CDSS)
ONTOLOGY Cancer Ontology (CO)
with formal logic Cancer Ontology (CO)
with CNL
Predictive
CNL Editor
Reasoning
Services
Cancer Therapist (CP) Cancer Expert (CE)
CP INTERFACE
Evidence Based Medicine References
Automatically Generated
Interface Form
Therapeutic option based on clinical
practice guidelines in CNL
KNOWLEDGE
ESMO guideline
internal medicine, surgery,
radiotherapy, drugs
Evidence Based Medicine
References
Patients heath
records
Selected
therapeutic option
SEMANTIC
DATABASE
80
Ontorion™ Server Enterprise
Ontorion™ Server Light
Fluent Editor™ 2 Express
Fluent Editor™ 2 Professional
Fluent Editor™ 2 Web Component
Standalone desktop version. Ontology server with reasoning.
EN CNL
Semantic tagging Semantic Search Querying and Asking Guidelining Semantic Q&A
Web Component
Semantic Guideline Web Component
Semantic Search Web Component
FE CNL API enables CNL ontologies to custom applications
Ontorion API enables Ontorion integration with customer applications: executing custom actions
$ $
$ Any huge document repository
Ontology database
Semantic Content Tagging
XXX Component
81 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Idąc dalej
IBM's Blue Gene/P massively parallel supercomputer
82
Monitoring Semantyczny Inernetu
• Bing, Google i inne wyszukiwarki – zwracają „najlepsze” wyniki, – wyniki trudne do opracowania
• Google Alerts – zgłasza nową treść gdy wykryje zmianę względem cache’a
• Monitoring Mediów – słowo klucz PERSONALIZACJA: – Wyniki dopasowane do potrzeb badacza
• System filtrów
• Profil klienta
– Dokładne wyniki – o wysokiej jakości
– Kategoryzacja źródeł informacji
– Analiza wyników
83
Przypadek 1)
• Dziennikarz / Badacz
„Szukając inspiracji i tematu artykułu, często przeglądam serwisy internetowe, albo szukam na własną rękę. Internet jest jednak tak przesycony informacjami, że ciężko znaleźć te najbardziej istotne.”
„Doda” –(a) „Donald Tusk” –(a), [aA] „Eksmisja na bruk” –(a), [aA]
84
Przypadek 2)
• Dostawca IT / e-Commerce
„Potrzebowaliśmy monitorować na bieżąco, czego szukają nasi potencjalni klienci, jakich rozwiązań, jakich cech, jakie mają problemy.”
„Jaki ... CRM ... polecacie ... ?” –(a), [aA] „Kupić ... program ... .” –(a), [aA]
„Splatter vision” (FBI): skanowanie tłumu z odległości - świadomie ale bez skupiania się na jednostce
85
Przypadek 3)
• Agencja reklamowa
„Aby skutecznie działać na rynku, musieliśmy wiedzieć co o naszych produktach i marce piszą nasi odbiorcy.”
„Coca-Cola” [aA] „Pepsi” [aA]
86
Przypadek 4)
• Salon meblowy
„IKEA” [aA] „Black Red White” [aA]
„Informacje na temat konkurencji są dla Nas bardzo istotne. Do tej pory zdobycie tych informacji wiązało się z poświęceniem dużej ilości czasu, na żmudne poszukiwania.”
87
Sieci społecznościowe
Medium demokratycznie (pierwszy raz w historii ludzkości) • Anonimowe,
otwarte – dla wszystkich
– Blogi
– Fora internetowe
• Odwzorowujące rzeczywistość, zamknięte – hierarchia uprawnień
88
Jak to mierzyć?
• Analiza statystyczna:
– Zorientowana na poszczególne węzły
- liderzy opinnii
• Analiza treści:
– Przeszukiwanie pod względem
słów kluczowych
• Analiza topologii sieci
– Badanie spójności sieci,
wyszukiwanie słabo spójnych fragmentów
89
Ważne dla świata?
W przyszłości mogłoby to:
• Zapobiegać sytuacjom kryzysowym
– Wyłapywać jednostki niebezpieczne
– Ograniczać skutki epidemii • W tym medialnych
90 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Modelowanie zjawisk emergentnych
1. Zjawisk emergentnych nie można związać jedynie z zachowaniem części składowych – wnoszą one nową wartość do systemu
a. Kryształ Bizmutu
b. Kopiec Termitów
c. Gra Life Conwaya : Szybowiec –> OTCA metapixel
2. Czy można modelować społeczności? Technologicznie wydaje się to możliwe – 7 * 109 ludzi – istnienie całej populacji (np. żywy/martwy) < 1 GB
a. Jeśli każdego człowieka opiszemy 1 kB to możemy całą populację (tak opisaną) ludzkości składować na jednym twardym dysku prosto ze sklepu za około 600zł
b. Na gridzie 1000 komputerów możemy takie wielkości przetwarzać efektywnie (algorytm Map/Reduce) – 1 komputer 1GB
c. Niech przetwarzanie 1GB zajmie 1 godzinę (1 człowiek/3,6sek) -> koszt jednej iteracji na chmurze ok. 300zł
d. Ile potrzeba iteracji? – co z analizą wyników modelowania?
91 The company, product and service names used in this web site are for identification purposes only.
All trademarks and registered trademarks are the property of their respective owners.
Architektura Symulatora SemanticHive
1) Agenci reprezentowani w logice.
2) Wiedza zmieniająca się w pętli
sprzężenia zwrotnego, pod
wpływem narzuconych z góry
reguł
3) Analiza wyników wymaga
rozproszenia procesu na klaster
92
Pytania?
dr Paweł Kapłański
http://www.cognitum.eu/Company/Jobs.aspx
Cognitum Sp. z o.o.