zaraz, zaraz, gdzie to było…
TRANSCRIPT
Kiedy był pocztek ?Początki wyszukiwania giną w morkach przeszłości
- 1969 – IBM vs. US Department of Justice – STAIRS
- Potem inni:
- Lycos (1994); 1999 top visited site – Uniwersytet Pittsburgh
- AllTheWeb (1999) – Uniwersytet Trondheim – potem FAST -> Overture -> Yahoo!
- AltaVista (1995) -> od 1996 jako Yahoo!
- Yahoo! (1995) – zaczęli od katalogu stron, a nie search’a, ale potem kupili kilka technologii
- Infoseek (1994) -> wykupiona przez Disney w 1998 na Go.com; technologia Ultraseek Server -> Inktomi, Yahoo!, Verity, Autonomy …
A potem przyszedł GoogleJak układać wyniki wyszukiwania?
- Same trafienia w tekście?
Larry Page & Sergey Bryn – doktorat o page rank
Firma Google – 1998
I tak rósł, rósł i rósł.
Co dawała wczesna technologia
wyszukiwania w Internecie?
• Wyszukiwanie pełnotekstowe
• Skala internetowa – ogromna objętość danych i wyszukiwanie
online
• Proste modele rankingowe oparte o trafienia i autorytet
• I niewiele więcej – trudności z precyzją
Czego zatem brakowało?
• Prostej implementacji
• Zabezpieczeń przed nieuprawnionym dostępem
• Bardziej zaawansowanych modeli rankingowych
• Więcej metadanych
• Porządkowania wyników wyszukiwania
• I to przy utrzymaniu skali i czasu odpowiedzi
Verity, Autonomy
• Verity firma z największą bazą klientów search’a – 14 000
• Autonomy (1996) – Mike Lynch z Cambridge – teoria Bayes’a
zasotoswana do odnajdywania kluczowych fraz w tekście
• IDOL – “Meaning based computing”
• Szybki wzrost i upadek …
• Upadek? Sprzedaż do HP za 10,2 mld USD
FAST, Endeca i inni
• Z lat 90-tych, 2000-ych pochodzą także FAST, Endeca, Exlaead i
masa innych lokalnych search enginów (NetSprint w PL)
• Autonomy, FAST, Endeca dominowały rynek na początku XXI
wieku – skalowalne liniowo z mechnizmami porządkująycymi wyniki
wyszukiwania (faceting, klasteryzacja), elastycznymi modelami
rankingowymi, rozproszona architektura
No i ten open source
• Lucene
• Zbudowane pod koniec lat 90-tych – Apache release 2001;
bilblioteka Java do indeksowania i wyszukiwania
• Bardzo intensywny rozwój na początku lat 2000
• Solr
• Zbudowane przez Yonik Seeley w 2005 roku; Apache release
2006
• Narzędzia wspomagające: UIMA, OpenPipeline, OpenNLP, wiele wiele innych
No i ten open source
• Historia ma swoje etapy:
• Początki trudne, mozolne powolne
• Search engines w Internecie – bańka .com
• Szybki wzrost dużyhc graczy i mniejszycg firm – FAST, Autonomy,
Endeca
• Pierwsze projeckty open source
• Załamanie dużych graczy i wykup przez gigantów
• Szalony wzrost popularności open source …
A co na to wielcy gracze?
Microsoft kupił FAST w 2008 roku -> wtopienie w SharePoint
IBM kupił iPhrase (2005 – wycofany ze sprzedaży) oraz Vivisimo
(2012 – narzędize do Big Data)
Google – cały czas włsna technologia, sprzedaje urządzenia
Google Search Appliance (GSA)
Oracle kupił Endeca w 2011 jako narżędize do Big Data
Dassault Systemes kupiło Exalead w 2010 – jako narzędzie
wspierające proces wytwarzanie