novinky ve vyhledávání seznam.cz (otakar smrž)
TRANSCRIPT
Novinky ve vyhledávání
Otakar Smrž
Searching SessionNTK 2012
… search.seznam.cz
Seznam.cz je jednička na českém internetu, od roku 2005 má vlastní fulltextové vyhledávání
– 350 dotazů za sekundu, ve špičce přes 500– 15 milionů dotazů denně– 600 milionů prohledávaných dokumentů– 10 miliard známých odkazů– 1000 dokumentů stažených za sekundu
Vyhledávač
robot – procházení internetem, rozhodování o zajímavosti dokumentu a jeho uložení
indexer – zpracování dokumentů pro vyhledávání
hadoop – databáze a distribuované zpracování dat
hledání – zpracování dotazu, zahledání, filtrace, řazení, zpracování a popisování výsledků
webovka – zobrazení výsledků, upoutávek, reklamy, sledování dotazů a uživatelské odezvy
Cizojazyčné vyhledávání
indexování dokumentů v cizích jazycích a podpora pro zpracování cizojazyčných dotazů
– 65% čeština– 25% angličtina– 3% slovenština– 3% němčina– 4% ostatní jazyky
Zpracování dotazu
interaktivní – našeptavač, oháčkování, oprava překlepů, související dotazy
dodatečné – ohýbání slovních tvarů, reformulace dotazu, synonyma a slova odvozená, zkratky, …
zvláštní operátory pro rozšířené možnosti hledání
Zobrazení výsledků
Relevance
relevance – míra příslušnosti dokumentu k dotazu určující pořadí výsledků
on-page – vlastnosti získané ze stránky samotné
off-page – informace o stránce závislé na jejím umístění, prolinkování a návštěvnosti
nutná je detekce a odstranění obsahových duplicit a redukce podobných výsledků z jedné domény
Snippety
snippet – popisek, krátký úryvek výsledku hledání
snippet má umožnit odhad relevance dokumentu vůči dotazu
Snippety
snippet má co nejlépe vystihnout celý dokument a zvýraznit vyhledaná slova v jejich kontextu
snippet má být informativní a má pomoci uživateli vybrat si z výsledků hledání ty nejpříhodnější
X
Snippety
nová metoda tvorby popisku se snaží– zahrnout do snippetu co nejužitečnější informaci
– čerpat úryvky nejen z viditelného textu stránky
– vyhnout se opakování textu v popisku
– zlepšit formátování a přehlednost snippetu
podoba popisku závisí na obsahu dokumentu, proměňuje se ovšem podle znění dotazu
– ovlivnit výběr úryvků do snippetu lze jen nepřímo přes <meta name="description" content="…" />
Osnovy
osnova – výběr pojmenovaných odkazů dovnitř dokumetu, zpřístupnění vnitřní struktury stránky
Osnovy
osnova informuje o rozdělení stránky do různých tematických nebo logických částí a zpřístupňuje je
osnova může být zobrazena u jakékoliv stránky s vhodně definovanou strukturou bez ohledu na doménu nebo typ webu
odkazy do dokumentu jsou vybírány v souvislosti s dotazem a nemusejí směřovat jen na prvních několik oddílů textu
osnovy sestavujeme nezávisle na jazyce dokumentu či dotazu
Aktuálnost
datum a čas publikování u zpravodajských článků a novinek z vybraných zdrojů, ve dvou formátech
Upoutávky
obohacují výsledky hledání o informace ze zpráv, obrázky, mapy, akce pro volný čas, firmy, zboží ...
Miniaplikace a odpovídač
kalkulačka
převod jednotek a měn
výpočet BMI
převod římských číslic
morseovka
éčka
poštovní směrovací čísla
kódy bank a pojišťoven
důležitá telefonní čísla
kalorické hodnoty jídel
telefonní předčíslí států
kódy letišť
Skokani internetu
dotazy hledané výrazně častěji než dříve
– Perseidy 2012
– Medaile LOH 2012 pořadí
– Souhvězdí Perseus
– Úplněk srpen 2012
– Půjčka před výplatou
– Význam příjmení
– Aktuální teplota v Praze
– Lymfatické masáže
– Rychlá půjčka ihned
– Večerníček znělka
– Karlštejnský jablečný koláč
– Moderní pětiboj
– Lori štíhlý
– Náhrdelníky akce
– Antiperspirant
– www.ceecr.cz
– Karezza
– Technologie hifu
– Fata morgana
– Africký hrnec
… fulltext.sblog.cz
produktové novinky a vylepšení
zajímavosti z výzkumu a vývoje
informace pro webmastery a optimalizaci
Díky za pozornost …