jiří koutný - collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

14

Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně Jiří Koutný

Upload: pehapkari

Post on 09-Jan-2017

155 views

Category:

Internet

2 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Jiří Koutný

Page 2: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Collabim a Serpo

700+klientů

6+let

6členů týmu

měření pozic ve vyhledávačích a sledování konkurence

Page 3: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Collabim

Page 4: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Serpo.cz

Page 5: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Page 6: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

● Denně 300 000 sledovaných frází● Denně 700 000 stránek vyhledávání (~70 GB)● 8 000 proxies● 170 GB MySQL● 40 GB ElasticSearch

Data

Page 7: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Desatero scrapování Google1. Public/shared proxies jsou k ničemu2. Lepší více proxies než Selenium/PhantomJS3. Ideálně 1 dotaz za 5 - 10 minut4. XPath v kombinaci s regulárními výrazy je mocná zbraň5. Vždycky si ukládejte původní HTML source6. 100% úspěšnost je zbytečná7. Spoléhejte se jen na sebe8. PHPčko je “good enough” a “fast enough”9. MultiCURL/guzzlephp

10. Doctrine2 je fajn na frontend, ale ne do workerů

Page 8: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

CollabimApp

MailQueueBilling

CollabimTracker

Serpo

Microservices!

Page 9: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Serpo: Jak ukládat historická data?

20 GB každých 14 dnů

jednou je uložíme a už se němění

nechceme je zálohovat pořád dokola

Page 10: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Page 11: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

CollabimTracker

Serpo

Page 12: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Hlavní bolest - ElasticSearch - Red is dead!● Verzi < 2.0 nedoporučuji, půlka věcí je jinak● Type nejde ani promazat ani celý smazat (jen index)● Žádné BATCH DELETE by condition● JSON query DSL ☠ !● Indexujete moc rychle? Spadne● Kill query neexistuje● Spadlý node se oživuje hodinu až dvě● Žádný EXPLAIN ani profiling● UPDATE zahodí celý původní dokument a vytvoří nový -> pomalé● Agregace jsou hodně omezené

Page 13: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Čím nahradit ElasticSearch?● Málo zápisů, hodně čtení● Hodně agregací, průniky množin, vztahy mezi weby● Non-blocking/batch query knihovna pro PHP● MongoDB?● PostgreSQL?● …?

Page 14: Jiří Koutný - Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Díky! Jiří Koutný[email protected]

mailto:[email protected]

mailto:[email protected]

desná collection - Preciosa · 2020-03-09 · á, CzechRRepublic desná collection PRECIOSA ORNELA, a.s., Krkonošská 732, 468 61 Desná, Czech epublic Martin Koutný, T: +420 488

ANALYTICKÉ, PROPAGAýNÍ A FIREMNÍ NÁSTROJE V PROSTŘEDÍ€¦ · ANALYTICKÉ, PROPAGAýNÍ A FIREMNÍ NÁSTROJE V PROSTŘEDÍ GOOGLE II. þást Lukáš Koutný –Jihlava, 6.5

Visibility digital.cz - SEM - jaké postupy využít, aby firma měla z vyhledávačů co největší užitek - konference efektivni web 2012

Městská policie Ústí nad Labem Labem pořádá · 2009-11-27 · rozhodčí – strážníci SPKDV Městské policie Ústí nad Labem Do cíle dorazí všichni František Koutný

Souboj vyhledávačů (Barcamp Ostrava 2013)

M U 5 E U M - librinostri.catholica.czlibrinostri.catholica.cz › download › Mu1932-r0.pdf · M U 5 E U M ČASOPIS SLOVANSKÝCH BOHOSLOVCÚ' ROČNIK LXIII. Redigoval JOSEF KOUTNÝ

F. KOUTNÝ Zlín - ZAS · F. KOUTNÝ: Pierre Simon de LAPLACE 7 “Čtěte, čtěte Eulera – on je učitelem nás všech [4].“ “Toho, co známe, není mnoho. Toho, co neznáme,

Vlákna a WinAPI - kiv.zcu.cz Win Threads.pdf · PPR 6 Vlákna a WinAPI Verze 1.00 19. 10. 2007 T. Koutný Thread • entita v rámci procesu, kterou plánuje OS • všechny vlákna

Městská policie Ústí nad Labem Labem pořádá · rozhodčí – strážníci SPKDV Městské policie Ústí nad Labem Do cíle dorazí všichni František Koutný SPKDV Městská

Základy SEO - Rychlavyuka.cz · 2019. 1. 12. · SEO »Search Engine Optimization »Umění jak přivést návštěvníky z vyhledávačů »SEO neumí prodat/přesvědčit !!! »Nejlepší

Aktualizace vyhledávačů Google a Seznam

KOUTNÝ, F. Leonhard Euler - zas.cz · Diferenciální rovnice, mechanika a další rozvoj matematiky 15 2. LEONHARD EULER ... Důležité je, že v Liber Abaci se používaly arabské

Přehled vyhledávačů A PPC Systémů

3. Affiliate konference / Jak se stát miláčkem vyhledávačů

Svlékněte konkurenci donaha: Jiří Koutný, Collabim

ISM Sobota w Cieszynie - RUNDA IIlive.megatiming.pl/widzik/2016/12_03_cieszyn/startowa.pdf · 2016-12-02 · 2 KAŻMIERCZAK Marek 05 Ukp Ruda Śląska 41.48 3 KOUTNÝ Jeroným 04

Jak se stát miláčkem vyhledávačů

Školení, tvorba webových stránek, SEO - © Tomáš Herout … · 2016. 5. 16. · praSEO – „prasečí SEO“ Soubor podvodných metod, využívajících nedostatků vyhledávačů

KOUTNÝ - obleky na míru - KATALOG 2014

CO NÁS ČEKÁ V ROCE 2021? · 2020. 12. 30. · - 2 - Z FARNÍCH MATRIK : Do společenství církve byli v prosinci 2020 přijati: 13. prosince 13. prosince Jan Koutný Lucie Maria

BIM GAME - Education.gouv.fr...COLLABIM Un projet PACTE porté par le GIP FTLV de l'académie de Besançon CONTACTS: Lionel Croissant [email protected] Hervé Maillot

Carl Friedrich Gauss · 2012-05-02 · Carl Friedrich Gauss F. KOUTNÝ, Zlín (30. 04. 1777 – 23. 02. 1855) Každé vyprávění o někom, kdo žil dávno, je nutně jen kompilací

Formation gratuite - Pôle énergie Franche-Comté...a initié le projet CollaBIM. Ce projet a pour objectif de montrer aux acteurs du bâtiment de la région Bourgogne Franche-Comté