url-kontroll och analys av ezproxy loggfiler · kontroll av url i databaslista och e-tidskrifter vi...

15
Thomas Trakell, Linköpings universitetsbibliotek URL-kontroll och analys av Ezproxy loggfiler

Upload: others

Post on 14-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Thomas Trakell,Linköpings universitetsbibliotek

URL-kontroll och analysav Ezproxy loggfiler

Page 2: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

URL kontroll

Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern.Främst fria resurser som behöver kontrolleras.Databasposter registrerar vi i Libris.”Egna” e-tidskriftsposter lägger vi i eget paket i länkservern.

2020-03-19

Page 3: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Databasposter för Li från Libris som XML i webbläsareFörsta tvåhundra posterna:http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=1&n=200Nästa tvåhundra:http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=201&n=200

2020-03-19

Page 4: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

I Linux bash till fil (testn.xml):> wget --output-document=test1.xml"http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=1&n=200"> wget --output-document=test2.xml"http://api.libris.kb.se/xsearch?query=BIBL:Li%20AND%20PROD:DBAS&format=marcxml&format_level=full&holdings=true&start=201&n=200"

2020-03-19

Page 5: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Sök i Google på varianter av linkcheck, url check … för att hitta program som kontrollerar fil med URL eller en webbsajt.

Exempel på program är Linkchecker (9.3).https://wummel.github.io/linkchecker/

Programmen kollar statuskod för webbsidan som URL-en leder till.

2020-03-19

Page 6: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

I Linux kan man använda curl.http://droptips.com/quick-command-to-check-the-status-of-a-url-linux-bsd-os-x

Exempel:> curl -Is http://droptips.com | head -n 1> HTTP/1.1 200 OK

2020-03-19

Page 7: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Exempel på statuskoderLyckad förfrågan200: OKVidarekoppling301: Moved Permanently302: Moved Temporarily (HTTP/1.0)Klientfel400: Bad Request403: ForbiddenServerfel500: Internal Server Error

2020-03-19

Page 8: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Exempel> curl -Is http://cogprints.org/ | head -n 1> HTTP/1.1 200 OK

> curl -Is http://ebooks.library.cornell.edu/m/math/ |head -n 1> HTTP/1.1 302 Found

> curl -Ishttp://primo.getty.edu/primo_library/libweb/action/search.do?vid=BHA | head -n 1>HTTP/1.1 403 Forbidden

2020-03-19

Page 9: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Kontrollera även webbsidans innehåll ibland - inte bara den statuskod som ges!

> curl -Is http://biblasso.hh.se/byggdok/simple.lasso |head -n 1> HTTP/1.1 200 OK

2020-03-19

Page 10: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Undersöka "redirects"

http://www.redirect-checker.org/index.phphttp://redirectcheck.com/index.phpFinns flera andra “redirect checker”

Resulthttp://ebooks.library.cornell.edu/m/math/302 Foundhttps://collections.library.cornell.edu/math/index.php/200 OK

2020-03-19

Page 11: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Analys av Ezproxy loggfil

Program som analyserar Ezproxy-loggfil 2 gånger per dag. Tittar på antal rader och antal IP-adresser.Skickar e-post med resultatet.Vid problem/troligt missbruk spärrar vi ID i Ezproxyoch skickar ärende till IT-avdelningen.

2020-03-19

Page 12: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Brevhuvud

Loggfilens storlek = 58498 Kbytes.Om det finns rödmarkerade poster i listan nedan så bör vi verifiera loggfilerna och rapportera till [email protected] användare som loggat in i systemet under perioden = 802.…

2020-03-19

Page 13: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

2020-03-19

Page 14: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Observera!

Vissa sajter genererar naturligt många rader i loggfilen.

Om man använder Tor browser, Cisco proxy, Google proxy eller annan anonymiseringstjänst blir det flera IP-adresser.

2020-03-19

Page 15: URL-kontroll och analys av Ezproxy loggfiler · Kontroll av URL i databaslista och e-tidskrifter vi själva lagt in i länkservern. Främst fria resurser som behöver kontrolleras

Analys av Ezproxy loggfil för att söka efter särskild IEEE-sträng en gång per timma.

”IT department has created a special parameter that we are sending to Sci-Hub "TT8722537TT"”

Spärrar användaren [user.txt].Spärrar IP-adress(er) [rejectIP.txt].Skickar e-post.

Motsvarande görs för Elsevier/ScienceDirect.

2020-03-19