progetto e realizzazione di un software per la rilevazione automatica di codice html nascosto e...
TRANSCRIPT
![Page 1: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/1.jpg)
Università degli Studi di TriesteFacoltà di IngegneriaTesi di Laurea in Ingegneria dell'InformazioneCurriculum Informatica
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML
Nascosto e Fraudolento in Pagine Web
Relatore: Prof. Alberto Bartoli
Correlatore: Ing. Enrico SorioCandidato: Daniele Nicassio
![Page 2: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/2.jpg)
Il problema
Rilevazione di codice HTML nascosto e fraudolento all'interno di una pagina Web
![Page 3: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/3.jpg)
Contenuti web nascosti
Esiste codice che rappresenta elementi non visibili
Pagine web: composte da elementi Descritti da codice HTML Hanno uno stile (come si vedono) Possono essere nascosti
![Page 4: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/4.jpg)
Utilizzi fraudolenti: esempi
Search Redirection● Redirection ad un sito scelto solo quando
provenienti dal motore di ricerca
Search Spam● Manipolazione risultati motori di ricerca
Esempio: illicit pharmacy
usano contenuto nascosto introdotto nelle pagine attaccate
![Page 5: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/5.jpg)
L'attacco: Hidden Text Injection
Inserimento testo nascosto (varie tecniche di occultamento)
Preferibilmente contro siti web autorevoli
Sfruttato da Search Spam, Search Redirection
Difficile da individuare
Danni all'immagineRimozione dai risultati di ricerca
![Page 6: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/6.jpg)
La soluzione proposta
Creazione di un software:
Input: lista di pagine, testo da cercare
Output: quali pagine hanno testo nascosto
Applicabile su larga scala AUTOMATIZZATO
![Page 7: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/7.jpg)
La soluzione proposta
Creazione di un software:
Input: lista di pagine, testo da cercare
Output: quali pagine hanno testo nascosto
Applicabile su larga scala
è presente nel codice non è visibile
AUTOMATIZZATO
Testo nascosto:
![Page 8: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/8.jpg)
Rilevazione Testo Visibile: Due Metodi
1) OCR:
Analisi OCR dello screenshot
2) Javascript:
Esecuzione di uno script
Analisi screenshot
![Page 9: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/9.jpg)
Metodo JS: Lo script
1) Oscura le immagini
2) Ricerca un colore mai usato nella pagina
3) Trova le occorrenze della parola
4) Le evidenzia con il colore individuato al punto 2
Il colore è visibile
La parola è visibile
![Page 10: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/10.jpg)
Metodo JS: Esempio (1)
![Page 11: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/11.jpg)
Metodo JS: Esempio (2)
![Page 12: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/12.jpg)
Struttura del progetto
![Page 13: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/13.jpg)
Risultati: pagine con testo nascosto
Pagine senza parola
Pagine con parola visibile
Pagine con parola nascosta
10814%
20426%
47460%
786 Snapshot Il 26% risulta compromesso
![Page 14: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/14.jpg)
Risultati: Metodi proposti
1) Metodo HTML e Javascript
Un solo falso positivo
Nessun falso negativo
2) Metodo HTML e OCR
15 falsi positivi
Nessun falso negativo
HTML + JS è migliore
![Page 15: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/15.jpg)
Risultati: Precision & Recall
Precision Recall88
90
92
94
96
98
100
DOM + JSDOM + OCR
Precision: DOM + JS 99.5% DOM + OCR 93.2%
Recall: DOM + JS 100% DOM + OCR 100%
![Page 16: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/16.jpg)
Conclusioni
1) Entrambi I metodi soddisfacentiPrecision > 90%
Recall = 100%
2) LimitazioniScript, ScrollBar
Ininfluenti nella ricerca condotta
![Page 17: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/17.jpg)
Appendice: Metodo OCR
Funziona per le immagini
Studiato per documenti stampatiPochi coloriFont omogenei
Lento
Non particolarmente adatto ad analizzare pagine Web
![Page 18: Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codice HTML Nascosto e Fraudolento in Pagine Web](https://reader034.vdocuments.mx/reader034/viewer/2022052507/5592fb961a28ab45478b46fc/html5/thumbnails/18.jpg)
Appendice: Limiti OCR: Esempio
Una porzione dell'immagine analizzata:
Ed il relativo output del software: