5 Febbraio 2020

Scraping: cos’è e come funziona

Web scraping refers to an IT technique which enables the collection of data relating to a website and its storage either locally or on a database. This procedure is completely automatic and is carried out using specific software, which is able to read and copy thousands of webpages in a very short space of time.

Possible reasons for using this procedure are many: some are purely personal, such as wanting to save a website locally in order to view it offline, while others are connected to SEO (Search Engine Optimisation).

Con scraping web si identifica una tecnica informatica, che permette di raccogliere dati relativi a un sito internet e di salvarli in locale oppure su un database. La procedura è completamente automatizzata e viene effettuata da alcuni software specifici, che sono in grado di leggere e copiare migliaia di pagine web in pochissimo tempo.

I motivi per ricorrere a questa pratica sono svariati: alcuni di essi sono prettamente personali (come ad esempio il voler salvare in locale un sito web per poterlo visionare senza il bisogno di essere online), mentre altri si legano alla SEO (search engine optimization).

Come avviene lo scraping nel dettaglio

Lo scopo principale dello scraping è quello di estrarre dati da un portale web, in modo che essi possano essere analizzati comodamente per ricavarne informazioni utili. Il bot che effettua la procedura di scraping non fa altro che simulare la navigazione umana sul sito, ma in maniera molto più rapida.

Ci sono due tipi di approcci che possono essere scelti: il primo consiste nell’effettuare una copia integrale delle pagine analizzate, che poi vengono salvate in un database esterno; il secondo prevede un ulteriore passaggio che è l’elaborazione dei dati.

In quest’ultimo caso, il programma (dopo aver letto la pagina) ne ricava automaticamente i dati che interessano all’utente e salva soltanto quelli sul database. Così facendo è possibile effettuare analisi di mercato precise (un e-commerce, ad esempio, può vedere in quali città vengono acquistati maggiormente determinati prodotti, la fascia di età degli utenti e moltissimo altro ancora).

Le potenzialità dello scraping sono enormi e contribuiscono attivamente nella pianificazione di strategie SEO e di marketing. Tuttavia queste tecniche possono anche essere usate in maniera negativa, perciò è fondamentale prestare molta attenzione (soprattutto quando si definiscono i permessi di scraping per un sito internet).

Utilizzare lo scraping in maniera illegale

Come ogni strumento, anche lo scraping può finire nelle mani di malintenzionati pronti ad abusare delle sue potenzialità per arrecare danni considerevoli. Nonostante il funzionamento degli scrape bot sia simile a quello dei crawler dei motori di ricerca, essi possono essere utilizzati illegalmente.

Non tutti i siti web consentono lo scraping delle proprie pagine (per conoscere le autorizzazioni basta consultare il file robots.txt del portale web o la pagina delle condizioni di servizio). Impiegare un software per scraping in questi casi è una violazione volontaria perseguibile dalla legge.

A causa dell’elevato carico di lavoro a cui i bot sottopongono i server del sito web analizzato durante le loro operazioni, è possibile per i malintenzionati settarli affinché essi si trasformino in un vero e proprio attacco informatico. Aumentando a dismisura le richieste al server è possibile far crashare il portale, oscurarlo o far riportare un errore http 500.

Lo scraping può essere utilizzato anche per copiare un sito web e postare i contenuti prima che l’effettivo proprietario decida di metterli online, anticipandone l’indicizzazione (pratica molto comune nella SEO Negativa).

Come si fa lo scraping di un sito

Effettuare lo scraping di un sito web è piuttosto facile. Una volta verificate le autorizzazioni concesse dal portale in esame, è possibile utilizzare un software di scraping automatico (come Teleport, Httrack, Simple Html Dom), che provvederà a raccogliere i dati necessari e a salvarli offline.

Altri software più sofisticati e realizzati in ASP o PHP consentono di salvare i dati direttamente su un database online. Si possono utilizzare anche le API di Google per analizzare i risultati delle SERP nel motore di ricerca stesso o determinate parole chiave in una pagina web.