Tecniche di estrazione dati da internet
Il Web Scraping viene utilizzato per estrarre o “raschiare” dati da qualsiasi pagina Web su Internet.
Copiare un elenco di contatti da una directory Web è un esempio di “web scraping”. Ma copiare e incollare i dettagli da una pagina Web in un foglio di lavoro Excel funziona solo per una piccola quantità di dati e richiede una notevole quantità di tempo. Per raccogliere grandi quantità di dati è necessario utilizzare un processo automatizzato che permetta di replicare in modo efficiente, affidabile e rapido la ricerca e l’estrazione di dati da una o più pagine web.
I Web Scraper eseguono esattamente tale funzione.
Lo scraping Web viene eseguito utilizzando un programma chiamato “web scraper” o “bot” o “web spider” o “web crawler” (parole utilizzate in modo intercambiabile). Un web scraper è un programma che va alle pagine web, scarica i contenuti, estrae i dati dai contenuti e poi li salva in un file o in un database.
Il processo di web scraping ha permesso ad internet di svilupparsi e di diventare popolare e fruibile da tutti. I motori di ricerca che utilizziamo per cercare i contenuti su internet sfruttano proprio le tecniche di web crawling per navigare attraverso le pagine web presenti su internet e le tecniche di web scraping per estrarre i dati dalle pagine analizzate.
Leggi gli approfondimenti nei seguenti articoli:
- Introduzione a Scrapy
- Creare un progetto in Scrapy
- Estrazione dei dati con Scrapy Shell
- Trovare i selettori XPath
- …vedi elenco completo!