Web Scraping Archivi - Ferro Mauro

Che cos’è il SEO – Una guida introduttiva al Search Engine Optimization.

SEO cosa significa? Il SEO, ovvero il Search Engine Optimization, è il processo di ottimizzazione di un sito web per migliorare la sua visibilità nei risultati di ricerca dei motori di ricerca, come Google. Esistono varie tecniche per ottimizzare il proprio sito web con lo scopo di renderlo più appetibile ai vari crawler dei motori …

Leggi tutto “Che cos’è il SEO – Una guida introduttiva al Search Engine Optimization.”

Trovare i selettori XPath

Abbiamo visto nel pezzo precedente cosa sono i selettori XPath e perchè sono importanti per trovare i dati che vogliamo all’interno di un documento HTML. Ma questo tipo di selettori hanno una sintassi particolare che all’inizio può essere difficile da comprendere, quindi: come possiamo fare per conoscere i selettori giusti da utilizzare? Se andiamo a …

Leggi tutto “Trovare i selettori XPath”

Estrazione dei dati con Scrapy Shell

Il metodo migliore per imparare come estrarre i dati da una pagina HTML usando i selettori CSS o XPath è quello di lanciare la Scrapy Shell da terminale andando ad indicare la pagina che vogliano analizzare: scrapy shell ‘http://quotes.toscrape.com/page/1/’ NOTA: Nel caso di OS Windows ricordarsi di utilizzare le doppie virgolette: # Doppie virgolette per …

Leggi tutto “Estrazione dei dati con Scrapy Shell”

Creare un progetto in Scrapy

Andiamo a vedere come realizzare il nostro primo progetto in Scrapy, supponiamo che abbiate già provveduto all’installazione, ma se così non fosse è sufficiente utilizzare il gestore di pacchetti python pip scrivendo nel nostro terminale: pip install scrapy Molto semplice, in pochi istanti il nostro sistema sarà pronto per accettare il nostro primo comando con …

Leggi tutto “Creare un progetto in Scrapy”

Introduzione a Scrapy

Introduzione al framework Scrapy con una panoramica di come funziona uno dei più dinamici e potenti strumenti per il web scraping.

Python, Requests e Tor proxy

Nel caso in cui avessimo necessita di utilizzare un proxy per estrarre pagine web in modo anonimo possiamo utilizzare l’accoppiata Requests e Tor. Request è una libreria HTTP di Python che permette di effettuare in modo semplice delle chiamate ad un web server. Tor è un software che permette di instaurare un servizio di comunicazione …

Leggi tutto “Python, Requests e Tor proxy”

Esempio di Scraper con Python e Request-HTML

In questo articolo vedremo come creare un semplice scraper che ci permetterà di estrarre i alcuni date da un sito web/portale per la ricerca di attività commerciali in base alla località ed a uno o più termini di ricerca. Per effettuare la nostra estrazione andremo ad utilizzare la libreria Requests-HTML, una versione riadattata e più …

Leggi tutto “Esempio di Scraper con Python e Request-HTML”

Servizio automatico di traduzione delle Keywords

Supponiamo che abbiate un sito web con un negozio online per il mercato Italiano, gli affari vanno bene e dopo la prima fase di avvio intendete allargare i vostri orizzonti commerciali verso gli altri paesi Europei. Il vostro sito di scarpe ed abbigliamento sportivo ‘MR Calcio’ è ottimizzato per i motori di ricerca e tra …

Leggi tutto “Servizio automatico di traduzione delle Keywords”

Utilizzo di indirizzi IP multipli di server proxy.

Un problema comune che si incontra durante la scansione di un sito è quello di venir identificati come un agente malevolo e venir bloccati attraverso l’iscrizione del proprio IP in una black-list del sito. Ci sono varie tecniche per evitare questo problema, in questo articolo vedremo come proteggerci con l’uso di un proxies che cambiano …

Leggi tutto “Utilizzo di indirizzi IP multipli di server proxy.”

Come creare uno scraper con User-Agent Rotation

L’informazione ‘user-agent’ è una stringa che un web browser o una app invia ad ogni sito web visitato. Una tipica stringa di ‘user-agent’ contiene dettagli come: il tipo di applicazione, il sistema operativo, il fornitore del software o la versione software utilizzato dal client che interroga il Web Server di un sito. I Web Server …

Leggi tutto “Come creare uno scraper con User-Agent Rotation”