Estrazione dei dati con Scrapy Shell

Il metodo migliore per imparare come estrarre i dati da una pagina HTML usando i selettori CSS o XPath è quello di lanciare la Scrapy Shell da terminale andando ad indicare la pagina che vogliano analizzare: scrapy shell ‘http://quotes.toscrape.com/page/1/’ NOTA: Nel caso di OS Windows ricordarsi di utilizzare le doppie virgolette: # Doppie virgolette per …

Creare un progetto in Scrapy

Andiamo a vedere come realizzare il nostro primo progetto in Scrapy, supponiamo che abbiate già provveduto all’installazione, ma se così non fosse è sufficiente utilizzare il gestore di pacchetti python pip scrivendo nel nostro terminale: pip install scrapy Molto semplice, in pochi istanti il nostro sistema sarà pronto per accettare il nostro primo comando con …

Python, Requests e Tor proxy

Nel caso in cui avessimo necessita di utilizzare un proxy per estrarre pagine web in modo anonimo possiamo utilizzare l’accoppiata Requests e Tor. Request è una libreria HTTP di Python che permette di effettuare in modo semplice delle chiamate ad un web server. Tor è un software che permette di instaurare un servizio di comunicazione …

Utilizzo di indirizzi IP multipli di server proxy.

Un problema comune che si incontra durante la scansione di un sito è quello di venir identificati come un agente malevolo e venir bloccati attraverso l’iscrizione del proprio IP in una black-list del sito. Ci sono varie tecniche per evitare questo problema, in questo articolo vedremo come proteggerci con l’uso di un proxies che cambiano …