Devi sempre scegliere lo strumento giusto per il lavoro giusto e molti direbbero che Ruby è lo strumento giusto per la maggior parte dei lavori. È abbastanza buono, questo è certo.

Ma con hpricot, è un gioco da ragazzi quando si tratta di raschiare il web.  hpricot  è una libreria per estrarre contenuti da pagine web per fare ciò che vuoi. La principale tra le funzionalità che desideri per una libreria di questo tipo sono i modi semplici e veloci per analizzare l'albero del sito che stai raschiando, e  hpricot ne  ha in abbondanza. Non ho trovato niente di più semplice.

E poi solo ora ho scoperto l'  estensione firebug  per  firefoxUna delle cose complicate con lo scraping è capire manualmente il percorso attraverso l'albero che devi attraversare per arrivare alla parte della pagina che stai cercando. Questo blog mostra quanto sia più semplice con  Firebug ...

Ruby Screen-Scraper in 60 secondi



Lunedì, Aprile 20, 2009

« Indietro