Siempre debe elegir la herramienta adecuada para el trabajo adecuado, y muchos dirían que Ruby es la herramienta adecuada para la mayoría de los trabajos. Está bastante bien, eso es seguro.

Pero con hpricot, es una obviedad cuando se trata de raspado web.  hpricot  es una biblioteca para extraer contenidos de páginas web para hacer lo que quieras. La principal de las características que querrá para una biblioteca de este tipo son las formas simples y rápidas de analizar el árbol del sitio que está raspando, y  hpricot las  tiene en abundancia. No he encontrado nada más sencillo.

Y ahora mismo me enteré de la  extensión firebug  para  firefoxUna de las cosas complicadas con el raspado es averiguar manualmente el camino a través del árbol que necesita atravesar para llegar a la parte de la página que está buscando. Este blog muestra lo simple que es con  firebug 

Ruby Screen-Scraper en 60 segundos



Lunes, Abril 20, 2009

« Atrás