Guía de Semalt en la extensión del raspador para Chrome

Para que cualquier negocio sobreviva y finalmente crezca, es necesario mantenerse por delante de sus competidores y de diversos riesgos. Tomar decisiones basadas en datos analíticos es una forma segura de olvidarse de estos problemas. Dichos datos pueden adquirirse a través del desguace de datos. Ahí es donde entra en juego la extensión de raspador fácil para Chrome: no solo facilitará el proceso de recolección de datos, sino que también permitirá raspar sobre la marcha sin configuraciones complicadas.

Cómo usar Scraper

    1. Lo primero que debe hacer es instalar la extensión, así que diríjase a la tienda web de Chrome, busque "scraper" y haga clic en Agregar a Chrome.

    2. Navegue al sitio web desde el que desea extraer datos , marque la entrada que le interesa resaltándola. Haga clic derecho sobre él y seleccione "raspar similar" en el menú que aparece.

    3. Al hacerlo, se abrirá una ventana separada de la consola del raspador. Aquí verá una lista de los datos raspados .

    4. Para guardar el contenido, haga clic en "guardar en documentos de Google", esto exportará automáticamente los datos a una hoja de cálculo de Google.

Raspado extendido

En caso de que planee raspar más datos, puede utilizar el enfoque avanzado. Tenga en cuenta que será mucho más fácil trabajar con la herramienta si tiene algún conocimiento de HTML. Suponga que desea extraer datos de una fuente que tiene un archivo basado en datos de series de tiempo. En tal caso, si prueba el método descrito anteriormente, obtendrá los datos confusos.

Para resolver este problema, puede utilizar un lenguaje de consulta HTML y XML conocido como XPath. ¿Qué hace? XPath reconoce datos sobre los diferentes elementos contenidos en cada selección. La siguiente es una guía sobre cómo hacerlo:

1. Vaya a la consola de Scraper, en la esquina superior izquierda debería ver un botón "XPath", haga clic en él y proceda a armar la tabla inicial.

2. Necesita escribir XPath para el elemento correcto. El XPath actual que incluye toda la información se mostrará en un formato como este "// div [3] / div [3] / div [2] / div". La computadora reconocerá los elementos <div> en el documento HTML.

3. Para separar los datos reconocidos, debe usar las columnas Scraper. Para hacerlo, debe buscar los diferentes tipos de información que tiene disponible. Dependiendo de los datos que esté raspando, puede tener títulos. Estos títulos están presentes al lado de cada conjunto de datos. Están acompañados por una etiqueta, en este caso, una etiqueta <b>.

4. Usando el elemento de inspección, localice y agregue la etiqueta <b> a su XPath. Ahora puede etiquetar esta primera columna como "columna de título", ya que enumerará los títulos. Proceda a crear diferentes XPaths para cada columna que necesite.

5. Haga clic en el raspado y la extensión recogerá automáticamente los datos y los organizará en las diferentes columnas que haya configurado.