El raspado web es el acto de extraer datos, información o imágenes de un sitio web utilizando un método automatizado. Piense en ello como copiar y pegar en automático completo.
Escribimos o usamos una aplicación para ir a los sitios web que queremos y hacemos una copia de las cosas específicas que queremos de esos sitios web. Es mucho más preciso que descargando un sitio web completo.
Como cualquier herramienta, el raspado web se puede usar para bien o para mal. Algunas de las mejores razones para descartar sitios web serían clasificarlo en un motor de búsqueda según su contenido, la comparación de precios o la información del mercado de acciones de monitoreo. Incluso puede usarlo como una herramienta de investigación.
¿Cómo puedo eliminar sitios web con Excel?
Créalo o no, Excel ha tenido la capacidad de extraer datos de sitios web durante mucho tiempo, al menos desde Excel 2003. Es solo eso el raspado web es algo en lo que la mayoría de la gente no piensa, y mucho menos piensa en usar un programa de hoja de cálculo para hacer el trabajo. Pero es sorprendentemente fácil y poderoso. Aprendamos cómo hacerlo haciendo una colección de atajos de teclado de Microsoft Office.
Encuentre los sitios que desea eliminar
Lo primero que vamos a hacer hacer es encontrar las páginas web específicas de las que queremos obtener información. Vayamos a la fuente y busquemos en https://support.office.com/. Vamos a utilizar el término de búsqueda "accesos directos de uso frecuente". Podemos hacerlo más específico usando el nombre de la aplicación específica, como Outlook, Excel, Word, etc. Puede ser una buena idea marcar la página de resultados para que podamos volver fácilmente allí.
Haga clic en el resultado de la búsqueda, "Atajos de teclado en Excel para Windows". Una vez en esa página, busque la lista de versiones de Excel y haga clic en Versiones más nuevas. Ahora estamos trabajando con lo último y lo mejor.
Podríamos volver a nuestra página de resultados de búsqueda y abrir los resultados para todas las demás aplicaciones de Office en sus propias pestañas y marcarlas. Es una buena idea, incluso para este ejercicio. Aquí es donde la mayoría de la gente dejaría de recordar los accesos directos de Office, pero no nosotros. Los pondremos en Excel para que podamos hacer lo que queramos con ellos, cuando queramos.
Abrir Excel y Scrape
Abrir Excel e iniciar un nuevo libro de trabajo. Guarde el libro como Atajos de Office. Si tiene OneDrive, guárdelo allí para que la función AutoGuardarfuncione.
Una vez guardado el libro, haga clic en la pestaña Datos.
En la cinta de la pestaña Datos, haga clic en De la Web.
Se abrirá la ventana del asistente Desde la Web. Aquí es donde colocamos la dirección web o URL del sitio web desde el que queremos raspar los datos. Cambie a su navegador web y copiela URL.
Pegue la URL en el URLdel asistente de web. Podríamos elegir usar esto en modo Básicoo Avanzado. El modo avanzado nos brinda muchas más opciones sobre cómo acceder a los datos desde el sitio web. Para este ejercicio, solo necesitamos Basicmode. Haga clic en Aceptar.
Excel ahora intentará conectarse al sitio web. Esto puede tardar unos pocos segundos. Veremos una ventana de progreso, si es así.
Se abrirá la ventana del Navegadory veremos una lista de tablas del sitio web a la izquierda. Cuando seleccionamos una, veremos una vista previa de la tabla en el derecho. Seleccionemos la tabla Accesos directos de uso frecuente.
Podemos hacer clic en la pestaña WebViewpara ver el sitio web real, si necesitamos buscar la tabla que queremos. Cuando lo encontremos, podemos hacer clic en él y se seleccionará para importar.
Ahora, hacemos clic en el botón Cargaren la parte inferior de esta ventana. Hay otras opciones que podríamos elegir, que son más complejas y están más allá del alcance de nuestro primer raspado. Solo ten en cuenta que están allí. Las capacidades de raspado web de Excel son muy potentes.
La tabla web se cargará en Excel después de unos segundos. Veremos los datos a la izquierda, donde el número 1está en la imagen a continuación. El número 2resalta la Consultautilizada para obtener los datos del sitio web. Cuando tenemos múltiples consultas en un libro de trabajo, aquí es donde seleccionamos la que necesitamos usar.
Observe que los datos entran en la hoja de cálculo como una tabla de Excel. Ya está configurado para que podamos filtrar u ordenar los datos.
Podemos repetir este proceso para todas las otras páginas web que tienen los accesos directos de Office que queremos para Outlook, Word, Access, PowerPoint, y cualquier otra aplicación de Office.
Mantener los datos recortados actualizados en Excel
Como beneficio adicional, aprenderemos cómo mantener nuestros datos recortados actualizados en Excel. Esta es una excelente manera de ilustrar cuán poderoso es Excel para el raspado de datos. Incluso con esto, solo estamos haciendo el raspado más básico que Excel puede hacer.
Para este ejemplo, usemos una página web de información sobre acciones como https://www.cnbc.com/stocks/.
Revisa lo que hicimos antes y copia y pega la nueva URL de la barra de direcciones.
Llegará a la ventana del Navegador y verá las tablas disponibles. Seleccionemos los principales índices bursátiles de EE. UU.
Una vez que se eliminen los datos, veremos la siguiente hoja de cálculo.
A la derecha, vemos la consulta de los principales índices bursátiles de EE. UU. Seleccione eso para resaltarlo. Asegúrese de que estamos en la pestaña Herramientas de tablay en el área Diseño. Luego haga clic en la flecha hacia abajo debajo de Actualizar. Luego haga clic en Propiedades de conexión.
En la ventana QueryProperties, debajo de la pestaña Uso, podemos controla cómo se actualiza esta información. Podemos establecer un período de tiempo específico para actualizar, o para actualizar cuando abrimos el libro de trabajo la próxima vez, o para actualizar en segundo plano, o cualquier combinación de estos. Una vez que elegimos lo que necesitamos, haga clic en Aceptarpara cerrar la ventana y continuar.
¡Eso es! Ahora puede realizar un seguimiento de los precios de las acciones, los puntajes deportivos o cualquier otro dato que cambie con frecuencia desde una hoja de cálculo de Excel. Si eres bueno con Ecuaciones y funciones de Excel, puedes hacer casi todo lo que quieras con los datos.
Tal vez intente identificar tendencias de acciones, administre una piscina de deportes de fantasía en el trabajo o simplemente haga un seguimiento del clima. ¿Quién sabe? Su imaginación y los datos disponibles en Internet son los únicos límites.