Experimento: Scraping de empresas + Excel + Web automática + Spam en Twitter (parte 2)

Continuamos con la ejecución del experimento donde lo dejamos en la primera parte, el scraping de empresas.

Scraping de datos de empresas

Para conseguir los datos de empresas he optado por scrapear el que creo mayor directorio a nivel nacional, no voy a mencionar cuál es, no tiene mayor importancia, aunque supongo que puedes imaginar a qué “páginas” me refiero.

Como en todo directorio, los datos están segmentados, en este caso por poblaciones y sectores de actividad. Como para mi experimento no requería de un tipo de empresas en particular ni de una zona en concreto, he scrapeado datos a lo bruto.

Para “raspar” los datos he utilizado Screaming Frog, aunque también podía haberlo hecho con Scrapebox o con SeoTools for Excel. Y finalmente no he utilizado proxies y tampoco los habría necesitado, no he tenido baneos de IP durante el scraping.

En total, el proceso de scraping leyó 85000 URLs del sitio web, de las cuales 25000 eran fichas de empresas, aunque muchas de las URLs estaban duplicadas (por parámetros).

Obtención de los datos necesarios para el experimento

Voy a explicar lo que en un primer momento se me vino a la cabeza realizar y después te cuento lo que finalmente he decidido hacer.

En las fichas de las empresas en el scrapeo, muchas incluyen la dirección de su página web. Quería montar una landing page en la que la empresa pudiera comprobar que su sitio web no estaba preparado para la visualización en dispositivos móviles para, en la misma landing, ofrecer el rediseño sencillo de la web bajo WordPress y una plantilla responsive sencilla a un precio asequible.

Una de las (tropecientas mil) funcionalidades de SeoTools for Excel es comprobar si una URL está optimizada para móviles, con lo cuál podría haber filtrado la empresas que hubieran dado negativo en la prueba:

Prueba de optimización para móviles con SeoTools for Excel

Y luego, creo que hubiera quedado algo muy currado, añadiendo un enlace (personalizado) generado automáticamente a la prueba de optimización para móviles de Google de este modo:

https://search.google.com/test/mobile-friendly?hl=ES&url=direccion-de-la-pagina-web-de-la-empresa

Y añadiendo también una captura de su página web vista por un agente de usuario móvil. Esto lo podría haber hecho con la herramienta https://urlbox.io, que tiene un plan gratuito de 7 días y 1500 peticiones. Como además tiene un plugin para WordPress, podría haber automatizado la creación de las capturas en cada landing page.

Creo que este experimento tenía un gran valor de cara al usuario (empresa) impactado.

El caso es que, por un momento imaginé que tuviera relativo éxito y me empezaran a llegar solicitudes para rediseñar esas webs, así que pensé algo más simple.

Avisar de que la web de la empresa no es segura porque no tiene un certificado SSL.

También con SeoTools for Excel, he comprobado de manera masiva la respuesta HTTP de cada sitio web, algunos ya devolvían una redirección a HTTPS que, junto con las empresas que ya informaban de una web con SSL, fueron eliminadas del total de empresas.

Con esto ya tenía una lista bastante amplia, pero faltaba el último paso: conseguir la cuenta de Twitter de cada una de esas empresas. SeoTools de nuevo al rescate con otra de sus opciones, scraping de perfiles de Twitter en una URL:

Scraping de cuentas de Twitter con SeoTools for Excel

Ahora sí, ya tenía 782 empresas cuya página web no tiene implementado el certificado SSL y con presencia en Twitter, fundamental para poder hacerles una mención y poder llamar su atención.

Siguiente paso, montar la web.

Montando webseguraconssl.online

Llegados a este punto ya puedo contar sobre qué dominio he montado el experimento que, como no podía ser de otra manera, hace mención directa al asunto: https://webseguraconssl.online

Como no se trata de un experimento de posicionamiento, tiene capado el rastreo y la indexación, el único fin es que las empresas vean el tweet mencionándoles y entren en su landing.

Para montar la web he tirado de Elementor con Twenty Seventeen, el tema por defecto de WordPress.

Con Page Generator Pro, que además es compatible con Elementor, he creado la landing page que incluirá los datos de cada empresa: su nombre, su web y su cuenta de Twitter.

Para el título he creado un spintax para que al publicarse los tweets mencionando las cuentas de las empresas, éstos sean lo más variados posibles, intentando evitar el baneo por parte de Twitter.

Generación automática de entradas con Page Generator Pro

He programado las entradas para publicarse cada hora por lo que, si todo va bien, la última se publicará en aproximadamente 1 mes. Todas con su correspondiente tweet-mención gracias a JetPack (plugin que permite lanzar un tweet en el mismo momento de publicar un post).

Éste es el resultado de la landing page:

Landing page del experimento

Sí, ya se que podría haberme esforzado más, pero para el experimento es suficiente. Como puedes ver, ofrezco 2 opciones: la opción recomendada 😉 enlace de afiliado a SiteGround y, por otro lado, contratar la implementación del certificado SSL por 99€ a un profesional (ejem… yo mismo). ACTUALIZACIÓN: Solo ofrezco el enlace de afiliado, la razón puedes leerla en el primer comentario, hay personas que se han ofendido y como ni mucho menos es lo que pretendo (ni ganarme 99€) he eliminado esa opción de las landing pages. Ahora bien, la migración hacia SiteGround, un hosting de calidad contrastada y con certificado SSL gratuito creo que no es ninguna “estafa” ¿no?

En el improbable caso de que me llegasen leads interesados solo aceptaré los que tengan su web en WordPress con lo que la migración a SSL es relativamente sencilla con la instalación del plugin Really Simple SSL.

Cuenta de Twitter que publicará las menciones

La cuenta de Twitter asociada al experimento es @WebSeguraConSSL, que ya está lanzando los primeros tweets:

Tweet ejemplo del experimento de scraping de empresas

Y poco más… de momento.

Evolución y desenlace del experimento

Eso ya lo explicaré en la que será la última parte del proyecto, el análisis y resultados conseguidos, de aquí a un mes.

Como ya dije en la primera parte, no persigo que tenga éxito en cuanto a contrataciones para implementar el SSL (aunque a última hora metí los enlaces de afiliado de SiteGround esperando que caiga alguna comisión). Lo que quiero comprobar es si las empresas sienten curiosidad al mencionarlas en Twitter, y cómo reacciona éste ante el SPAM, a ver si he sido muy agresivo con la autopublicación cada hora de un tweet casi repetitivo.

ACTUALIZACIÓN (16/11/2018)

Hace tiempo que tenía pendiente actualizar esto…

No habrá tercera parte, ni análisis, ni nada por el estilo…

Paré el experimento porque tenía dudas acerca del riesgo que suponía ir contra la RGPD, LSSI,… De hecho se produjo un debate bastante interesante en Twitter, con distintos puntos de vista como no podía ser de otra manera:

El caso es que no me merecía la pena correr el riesgo contra el beneficio que podía obtener, ya dije que la landing que monté no creo que tuviera buena conversión, así que cancelé el experimento.

Experimento: Scraping de empresas + Excel + Web automática + Spam en Twitter (parte 2)
4.6 (91.11%) 18 votos

17 comentarios en “Experimento: Scraping de empresas + Excel + Web automática + Spam en Twitter (parte 2)

  1. Vamos que dicho de otro modo, eres un farsante que no tiene ni idea de hacer migraciones ni de gestionar servidores, pero clavas 99€. Y sí, yo soy el encargado de marketing de una de esas empresas a las que has mencionado en Twitter.

    Este comentario no saldrá a la luz porque no lo aprobarás, pero al menos te darás cuenta de que no somos bobos los que estamos al otro lado.

    • Hola RedNowir,

      Como ves, he aprobado tu comentario, faltaría más. Entiendo que el experimento pueda generar cierta polémica.

      No me tengo como un farsante la verdad, como he recalcado varias veces tanto en la primera parte del post como en ésta, ni siquiera busco las contrataciones que, en caso de caer, tampoco considero descabellado que cobrar 99€ esté alejado de ser un coste normal e incluso diría que es low-cost. Pero, vamos esto de los precios en los servicios es taaaaannn subjetivo…

      En cualquier caso, te pido disculpas si en algo puede ofender el contenido o la realización de este experimento.

      AÑADO: He eliminado la parte de contratación por los 99€, para eliminar cualquier sospecha. ESTO SOLO ES UN EXPERIMENTO.

  2. Hola Fede,
    Soy David, de Conectart. Hablamos hace meses para colaborar en algún currillo, pero al final no cuajó. Te pongo esto para que me ubiques. 🙂
    A diferencia del anterior comentario, yo quiero ponerte expresamente, que me ha encantado tu post. Me encanta lo que has pensado y como lo has resuelto, la verdad. Yo soy mucho también de automatizar, y de hecho estoy con dos proyectos de automatización de webs con unos miles de urls, pero el tuyo, de verdad que me ha encantado. Me vas a tener pensando unos días con lo que has hecho.
    Un saludo
    David

  3. Buaaaaa, como mola.?
    Felicidades por el experimento, ha estado muy bien, y demuestra que con un poco de ingenio se puede llevar a muchos campos.
    Yo lo único que hubiera cambiado es, poner afiliados de todos los hostings que conozca, en plan comparativa.Dime bruto, pero así seguro que alguno cae ???

  4. Buenísimo el experimento.
    Llegué al post por desde el Telegram sabandijer, y me encanta lo que has hecho acá.
    Increíble la tontada del “encargado de marketing” del primer comentario, me imagino que le hizo mucha ilusión la mención en twitter, y al darse cuenta que fue un robot, se mosqueo. Pero bueno…, cada cual es libre de ofenderse de lo que le venga en gana, jajajjaa.
    Me das par de ideas para hacer algunas cositas, que básicamente replican el experimento, pero ajustando algunas cosas. Si finalmente lo hago, lo contaré en mi blog, que es nuevito, pero lo estoy cuidando bastante.
    Un saludo sabandijer.

    • Gracias Carlos. Yo entiendo en cierto modo que se molestara, pero creo que queda bastante claro que es un experimento y como tal lo debería haber tratado, sin más.

Deja un comentario

 Acepto la política de privacidad