Experimento: Scraping de empresas + Excel + Web autom谩tica + Spam en Twitter (parte 2)

Continuamos con la ejecuci贸n del experimento donde lo dejamos en la primera parte, el scraping de empresas.

Scraping de datos de empresas

Para conseguir los datos de empresas he optado por scrapear el que creo mayor directorio a nivel nacional, no voy a mencionar cu谩l es, no tiene mayor importancia, aunque supongo que puedes imaginar a qu茅 “p谩ginas” me refiero.

Como en todo directorio, los datos est谩n segmentados, en este caso por poblaciones y sectores de actividad. Como para mi experimento no requer铆a de un tipo de empresas en particular ni de una zona en concreto, he scrapeado datos a lo bruto.

Para “raspar” los datos he utilizado Screaming Frog, aunque tambi茅n pod铆a haberlo hecho con Scrapebox o con SeoTools for Excel. Y finalmente no he utilizado proxies y tampoco los habr铆a necesitado, no he tenido baneos de IP durante el scraping.

En total, el proceso de scraping ley贸 85000 URLs del sitio web, de las cuales 25000 eran fichas de empresas, aunque muchas de las URLs estaban duplicadas (por par谩metros).

Obtenci贸n de los datos necesarios para el experimento

Voy a explicar lo que en un primer momento se me vino a la cabeza realizar y despu茅s te cuento lo que finalmente he decidido hacer.

En las fichas de las empresas en el scrapeo, muchas incluyen la direcci贸n de su p谩gina web. Quer铆a montar una landing page en la que la empresa pudiera comprobar que su sitio web no estaba preparado para la visualizaci贸n en dispositivos m贸viles para, en la misma landing, ofrecer el redise帽o sencillo de la web bajo WordPress y una plantilla responsive sencilla a un precio asequible.

Una de las (tropecientas mil) funcionalidades de SeoTools for Excel es comprobar si una URL est谩 optimizada para m贸viles, con lo cu谩l podr铆a haber filtrado la empresas que hubieran dado negativo en la prueba:

Prueba de optimizaci贸n para m贸viles con SeoTools for Excel

Y luego, creo que hubiera quedado algo muy currado, a帽adiendo un enlace (personalizado) generado autom谩ticamente a la prueba de optimizaci贸n para m贸viles de Google de este modo:

https://search.google.com/test/mobile-friendly?hl=ES&url=direccion-de-la-pagina-web-de-la-empresa

Y a帽adiendo tambi茅n una captura de su p谩gina web vista por un agente de usuario m贸vil. Esto lo podr铆a haber hecho con la herramienta聽https://urlbox.io, que tiene un plan gratuito de 7 d铆as y 1500 peticiones. Como adem谩s tiene un plugin para WordPress, podr铆a haber automatizado la creaci贸n de las capturas en cada landing page.

Creo que este experimento ten铆a un gran valor de cara al usuario (empresa) impactado.

El caso es que, por un momento imagin茅 que tuviera relativo 茅xito y me empezaran a llegar solicitudes para redise帽ar esas webs, as铆 que pens茅 algo m谩s simple.

Avisar de que la web de la empresa no es segura porque no tiene un certificado SSL.

Tambi茅n con SeoTools for Excel, he comprobado de manera masiva la respuesta HTTP de cada sitio web, algunos ya devolv铆an una redirecci贸n a HTTPS que, junto con las empresas que ya informaban de una web con SSL, fueron eliminadas del total de empresas.

Con esto ya ten铆a una lista bastante amplia, pero faltaba el 煤ltimo paso: conseguir la cuenta de Twitter de cada una de esas empresas. SeoTools de nuevo al rescate con otra de sus opciones, scraping de perfiles de Twitter en una URL:

Scraping de cuentas de Twitter con SeoTools for Excel

Ahora s铆, ya ten铆a 782 empresas cuya p谩gina web no tiene implementado el certificado SSL y con presencia en Twitter, fundamental para poder hacerles una menci贸n y poder llamar su atenci贸n.

Siguiente paso, montar la web.

Montando webseguraconssl.online

Llegados a este punto ya puedo contar sobre qu茅 dominio he montado el experimento que, como no pod铆a ser de otra manera, hace menci贸n directa al asunto: https://webseguraconssl.online

Como no se trata de un experimento de posicionamiento, tiene capado el rastreo y la indexaci贸n, el 煤nico fin es que las empresas vean el tweet mencion谩ndoles y entren en su landing.

Para montar la web he tirado de Elementor con Twenty Seventeen, el tema por defecto de WordPress.

Con Page Generator Pro, que adem谩s es compatible con Elementor, he creado la landing page que incluir谩 los datos de cada empresa: su nombre, su web y su cuenta de Twitter.

Para el t铆tulo he creado un spintax para que al publicarse los tweets mencionando las cuentas de las empresas, 茅stos sean lo m谩s variados posibles, intentando evitar el baneo por parte de Twitter.

Generaci贸n autom谩tica de entradas con Page Generator Pro

He programado las entradas para publicarse cada hora por lo que, si todo va bien, la 煤ltima se publicar谩 en aproximadamente 1 mes. Todas con su correspondiente tweet-menci贸n gracias a JetPack (plugin que permite lanzar un tweet en el mismo momento de publicar un post).

脡ste es el resultado de la landing page:

Landing page del experimento

S铆, ya se que podr铆a haberme esforzado m谩s, pero para el experimento es suficiente. Como puedes ver, ofrezco 2 opciones: la opci贸n recomendada 馃槈 enlace de afiliado a SiteGround y, por otro lado, contratar la implementaci贸n del certificado SSL por 99鈧 a un profesional (ejem… yo mismo). ACTUALIZACI脫N: Solo ofrezco el enlace de afiliado, la raz贸n puedes leerla en el primer comentario, hay personas que se han ofendido y como ni mucho menos es lo que pretendo (ni ganarme 99鈧) he eliminado esa opci贸n de las landing pages. Ahora bien, la migraci贸n hacia SiteGround, un hosting de calidad contrastada y con certificado SSL gratuito creo que no es ninguna “estafa” 驴no?

En el improbable caso de que me llegasen leads interesados solo aceptar茅 los que tengan su web en WordPress con lo que la migraci贸n a SSL es relativamente sencilla con la instalaci贸n del plugin Really Simple SSL.

Cuenta de Twitter que publicar谩 las menciones

La cuenta de Twitter asociada al experimento es @WebSeguraConSSL, que ya est谩 lanzando los primeros tweets:

Tweet ejemplo del experimento de scraping de empresas

Y poco m谩s… de momento.

Evoluci贸n y desenlace del experimento

Eso ya lo explicar茅 en la que ser谩 la 煤ltima parte del proyecto, el an谩lisis y resultados conseguidos, de aqu铆 a un mes.

Como ya dije en la primera parte, no persigo que tenga 茅xito en cuanto a contrataciones para implementar el SSL (aunque a 煤ltima hora met铆 los enlaces de afiliado de SiteGround esperando que caiga alguna comisi贸n). Lo que quiero comprobar es si las empresas sienten curiosidad al mencionarlas en Twitter, y c贸mo reacciona 茅ste ante el SPAM, a ver si he sido muy agresivo con la autopublicaci贸n cada hora de un tweet casi repetitivo.

Experimento: Scraping de empresas + Excel + Web autom谩tica + Spam en Twitter (parte 2)
4.6 (91.11%) 18 votos

15 comentarios en “Experimento: Scraping de empresas + Excel + Web autom谩tica + Spam en Twitter (parte 2)

  1. Vamos que dicho de otro modo, eres un farsante que no tiene ni idea de hacer migraciones ni de gestionar servidores, pero clavas 99鈧. Y s铆, yo soy el encargado de marketing de una de esas empresas a las que has mencionado en Twitter.

    Este comentario no saldr谩 a la luz porque no lo aprobar谩s, pero al menos te dar谩s cuenta de que no somos bobos los que estamos al otro lado.

    • Hola RedNowir,

      Como ves, he aprobado tu comentario, faltar铆a m谩s. Entiendo que el experimento pueda generar cierta pol茅mica.

      No me tengo como un farsante la verdad, como he recalcado varias veces tanto en la primera parte del post como en 茅sta, ni siquiera busco las contrataciones que, en caso de caer, tampoco considero descabellado que cobrar 99鈧 est茅 alejado de ser un coste normal e incluso dir铆a que es low-cost. Pero, vamos esto de los precios en los servicios es taaaaannn subjetivo…

      En cualquier caso, te pido disculpas si en algo puede ofender el contenido o la realizaci贸n de este experimento.

      A脩ADO: He eliminado la parte de contrataci贸n por los 99鈧, para eliminar cualquier sospecha. ESTO SOLO ES UN EXPERIMENTO.

  2. Hola Fede,
    Soy David, de Conectart. Hablamos hace meses para colaborar en alg煤n currillo, pero al final no cuaj贸. Te pongo esto para que me ubiques. 馃檪
    A diferencia del anterior comentario, yo quiero ponerte expresamente, que me ha encantado tu post. Me encanta lo que has pensado y como lo has resuelto, la verdad. Yo soy mucho tambi茅n de automatizar, y de hecho estoy con dos proyectos de automatizaci贸n de webs con unos miles de urls, pero el tuyo, de verdad que me ha encantado. Me vas a tener pensando unos d铆as con lo que has hecho.
    Un saludo
    David

  3. Buaaaaa, como mola.馃槀
    Felicidades por el experimento, ha estado muy bien, y demuestra que con un poco de ingenio se puede llevar a muchos campos.
    Yo lo 煤nico que hubiera cambiado es, poner afiliados de todos los hostings que conozca, en plan comparativa.Dime bruto, pero as铆 seguro que alguno cae 馃槅馃槅馃槅

  4. Buen铆simo el experimento.
    Llegu茅 al post por desde el Telegram sabandijer, y me encanta lo que has hecho ac谩.
    Incre铆ble la tontada del “encargado de marketing” del primer comentario, me imagino que le hizo mucha ilusi贸n la menci贸n en twitter, y al darse cuenta que fue un robot, se mosqueo. Pero bueno…, cada cual es libre de ofenderse de lo que le venga en gana, jajajjaa.
    Me das par de ideas para hacer algunas cositas, que b谩sicamente replican el experimento, pero ajustando algunas cosas. Si finalmente lo hago, lo contar茅 en mi blog, que es nuevito, pero lo estoy cuidando bastante.
    Un saludo sabandijer.

    • Gracias Carlos. Yo entiendo en cierto modo que se molestara, pero creo que queda bastante claro que es un experimento y como tal lo deber铆a haber tratado, sin m谩s.

Deja un comentario

 Acepto la pol铆tica de privacidad