Remix de embeddings con Google Search Console
Buenas a todos, estuve mixeando algunos temas de embeddings con Search Console que hace lo siguiente 1. Crear un mapa entre cada URL y todas las consultas para las cuales se posiciona. 2. Extraer el título, contenido y encabezados de cada URL utilizando Trafilatura (combinado con la biblioteca requests para enmascarar el user agent). 3. Extraer los embeddings para cada uno de estos tres elementos (título, contenido y encabezados). 4. Extraer los embeddings para cada palabra clave para la cual la URL se posiciona. 5. Obtener un DataFrame que muestre la similaridad de coseno para cada URL con respecto a cada palabra clave para la cual se posiciona según GSC, analizando título, contenido y encabezados. Esta bueno para pensar optimizaciones de contenidos evergreen en base a las queries que tienen muchas impresiones y pocos clicks. Despues se puede sacar un promedio de similarity entre los 3 elementos y clusterizar en low, medium y high entonces si ves por ejemplo que hay un cluster de queries con muchas impresiones y estan en el cluster de similarity medium es una oportunidad rapida de optimizacion porque no estas tan lejos del 1 https://www.linkedin.com/feed/update/urn:li:activity:7232119504783241217/