Acusan Nuevamente a Perplexity de Extraer Datos de Sitios Web sin Permiso

El motor de búsqueda Perplexity es acusado de escanear sitios web sin consentimiento.

Perplexity escanea sitios web sin consentimiento
Perplexity escanea sitios web sin consentimiento

Recientemente han descubierto que los rastreadores web implementados por Perplexity para escanear sitios web supuestamente se están saltando las restricciones, así lo ha informado recientemente Cloudflare. Este informe arroja que los bots de la compañía parecen estar rastreando sitios web disimuladamente, ocultando su identidad para evadir archivos robots.txt y los firewall.

Para los pocos conocedores, los archivos Robots.txt ubicados en la raíz del sitio web, estable que bots son permitidos y cuales no. Sin embargo, los bots de Perplexity llamados «PerplexityBot» y «Perplexity-User», han logrado escanear sitios web en los que no estaban permitidos, así lo ha confirmado Cloudflare. Incluso, este comportamiento también se extendió a sitios web con reglas específicas de firewall de aplicaciones web (WAF) que restringían los rastreadores web.

Perplexity escanea sitios web sin consentimiento
Perplexity escanea sitios web sin consentimiento

Cloudflare confirma que Perplexity sigue rastreando sitios web sin consentimiento

De hecho, Cloudflare cree que Perplexity esquiva estos bloqueos utilizando un navegador genérico que imita a Google Chrome en macOS cuando robots.txt prohíbe sus bots habituales. En las pruebas de la plataforma, el rastreador no declarado de la compañía también pudo rotar direcciones IP no incluidas en el rango oficial de IP de Perplexity para superar los firewalls.

Cloudflare afirma que Perplexity parece estar haciendo lo mismo con los números de sistema autónomo (ASN), un identificador de direcciones IP operado por la misma empresa, y afirma haber detectado que el rastreador cambiaba de ASN en decenas de miles de dominios y millones de solicitudes al día.

Por otro lado, la información actualizada de los sitios web es vital para las empresas que entrenan modelos de IA, especialmente porque servicios como esta plataforma impulsada por IA se utilizan como sustitutos de los motores de búsqueda.

Dicho motor también ha sido descubierto en el pasado eludiendo las normas para mantenerse actualizado. Muchos sitios web han informado el año pasado que Perplexity seguía accediendo a su contenido a pesar de haberlo prohibido en robots.txt, algo que la empresa atribuyó a los rastreadores web de terceros que utilizaba en ese momento.

Actualmente, Perplexity se asoció con varios editores para compartir los ingresos obtenidos de los anuncios mostrados junto a su contenido, aparentemente como compensación por su comportamiento anterior.

Impedir que las empresas copien contenido de la web probablemente seguirá siendo un juego de lógica. Mientras tanto, Cloudflare ha eliminado los bots de este motor de su lista de bots verificados e implementado un método para identificar y bloquear el acceso del rastreador oculto de Perplexity al contenido de sus clientes.

¿Se trata de una simple estrategia técnica o una clara invasión a la privacidad de los sitios web? – Déjanos tu opinión en los comentarios de este artículo. 

Ver también:
Soy Ingeniero Informático desde 2005 pero mi pasión hacia la informática viene desde mucho antes. Empecé con Windows 3.1 y luego salte a 95 y desde entonces soy un apasionado a los sistemas operativos. El software, el hardware y los adelantos tecnológicos son mi día a día.