Al igual que los motores de búsqueda fichan palabras para crear un índice, los robots de los spammers rastrean la web a la caza de direcciones de correo electrónico. Las direcciones, por toneladas, se venden al mejor postor.
Los robots web son también conocidos como web wanderers, crawlers o spiders y son programas que funcionan a través de la red de manera automática. Los spammers pueden usar robots web para escanear en busca de direcciones email o para otros muchos usos, como obtener los precios más baratos de productos, viajes etc. Los buscadores como Google lo usan para indexar el contenido de las webs, mediante el rastreo que es el proceso en el cual el robot descubre páginas nuevas y actualizadas y las añade al índice de Google. El proceso del rastreo suele comenzar con una lista de URL´s de webs, que se genera a partir de rastreos anteriores y se amplía con los datos del sitemap que los desarrolladores web ofrecen.
El sitemap es un archivo de tipo XML en el que los programadores web incluyen una lista de páginas que les interesa que se indexen, con alguna información adicional como la frecuencia en la que la página cambia de contenidos o cuando fue su última actualización. Se recomienda habitualmente que este archivo «sitemap.xml» este situado en el root del sitio.
Algunas veces las indexaciones de este tipo de programas pueden generar sobrecarga en el sistema llegando incluso a provocar la caída del sistema, especialmente en aplicaciones web que tienen funcionan con bases de datos grandes o tienen de por si, una alta carga de servidor, ya sea por afluencia de usuarios o por procesos internos. El efecto de sobrecarga, generada por la llegada de robots que indexan muy rápidamente el sitio es conocido como Rapid Fire, generando cientos de conexiones por segundo.
Si quieres mas información sobre el tema puedes dirigirte al este link Robots de la Web