Cómo encontrar páginas ocultas en sitios web
Gran parte de la información disponible en línea no es accesible mediante los motores de búsqueda, por lo que es necesario utilizar herramientas especiales, o investigar sitios web para encontrar estas páginas ocultas.
En 2016, Google gestionó más de 3200 billones de consultas de búsqueda, sin embargo, los resultados que el motor de búsqueda proporcionó representaban sólo una fracción del contenido disponible en línea. Gran parte de la información disponible en línea no es accesible mediante los motores de búsqueda, por lo que es necesario utilizar herramientas especiales, o investigar sitios web para encontrar estas páginas ocultas. Conocida como la deep web (web profunda), esta información oculta representa hasta 5.000 veces más de lo que está disponible utilizando las técnicas de búsqueda típicas.
Tipos de contenido oculto
Las páginas ocultas de los sitios web se dividen en categorías que describen por qué siguen siendo invisibles para los motores de búsqueda.
Algunas constituyen contenido dinámico, que se presenta sólo cuando un visitante emite una petición específica en un sitio web que utiliza un código basado en una base de datos para presentar resultados específicos. A modo de ejemplo, estas páginas podrían incluir resultados de compras basados en combinaciones específicas de criterios del producto. Los motores de búsqueda no están diseñados para rastrear y almacenar información en estas bases de datos. Para encontrar estas páginas, tendrías que ir al sitio web y buscar la información específica que se está buscando, o utilizar un servicio de búsqueda orientado a bases de datos como Bright Planet.
Algunas páginas no tienen enlaces que las conecten a fuentes de búsqueda. Los recursos temporales, como las múltiples versiones de los sitios web de subdesarrollo, pueden incluirse en esta categoría, al igual que los sitios web mal diseñados. Por ejemplo, si alguien creó una página web y la subió al servidor del sitio web pero no agregó un enlace a ella en las páginas actuales del sitio web, nadie sabría que está ahí, incluyendo los motores de búsqueda.
Todavía más páginas requieren credenciales de inicio de sesión para verlas o para acceder a ellas, como los sitios de suscripción. Los diseñadores web designan las páginas y secciones de los sitios como para quedar fuera de los límites de los motores de búsqueda, eliminando efectivamente su localización por medios convencionales. Para acceder a estas páginas, normalmente necesitas crear una cuenta antes de que se te otorgue permiso para acceder a ellas.
Uso de archivos robots.txt
Los motores de búsqueda rastrean las páginas de un sitio web e indexan su contenido para que pueda aparecer en respuesta a las consultas. Cuando el propietario de un sitio web desea excluir algunas partes de su dominio de estos procedimientos de indexación, agrega las direcciones de estos directorios o páginas a un archivo de texto especial llamado robots.txt, almacenado en la raíz de su sitio. Dado que la mayoría de los sitios web incluyen un archivo robots independientemente de si añaden o no exclusiones, puedes utilizar el nombre predecible del documento para mostrar su contenido.
Si escribes el "[nombre de dominio]/robots.txt" sin las comillas en la barra de direcciones de tu navegador sustituyendo el "[nombre de dominio]" por la dirección del sitio, el contenido del archivo de robots aparecerá a menudo en la ventana del navegador después de pulsar la tecla "Intro". Las entradas precedidas de "disallow" o "nofollow" representan partes del sitio que permanecen inaccesibles a través de un motor de búsqueda.
Hazlo tu mismo: hackeo de sitios web
Además de los archivos robot.txt, a menudo puedes encontrar contenido oculto escribiendo direcciones web para páginas y carpetas específicas en tu explorador web. Por ejemplo, si estabas mirando el sitio web de un artista y notaste que cada página usaba la misma convención de nombres –como gallery1.html, gallery2.html, gallery4.html– entonces puedes encontrar una galería oculta escribiendo la página "gallery3.html" en tu navegador web.
Del mismo modo, si ves que el sitio web utiliza carpetas para organizar páginas —como example.com/content/page1.html, con "/content" como su carpeta— entonces quizás podrás ver la carpeta en sí tecleando el sitio web y la carpeta, sin una página, como "example.com/content/" en tu navegador web. Si no se ha desactivado el acceso a la carpeta, es posible que puedas navegar por las páginas que contiene, así como por las páginas de cualquier subcarpeta para encontrar contenido oculto.
Este artículo fue realizado con la ayuda de itstillworks.com
Referencias
- Statisticbrain: estadísticas anuales de búsqueda de Google
- Biblioteca UC Berkeley: Web invisible o profunda: qué es, cómo encontrarla y su ambigüedad inherente
- The New York Times: Explorando una 'web profunda' que Google no puede captar
- Nielsen Norman Group: Los 10 errores más importantes de arquitectura de la información (IA)
- Descarga de contenido Web oculto: Alexandros Ntoulas et al.
- brightplanet.com: Deep Web: Un Primer vistazo