La Web profunda
Bright Planet, en un estudio denominado “The Deep web: Surfacing Hidden Value”, define la “Web profunda” como el conjunto de documentos existentes a los que no tienen acceso los motores de búsqueda convencionales.
Los motores de búsqueda utilizan herramientas de software denominadas “spiders” y “crawlers” para indexar nuevas páginas, lamentablemente todo lo que existe en la web no puede ser almacenado de forma correcta. De esta forma, quedan “afuera” universidades, centros de investigación y demás.
Cuando el “spider” llega a uno de estos sitios, solo indexa la página inicial y no se sumerge en el contenido, que sin duda es de mucha más utilidad.
A principio de año Yahoo! anunciaba que estaba trabajando en un Programa de Adquisición de Contenidos, un proyecto que le permitiría indexar los billones de documentos contenidos en bases de datos públicas. Con dicha finalidad, Yahoo había comenzado a trabajar en conjunto con la Universidad de California, La biblioteca del Congreso, la Universidad de Michigan y Proyecto Gutenberg entre otros, para comenzar a cimentar su index con material fresco y deseable para los internautas. De este programa, poco se supo después.
Sherman y Price -invisible-web.net- indican cuatro tipos de contenidos invisibles en la web, que denominan como la “Web opaca”, “la privada”, “la propietaria” y “la realmente invisible”:
La Web opaca se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están debido a razones de extensión de la indización.
La Web privada consiste de sitios que podrían estar indexados en los motores de búsqueda, pero que son excluidos en forma deliberada, porque las páginas están protegidas por contraseñas o porque contienen un campo “noindex” para no permitir que el motor de búsqueda vaya más allá.
La Web propietaria incluye páginas en las que es necesario registrarse para tener acceso al contenido, ya sea en forma gratuita o pagada.
La Web realmente invisible se compone de páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores.
Creo que algo “inteligente” para quienes tienen sitio de contenido pago o que requieran registros, seria darle “permiso” a los buscadores para indexar su contenido. De esta manera, el usuario no perdería resultados importantes en sus búsquedas. Si después quiere acceder a ellos deberá pagar o registrarse al sitio, dependiendo de cual sea el requerimiento del mismo.
Envia MENSAJES A CELULARES haciendo click acá. Gratis y sin registro
No comments yet. Be the first.
Leave a reply
