Blog KPMG Ciberseguridad

open search search

Blog KPMG Ciberseguridad

close
documentacion_580x191

El arte de la búsqueda de información (1ª parte)

Me gustaría inciar mi participación en este blog hablando sobre el noble arte de la búsqueda de información en Internet. Me diréis, !pero Juan Antonio, si buscar en Google es tremendamente sencillo!, ¿por qué es un arte?, pues bien, intentaré ilustraros en las siguientes líneas algunos de los secretos mejor guardados en Internet.

Comenzando por el principio de los principios, y orientando mis respuestas a todos los públicos, ¿qué es Internet? Pues bien, Internet no es más que un conjunto de servidores (ordenadores), que como su propio nombre indica, sirven información para ser consultada. ¡Estupendo!, ya tenemos un término muy importante, información. Pero cierto es que existen muchos tipos de información, y por supuesto, de servicios, y dependerá de las necesidades de cada entidad o persona, el darle una forma, color, tamaño, envergadura, etc. Ahora bien, ¿toda esa información existente en Internet es completamente accesible? Pues como en prácticamente todas las situaciones de la vida, añadir el adverbio “completamente” es muy complejo. En Internet hay una gran cantidad de información existente que es fácilmente accesible porque se encuentra referenciada en los buscadores tipo Google, o similar. Sin embargo hay una grandísima cantidad de información que se encuentra en la llamada Deep Web, o parte sumergida del iceberg. Esta información puede encontrarse en servidores accesibles vía IP, sin un dominio enlazado, o incluso con un dominio enlazado, pero que no ha sido recorrido aún por los crawlers de los buscadores (pequeños bots que recorren todas las páginas de Internet para cachearlas en sus bases de datos). También puede alojarse en la red TOR (de la que ya os hablaremos largo y tendido en próximos artículos) y para la que necesitaremos utilizar algunos navegadores especiales como Tor Browser para poder acceder a sus contenidos. Otra posibilidad es que en algún momento esa página haya sido referenciada en algún buscador, pero que haya sido denunciada por violar alguna ley, derechos de autor, etc. y hayan solicitado (por las buenas o por las malas) a las empresas que gestionan los buscadores que eliminen las referencias a las mismas de sus resultados de búsqueda.

Como véis, la información está. Lo difícil es encontrarla, por lo que… ¿es o no es un arte? Para poder localizarla hay que recurrir a distintas técnicas que nos permitirán buscarla de una manera rápida. Dichas técnicas suelen ser conocidas como Open Source Intelligence (OSINT por sus siglas en Inglés) o Inteligencia de fuentes abiertas, y suelen ser utilizadas por cuerpos policiales, con el fin de apoyarse en la búsqueda de información para la resolución de sus investigaciones, por empresas que quieren monitorizar lo bien o mal que se habla de sus marcas, productos, etc. También se utiliza de forma habitual para medir tendencias, localizar filtraciones de información, reclutar personal y monitorizar todo lo que se sepa de los mismos y un larguísimo etcétera.

Es importante reseñar que una información no es lo mismo que un dato. Los datos provienen de las OSD, siglas de Datos de Fuentes Abiertas, y son los datos de las fuentes primarias, como la prensa, la radio, las fotografías, los cds, pendrives, datos de un satélite, correo postal, etc. Datos que por sí solos no nos aportan ningún valor, pero que al relacionarlos entre sí y cruzar los datos existentes sobre un asunto, se convierten en información; esto es lo que se conoce como OSIF, o Información de Fuentes Abiertas. En este caso es necesario seleccionar, contrastar y validar la información. Por tanto, OSINT son las metodologías utilizadas para buscar información valorada, confrontada y difundida a una audiencia determinada para dar respuesta a una duda planteada.

Podemos aventurarnos a decir sin equivocarnos que OSINT no es recopilar enlaces y fragmentos de información encontrados en la red sin ton ni son, sino que hay por detrás una labor de análisis e inteligencia para poder convertir todos esos datos desestructurados en una respuesta para nuestras preguntas, que posiblemente finalicen en una decisión (más o menos importante, en función de la envergadura del proyecto).

Tal y como publicó Incibe el pasado año 2014, en Internet coexistimos la friolera de 2.500 millones de usuarios. Y muchos de ellos hacen uso de buscadores y redes sociales. Veamos unos números interesantes:

  • Google: 30 billones de páginas web (1.000 terabytes de información)
  • Facebook: 1.100 millones de usuarios, 50 millones de páginas y 240.000 millones de fotos.
  • Twitter: 230 millones de usuarios y 500 millones de tweets diarios.
  • Badoo: 175 millones de usuarios.
  • Tumblr: 175 millones de blogs y 50.000 millones de posts.
  • Flickr: 84 millones de usuarios y 8.000 millones de fotos.

Como veis la cantidad de información existente en Internet es tan ingente, que es prácticamente imposible buscar “todo” lo que nos interesa de forma sencilla y manual. Y eso sin contar que aproximadamente la mitad de Internet no es accesible de forma directa, por encontrarse en la parte oscura de Internet (como la famosa red TOR que nombramos por segunda vez en este post). Parece que el arte se nos empieza a convertir en una odisea…, pero estad tranquilos, que para (casi) todo en esta vida hay solución.

Al final el truco está en saber dónde buscar y cómo buscar, y aquí la experiencia es un grado. Si precisamos buscar en el Internet conocido, recurriremos a buscadores como Google o Bing, y a sus filtros de búsquedas avanzadas como por ejemplo, “Google Hacking”. Estas búsquedas avanzadas nos permitirán utilizar operadores de búsqueda como site, ext o inurl, para afinar los resultados de búsqueda, y localizar solo la información que queremos. Por poner un ejemplo, si quisiéramos buscar todos los documentos alojados en la web de KPMG en España, que se encuentren en formato PDF, y tengan en su url el texto “auditoria”, ejecutaríamos en Google una búsqueda como la siguiente: site:www.kpmg.com/ES/es/ ext:pdf inurl:auditoria

Sencillo y eficiente, ¿verdad? Pues imaginaros si esto lo automatizamos para poder buscar lo que nos interese, en tiempo real, y con un sistema de alertas para estar al tanto de todo lo que ocurre en Internet sobre aquellos puntos que más nos interesen. Supondría un ahorro en tiempo y recursos muy grande.

Además de los buscadores tipo Google o Bing, existen infinidad de sitios web que cuentan con buscadores propios, como por ejemplo las redes sociales, foros, blogs, etc. que cuentan con sus propios sistemas de búsqueda para localizar datos en sus respectivos sites, véase como ejemplo Twitter, Facebook o Instagram, entre otros.

También existen otros buscadores algo peculiares, orientados sobre todo a la identificación de activos como puedan ser una impresora, un servidor FTP o hasta una nevera inteligente (ahora que está de moda “el Internet de las Cosas”), tal es el caso de Shodan, un potente buscador de servicios publicados en la red.

En la parte menos clara de Internet existen otros buscadores algo más especiales que nos permitirán buscar en redes peer to peer, o incluso en la red TOR, como pueda ser el caso de Torch. La eficiencia de los buscadores en dicha red no es la misma que la que pueda tener Google, por la complejidad de la red que la conforma, ¡pero algo es algo!

Y no nos olvidemos de los clásicos chats e IRC, que desde el año 97 llevan comunicando a personas de todo el mundo y en cuyos logs se almacenan datos que podrían ser interesantes para dar respuestas a nuestras preguntas. Al final lo importante es conocer todas las redes y sistemas que pueden almacenar información, y buscar en todas ellas de la forma más automatizada e inteligente posible.

Desde KPMG llevamos varios años investigando metodologías y técnicas OSINT, y desarrollando el  sistema K-IT (KPMG Intelligence Tool), una potente solución de Vigilancia Digital, desde la que las empresas pueden obtener conocimiento recogiendo, procesando, evaluando y explotando la información que se encuentra en fuentes abiertas y de Internet, para transformarla en información de Negocio que permita la toma de decisiones a las organizaciones.

En mi próximo post seguiré profundizando en el arte de la búsqueda de información, y entraremos en harina en algunas de las redes que os hemos introducido en el presente artículo.

Deja un comentario


De conformidad con lo dispuesto en la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal, le informamos de que sus datos personales facilitados en el presente formulario serán incluidos en un fichero titularidad de KPMG, S.A. denominado “BLOG” con la finalidad de gestionar su participación en el mismo, siendo este tratamiento de datos de carácter obligatorio. En cualquier momento podrá ejercitar sus derechos de acceso, cancelación, rectificación y oposición, contactando con KPMG S.A. a través del correo electrónico ES-FMderechosarco@kpmg.es o por escrito dirigido al Departamento de Asesoría Jurídica de dicha empresa en la dirección: Paseo de la Castellana, 159 C, 28046 Madrid

* Para enviar el comentario, es preciso aceptar la política de Protección de Datos de Carácter Personal.