Conoce a tu enemigo:
Estadísticas

Analizando el pasado ... prediciendo el futuro

Traducción del texto: Know your enemy (Statistics), disponible en
Honeynet Project
http://www.honeynet.org/
Última modificación: 31 enero, 2003

Licencia de la traducción

Se da permiso para copiar, distribuir y/o modificar este documento bajo los términos de la Licencia Libre de Documentación GNU, versión 1.2 o cualquier versión posterior publicada por la Free Software Foundation (Fundación para el Software Libre); este documento no tiene secciones invariantes, textos de portada ni de contraportada. Se incluye una copia de dicha licencia en la sección titulada "Licencia de Documentación Libre GNU".


Durante los últimos años, el Honeynet Project ha ido recopilando y archivando información sobre la comunidad blackhat. Hemos intentado, tan bien como hemos podido, hacer logs y capturar cada intento, ataque, exploit que se han hecho contra nuestro Honeynet. Estos datos intactos tienen un potencial de gran valor. Decidimos compartir estos datos con la comunidad de seguridad y demostrar su importancia. Nos centraremos en dos áreas. Primero, intentaremos demostrar lo activa que la comunidad blackhat puede llegar a ser.  No estás seguro, sin importar quién seas. Nuestro objetivo es alertarte sobre este hecho. Segundo, probaremos el concepto de la Detección Temprana y la Predicción. Mediante la identificación de tendencias y métodos, puede ser posible predecir un ataque y reaccionar, días antes de que ocurra. Probaremos esta teoría utilizando los datos recogidos por el Honeynet Project.

Los Datos Recogidos
El Honeynet Project mantiene ocho redes IP altamente controladas y estrechamente monitorizadas. Hemos recogido y archivado todos los ataques a esta red durante un período de once meses, concretamente desde abril de 2000 hasta febrero de 2001. Esta Honeynet consistió en ocho direcciones IP, proporcionadas por una conexión RDSI simple de un PSI local. Este tipo de conexión es la misma que utilizan muchos usuarios en sus hogares y pequeñas empresas. De hecho, el Honeynet se ubicó en el dormitorio de uno de los miembros del proyecto. Durante aquel período de tiempo, normalmente existían de uno a tres sistemas dentro del Honeynet. Esos honeypots ejecutaban uno de los siguientes sistemas operativos; Solaris Sparc, WinNT, Win98, y Red Hat Linux.

La red Honeynet, la red utilizada para la captura de datos, es una red básica de sistemas operativos comunes, tales como Red Hat Linux o Windows NT, con una configuración por defecto. No se hizo ningún intento por difundir la presencia del Honeynet, ni para atraer a los atacantes. Teóricamente, este sitio debería ver muy poca actividad, ya que no publicamos ningún servicio ni sistema. No obstante, hubo ataques, y frecuentes.

 Lo que hace que los datos de un Honeynet sean aún más valiosos es la reducción tanto de falsos positivos como falsos negativos, ambos problemas comunes de la mayoría de las organizaciones. Los falsos positivos tienen lugar  cuando las organizaciones son alertadas de actividades maliciosas, cuando en realidad no hay nada que vaya mal. Cuando las organizaciones son avisadas repetidamente con falsos positivos, empiezan a ignorar sus sistemas de alerta y los datos que recogen, haciendo estos sistemas potencialmente inútiles. Por ejemplo, un Sistema de Detección de Intrusiones de correo alerta a los administradores de que un sistema está siendo atacado; puede que un exploit conocido haya sido detectado. Sin embargo, esta alerta pudo haber saltado erróneamente por el correo electrónico de un usuario que contiene un aviso sobre exploits conocidos, y que incluye el código fuente del ataque para informar a los administradores. O tal vez monitores de tráfico de red como SNMP o ICMP han puesto en marcha equivocadamente los mecanismos de alerta. Los falsos positivos con un reto constante para casi todas las organizaciones. Los Honeynet reducen este problema no teniendo ningún tráfico de producción real. Una Honeynet es una red que no tiene otro propósito que el de capturar actividades no autorizadas. Esto significa que cualquier paquete que entre o salga de una Honeynet es sospechoso por naturaleza. Esto simplifica el proceso de captura y análisis de datos, reduciendo los falsos positivos.

Los falsos negativos son otro reto que encaran la mayoría de las organizaciones. Los falsos negativos tienen lugar cuando no se detectan ataques reales o actividades no autorizadas. La mayoría de las organizaciones tienen mecanismos para detectar ataques, tales como Sistemas de Detección de Intrusiones, logs de Cortafuegos, logs de Sistema, y monitorización de procesos. El propósito de estas herramientas es el de detectar actividades sospechosas o no autorizadas. No obstante, hay dos desafíos principales que conducen a los falsos negativos, la sobrecarga de datos y las nuevas amenazas. La sobrecarga de datos ocurre cuando las organizaciones capturan tal cantidad de datos, que no todos pueden ser revisados, así que hay ataques que no se ven. Por ejemplo, muchas organizaciones registran Gigabytes de actividad del cortafuegos o del sistema. Es extremadamente difícil repasar toda esa información e identificar un comportamiento sospechoso. El segundo desafío son los nuevos ataques, amenazas de las que las organizaciones o el software de seguridad no están enterados. ¿Si el ataque es desconocido, cómo puede ser detectado? El Honeynet reduce los falsos negativos (la desaparición de ataques) capturando absolutamente todo lo que entra y sale del Honeynet. Recuerda, hay poca o ninguna actividad de producción dentro de un Honeynet. Esto significa que toda la actividad que se captura es probablemente sospechosa. Incluso si perdemos el ataque inicial, todavía tenemos capturada la actividad. Por ejemplo, un honeypot ha sido comprometido dos veces sin que los administradores del Honeynet hayan sido alertados en tiempo real. No detectamos el ataque con éxito hasta que los honeypots iniciaron las conexiones salientes. Una vez fueron detectados estos intentos, revisamos toda la actividad capturada, identificamos el ataque, cómo tuvo éxito, y por qué no lo vimos. Para propósitos de investigación, la ayuda de Honeynets reduce falsos negativos.

El valor de los datos que vas a revisar radica en que tanto los falsos negativos como los falsos positivos han sido dramáticamente reducidos. Ten presente, que los resultados que discutimos abajo son específicos de nuestra red; esto no significa que tu organización experimente los mismos patrones de tráfico o comportamiento. Hemos utilizado estos datos recogidos para demostrar la naturaleza de determinados blackhats, y el potencial de la Detección Temprana y la Predicción.

Analizar el Pasado
Durante la investigación de la comunidad blackhat, el Honeynet Project se asombró de lo activa que puede llegar a ser la comunidad blackhat. Los resultados asustan. Debajo hay alguna de las estadísticas que hemos identificado a partir de los datos que recogimos durante el período de once meses. El propósito de estas figuras es demostrar el comportamiento activo de la comunidad blackhat. Ten presente que estas estadísticas representan a una red casera de poco valor que ni fue anunciada ni usada para atraer blackhats. Organizaciones más grandes con más publicidad o valor, muy probablemente son sondeadas y atacadas en números mucho mayores.

Análisis posterior al ataque:

·         Entre abril y diciembre de 2000, siete instalaciones por defecto de servidores Red Hat 6.2 fueron atacados a los tres días de estar conectados a Internet. Según esto, estimamos la esperanza de vida de una instalación por defecto de un servidor Red Hat 6.2 en menos de 72 horas. La última vez que procuramos confirmar esto, el sistema fue comprometido en menos de ocho horas. El tiempo récord para comprometer un sistema fue de 15 minutos. Esto significa que el sistema fue escaneado, sondeado, y explotado durante los 15 minutos que llevaba conectado a Internet. Casualmente, este fue el primer honeypot que instalamos, en marzo de 1999.

·         Un equipo Windows98 fue instalado el 31 de octubre de 2000, con la opción de compartir activada, la misma configuración que se puede encontrar en muchos hogares y organizaciones. El honeypot fue comprometido en menos de veinticuatro horas. En los tres días siguientes fue comprometido con éxito otras cuatro veces. Esto hace un total de cinco ataques con éxito en menos días.

·         En mayo de 2000, el primer mes completo que archivamos las alarmas del Detector de Intrusiones Snort, el Honeynet registró 157 alarmas. En febrero de 2001, el Honeynet registró 1.398 alarmas del Snort, mostrando un crecimiento de más del 890%. Este aumento pudo verse afectado por modificaciones en el fichero de configuración del IDS Snort. Sin embargo, también se aprecia un incremento de la actividad en los registros del Cortafuegos. En mayo de 2000, el primer mes completo que archivamos las alarmas del cortafuegos, el cortafuegos del Honeynet registró 103 escaneos únicos (sin contar NetBios). En febrero de 2001, el Honeynet registró 206 escaneos únicos (sin contar NetBios). Esto representa un incremento del 100%. Estas cifras indican que la actividad blackhat ha continuado creciendo, muy probablemente como resultado de la aparición de herramientas de escaneo más agresivas y automáticas, y su creciente disponibilidad.

·         Durante un período de treinta días (20 de sep - 20 de oct de 2000), el Honeynet recibió 524 escaneos ÚNICOS de Netbios, a una media de 17 escaneos únicos de NetBios cada día.

·          En el mes de febrero de 2001, un total de 27 exploits X86 fueron lanzados contra el Honeynet. X86 significa que estos ataques fueron diseñados para sistemas de arquitectura Intel. De estos, 8 fueron lanzados contra un sistema Solaris Sparc. Estos exploits no funcionan contra un sistema Sparc, ya que la arquitectura del sistema no es compatible. Esto indica que algunos blackhats no se molestan en comprobar el sistema operativo o la versión del servicio que estás ejecutando. Algunos blackhats han pensado su proceso de escaneo para buscar simplemente un servicio específico. Si encuentran el servicio, lanzan el exploit sin ni siquiera comprobar primero si el sistema es vulnerable, o si es el sistema correcto. Esta aproximación activa permite a los blackhats escanear y explotar más sistemas en menos tiempo.

·         Desde abril de 2000 hasta hoy, los métodos de reconocimiento más populares, además del escaneo general, fueron solicitudes de versión de DNS, seguido por solicitudes a los servicios RPC.

·         El ataque más popular fue el desbordamiento asociado al rpc.statd para sistemas Intel.

·         El método más popular de escaneo detectado fue el escaneo SYN-FIN para buscar en un rango entero de IP puertos específicos (a menudo en orden secuencial). Esto refleja la táctica de concentrarse en una sola vulnerabilidad, y de escanear tantos sistemas como sea posible para encontrarla. Muchos blackhats usan sólo una herramienta o un exploit que sepan cómo utilizar, o sea el más efectivo.

Predecir el Futuro
Una de las áreas que el Honeynet se propone investigar es la  Detección Temprana y la Predicción. Es nuestro intento por dar más valor a los datos que el Honeynet recoge prediciendo ataques futuros. Esta teoría no es nueva y la persiguen importantes organizaciones. Esperamos que esta investigación beneficie a estas y otras organizaciones. Antes de explicar nuestra metodología, quisiéramos indicar que nuestra investigación todavía está en su infancia, y requiere más análisis.

Ahora, vamos a calificar esa declaración:

·         Estamos hablando de un sólo Honeynet, que ofrece la perspectiva de un sólo sensor, y trabaja con muy pocos datos. La metodología explicada debajo será pronto probada en un entorno empresarial, con múltiples Honeynets distribuidos alrededor del mundo.

·         No hemos intentado separar alertas del mismo atacante, simplemente por el excesivo uso del spoofing.

·         Trabajamos actualmente bajo la suposición de que una máquina primero es sondeada y después de esto atacada. Por supuesto, los dos eventos que tendemos a ver pueden en realidad no estar relacionados en absoluto, ser mera coincidencia. No obstante, realizamos el análisis siguiente bajo la premisa de que un atacante podría, como mínimo, reunir datos antes del ataque, y entonces comprobar de nuevo justo antes del ataque si el puerto seguía abierto... que es lo que vimos.

En un esfuerzo por predecir tendencias, dos miembros del Honeynet Project tomaron dos acercamientos distintos. Sin embargo, sus resultados fueron similares, casi todos los ataques se podían detectar dos o tres días antes de que ocurrieran.

Detección temprana utilizando Controles de Proceso Estadístico (SPC):

El primero era un análisis estadístico muy simple, similar a la metodología de control de procesos estadísticos utilizada en entornos industriales para medir defectos en ajustes de fábricas. Este método, aunque muy sencillo, demostró ser extremadamente eficaz a corto plazo (tres días o menos), avisando de ataques inminentes contra el Honeynet. El proceso básico funciona de la siguiente manera:

·         Analizamos registros del snort desde abril de 2000 hasta enero de 2001.

·         Para cada una de las diez primeras reglas de la lista del snort publicadas, calculamos el número de veces que cada regla era publicada cada día.

·         Después, calculamos el promedio móvil de tres días (3DMA) de cada regla publicada, y dibujamos en un gráfico de control el número de publicaciones de cada regla en cada día, y el del 3DMA.

·         Los límites de control fueron calculados obteniendo la desviación estándar del promedio sobre el período, y multiplicando 2 veces (límites de control 2-sigma).

·         Cuando el 3DMA estuviera por encima del límite de control 2-sigma, o si notáramos una ejecución (3 o más incrementos sin decrementos), era considerada como alerta.

Todos los cálculos se realizaron sin aviso previo de intentos o ataques con éxito. Sólo después de haber calculado la carta de control, eran dibujados los intentos y ataques con éxito en la línea de tiempo. Todos los datos están disponibles en el sitio de Honeynet. He aquí algunos de nuestros hallazgos:

1.       El Honeynet registró ocho ataques de exploit con éxito entre el 9 de abril de 2000 y el 31 de diciembre de 2000. Durante esta franja de tiempo, todos los ataques excepto uno tenían alarmas previas utilizando la metodología descrita arriba.

2.       Para toda la línea de tiempo, y cada ataque conocido, los 3DMAs por encima de los límites de control dieron 3 días de aviso para todo intento de ataque en todas las ocasiones excepto una, que nos dio 7 días de aviso. Técnicas simples de control de proceso estadístico revelaron un mínimo de 3 días de advertencia para cada ataque. Aquí hay algunos ejemplos específicos:

o        RPC: La actividad del RPC fue seguida durante 180 días (el día 1 empieza el 1 de abril de 2000). Entre los días 61 y 68, el 3DMA mostró una ejecución, o un movimiento ascendente en la carta, indicando una actividad anormal. El día 68, se apreció un intento de acceso usando el rpc.statd. De nuevo, el día 153, y 170, se notó una anormal cantidad de actividad en el puerto 111, seguida de una intrusión con éxito en el día 177, utilizando un desbordamiento del rpc.statd. Debajo hay una representación gráfica de este modelo, el eje X son los días del ejemplo, el eje Y es la frecuencia.

  

o        DNS/named: Los días 81-85 mostraron una actividad inusual por encima de los límites de control, con solicitudes al servicio named. El día 85, el servicio named fue atacado con éxito.

Validación mediante análisis de regresión y ARIMA:

La metodología del segundo se utilizó para validar los resultados del primero. Sentimos que podría ser un ejercicio útil echar un vistazo a la relación entre las violaciones de las reglas del RPC del snort y el número de días hasta que el sistema era comprometido.  Mientras un modelo de series de tiempo más apropiado estaba en marcha, se podía hacer una aproximación rápida y preliminar utilizando un modelo de regresión predictiva analizando la frecuencia del número de violaciones de las reglas de rpc en los días antes de que el sistema fuera comprometido.

La figura 1 debajo revela el número de días predicho hasta que el sistema es comprometido con el rpc.statd de este modelo. El eje horizontal representa la fecha, en días durante el tiempo de la muestra, desde 1-180. Los picos hacia abajo antes de el compromiso ocurrieron en el día 68. De nuevo, se aprecian tres “picos amenaza” negativos cerca del final del gráfico antes de que el sistema fuera comprometido por el mismo ataque rpc en el día 177. Aún no hemos confirmado qué representan los picos positivos, un análisis preliminar sugiere que son “momentos tranquilos” o períodos de relativa seguridad.

Aunque se debería advertir que existen algunos problemas estadísticos con el modelo - incluyendo una importante estadística de Durbin-Watson que sugiere que hay algunas auto correlaciones serias que necesitan ser eliminadas del modelo - el examen preliminar sugiere que hay métodos para alertar de un inminente ataque varios días antes de que tenga lugar. Un análisis de series de tiempo más sofisticado de estos datos en conjunción con otros datos podría ser lo más útil para el soporte en el futuro de la idea de la detección temprana.

Examinando Características de Señales de un Pre-Ataque usando un modelo ARIMA

Otra área de investigación es discernir entre las características de ciertos tipos de ataques y sondeos. Este segundo ejemplo viene de uno de los Equipos de Honeynet “Escaneo del Mes”. El gráfico debajo representa el número de escaneo de puertos durante 30 días. Una de las preguntas que nos gustaría contestar es, "cuál es el período de tiempo típico en el que un ataque, sondeos posteriores o un cese de actividad pueden ser observados" para varios comportamientos de sondeo y pre-ataque. En este caso, un modelo simple de series de tiempo ARIMA (Auto Regresión Integrada con Promedios Móviles) fue ajustado a los datos. ARIMA es un modelo básico utilizado en análisis de series de tiempo para observar los datos recogidos durante un período de tiempo. El gráfico debajo demuestra la frecuencia de escaneos del mes de noviembre.

 

Los resultados del modelo ARIMA aparecen en la tabla debajo. Esta tabla sugiere que una sesión de escaneo de puertos puede llevar hasta tres días antes que termine y otra fase de pre-ataque, el ataque o un cese de “hostilidades” ocurra. También sugiere que los 3 días de promedio móvil propuesto por nuestro equipo de estadísticos puede ser demasiado grande, y un promedio móvil de 2 días puede describir mejor al menos este tipo de ataque.

 

 

Para ambos análisis se debe apuntar que fueron dirigidos por un conjunto muy limitado y pequeño de datos.  Sin embargo, esto indica que análisis de grupos mayores de datos podrían en realidad producir resultados no tan triviales para ayudar a encontrar modelos estadísticos que pudieran crear “alertas de amenaza” de ataques previos al ataque en sí. Para probar más adelante estas teorías, nos proponemos desarrollar lo siguiente:

 

Animamos a la comunidad de seguridad a probar y desarrollar estas teorías y a realizar sus propios análisis estadísticos. Estamos especialmente interesados en cualquier otro tipo de análisis o en encontrar gente que pueda encontrarlos. Lo que hemos presentado aquí no es un análisis exhaustivo, más bien una investigación preliminar. Enlazados abajo están los datos recogidos y usados por el Honeynet Project. Estos datos representan once meses de datos, recogidos desde abril de 2000 hasta febrero de 2001. honeynet_data.tar.gz

Conclusión
Durante once meses el Honeynet Project ha procurado recoger todos los sondeos, ataques y exploits enviados contra él. Estos datos fueron luego analizados con dos finalidades. La primera era demostrar lo activa que la comunidad blackhat puede ser. Las cifras demuestran las amenazas hostiles que todos afrontamos. Recuerda, el Honeynet utilizado para recoger esta información no tenía sistemas de producción de valor, ni fue publicado ni usado para atraer atacantes. Si tu organización tiene algún valor, o si ha sido publicada de cualquier forma, estás expuesto a una amenaza aún mayor. La segunda era comprobar la teoría de la Detección Temprana y la Predicción. Creemos que hay la predicción de ataques tiene un gran potencial. Las Honeynets no son de ninguna manera el único método para recoger dichos datos, no obstante tienen la ventaja de reducir tanto falsos positivos como falsos negativos. Armados con la recolección de datos y análisis estadísticos, es posible que las organizaciones estén más preparadas contra la comunidad blackhat.

 

The Honeynet Project