Evaluación de algoritmos de fuzzy hashing para similitud entre procesos

Una función de hash criptográfico recibe una entrada de datos y genera una cadena de caracteres de tamaño fijo. Este tipo de funciones son idóneas para sistemas que confían en la criptografía para satisfacer aspectos de seguridad como la integridad de los datos. Las funciones de hash criptográfico se apoyan en el efecto cascada, que provoca que un pequeño cambio en la entrada genere un desajuste en la salida. Por tanto, estas funciones sirven para detectar alteraciones indeseadas en la entrada de datos.

Este trabajo se centra en un subconjunto de funciones de hash conocidas como funciones o algoritmos de fuzzy hash, que tratan de evitar este efecto cascada. En su lugar, satisfacen que un cambio (no demasiado grande) en la entrada se verá reflejado en la salida, aunque guardará cierto porcentaje de similitud con el hash de la entrada original. Este tipo de funciones son comúnmente utilizadas en el ámbito de Internet para identificar plagios o como sistema de detección de spam. Se van a considerar 4 familias o tipos distintos de algoritmos de fuzzy hashing: Context Triggered Piecewise Hashing, Statistically-Improbable Features, Block-Based Rebuilding, Block-Based Hashing y Locality-Sensitive Hashing.

En este trabajo se va a desarrollar una herramienta integrada en el framework de análisis de memoria forense Volatility con el fin de evaluar la utilidad de estas funciones en la detección de similitudes entre procesos. Este área de estudio es muy importante a la hora de discernir si procesos en ejecución de una máquina supuestamente comprometida son legítimos o no.

Se van a evaluar procesos de sistema, software de usuario y malware en máquinas Windows 7 y Windows 10 de 32 y 64 bits. Los experimentos realizados muestran que el algoritmo de la familia Block-Based Hashing considerado (dcfldd) obtiene los mejores resultados a la hora de localizar similitudes entre procesos. Por último, conviene destacar que los resultados de la muestra de malware analizada no son tan buenos como en el resto de software evaluado.

Más información: Memoria TFG, presentación.
Alumno: Iñaki Abadía Osta

Comments are closed.