El alumno Iñaki Velez de Mendizabal Gonzalez obtuvo la calificación SOBRESALIENTE con mención en ‘DOCTORADO INTERNACIONAL’

Atrás

El alumno Iñaki Velez de Mendizabal Gonzalez obtuvo la calificación SOBRESALIENTE con mención en ‘DOCTORADO INTERNACIONAL’

TESIS

El alumno Iñaki Velez de Mendizabal Gonzalez obtuvo la calificación SOBRESALIENTE con mención en ‘DOCTORADO INTERNACIONAL’

19·07·2022

$titulo.getData()


Título de tesis: "Dimensionality reduction for the improvement of anti-spam filters."

Tribunal:

  • Presidencia: Octavian Adrian Postolache (ISCTE)
  • Vocalía: Iryna Yevseyeva (University of De Montfort)
  • Vocalía: José Mª Gómez Hidalgo (TIBCO SOFTWARE)
  • Vocalía: Ekhi Zugasti Uriguen (Mondragon Unibertsitatea)
  • Secretaría: Iñaki Garitano Garitano (Mondragon Unibertsitatea)

Resumen:

Actualmente el spam representa cerca del 45% del tráfico mundial de emails. En los últimos años las técnicas de filtrado para combatir el spam han sido objeto de innumerables estudios. Se han probado distintas soluciones combinando aspectos legales, administrativos y técnicos. Desde el punto de vista técnico, la combinación de técnicas de filtrado basadas en tokens y técnicas de filtrado basadas en contenidos han traído mejoras poco significativas en las tasas de clasificación del spam. Debido a las limitadas mejoras conseguidas con estas estrategias, se han desarrollado nuevos esquemas de representación del conocimiento (como las representaciones vectoriales, temas o synsets). El usar synsets para representar el significado de las palabras nos guía a la identificación de la intencionalidad de un mensaje, permitiendo clasificarlos como mensajes que quieren vender productos, obtener información sobre nosotros, etc. La ventaja de este tipo de representaciones está en su capacidad de agrupar taxonómicamente los conceptos, resolviendo la polisemia y la sinonímia. Estas propiedades han sido utilizadas con éxito en este trabajo de investigación, para diseñar un nuevo esquema de reducción de características sin pérdida de información mediante agrupaciones de conceptos basado en técnicas de Aprendizaje Automático. Gracias a este esquema de reducción, se ha conseguido reducir la dimensionalidad del problema de clasificación (número de características), mejorando el rendimiento. En un segundo paso, presentamos y demostramos la eficacia de un nuevo esquema de reducción de características que combina los puntos fuertes de la estrategia sin pérdida de información combinándola con una leve pérdida de información. Por último, para recuperar la información de las palabras cifradas mediante Leetspeak, se ha diseñado y probado un decodificador. El sistema presentado reduce considerablemente el número de palabras cifradas (ofuscadas) que se quedan sin procesar, mejorando los índices de clasificación de los mensajes de spam.