Vigo, 25 de Outubro de 2006 - Nº 1146

HOXE ANTERIORES SUSCRICIÓNS WEBMASTER

SECCIÓNS

Tese do profesor da ESEI de Ourense José Ramón Méndez Reboredo

Novo modelo híbrido de Intelixencia Artificial para detectar e filtrar o correo lixo


José Ramón Méndez Reboredo

Duvi

O profesor da Escola Superior de Enxeñería Informática de Ourense, José Ramón Méndez Reboredo, acaba de presentar a súa tese na que presenta un modelo híbrido de intelixencia artificial capaz de solucionar o problema de detección e filtrado de correo spam. Os traballos levados a cabo na investigación enmárcanse dentro do proxecto I+D SAEICS (Sistema Adaptativo con Etiquetado Intelixente para Correo Spam). “Vistas as características das mensaxes spam, precísanse ferramentas que poidan evolucionar no tempo adaptándose ás características cambiantes do dominio para obter resultados de maior exactitude”, expuxo Méndez Reboredo na súa tese. Así, os modelos deben dispor de mecanismos que permitan detectar en cada momento o coñecemento máis relevante. Para resolver o problema de filtrado de spam, existen dous tipos de enfoques. Por un lado estaría o colaborativo, que se basea en compartir información identificativa de mensaxes spam entre unha comunidade de usuarios, e polo outro, un enfoque baseado nos contidos, no que se analizan mensaxes lexítimas e spam para atopar características que sexan diferenciadoras entres ambos e poidan ser analizadas. “Este traballo céntrase neste último tipo de modelos porque incorpora a capacidade de xeneralizar”, apuntou o profesor Méndez. Punto de partida Un elemento de capital importancia no filtrado de correo spam é o paso do tempo e a súa influencia na representatividade dos termos que compoñen o correo electrónico. “Un termo determinado que nun momento é característico dun tipo de mails pode, co discorrer do tempo, chegar a facerse representativo doutra clase de mensaxes. Pese a importancia deste factor, a maioría das técnicas propostas para o filtrado de correo lixo non teñen en conta a súa natureza cambiante”, subliñou o investigador. Así, a falta de modelos de filtrado de spam “sólidos e eficientes” que implementen estratexias de aprendizaxe preguizosa -eager learning- representa o punto de partida desta tese. Tal e como indicou o propio Méndez Reboredo, “o resultado é o desenvolvemento dun modelo que inclúe mecanismos para paliar as principais dificultades e obstáculos inherentes ao problema de filtrado de correo lixo”. A experimentación realizada contou con más de trinta mil mensaxes, cos que se demostrou a aplicabilidade do modelo e a efectividade amosada en situacións adversas que poden ocorrer nun entorno real. Asemade, elaborouse unha ferramenta visual que permite observar os cambios que se producen arredor do filtrado, ademais de que o modelo proposto permite o intercambio de información entre varios sistemas de filtrado de spam, que combina os enfoques colaborativo e o baseado no contido. Spamhunting O spamhunting é unha das principais achegas deste traballo. Esta expresión denomina a un sistema de filtrado capaz de analizar as mensaxes e extraer os seus termos máis relevantes mediante a combinación de información da relevancia do termo dentro do correo e no contexto semántico presente no momento de recepción do mail. Esta técnica permite a incorporación de estratexias de actualización continua do coñecemento. Así, elaborouse un conxunto de indicacións como “guía de vital importancia” para a construción de filtros de correo lixo, así como un conxunto de mensaxes de proba escritos en cinco idiomas diferentes (sobre vinte mil) que pode ser empregado para experimentar con mecanismos de filtrado. “Estes mails foron recompilados entre o 2004 e o 2006 por varios membros da comunidade universitaria”, puntualizou o investigador. Futuro Con respecto ás liñas de traballo futuro, o profesor Méndez indicou que, “a pesar dos logros obtidos polo sistema proposto, existen aínda moitos obstáculos que impiden a eliminación total dos erros”. Deste modo, subliñou que “os camiños que ofrecen maior esperanza son o uso de técnicas que permitan a eliminación máis efectiva do ruído que os spammers introducen nas mensaxes e a incorporación de información léxica e semántica no proceso mediante a utilización de tesauros”. José Ramón Méndez Reboredo é doutor e Enxeñeiro Informático pola Universidade, que traballou durante algúns anos desenvolvendo aplicación coa linguaxe Java e administrando tanto redes de ordenadores UNIX/Windows como o xa desaparecido sistema de bases de datos Informix. Actualmente está a desenvolver múltiples actividades de formación e proxectos I+D en colaboración co departamento de Informática da Universidade, á vez que realiza labores de investigación, enmarcadas no campo da Intelixencia Artificial aplicada á detección do correo lixo.

ATIC
Área das Tecnoloxías da Información e da Comunicación

ORI
Relacións Internacionais

I+D
Oficina de

OMA
Oficina de Medio Ambiente

Deportes

ANL
Área de Normalización Lingüística

Biblioteca

Cátedras de Empresa

Extensión cultural

Cidade Universitaria

Powered by