Catalin Cosoi la Olimpiada Inteligentei Artificiale

Post on 27-Jan-2015

1.083 views 0 download

description

Prezentarea susţinută de Cătălin Coşoi, Senior Researcher BitDefender România în cadrul evenimentului Ai-Mas Winter Olympics 2010

Transcript of Catalin Cosoi la Olimpiada Inteligentei Artificiale

Despre BitDefender, pe scurt

• Compania a fost fondată în 2001• Firma Romaneasca• 450 de angajaţi la nivel global• Produse disponibile în 18 limbi de circulaţie

Internaţională în peste 100 de ţări • Sediu central: Bucureşti, România• Dezvoltarea se regaseste in totalitate in Romania

(Bucuresti, Iasi, Cluj si Timisoara)• Sediu centrului de marketing: Mountain View, California• Alte birouri de reprezantanţă: Dormund – Germania,

Birmingham – Marea Britanie, Barcelona – Spania, Fort lauderdale (Florida) – SUA.

BitDefender contine

• AntiVirus• AntiSpyware• AntiPhishing• AntiRootKit• AntiSpam• Parental Control• Firewall• Online Backup• Vulnerability Scan • Encryption

BitDefender este un sistem inteligent

• Are grija de sine insusi– Isi verifica integritatea fisierelor– Verifica daca isi poate imbunatati vreuna din componente– Anunta cand ceva nu este in regula

• Invata atat din experienta cat si de la utilizator– Isi modifica interfata in functie de cat de avansat este

utilizatorul– Intreaba cand observa un comportament nou– Intreaba daca a gresit si invata din greseli– Creeaza reguli in functie de activitatea utilizatorului

Tehnologii AntiVirus

NEW!

BitDefender® Active Virus Control este ultima tehnologie proactiva lansata de BitDefender, capabila sa monitorizeze si sa blocheze malware in real-time

Tehnologii AntiSpam

NEW!

LiveQuery – timp de raspuns minim si detectie independenta de continut

BitDefender foloseste NeuNet

• NeuNet este una dintre tehnologiile AntiSpam• Bazata pe ARTMAP, aceasta retea neurala

– Utilizeaza ca si intrare elemente cheie din mesaje spam• Cuvinte cheie• Informatii din headere• Informatii din anvelopa

– Primeste la antrenare atat mesaje spam cat si legitime– Isi construieste singura patternuri de detectie spam– Implica foarte putina interactiune cu utilizatorul

Ce difera in aceste mesaje?

Script de generare mesaje spam unice

• Databases:• D: Random legitimate text• D1: Different rephrases of a certain spam phrase

• D2: Different rephrases of another spam phrase

• …………………• Dn: Different rephrases of another spam phrase

– Create spam message script:– Choose a random phrase from D1

– Choose random text from D– Choose a random phrase from D2

– Choose random text from D– …………….– Chose random phrase from Dn

• Send message.

• 40 samples of different subjects

• 50 samples of different titles

• 30 samples of different titles (part II)

• 60000 different combinations

Appeared as a consequence

of botnets

Features

• Weak features– Cuvinte ca “Anatrim”, “Viagra”, “Xanax”, “Stock”– Combinatii de cuvinte “Stock alert”, “Strong buy”– Euristici simple pentru headerele mesajelor: valid reply, message id,

headere falsificate

• Example:– Primele 500 de cuvinte dintr-un filtru bayesian– Daca difera reply-to fata de from

De ce ART?

• Antrenarea are loc prin modificarea ponderilor fiecarui neuron

• Prin remodificarea ponderilor pe cantitati mari de date, se pierde informatia initiala

• Rezolva “stability-plasticity dilemma”• Detectia este bazata pe pattern-uri• Un numar nedefinit de patternuri implica

un numar nedefinit de neuroni• 2 retele neurale cu auto-organizare + un

modul de mapare = o retea cu auto-organizare cu invatare supervizata

Adaptive Resonance Theory

• Similar cu un algoritm de clustering• ARTMAP = ARTa + ARTb + MapField

ART Vigilance

Small Value - Imprecise Big value - Fragmented

• A big value: Accepts small errors; Many small clusters; High precision• A small value: Accepts high errors; A few big clusters; Errors can appear

Imbunatirile BitDefender

Algoritm

Cum ne-am dat seama ca merge

• 2.5 milioane de mesaje spam si aproximativ 1000 de eurististici slabe de text

• Primele 1000 de cuvinte din dictionarul filtrului Bayesian, ordonate dupa posibilitatea de

• Aproximativ 50 euristici de anvelopa • 1 milion de mesaje legitime• 75% din corpus a fost folosit pentru antrenare, 25% pentru testare• Antrenarea dureaza aproape doua zile

Rezultate

• FP: 0.0001%• FN: 30 %• Fiind vorba de detectie proactiva, rezultatele se

pastreaza saptamani!• Filtrul NeuNet se regaseste in BitDefender de 3 ani si

este responsabil de detectia a milioane de mesaje spam in fiecare zi

In incheiere

• Abordarea hibrida a NeuNet dintre o retea ARTMAP si un filtru euristic poate fi utilizata intr-o gama larga de aplicatii (clustering raportari malware, modele de comportament al aplicatiilor pt firewall, etc)

• Desi nu este o metoda perfecta, foarte putine produse se pot lauda cu 70% detectie proactiva!