registreren | inloggen
Gebruikersnaam Wachtwoord

Het gevecht tegen de spam

/~ideler/images/2007-0222-spam.jpg

Bijna iedereen heeft wel eens last van ongewenste berichten in zijn mailbox. Dat is niet leuk. DSE krijgt regelmatig vragen of we daar wat aan kunnen doen. Nou, dat doen we zeker en ik ga proberen dat eenvoudig uit te leggen. We nemen de situatie van de maand januari als voorbeeld.

STAP 1
Van elke mail die binnen komt leggen we drie gegevens vast: welke server de mail verstuurd heeft, wie de afzender is en voor wie de mail bestemd is. Hebben we die combinatie van gegevens nog niet eerder gezien, dan wordt die mail afgewezen en wordt de server verzocht de mail opnieuw te sturen. We noemen dat "greylisting". Veel spammers sturen de mail dan niet opnieuw waardoor we al een flink deel van de spam kwijtraken. In januari hebben we 1.682.000 mailtjes "gegreylisted" waarvan er maar een deel weer opnieuw aangeboden is.

STAP 2
Uiteindelijk zijn er 1.108.000 mailtjes binnengekomen waarvan we de afzender en ontvanger eerder gezien hebben. Ongeveer elke twee seconden een mail. Die mails gaan we verder onderzoeken.
Eerst wordt getest of de versturende server wel degene is die hij zegt te zijn. We doen vervolgens nog een aantal basischecks. Daarmee vissen we er ruim 673.000 berichten uit die niet kloppen en direct geweigerd worden.

STAP 3
Blijven er nog 435.000 over waar we zwaar aan gaan rekenen. Eerst verwijderen we 2.000 berichten die met een virus besmet zijn. Dan gaan we checken op typische spamkenmerken zoals:
- staat de server waar de mail vandaan kwam op een zwarte lijst van spammende servers? Zulke lijsten worden centraal op internet bijgehouden.
- woorden die op die populaire pillen lijken
- bekende zinnen die spammers gebruiken
- detectie van stocks/aandelen aanbiedingen
- overdadig gebruik van kleurtjes en plaatjes
- fouten in de mailheaders
- en nog een groot aantal andere kenmerken
Voor al die kenmerken worden 'strafpunten' uitgedeeld. Komt een bericht daarmee boven een bepaalde drempel (die je via MijnAccount kunt instellen) wordt het bericht gemarkeerd als "SPAM" en kun je het bericht zelf makkelijk verwijderen of door ons automatisch direct in je Trash-box laten verdwijnen. Wij hebben op die manier alsnog 68.000 berichten als spam aangemerkt.

STAP 4
Tenslotte konden er 39.000 berichten niet bij de ontvanger afgeleverd worden vanwege niet beschikbare mailboxen (gebounced).

RESULTAAT
Het eindresultaat is dat er van die oorspronkelijke 1.108.000 mailtjes na veel rekenwerk en weggooien uiteindelijk 326.000 mailtjes overbleven die we netjes hebben afgeleverd. Ongeveer 29%.

TOCH NOG SPAM
Toch komt er zelfs dan nog wel wat spam doorheen. Met name hebben we de laatste tijd heel veel last van "image-spam". Daarbij wordt de spam niet meer als normaal leesbare tekst aangeboden maar als plaatje. Dat is voor een machine heel moeilijk te detecteren, tenzij je heel veel rekentijd tot je beschikking hebt. Op DSE hebben we die extra rekentijd niet want onze machine moet ook nog een hoop andere dingen doen ...

TIPS
Tijdens de DSE-bijeenkomst werd gevraagd of het zin heeft om de adressen van de spammers op je blacklist te zetten. Het antwoord is: nee. Spammers gebruiken steeds wisselende e-mail adressen als afzender en zelden hun eigen adres.

Bezoek onze helpdesk-pagina met nadere info over spam!

image spam

bedankt voor de uitleg. Die image spam heb ik inderdaad op tue.nl ook veel last van. Zou het niet een optie zijn, om berichten waar alleen een image en geen enkele text in zit, als spam te beschouwen? Kan niet moeilijk zijn. Het is maar een wild idee, en misschien zie ik het te simpel.
met vriendelijke groet,
Jetse

scannen van plaatjes

In onze spamdetectie zitten al veel checks op de overvloedige aanwezigheid van plaatjes en de verhouding tussen die plaatjes en de omringende tekst.
Het bekijken van de inhoud van een plaatje is echter minder simpel dan het lijkt. Het menselijke oog heeft er geen probleem mee, maar een computer kost het veel rekenkracht. Die moet zo'n plaatje scannen, dan een optische character analyse doen en die dan nog eens gaan interpreteren. Dat gaat onze beschikbare rekenkracht vele malen te boven.
Je ziet ook dat er steeds meer aanmeldformulieren, gastenboeken enz zijn die werken met de beveiliging dat je de tekst uit een plaatje moet overtypen. Het idee erachter is dat geautomatiseerde spammachines daar niet zo makkelijk mee om kunnen gaan en dus wegblijven van die sites.

Op zich werkt de spambestrijd

Op zich werkt de spambestrijding van dse goed. Het rare is echter dat ik wel eens als spam aangemerkte mail krijg die niet naar mij is verzonden maar aan een op mijn adres lijkende naam, bv politie@dse.nl.

Het lijkt er dus op dat spam die niet bezorgd kan worden in verkeerde mailboxen terecht komt.....

niet verkeerd bezorgd

Nee hoor die mail komt correct in je mailbox.
Spammers zetten vaak één adres in het to:-veld en alle andere geadresseerden in het bcc:-veld. Die laatste krijg je dus niet te zien maar daar stond je wel op....