Het gevecht tegen de spam

Bijna iedereen heeft wel eens last van ongewenste berichten in zijn mailbox. Dat is niet leuk. DSE krijgt regelmatig vragen of we daar wat aan kunnen doen. Nou, dat doen we zeker en ik ga proberen dat eenvoudig uit te leggen. We nemen de situatie van de maand januari als voorbeeld.


Bijna iedereen heeft wel eens last van ongewenste berichten in zijn mailbox. Dat is niet leuk. DSE krijgt regelmatig vragen of we daar wat aan kunnen doen. Nou, dat doen we zeker en ik ga proberen dat eenvoudig uit te leggen. We nemen de situatie van de maand januari als voorbeeld.

STAP 1
Van elke mail die binnen komt leggen we drie gegevens vast: welke server de mail verstuurd heeft, wie de afzender is en voor wie de mail bestemd is. Hebben we die combinatie van gegevens nog niet eerder gezien, dan wordt die mail afgewezen en wordt de server verzocht de mail opnieuw te sturen. We noemen dat “greylisting”. Veel spammers sturen de mail dan niet opnieuw waardoor we al een flink deel van de spam kwijtraken. In januari hebben we 1.682.000 mailtjes “gegreylisted” waarvan er maar een deel weer opnieuw aangeboden is.

STAP 2
Uiteindelijk zijn er 1.108.000 mailtjes binnengekomen waarvan we de afzender en ontvanger eerder gezien hebben. Ongeveer elke twee seconden een mail. Die mails gaan we verder onderzoeken.
Eerst wordt getest of de versturende server wel degene is die hij zegt te zijn. We doen vervolgens nog een aantal basischecks. Daarmee vissen we er ruim 673.000 berichten uit die niet kloppen en direct geweigerd worden.

STAP 3
Blijven er nog 435.000 over waar we zwaar aan gaan rekenen. Eerst verwijderen we 2.000 berichten die met een virus besmet zijn. Dan gaan we checken op typische spamkenmerken zoals:
– staat de server waar de mail vandaan kwam op een zwarte lijst van spammende servers? Zulke lijsten worden centraal op internet bijgehouden.
– woorden die op die populaire pillen lijken
– bekende zinnen die spammers gebruiken
– detectie van stocks/aandelen aanbiedingen
– overdadig gebruik van kleurtjes en plaatjes
– fouten in de mailheaders
– en nog een groot aantal andere kenmerken
Voor al die kenmerken worden ‘strafpunten’ uitgedeeld. Komt een bericht daarmee boven een bepaalde drempel (die je via MijnAccount kunt instellen) wordt het bericht gemarkeerd als “SPAM” en kun je het bericht zelf makkelijk verwijderen of door ons automatisch direct in je Trash-box laten verdwijnen. Wij hebben op die manier alsnog 68.000 berichten als spam aangemerkt.

STAP 4
Tenslotte konden er 39.000 berichten niet bij de ontvanger afgeleverd worden vanwege niet beschikbare mailboxen (gebounced).

RESULTAAT
Het eindresultaat is dat er van die oorspronkelijke 1.108.000 mailtjes na veel rekenwerk en weggooien uiteindelijk 326.000 mailtjes overbleven die we netjes hebben afgeleverd. Ongeveer 29%.

TOCH NOG SPAM
Toch komt er zelfs dan nog wel wat spam doorheen. Met name hebben we de laatste tijd heel veel last van “image-spam”. Daarbij wordt de spam niet meer als normaal leesbare tekst aangeboden maar als plaatje. Dat is voor een machine heel moeilijk te detecteren, tenzij je heel veel rekentijd tot je beschikking hebt. Op DSE hebben we die extra rekentijd niet want onze machine moet ook nog een hoop andere dingen doen …

TIPS
Tijdens de DSE-bijeenkomst werd gevraagd of het zin heeft om de adressen van de spammers op je blacklist te zetten. Het antwoord is: nee. Spammers gebruiken steeds wisselende e-mail adressen als afzender en zelden hun eigen adres.

Bezoek onze helpdesk-pagina met nadere info over spam!

5 comments

  • Anoniem

    SpamAssassin
    Dank je voor je heldere uitleg. Ik moet zeggen dat ik meer dan tevreden ben met de spam-bestrijding van DSE. Daarbij moet ik wel vermelden dat ik zelf ook nog een spamfilter heb lopen op mijn pc, die dat ene doorgelaten spammailtje in de paar maanden er nog uitvist.
    In het verleden viel het me trouwens wel eens op dat DSE nog al eens een paar versies achterliep met [url=http://spamassassin.apache.org/]SpamAssassin[/url]. Momenteel loopt DSE nog 1 versie achter (de laatste versie lost [url=http://spamassassin.apache.org/advisories/cve-2007-0451.txt]deze kwetsbaarheid[/url] op).[img=spambot]http://www.dse.nl/~rod/portalpics/spambot.jpg[/img]
    Overigens is er bij spam ook sprake van een eigen verantwoordelijkheid. Als men zijn/haar email-adres te pas en te onpas op het internet intypt vraagt men bijna om spam. Het internet wordt immers continu afgestruind door [url=http://en.wikipedia.org/wiki/Spambot]spambots[/url]. Een tip is om voor alles waar je moet inloggen op het internet gebruik te maken van een gratis ‘wegwerp’ email-adres. Ik gebruik bijvoorbeeld een gmail-adres voor alles waarbij ik op een of andere manier mijn email moet invullen op het internet. Alleen voor persoonlijke en ‘administratieve’ zaken als de bank, verzekering en dergelijke gebruik ik mijn dse-adres, als tenminste in hun voorwaarden staat dat ze mijn email adres niet aan derden geven. Mijn gmail-adres krijgt tientallen spam-mailtjes per dag (die er overigens voor 99% in een aparte map uitgefilterd worden door gmail, ook bewonderenswaardig), en volgens mij heb ik vorig jaar november voor het laatst ooit eens één spam-mailtje in mijn dse-inbox gekregen.

  • jetse

    image spam
    bedankt voor de uitleg. Die image spam heb ik inderdaad op tue.nl ook veel last van. Zou het niet een optie zijn, om berichten waar alleen een image en geen enkele text in zit, als spam te beschouwen? Kan niet moeilijk zijn. Het is maar een wild idee, en misschien zie ik het te simpel.
    met vriendelijke groet,
    Jetse

    • ideler

      scannen van plaatjes
      In onze spamdetectie zitten al veel checks op de overvloedige aanwezigheid van plaatjes en de verhouding tussen die plaatjes en de omringende tekst.
      Het bekijken van de inhoud van een plaatje is echter minder simpel dan het lijkt. Het menselijke oog heeft er geen probleem mee, maar een computer kost het veel rekenkracht. Die moet zo’n plaatje scannen, dan een optische character analyse doen en die dan nog eens gaan interpreteren. Dat gaat onze beschikbare rekenkracht vele malen te boven.
      Je ziet ook dat er steeds meer aanmeldformulieren, gastenboeken enz zijn die werken met de beveiliging dat je de tekst uit een plaatje moet overtypen. Het idee erachter is dat geautomatiseerde spammachines daar niet zo makkelijk mee om kunnen gaan en dus wegblijven van die sites.

  • polson

    Op zich werkt de spambestrijd
    Op zich werkt de spambestrijding van dse goed. Het rare is echter dat ik wel eens als spam aangemerkte mail krijg die niet naar mij is verzonden maar aan een op mijn adres lijkende naam, bv politie@dse.nl.

    Het lijkt er dus op dat spam die niet bezorgd kan worden in verkeerde mailboxen terecht komt…..

    • ideler

      niet verkeerd bezorgd
      Nee hoor die mail komt correct in je mailbox.
      Spammers zetten vaak één adres in het to:-veld en alle andere geadresseerden in het bcc:-veld. Die laatste krijg je dus niet te zien maar daar stond je wel op….