Gebruik machine learning om valse domeinen te achterhalen.

Door Lex Crielaars, Chief Technology Officer bij SMT.

 

In het huidige security landschap wordt het steeds lastiger om cyberaanvallen te detecteren. De hoeveelheid data die moet worden doorzocht neemt steeds verder toe en de aanvallen worden complexer. Klassieke methoden voor het opsporen van een aanval zijn voornamelijk gebaseerd op statische zoekopdrachten zoals zwarte lijsten en reguliere patronen. Hierdoor is er weinig flexibiliteit bij het vinden van valse of foute gegevens in de beschikbare machine data. Machine learning technieken creëren extra waarde met nieuwe inzichten en een hogere detectiegraad van deze aanvallen.

 

Botnets

Een aanval van hackers gebeurt vaak door een endpoint binnen een organisatie te besmetten. Een endpoint kan een PC of laptop zijn, maar ook een telefoon, tablet, bewakingscamera of printer. Een besmet endpoint wordt ook wel een slave of een zombie genoemd, ze staan dan niet meer onder controle van de organisatie maar van de hacker. Besmette endpoints vormen netwerken – botnets – die weer communiceren met een Command & Control server, ook wel een C2 server genoemd.

Met malware probeert een hacker zoveel mogelijk endpoints te besmetten en het botnet zo groot mogelijk te maken. Hoe groter het botnet, des te meer bandbreedte en rekenkracht heeft het. Deze bandbreedte wordt vervolgens ingezet om zo veel mogelijk schade aan te richten zoals bij DDoS aanvallen op websites, de rekenkracht kan worden ingezet voor het minen van cryptocurrencies als bitcoin. Ook worden slaves ingezet om weer andere endpoints te besmetten. Vooral bij ransomware komt dit vaak voor. De schade en de dreiging is nu eenmaal veel groter als een compleet bedrijf wordt platgelegd dan alleen enkele endpoints.

Om deze reden is het van belang om snel de communicatie tussen een besmet endpoint en de C2-server(s) te detecteren. Hackers verhullen de communicatie achter (legaal lijkende) domeinnamen die veelvuldig worden gewijzigd om detectie lastiger te maken. Botnets kunnen miljoenen slaves onder zich hebben, de domeinnamen voor communicatie met de C2-server worden daarom automatisch gegenereerd, geregistreerd en in gebruik genomen. Een slave kan binnen enkele uren een heel netwerk infecteren, snelheid van handelen is dus cruciaal. Proxy- en DNS-logs worden gemonitord om te zien met welke websites verbinding wordt gemaakt. Rest de vraag; hoe worden legitieme websites onderscheiden van algoritmisch gegenereerde websites? Het herkennen van niet-legitieme domeinnamen is essentieel bij het achterhalen van kenmerken van typische malware communicatie.

 

De oplossing

De algoritmisch opgebouwde domeinnamen lijken taal-technisch gezien sterk op legitieme websites, ze hebben alle kenmerken van echte domeinnamen zoals de lengte en de verhouding tussen klinkers en medeklinkers. Met behulp van machine learning kan een datamodel worden getraind om te achterhalen welke domeinnamen legitiem zijn en welke niet. Algoritmes van bekende botnets worden gebruikt om grote hoeveelheden domeinnamen te genereren, die worden gebruikt om het datamodel mee te trainen.
Tegelijkertijd wordt het model getraind met een lijst van legitieme domeinnamen. De training-set is op deze manier een combinatie van echte en gegenereerde domeinnamen. Een deel wordt gebruikt om het datamodel te trainen en het andere deel om het model te testen op nauwkeurigheid en betrouwbaarheid. Het datamodel kan nu ingezet worden om onbekende domeinnamen te evalueren of het om een legitieme of gegenereerde domeinnaam gaat. Het datamodel wordt uiteraard ook losgelaten op domeinnamen van botnets waarmee niet getraind is. Uit onderzoek is gebleken dat meer dan de helft van die domeinnamen alsnog worden herkend vanwege de gedeelde karakteristieken. Sterker nog, met dit specifieke datamodel kunnen we 40% van de Wannacry-domeinnamen herkennen zonder dat we het Wannacry-algoritme gebruikt hebben om te trainen.

 

De toegevoegde waarde

Het detecteren van endpoints die communiceren met C2 servers is een belangrijke security use case voor organisaties. Ieder endpoint kan besmet raken en het tijdig detecteren van een besmetting is cruciaal. Wordt het bedrijf compleet besmet met malware of ransomware of weet het bedrijf dit tijdig te voorkomen? Een in-house datamodel biedt real-time bescherming en is getraind op specifieke eigenschappen van de klant.

Wilt u meer weten over de mogelijkheden voor uw organisatie? Neem dan contact op met onze specialisten of download hieronder de gratis whitepaper “Operationalize Machine Learning To Detect Malicious Domain Names”.

 

  • Uw gegevens worden slechts eenmalig gebruikt voor het versturen van de opgevraagde informatie en om u te contacteren indien nodig.

 

Juli 2019