Verander uw data-meer niet in een data-moeras.

Vandaag de dag creëren en bewaren we steeds meer data. Er wordt zelfs gezegd dat we elk jaar meer nieuwe data genereren dan in alle voorgaande jaren bij elkaar. En aangezien we iets meer dan 2 exabyte (of 2 miljard gigabyte) aan data per dag genereren, klopt dat waarschijnlijk wel. Er is dus geen tekort aan data om in uw data-meer te plaatsen, maar zou u alles wat u kunt opslaan daar ook moeten opslaan? Het korte antwoord is “nee”. Het lange antwoord is “alleen als het nuttig is”.

 

Data is niet gratis

Het opslaan van data in uw data-meer is niet gratis. Afgezien van het feit dat er storage kosten aan verbonden zijn, moet u de data natuurlijk ook binnen halen en de verbindingen onderhouden waar de data doorheen stroomt. Dit alles wordt ondersteund door een team van professionals, en die jongens (en meisjes) zijn ook niet goedkoop. Daarom zou u alleen data in uw data-meer moeten opslaan als u het in de nabije toekomst daadwerkelijk gebruikt of verwacht te gebruiken.

 

De use case is de drijvende kracht achter de noodzaak

Het toevoegen van data aan uw data-meer zou gebaseerd moeten zijn op een behoefte en niet op een pokémon-achtige dwang om alles te vangen. Ja, ongetwijfeld vertellen uw security team en compliance officer dat u alles moet loggen en opslaan. Maar het hebben van die data is alleen relevant als u er echt iets mee kunt en gaat doen.

 

Het begint met een probleem

Meestal begint het met een probleem. Het probleem kan zeer complex zijn, maar komt vaak neer op een gebrek aan informatie wat uw bedrijf geld kost. Ofwel omdat u niet op tijd de juiste beslissingen kunt nemen en daardoor inkomsten misloopt. Of omdat een beter geïnformeerde beslissing u geholpen zou hebben om geen of minder geld voor de concurrentie op tafel te laten liggen.

 

Use cases in de verschillende domeinen

Vanuit het oogpunt van IT Operations kan het een gebrek aan informatie zijn als het gaat om end-to-end zichtbaarheid in uw meest kritieke componenten en dus een gebrek aan capaciteitsbeheer. Dit betekent dat u achter de feiten aan liep terwijl de capaciteit uitgebreid had moeten worden vanwege de groei van uw klantenbestand.

Hetzelfde geldt voor IT-security, waar alles wordt gedaan om het risico tot bijna nul te reduceren. Een gebrek aan informatie (en dus zichtbaarheid) hier zou kunnen zijn dat er niet gestuurd wordt op de kwetsbaarheid. Met bijna dagelijks nieuwe exploits, is het vrijwel onmogelijk om te weten welke van uw bedrijfsmiddelen kwetsbaar zijn. Combineer dat met een gebrek aan inzicht in uw patchbeheer en u heeft geen idee of uw omgeving de vereiste updates heeft geïnstalleerd om de exploit te beperken. Erger nog, u bent misschien wel op weg naar een echt security-incident zonder dat u het weet.

En dan is er nog de business. Iedere organisatie verdient geld op zijn eigen manier en heeft dus een unieke behoefte aan informatie die alleen uit eigen data kan komen. De tijd dat we datawarehouses twee weken de tijd gaven om een rapport te genereren is voorbij.  Informatie moet nu en in realtime beschikbaar zijn om zakelijke beslissingen te nemen die uw organisatie vooruithelpen. Maar is real-time zelfs wel genoeg? Met technologie zoals Machine Learning komt de wereld van Predictive Analytics steeds dichterbij. U hoeft niet langer te raden wanneer er iets gaat gebeuren, maar uw eigen data zal het u vertellen (met een redelijke mate van zekerheid).

Hoe de use case te benaderen?

Wat uw probleem ook is, het vereist een oplossing en de oplossing vereist andere componenten. We moeten misschien wat processen aanpassen en hebben waarschijnlijk wat nieuwe technologie, misschien een infrastructuur en hoogstwaarschijnlijk data nodig. En bij dat laatste stapje besluit u dat u een nieuwe datastroom naar uw data-meer wilt ontsluiten. De data is nodig om aan een specifieke informatiebehoefte van uw organisatie te voldoen, dus verdient het een plaats in uw data-meer.

De volgende stap is bepalen hoe we de informatie er weer uit halen, want alleen dan wordt het waardevol. Niet alle data is logisch in een cirkeldiagram en het verkeerde type visualisatie kan zelfs misleidend zijn. Het is belangrijk dat, ongeacht de wijze waarop u uw data weergeeft, deze voldoende datapunten bevat om een getrouwe weergave van de werkelijkheid te geven en dat het menselijk brein de informatie in één keer kan opnemen. Niemand zal uw dashboard of rapport bestuderen, het is of eenvoudig te begrijpen of de manier waarop de informatie wordt gepresenteerd moet anders.

Het laatste aspect is het arrangeren en het automatiseren van een reactie. Elk fatsoenlijk data-meer kan een proces automatiseren om te zoeken naar vooraf geconfigureerde gebeurtenissen en abnormaliteiten. Wilt u dat geautomatiseerde processen starten wanneer er iets gebeurt? Misschien wilt u een paar servers toevoegen aan een load balancer wanneer meer klanten uw website bezoeken? Of een IP-adres blacklisten dat net te vaak op onderzoek uit lijkt te zijn in uw firewall? Misschien zelfs een nieuwe werkorder voor een engineer maken wanneer de predictive maintenance algoritmen achteruitgang in uw industriële proces detecteren? Door uw use-cases te automatiseren, kunt u uw organisatie miljoenen besparen.

Om alles samen te vatten

Data in uw data-meer moet een reden hebben om daar te zijn. Wanneer u data opslaat alleen om het data-meer te vullen, zal het drassig worden als een moeras. U drijft niet alleen nodeloos de kosten op, maar de data die u echt nodig heeft wordt moeilijker om mee te werken. Dit komt doordat er te veel niet-gerelateerde nullen en enen zijn die het afvoerputje verstoppen. Zorg ervoor dat alles in uw data-meer een doel heeft en bezwijk niet voor het menselijke verlangen om alles te verzamelen, gewoon omwille van het verzamelen. Uiteindelijk moeten data-meren even helder zijn als ieder bounty-strand en niet duister zoals de moerassen van Dagobah.