Garbage in, is garbage out
Je wilt meer uit je data halen. Dus verzamel je data en steek je budget en energie in het bouwen van modellen en analyses. Maar sla je dan niet een belangrijke stap over? Voor alle berekeningen en modellen geldt: garbage in, garbage out. Je hebt data nodig die compleet zijn en waarvan je zeker weet dat ze kloppen. Is die basis niet op orde, dan ga je nooit rendement uit je data halen.
Credits: Richard van Meurs & Joyce Lopulalan 4Orange
In een eerder blog had ik het over de kracht van je verborgen data. Die kracht is groter dan je denkt. Door je hele organisatie heen staan er waarschijnlijk waardevolle inzichten op je te wachten in spreadsheets, productiesystemen, BI-toepassingen en databases van software die je niet meer gebruikt. Een zoektocht door de organisatie is dus de moeite waard. Maar wat doe je daarna precies met alle data die je hebt gevonden? Hoe sla je data op, zodat ze bruikbaar zijn voor je data scientists?
Alle data op één plek
Die vraag geldt niet alleen voor verborgen data, maar voor alle data. Een data scientist doet nooit analyses op je systemen zelf, maar op de data uit die systemen. Je haalt je data dus altijd eerst op uit je productiesystemen en brengt ze onder in een centraal data warehouse of, als het specifiek over klantdata gaat, een customer data platform.
Dat klinkt misschien intimiderend, of zelfs onhaalbaar, maar het hoeft helemaal geen gigantische onderneming te zijn. En hoewel de termen data warehouse en customer data platform precies beschrijven waar ik het over heb, gebruik ik ze bij klanten vaak liever niet. Want voor veel mensen klinkt dit als grote, ingewikkelde, dure dingen die alleen voor hele grote bedrijven zijn weggelegd. Maar dat is helemaal niet zo. Je kunt ook een data warehouse hebben met maar een paar tabellen erin en daarmee al heel waardevolle analyses doen.
Het meeste rendement komt daarbij meestal uit het koppelen van de statische productiesystemen, zoals CRM, ordermanagement en financiële systemen, aan website- en koopgedrag. Zo kun je in B2B-toepassingen bijvoorbeeld zien welke specifieke medewerker een order heeft geplaatst en welk pad door de website diegene heeft gevolgd. Terwijl je daarvoor alleen maar wist welk bedrijf welke goederen had besteld. Daar kun je vervolgens je campagnes op aanpassen. In B2C kun je websitegedrag direct inzetten voor hogere conversie, betere product-aanbevelingen en up-sell.
Het koppelen van nog meer databronnen zorgt ervoor dat je een nog completer beeld krijgt van je klant, waarbij je toewerkt naar een golden record: alle informatie bij elkaar en één beeld van je klant. Zo kan een analist altijd bij alle relevante data.
Maar dan moet je wel zeker weten dat al die gegevens echt over dezelfde klant gaan. En dat ze kloppen. Na het verzamelen van data en het overbrengen ervan naar je dataplatform, volgt dus een verificatiestap. Ook voor het slimste algoritme geldt nu eenmaal: garbage in, garbage out. Als je een goed algoritme draait op een dataset die niet klopt, zullen de resultaten je niet verder helpen. Hetzelfde geldt uiteraard voor verouderde data. Vaak zijn de meest recente gegevens het meest relevant, dus wil je die ook meenemen in je analyses. Het actueel houden van je data is dus minstens zo belangrijk als het verifiëren ervan. Het is bijna onmogelijk om dit allemaal handmatig te doen. Kies dus voor een platform waarop je dit kunt automatiseren.
Goed, dan heb je dus een dataplatform met actuele, geverifieerde data over al je klanten. Maar dan ben je nog niet helemaal klaar. Een dataplatform dat vandaag werkt, is niet per se een dataplatform dat morgen ook nog werkt. Binnen bedrijven zijn altijd veranderingen gaande die effect hebben op de data. Overnames en fusies brengen bijvoorbeeld IT-integraties en migraties met zich mee. Wat je vaak ziet is dat dezelfde data uit twee bronnen niet helemaal hetzelfde zijn. Er kunnen subtiele verschillen zijn die voor problemen zorgen in je data warehouse. Denk aan:
– Decimalen in het ene systeem worden aangegeven met een punt en in het andere met een komma – Systemen die verschillende soorten kleurcodes hanteren– Verschillende betekenissen van velden met dezelfde naam, of omgekeerd– Ontbrekende tabellen of kolommen
Dit soort dingen kan ervoor zorgen dat data niet bij elkaar passen en analyse moeilijker wordt. Je dataplatform vraagt dus onderhoud. Ook hiervoor wil je het liefst een omgeving inrichten die dit zo veel mogelijk automatisch doet. Want je wilt bezig zijn met analyses, niet met opschonen, updaten en fouten oplossen.
Het is duidelijk: voordat je kunt meedoen op het gebied van data-analyse en machine learning, moet je fit to play zijn. De dingen die ik zie, kloppen die ook? En is dit wat ik wil meten? Pas als je die vragen volmondig met ja kunt beantwoorden, kun je met je data aan het werk. Zo niet, dan doen je modellen niets voor je.
Maar afhankelijk van de hoeveelheid data die je hebt, hoeft dit ook weer geen project van jaren te zijn. Met de juiste technische oplossingen en de juiste expertise kun je in een paar maanden een goed platform neerzetten. Die expertise moet in het begin misschien van externen komen. Zij kunnen je op gang helpen, maar ik adviseer bedrijven altijd om ook te gaan bouwen aan een eigen data-organisatie. Data-analyse is een integraal deel van je strategie en bedrijfsvoering en is dus veel te belangrijk om volledig aan externen over te laten. Wat daarbij wel heel belangrijk is: steun vanuit de directie. Er moet in het topmanagement iemand zeggen: “We gaan dit doen, en we gaan het goed doen.”
In ons gratis e-book staat alles helder beschreven.