Big data is een bijna onzichtbare kennisrevolutie die een impact heeft op nagenoeg alle sectoren van de samenleving, van het bedrijfsleven en de overheid tot het onderwijs en de gezondheidszorg. Al die data stroomt uit talloze dingen die iedereen dagelijks gebruikt: huizen, apps, auto’s en zelfs onze lichamen (zie de eerdere blogpost over wearables). Alhoewel de term big data relatief nieuw is, is het idee erachter – het verzamelen van grote hoeveelheden aan data voor analyse – al eeuwenoud.
Het vernieuwende is dat big data gaat over het verrichten van complexe analyses op grootschalige datasets door een combinatie van de juiste tools. Denk bij grootschaligheid niet aan honderden gigabytes (GB), maar om data warenhuizen met honderden petabytes tot zelfs enkele exabytes (EB) aan data (1 EB = 1 miljard GB). Volgens Gartner zijn er drie factoren die big data bepalen: grote hoeveelheid aan data, hoge snelheid waarmee data wordt opgevraagd en veel diversiteit in de beschikbare data. Ik ontken niet dat big data zeer nuttige toepassingen kan hebben, maar het is van belang om kritisch te blijven.
De enorme hoeveelheden verzamelde data biedt op zichzelf weinig toegevoegde waarde. De waarde zit ‘m in het doel om op basis van de kennis voorspellingen te doen. Deze voorspellingen komen van pas in allerlei facetten van de maatschappij:
Al deze toepassingen van big data zijn gebaseerd op data uit het verleden om voorspellingen voor de toekomst te doen. Hier komt de wetenschap van ‘machine learning’ om de hoek kijken. Machine learning is het aanleren van computers om te leren van ervaringen uit het verleden om zo accuraat mogelijke toekomstvoorspellingen te doen. Het is een fascinerend vakgebied met allerlei maatschappelijke toepassingen, maar deze technologie kan ook een negatieve impact hebben. Dergelijke zelf lerende computersystemen staan nog maar in de kinderschoenen, maar worden in de praktijk al veelvuldig toegepast, denk bijvoorbeeld aan vriendensuggesties op Facebook, productaanbevelingen op bol.com en filmadvies op Netflix.
Privacy speelt een grote rol bij big data, aangezien veel activiteiten van big data gericht zijn op het analyseren van persoonlijke gegevens. Veel van deze activiteiten zijn erg nuttig zoals we hebben gezien in bovenstaande voorbeelden, maar er zijn ook belangrijke kanttekeningen:
1.Gebrek aan transparantie: veel van het verzamelen en analyseren van data gebeurt achter de schermen. Geheimhouding is begrijpelijk, maar de fysieke, juridische en technische barrières zorgen ervoor dat welke data wordt verzameld en waarom vaak niet duidelijk is.
Een manier om toch de voordelen van big data te behouden en tegelijkertijd de nadelen zoveel mogelijk af te zwakken is het opzetten van Big Data Ethics. Dit zijn richtlijnen voor de bescherming van het recht op privacy bij big data analyses. Om ervoor te zorgen dat dit niet slechts regeltjes op papier worden is vereist dat er een framework wordt opgericht om deze regels concreet te maken. Door in het framework bijvoorbeeld mogelijk te maken dat achteraf toestemming wordt verkregen van individuen worden er meer privacy vriendelijke toepassingsmogelijkheden van big data gecreëerd.