dinsdag 1 oktober 2013

Boek: De Big Data Revolutie

Heb je online je weekendhuisje opgezocht, vind je wekenlang nog allerlei vakantie-aanbiedingen in je Google scherm. Alsof je favoriete hulpje alles van je onthoudt.... En dat is ook zo. Google legt al je handelingen op het Web vast en bouwt zo een nauwkeurig profiel van je op. En Google doet dat niet alleen. Iedereen doet het.

Met elkaar produceren we enorme hoeveelheden gegevens: op het Web, bij telecombedrijven, op bewakingscamera's, als we boodschappen doen bij de AH, of bij onderzoeken in het ziekenhuis. En voor het eerst kunnen we al die gegevens benutten, want onze computers zijn sneller en kunnen meer gegevens onthouden dan ooit te voren. Welkom: Big Data !

Google rekencentrum
Victor Mayer Schönberger, hoogleraar aan het Oxford Internet Institute, en Kenneth Cukier, journalist van the Economist, schreven een goed leesbaar boek over Big Data, met als ondertitel: Hoe de data-explosie al onze vragen gaat beantwoorden. Als dat geen groot vertrouwen in technologie is...

Hun boek begint met het inmiddels bekende voorbeeld van de griep-voorspelling die Google in 2009 in de VS kon doen door slim gebruik te maken van de door hun vastgelegde gegevens. Google legt alle zoekopdrachten vast, dus ook de tientallen miljoenen zoektermen die door Amerikanen in die periode zijn ingetikt.
Bij de eerste poging probeerden de Google-wetenschappers verbanden te leggen tussen zoektermen als "medicijn", "hoest", of koorts", en de officiële historische gegevens over de verspreiding van griep in de VS in voorgaande jaren. Dit leverde magere resultaten op. Daarom gooiden ze het roer om en gingen op zoek naar alle mogelijke zoektermen met een hoge correlatie met de verspreiding van de griep. Ook testten ze vele miljoenen statistische modellen. Uiteindelijk vonden ze 45 zoektermen die, gecombineerd met een bepaald statistisch model, een zeer sterke correlatie bleken te hebben met de historische gegevens. Daarna kon het model worden gebruikt met actuele zoektermen en bleek het sneller en gedetailleerder dan de overheidsinstanties de verspreiding van de griep te voorspellen..

Big data analyse is anders dan de data-mining technieken die we tot voor kort gebruikten.
Allereerst is er de grote rekenkracht en opslagcapaciteit van de huidige generatie computers. Dit maakt het mogelijk om in plaats van met steekproeven met alle beschikbare gegevens te werken.
Een tweede belangrijke ontwikkeling is het gebruik van statistische correlaties tussen grootheden. Door naar correlaties te zoeken in alle beschikbare gegevens kunnen verbanden worden opgespoord die met de steekproef-methode niet boven water komen.

De mogelijkheid om enorme hoeveelheden gegevens op correlaties te doorzoeken, leidt er toe dat er meer en meer wordt vastgelegd. Niet alleen het surfgedrag of koopgedrag van mensen is interessant. Omdat sensoren steeds goedkoper worden, worden ze steeds vaker ingebouwd en gebruikt om het functioneren van techniek of het menselijk lichaam vast te leggen. Dit noemen de schrijvers dataficatie. Abstract geformuleerd: informatie over objecten en handelingen met en door objecten leggen we nu vast, want misschien kan er economische waarde uit gehaald worden.

Dit alles roept serieuze vragen op. De schrijvers behandelen er een aantal:
  • Privacy: Onze privacy wordt onder zware druk gezet door de Big Data revolutie. En nog ontmoedigender: het is niet eenvoudig om in de huidige samenleving daar aan te ontkomen. Het verzamelen van gegevens gebeurt op zoveel momenten en op zoveel manieren dat het heel moeilijk is om daar invloed op uit te oefenen. Wie stopt met het gebruik van internet, doet de smartphone uit, en vermijdt supermarkten, de winkelstraat, en het ziekenhuis
  • Kennisvergaring. We zijn in het dagelijks leven sterk ingericht op causaliteit, oorzaak en gevolg. Onze hersenen werken met "snelle" causaliteit wanneer ons onderbewuste op basis van zintuiglijke waarneming besluit dat er meteen gehandeld moet worden, denk aan pijnprikkels. Ook is er de "trage" causaliteit: al redenerend komen we tot oorzaak-en-gevolg redeneringen en conclusies. Bij Big Data speelt causaliteit geen rol meer. We zoeken naar correlaties en hoeven niet meer te begrijpen wat de dieperliggende oorzaken zijn. De vraag is welke gevolgen dit zal hebben voor de exacte wetenschap waar het experiment zo'n belangrijke rol speelt.
  • De toekomst. Big data zal grote gevolgen hebben voor de samenleving. Naast privacy en kennisvergaring zijn er andere belangrijke gebieden waar Big Data invloed zal gaan uitoefenen. Denk aan op Big Data gebaseerde beslissingsondersteunende systemen die worden toegepast in rechtspraak, of bij medische behandelingen. De kennis en de kunde om Big Data verder te ontwikkelen berust bij een kleine groep superexperts.

Geen opmerkingen:

Een reactie posten