Tijd voor implementatie van verantwoorde datadiensten: de trias analytica voor resposible data science
other
Organisaties ontwikkelen in toenemende mate datadiensten die gebruik maken van zelflerende algoritmes. Deze algoritmes zijn veelbelovend omdat ze automatisch regels en patronen extraheren uit data waarmee beslissingen of voorspellingen gemaakt worden. Het gebruik van zelflerende algoritmes brengt tevens nieuwe uitdagingen met zich mee. Dit whitepaper introduceert deze uitdagingen en beschrijft hoe organisaties ze kunnen adresseren. We richten ons daarbij op drie invalshoeken, namelijk regulering omtrent data, randvoorwaarden voor het toepassen van zelflerende algoritmes en technieken om gevoelige data te analyseren. Het adresseren van deze uitdagingen draagt bij aan een verantwoorde ontwikkeling en inzet van datadiensten. Data en datadiensten gaan hand in hand. Het verkrijgen en verwerken van gegevens is aan regels gebonden, met name waar het opersoonsgegevens betreft. Dit whitepaper benoemt de belangrijkste begrippen uit de Algemene Verordening Gegevensbescherming (AVG) die sinds 25 mei 2018 van kracht is. Transparantie van het analyseproces en de uitlegbaarheid van geautomatiseerde beslissingen zijn met name relevant voor zelflerende algoritmes. Vervolgens richten we ons op het vakgebied machine learning. Dit vakgebied houdt zich bezig met de ontwikkeling en toepassing van zelflerende algoritmes. De regels en patronen die deze algoritmes extraheren zijn nooit perfect. En er zijn uitdagingen die organisaties moeten adresseren wanneer ze zelflerende algoritmes verantwoord willen toepassen (zoals sampling bias en overfitting). Deze uitdagingen – en eventuele consequenties – zijn niet alleen relevant voor de betreffende data scientists, maar voor de hele organisatie. De gegevens die datadiensten verwerken zijn vaak (privacy)gevoelig. Het derde deel van dit whitepaper richt zich op het analyseren van gevoelige data. Er bestaan technieken waarmee organisaties hun databronnen kunnen anonimiseren. Daarnaast is het soms mogelijk om een datadienst anders te ontwerpen zodat meerdere organisaties gezamenlijk een analyse kunnen uitvoeren zonder gevoelige gegevens te hoeven delen.
TNO Identifier
836054
Publisher
TNO
Collation
27 p.
Place of publication
Den Haag