DATA & AIARTIFICIAL INTELLIGENCEMACHINE LEARNINGSECURITY & PRIVACY
05/12/2019 • Stijn Van den Enden

Hoe Machine learning-applicaties gebruiken zonder zorgen over privacy

Ongeacht of we onze telefoons ontgrendelen met gezichtsherkenning, vanaf de andere kant van de kamer opdrachten schreeuwen naar onze slimme apparaten of een overzicht krijgen van onze favoriete films ... ons leven is dankzij machine learning vaak een stuk beter geworden. Het kent echter, net zoals veel andere fantastische technologieën, ook nadelen. Een van de voornaamste is dat persoonlijke gegevens doorgaans massaal en ongereglementeerd worden verzameld en verwerkt. Het lijkt soms wel of er voor elk positief verhaal ook een negatieve versie is over onze privacy die gevaar loopt. 

Het is duidelijk dat we privacy de aandacht moeten geven die het verdient. Ik wil vandaag ingaan op hoe we machine learning-applicaties kunnen gebruiken zonder ons zorgen te hoeven maken over privacy en persoonlijke gegevens die mogelijk openbaar worden.

Machine learning met randapparaten

Door de intelligentie op locatie op randapparaten te plaatsen, kunnen we zorgen dat bepaalde informatie die door de sensor wordt vastgelegd de sensor niet verlaat. Een randapparaat is hardware die wordt gebruikt om gegevens dicht bij de bron te verwerken. Video's of geluid worden niet naar een centrale processor verzonden, maar worden op de machine zelf verwerkt. Zo voorkom je dat je al die gegevens naar een externe applicatie of een cloudgebaseerde service moet verplaatsen. Randapparaten worden vaak gebruikt om de latentie te verminderen. Je hoeft niet langer te wachten op gegevens die langs een netwerk worden verzonden, je ziet direct resultaat. Randapparaten kunnen ook worden gebruikt om de kosten van bandbreedte te verminderen. Apparaten die een mobiel netwerk gebruiken, functioneren mogelijk niet goed in landelijke gebieden. Zelfrijdende auto's maken bijvoorbeeld optimaal gebruik van beide opties. Het zou te veel tijd kosten om elke video-opname apart naar een centrale server te sturen en de totale latentie zou de snelle reacties beïnvloeden die we mogen verwachten van een autonoom voertuig.

Tesla Wagenpark

Dit zijn belangrijke overwegingen, maar het draait in deze blog om privacy.

De Algemene Verordening Gegevensbescherming (AVG) is in 2018 door de Europese Unie ingesteld en mensen hebben sindsdien meer inzicht gekregen in hoe hun persoonlijke gegevens worden gebruikt. Bedrijven moeten toestemming vragen om informatie op te slaan en te verwerken. Schending van deze regelgeving, door bijvoorbeeld onvoldoende beveiligingsmaatregelen te treffen om persoonlijke gegevens te beschermen, kan hoge boetes opleveren. 

Dit is waar randapparaten van pas komen. Ze kunnen beelden of geluidsfragmenten direct verwerken zonder dat daar externe opslag of verwerking voor is vereist. Onbewerkte gegevens worden niet opgeslagen en zijn daardoor tijdelijk. Een randapparaat kan camerabeelden gebruiken om te bepalen hoeveel mensen er in een ruimte aanwezig zijn. De privacy blijft gewaarborgd als de camerabeelden op het apparaat zelf worden verwerkt en alleen de grootte van het publiek wordt doorgestuurd.

Prototypes maken met Edge TPU

Coral, een submerk van Google, is een platform dat software- en hardwaretools biedt om machine learning te gebruiken. Een van de hardwarecomponenten die ze bieden is het Coral Dev Board. Dit werd aangekondigd als “Googles antwoord op Raspberry Pi”.

Coral dev board

Het Coral Dev Board voert op basis van Debian een Linux-distributie uit en beschikt over alle benodigdheden om prototypes te maken van machine learning-producten. Het middelpunt van het board wordt gevormd door een Tensor Processing Unit (TPU) die is ontwikkeld om Tensorflow (Lite)-bewerkingen op energiezuinige wijze uit te voeren. Meer informatie over Tensorflow en wat het kan betekenen voor snelle machine learning? Lees erover in een van onze vorige blogs.

 Als je goed naar een machine learning-proces kijkt dan zie je dat er twee fases zijn. In de eerste fase wordt een model met behulp van voorbeelden getraind om inzicht te krijgen in bepaalde patronen. In de tweede fase worden de mogelijkheden van het model toegepast op nieuwe gegevens. Gebruik het bovenstaande Dev Board om je model te trainen in cloudinfrastructuur. Dat is een goed idee, want deze stap vergt vaak veel rekenkracht. Zodra alle elementen van je model zijn getraind, kunnen ze naar het apparaat worden gedownload met een speciale compiler. Het resultaat is een compacte machine die een krachtig AI-algoritme kan uitvoeren zonder verbonden te zijn met de cloud.

Gegevens lokaal houden met Federated Learning

Je vraagt je bij bovenstaand proces wellicht af welke gegevens er worden gebruikt om het machine learning-model te trainen. Er zijn diverse publiekelijk toegankelijke gegevenssets die je voor deze stap kunt gebruiken. Deze gegevenssets worden doorgaans op een centrale server opgeslagen. Je kunt echter ook een techniek gebruiken die Federated Learning heet. In plaats van een centrale server die het complete model traint, wordt dit afzonderlijk geregeld door diverse nodes of randapparaten. Elke node stuurt updates over de parameters die ze hebben geleerd naar een centrale server (Single Party) of naar elkaar in een peer-to-peersetup (Multi Party). Deze veranderingen worden vervolgens allemaal gecombineerd in één globaal model.

federated learning proces central case

Het grootste voordeel van deze configuratie is dat de opgeslagen (gevoelige) gegevens de lokale node nooit verlaten. Dit is bijvoorbeeld gebruikt in het QuickType-toetsenbord van Apple om emoji's te voorspellen op basis van het gebruik door een groot aantal gebruikers. Google heeft eerder dit jaar TensorFlow Federated gelanceerd om applicaties te creëren die leren van gedecentraliseerde gegevens.

Raket Takeaway

Privacy staat hoog in het vaandel bij ACA en dat geldt ook voor onze klanten. Het privé houden van je persoonlijke gegevens en gevoelige informatie is jouw en onze prioriteit. We kunnen je met behulp van technieken zoals Federated Learning helpen om je AI-potentieel optimaal te benutten zonder dat dit gevolgen heeft voor gegevensbeveiliging. Benieuwd hoe dit precies zou uitpakken voor jouw organisatie? Stuur ons een e-mail via ons contactformulier en we nemen zo snel mogelijk contact met je op.