Direct naar artikelinhoud
Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Kunstmatige intelligentie

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?

Beeld Van Santen & Bolleurs

Boven snelwegen, in supermarkten, in stations, luchthavens en straten: overal hangen camera’s. En het worden er steeds meer. Kunstmatige intelligentie (AI) moet helpen bij het interpreteren van al die beelden. Maar hoe betrouwbaar zijn die computerinterpretaties?

Wie goed om zich heen kijkt, ziet overal camera's. Die bevinden zich in mobieltjes, de babyfoon of in moderne auto’s, maar ook in openbare gelegenheden. Camera’s langs wegen, op stations en in winkels nemen continue beelden op van reizigers, auto’s en klanten. 

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld ANP

Over slechts drie jaar zullen er naar schatting maar liefst 44 miljard camera’s op de wereld zijn, een ruime verdubbeling ten opzichte van 2019: 

Al die beelden zullen natuurlijk ook moeten worden bekeken. De vraag is: door wie? Zal dat gebeuren door mensenogen? Als die schermen er zo uitzien, kan het nog wel:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld Colourbox

Maar voor Cees Snoek, hoogleraar intelligente sensorische informatiesystemen aan de Universiteit van Amsterdam, staat het als een paal boven water: die lawine aan beelden zal in de toekomst automatisch worden geïnterpreteerd. Door de computer. ‘Ga maar eens op Schiphol of bij de NS urenlang turen naar twintig schermen om te zien of er iets verdachts gebeurt. Niet te doen. Kunstmatige intelligentie gaat dit overnemen.’ 

Wie wil weten hoe grootschalig automatische beeldherkenning kan worden ingezet, kan naar China kijken. De overheid doet niet moeilijk over privacy en verzamelt op grote schaal beelden van zijn burgers. Niet voor niets betitelde the Wall Street Journal de Chinese inspanningen als ‘Next-level surveillance': 

Een bedrijf als SenseTime profiteert daar van. Nadat Alibaba vorig jaar 600 miljoen dollar in het Chinese concern investeerde, geldt het als de waardevolste AI-startup ter wereld. SenseTime loopt wereldwijd voorop met gezichtsherkenningstechnologie. In China bevinden zich nu al tweehonderd miljoen surveillancecamera’s. Die camera’s houden de Chinese burger goed in de gaten, en steeds vaker in combinatie met technologie zoals SenseTime die maakt. Alles wat op een druk verkeersplein gebeurt, wordt dan zo digitaal in kaart gebracht:

Overigens is het pas sinds een paar jaar dat AI zo goed objecten en gezichten kan herkennen op foto’s of video’s. Snoek: ‘Toen ik begon met dit onderzoek, rond 2001, maakten we een vreugdedansje als een netwerk uit een verzameling van honderd plaatjes één goede eruit pikte.’ In de jaren erna ging het enorm hard. Inmiddels vinden we het volstrekt normaal als Google Photo alle katten uit een fotoverzameling haalt. Nog wel inclusief een kunstwerk dat volgens het algoritme blijkbaar ‘katachtig’ is:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld Google Photo

En waar geen peuter het in zijn hoofd zou halen dit reptiel in Costa Rica als ‘kat’ aan te merken, doet Google dat wel:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld Laurens Verhagen

Nog wel, want computers worden - al lerend - steeds beter. Ze kijken alleen fundamenteel anders naar de wereld dan mensen. Waar de mens het geheel ziet, kijkt een neuraal netwerk naar minuscule onderdelen, naar contrasten. Maar meestal gaat het goed, en steeds beter. Googles FaceNet was zelfs in staat om uit een verzameling van vijfduizend afbeeldingen met beroemdheden in 99,6 procent van de gevallen de juiste naam aan te wijzen. Dat was zelfs beter dan menselijke specialisten. Ook het herkennen van simpele acties in YouTube-video’s zoals het verwisselen van een autoband of het smeren van een boterham gaat inmiddels redelijk goed. Het gaat dan ook om duidelijke opnamen en één duidelijke actie in een kort videofragment. 

De opmars van AI bij het analyseren van foto’s en video’s lijkt niet te stuiten, maar er zijn nog veel beren op de weg. Wie denkt dat alles en iedereen binnenkort automatisch wordt geïnterpreteerd, komt bedrogen uit. Neem de supermarkten van Albert Heijn. Een op het eerste gezicht voor de hand liggende plek om verdacht gedrag - bijvoorbeeld winkeldiefstal – door de computer te laten analyseren. Een winkeldief als deze zou dan niet meer door een alerte winkelbediende onderuit hoeven te worden geschoffeld:

Een foto die is geplaatst door null (@433nl) op

Maar zo werkt het nog niet, zegt een woordvoerder van Ahold. ‘Wij gebruiken geen AI . In onze winkels hebben wij beveiligers die alles goed in de gaten houden.’ Die terughoudendheid is te verklaren. Het detecteren en herkennen van verdachte bewegingen is namelijk erg complex. Pakt deze jongeman iets uit het tasje van de dame naast hem of legt hij er juist iets in?

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld Colourbox

‘Iedereen denkt dat het al lang overal gebeurt, op Schiphol bijvoorbeeld. Maar dat is niet zo: het automatisch detecteren van zakkenrollers aan de hand van camerabeelden is ongelofelijk lastig. Veel bedrijven beloven dat ze dit probleem kunnen oplossen, maar dat is onzin.’ Die analyse van verdachte bewegingen gebeurt dus nog niet met AI. Een van de problemen die opgelost moeten worden is dat zogenoemde deep learning-netwerken veel voorbeelden nodig hebben om hun voorspellingen te kunnen doen. ‘Zo lang je duizenden voorbeelden hebt, werkt het als een tierelier. Maar bij zakkenrollers op een vluchthaven heb je die niet. Hoe preciezer de voorspelling die je wilt doen, hoe meer voorbeelden je nodig hebt.’ Nog een probleem: er gebeuren vaak veel dingen tegelijk en de kwaliteit van dat soort video’s laat vaak te wensen over. Wat gebeurt bijvoorbeeld hier precies?

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld AP

Of hier?

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld AP

Ondertussen beloven bedrijven als Vicomtech in gelikte promovideo’s dat hun geavanceerde software in real time vechtpartijen en vluchtende misdadigers eruit kan vissen:

Klinkt allemaal indrukwekkend, maar is in de praktijk heel moeilijk, zegt Snoek. Alleen als het geweld heel expliciet is, lukt dat. Heftige zwaaiende armen, rennende mensen, schoppende benen. Maar als de gedragingen subtieler zijn, zal het nog niet lukken. Het verschil tussen een vriendelijke omhelzing of een verstrengeling is voor de machine bijvoorbeeld erg lastig te zien. Snoek wil gaan onderzoeken hoe je toch voorspellingen kan doen met weinig voorbeelden, ‘maar daar ben ik de komende jaren nog wel even zoet mee.’ 

Een laatste, en fundamenteel probleem met automatische beeldherkenning: de voor mensen onbegrijpelijke fouten die algoritmes kunnen maken en de grote gevolgen die deze kunnen hebben in een samenleving die steeds zwaarder leunt op volautomatische beslissingen van computers. Deze kunnen dan wel steeds beter worden in hun werk, de manier waarop ze de wereld ervaren, is totaal anders dan hoe mensen dat doen. Waar de mens het geheel ziet (een hond op een grasveld bijvoorbeeld), daar analyseert de computer minuscule onderdelen. Hij kijkt abstract naar patronen en verschillen in licht en donker tussen verschillende pixels. ‘Alsof je door een rietje probeert de krant te lezen’, zoals de Nederlandse AI-ondernemer Jim Stolze het omschrijft. De machine weet immers niets, zegt Cees Snoek, het is gewoon kansberekening: wat is de kans dat dit een hond is?

Zo’n gokkende computer is vrij eenvoudig te foppen door aan een plaatje heel minieme veranderingen aan te brengen. Kwestie van een paar pixels, maar voor het netwerk is het een wereld van verschil. Door deze – voor mensenogen onzichtbare – laag ruis toe te voegen, snapt het beeldherkenningsnetwerk er niets meer van. Een panda wordt zo ineens geclassificeerd als een mensaap: 

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld open AI

Voor mensen is zo’n fout niet te snappen, want wij zien gewoon een panda. ‘We kúnnen zo’n computervergissing ook niet snappen’, zegt Snoek. ‘Wij kunnen zo’n niet uitleggen waarom een netwerk denkt dat iets een panda is, een mensaap, of een geweer. Een netwerk heeft miljoenen datapunten waarin hij correlaties vindt. Totaal anders dan hoe wij naar beelden kijken. Als je een paar van die correlaties manipuleert, wordt de uitkomst iets heel anders.’ 

Als Google Photo een afbeelding in je fotocollectie op die manier misinterpreteert, is dat niet zo’n ramp. Anders wordt het als kwaadwillenden dit soort trucs in het verkeer zouden toepassen waardoor autonoom rijdende auto’s voor de gek kunnen worden gehouden. Verkeerschaos zou het gevolg kunnen zijn. En wat te denken van een systeem op een vliegveld dat een schildpad ten onrechte voor een geweer houdt? Onderzoekers toonden met een 3d-geprint model van een schildpad aan dat ze een netwerk inderdaad kunnen laten geloven dat ze met een geweer in plaats van een schildpad van doen hebben:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld Labsix

Ze noemden dit soort trucs al eind 2017 een ‘veel groter probleem’ in de echte wereld dan tot voor kort werd aangenomen. Of het omgekeerde: nog vervelender. Het zijn nu nog theoretische gevaren, maar niet ondenkbaar. Een andere ‘hack’ gebeurt door aan een afbeelding een zichtbaar verstorend patroon toe te voegen. Een raar uitziende, psychedelische bril bijvoorbeeld:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld CMU.edu

Onderzoekers lieten een jaar of twee terug zien hoe zo’n kleurige, verstorende bril op het hoofd van een willekeurige man de computer er toe bracht om met zekerheid te zeggen dat dit een afbeelding van de actrice Milla Jovocich was:

Overal hangen beveiligingscamera's. Hoe betrouwbaar zijn de interpretaties die computers maken van de beelden?
Beeld CMU.edu

Een variant is een A4'tje met daarop een afbeelding van een voorwerp met een al even psychedelische uitziend kleurpatroon. Een broodrooster bijvoorbeeld. De sterke signalen van dit geprepareerde plaatje werken zo verstorend dat alle andere voorwerpen in de buurt ineens niet meer worden herkend:

Aan het succes van de methode van de nu steeds vaker gebruikte netwerken voor het herkennen van beelden – via statistische algoritmes – hangt dus een prijskaartje. Snoek: ‘We zijn de kinderjaren van de automatische video-analyse voorbij. We zitten nu in de pubertijd. We gaan dingen proberen die op het randje zitten. Dat wordt link. Denk aan de door AI gefabriceerde nepvideo’s waarin beroemdheden dingen lijken te zeggen die ze nooit hebben gezegd. Zo kan je Poetin, Obama of wie dan ook alles laten zeggen:

Het is duidelijk: niet alleen houdt de mens de computer voor de gek, andersom gebeurt evengoed. Reden genoeg dus voor voorzichtigheid, maar natuurlijk niet om er mee te stoppen, betoogt Snoek. Want er liggen genoeg nuttige toepassingen te wachten.