navigatie overslaan
Alle plaatsen > Information & Process > Blog > 2017 > juni
2017

Bij ons in de regionale krant las ik over een softwarestrop bij de GGD alhier. Dat ging om het verlies van het lieve sommetje van bijna 500.000 euro op een mislukte software-implementatie. En het ergste misschien wel, het ging om software die de GGD had moeten voorzien van ‘een modern digitaal cliëntendossier…’ Daar waren ze vanaf 2015 al mee bezig, maar nu is dus duidelijk geworden dat het volledig is mislukt. Volgens de GGD heeft de leverancier niet kunnen voldoen aan de wensen en afspraken. Nu zijn ze daar nog in overweging of er juridische stappen gezet gaan worden om die 500.000 euro terug te halen. Apart. Toch? Als je zo stellig bent in je oordeel dan zou ik denken dat je wel ‘een zaak’ hebt. Maar ik dacht eigenlijk dat dit soort zaken niet meer voorkwamen. Bij zo’n bedrag is er toch sprake van een aanbesteding, met alle afspraken en verantwoordelijkheden voor iedereen helder op (virtueel) papier en zo? Hoezo kan er dan sprake zijn van een niet opgeleverd systeem en een afschrijving ineens van 500.000 euro publiek geld? Dat zou dan zonder verdere gevolgen kunnen blijven voor de leverancier?

 

Ik zou denken dat er dan meer aan de hand is. Misschien toch zelf ook niet helemaal helder voor ogen wat je wilt en hoe je dat gaat doen?

De automatische classificatie van ongestructureerde informatie is al jaren een probleem. Wat een mens in één oogopslag ziet, is voor software nog steeds een hele kunst. Door de combinatie van verschillende technieken en methoden worden de resultaten steeds beter.

Zo goed zelfs dat volledig automatische classificatie voor steeds meer toepassingen een realiteit is. Een goede ontwikkeling, ook in het kader van de komende Algemene Verordening Gegevensbescherming (AVG).

 

Leg een aanvraagformulier, een formele brief, een contract en een declaratie, al dan niet digitaal, naast elkaar en een mens ziet direct wat ieder document is. Hij leest de relevante gegevens, doet nog een inhoudscontrole en plaatst ze ook nog in een mogelijk onderling verband. Deze ogenschijnlijk vanzelfsprekende actie is bij nadere analyse een combinatie van verschillende herkennings- en analysetechnieken. Er is onder andere sprake van de analyse van het objecttype (vorm, aard, layout), de inhoud (tekst, cijfers, structuur), de betekenis (inhoud in context), relevantie (onderwerp, woordkeus, leeftijd, auteur, geadresseerde) en authenticiteit (handtekening, stempel). Omdat het soort en de inhoudsvorm van nieuwe digitale content constant veranderen, is het gebruik van op één technologie gebaseerde herkennings- en classificatiemethode een risico.

Dit geldt ook voor de classificatie van reeds lange tijd in een organisatie aanwezige, soms nog fysieke, oude content. ‘Oud’ ook in de zin van vorm, inhoud, onderwerp en taalgebruik. Een aanvraag voor zwangerschapsverlof uit 1980 ziet er totaal anders uit dan het laatste UWV-formulier hiervoor.

Wereldbeker

Het inhoudelijk analyseren en classificeren van een object op basis van alleen woordfrequentie (word counting) gaat voorbij aan de aard van het document, de aanvraag zelf of juist een klacht over een verkeerd verwerkte aanvraag. Alleen woordanalyse gaat voorbij aan de context waarbinnen de woorden zijn gebruikt. Een wereldbeker kan zomaar gezien worden als een hele grote drinkbeker. Het alleen zoeken van informatie met een specifieke layout, zoals een datum, ziet niet het verschil tussen de documentdatum en de datum waarop het contract getekend is en ingaat.

Reeds lang bestaande analyse- en classificatieoplossingen zijn ooit vanuit de toen beschikbare technologie voor één primaire toepassing ontwikkeld en daarvoor nog steeds prima te gebruiken. De toepasbaarheid ervan voor alle vormen van digitale content en ook het ‘oude’ materiaal wordt echter steeds meer een uitdaging. Nieuwe classificatieoplossingen combineren dan ook meerdere analysetechnieken in één oplossing.

Businessrelevantie

Content werd voorheen geclassificeerd om in digitale werkprocessen door mensen te worden geanalyseerd en verwerkt. Nu is het streven om de geclassificeerde content en vooral de inhoud ervan direct te verwerken in transactiegebaseerde applicaties. Het classificatieproces wordt steeds meer toepassingsgericht. Ook de classificatie van content voor specifieke bedrijfsdoelstellingen, compliance-issues, e-discoveryvraagstukken en wet- en regelgeving wordt steeds actueler. Dit betekent dat de classificatieoplossing naast een zorgvuldige analyse en gegevensextractie tevens in staat moet zijn om de van toepassing zijnde businessregels in het classificatieresultaat te integreren.

Hiermee kan als direct resultaat van de classificatie de impact, de waarde of het risico van de geanalyseerde objecten in relatie tot die businessregel worden bepaald. Bijvoorbeeld: wat voor soort AVG-gerelateerde en voor de organisatie nog waardevolle documenten staan er in een afdeling-Fileshare. Of: wat voor contractdocumenten er in de algemene opslagomgeving van de ontslagen medewerker staan die nog niet bekend zijn in het centrale klantdossiers.

Hulpmiddel

De toepassing van contentclassificatie verandert van een technologische keuze in het toepassen van een gericht businesshulpmiddel. Dit om op basis van een geautomatiseerde waardebepaling van het geanalyseerde object direct de juiste vervolgacties te bepalen of te ondernemen. Een onmisbaar hulpmiddel om de explosief groeiende hoeveelheid digitale content op de juiste wijze te kunnen blijven behandelen.