navigatie overslaan
Alle plaatsen > Information & Process > Blog > Schrijvers hans.kaashoek

Information & Process

6 Posts geschreven door: hans.kaashoek Moderator

Ervaart u ook enige jalousie als u door de verkoopbrochure van een huis bladert? Alles functioneel ingericht, mooi strak geordend, geen rommel en je zou er zo in kunnen gaan wonen. Er zijn mensen die bewust vaak verhuizen om zo de aanwas van niet meer noodzakelijke spullen beperken. Dit terwijl ze iedere keer weer een iets groter huis kopen. Automatiseringsafdelingen laten de systeemomgeving en de gegevensverzamelingen maar wat graag (mee)groeien met de nieuwe vereisten van de onderneming. Iedere keer weer een maatje groter en meer functies. Maar het ordenen en opruimen van de reeds aanwezige informatie is niet hun sterkste eigenschap. Een activiteit die door de explosief groeiende informatiemassa zo nu en dan hard nodig is.

Bij een verhuizing worden letterlijk alle kasten en laden opengetrokken en wordt alles wat daarin zit minimaal één keer geanalyseerd. Bij het uitruimen wordt bepaald wat de emotionele of fysieke waarde is en of het behouden moet blijven. Blijft het behouden dan wordt bepaald waar het object in de nieuwe omgeving komt te staan en welke functie het daar krijgt. Objecten die niet op waarde kunnen worden geschat, worden of weggedaan of tijdelijk elders opgeslagen. Bij het uitpakken van de verhuisdozen vindt een tweede waardebepaling plaats. Voldoet het zoals voorgesteld of krijgt het bij nader inzien toch een andere bestemming. Hoe anders gaat het bij de vernieuwing van applicaties. De selectie van de nieuwe functionaliteit en daarbij behorende gebruiksmogelijkheden krijgt alle aandacht. De nieuwe technische en functionele vereisten van de onderneming, nu en in de toekomst, moeten perfect ondersteund worden. Actualisering van de inhoud van de applicatie is daarbij vaak een onderbelicht element. De gestructureerde data wordt met de ETL-aanpak (Extractie, Transformatie en Laden) aangepast en overgezet. Schoning en actualisering wordt niet tot zelden gedaan. Ongestuctureerde content in  fileshares, sharepoint sites of ECM systemen wordt vaak, als een last minute projectactie, één op één overgezet van de oude naar de nieuwe omgeving. Een van de redenen dat een goede analyse van de betekenis en waarde van deze content achterwegen blijft heeft te maken met het eigenaarschap. Ongestructureerde content wordt doorgaans door medewerkers op zelf te kiezen locaties opgeslagen. Dit met zelfgekozen ontsluitingskenmerken en op basis van een eigen ordening. Is de content oud, is medewerkers niet meer in dienst, de afdeling gereorganiseerd of opgeheven dan durft niemand zijn vingers te branden aan de opruiming van deze content. Opslagsystemen worden steeds goedkoper dus het as-is overzetten is financieel geen probleem. Een alternatief is het op read-only zetten van de oude verzameling en alleen de echt  gevraagde content on-demand overzetten. Als men na verloop van tijd nog weet wat daar staat!

Wat bij het as-is overzetten een probleem geeft, is de toegang en het gebruik van de content in de nieuwe omgeving. Nieuwe softwarefuncties komen niet tot hun recht omdat de benodigde registratiekenmerken onvolledig zijn of ontbreken. Het overzetten van dubbele, verouderde of niet meer relevante content vertroebelt de kwaliteit en werkbaarheid van de informatie. De presentatie van relevante objecten betreffende een zaak is onvolledig omdat geen uniforme metadatakenmerken en structuur is toegepast. Dit laatste geeft een bottleneck bij de ondersteuning van cusomerselfservice applicaties. De klant, als buitenstaander, wil direct de juiste en volledige informatie tot zijn beschikking hebben om te voorkomen dat hij/zij bij het uitvoeren van een transactie gefrustreerd raakt en afhaakt.

Als een onderneming inzet op de digitalisering van haar processen en klantinteractie en investeert in nieuwe systemen en applicaties (het nieuwe huis) zal ook terdege aandacht moeten worden besteed aan de kwaliteit, juistheid en actualiteit van de informatie (de inrichting). Dit vraagt serieuze voorbereiding en projectresources. Met het resultaat, een opgeruimd, geactualiseerd, functioneel ingericht en direct inzetbare informatiehuishouding kan de onderneming weer jaren vooruit.

Het grote verschil tussen gestructureerde en ongestructureerde informatie is dat je van de eerste direct kan zien wat het is en wat de “waarde” ervan is. Bij de tweede ligt de werkelijke waarde vaak verborgen in de inhoud.

Gestructureerde informatie (data en tekstgegevens) kun je direct lezen en heeft een concrete waarde. Door gegevens binnen de context van een applicatie te brengen wordt de waarde ervan nog concreter en wordt ook de relatieve waarde ten opzichte van andere gegevens duidelijk. 100 is in absolute waarde 100, maar in betekenis gering als de naast volgende waarde in een serie 10.000 is. Gestructureerde informatie kun je sorteren op waarde, analyseren en eenvoudig in relatie brengen tot andere informatie elementen. Business Intelligence en Big data analyse tooling maakt hier dankbaar gebruik van.

Ongestructureerd
Hoe anders is het met de waardebepaling van ongestructureerde informatie. Allereerst staat deze informatie als individuele bestanden ergens in een opslag of beheeromgeving. Afhankelijk van de opslagomgeving kun je zien wat voor objecttype het is, zijn omvang, de titel en mogelijk wat aanvullende gegevensvelden zoals creatiedatum, eigenaar en laatst gebruikt. Ook de plaats van het object binnen de beheeromgeving kan enige informatie geven over de aard van het object. Maar het zijn nog steeds om- of beschrijvende gegevens over het object zelf. Mogelijke informatie over de inhoud van het object kan worden verkregen uit aanvullende metadata of indexvelden. Als deze velden tenminste zijn gedefinieerd en zinvol zijn ingevuld. Iets dat door de gebruiker niet altijd als een plezierige taak werd en wordt ervaren. Nieuwe beheersoplossingen helpen de gebruiker bij het opslaan van nieuwe informatie met suggesties bij het invullen van deze velden. Ze  “kijken mee” naar de aktiviteiten in het werkproces, de rol van de gebruiker en deels ook naar de meest voorkomende woorden in het object. Een volledige automatische analyse en registratie komt ook steeds vaker voor. Informatie wordt zo vollediger en met een bedrijfstaxonomie geregistreerd, gegroepeerd als het gaat om soortgelijke informatie en overeenkomstig de waarde voor langere termijn veiliggesteld. Dit vermindert werk en willekeur van de eindgebruiker en verbetert de terugvindbaarheid van een object, het bonnetje, de bezwaarbrief of de beleidsnota.

Oude bestanden
Maar wat te doen met de reeds aanwezige, oude en vaak slecht geregistreerde files en bestanden in een organisatie? Een beetje organisatie heeft er miljoenen op diverse Fileshare locaties staan. Oudere beheeroplossingen bieden slechts een digitale weergave van de oorspronkelijke fysieke file/folder opslagstructuur in plaats van een metadate gebaseerde ontsluiting. Ook in modernere document- of contentmanagementoplossingen is de inhoud en zo de bedrijfswaarde of risico van de opgeslagen objecten niet tot nauwelijks te bepalen. Dit door niet of foutief ingevulde velden, verschillende in terminologie of het gebruik van de velden voor andere informatie. Alleen afgaan op hoe het oude object is ontsloten maakt de integratie in één bedrijfsinformatiehuishouding risicovol. Enerzijds vanwege het zoekresultaat-overload door de presentatie van alle mogelijke objecten en anderzijds omdat de werkelijke inhoud en waarde daarvan niet bekend is. Dat laatste geeft een reële kans op het niet tonen van wel aanwezige en relevante informatie. Als een cruciale bedrijf- of klantbeslissing op onvolledige informatie wordt genomen kunnen de gevolgen, bij nadere analyse, ingrijpend zijn. Weten wat de werkelijke inhoud en waarde van de bestaande objecten en bestanden voor de bedrijfsvoering is, is meer dan alleen een technisch linkje leggen naar de objecten op basis van de leesbare kenmerken. Een goede inhoudelijke analyse van wat er echt in het object staat en een daarop gebaseerde classificatie en ontsluiting maakt van een oude bestand een waardevol informatie-object.

Facebook begon ooit als smoelenboek voor een universiteit. Het is nu het wereldwijde social media softwareplatform. En het mooie is, je betaalt voor het gebruik ervan geen licentiekosten. Vernieuwingen in functionaliteit worden zonder dat je een onderhoudsvergoeding betaald automatisch doorgevoerd. De rekening voor dit alles wordt betaald door de informatie die je plaats en deelt met andere gebruikers. Informatie die slim wordt gebruikt om andere, wel betalende, belangstellende te paaien om het platform voor hun commerciële uitingen te gebruiken. Een dergelijke trend zien we in alle hoeken van de softwaremarkt. Een fundamentele verandering ten opzichte van de voorheen gebruikelijke licentie aankoop- en onderhoudspolitiek van softwareleveranciers. Software had gewoon een prijs en je betaalde standaard een onderhoudsvergoeding om in ieder geval de fouten in de geleverde software te laten herstellen. Major functionele vernieuwingen werden doorgaans met ingrijpende upgrade diensten en een extra financiële donatie geleverd. Dit alles ongeacht het gebruik van de software, het belang van de toepassing voor de organisatie of de waarde van de informatie die erin werd opgeslagen. In de ERP wereld had je wel een aantal slimme of dominante leveranciers met een branche afhankelijke prijsstelling. In de softwaremarkt voor het beheer van ongestructureerde informatie was de functionaliteit een gegeven en de prijs voor iedereen gelijk.

Interessant is het daarom om te constateren dat met name in de sector voor het beheer van ongestructureerde informatie veel grondleggers van gerenommeerde softwaremerken hun bedrijf hebben verlaten (of verkocht) om een geheel nieuw softwareplatform te ontwikkelen. Voorbeelden hiervan zijn John Newton van Documentum die in 2005 Alfresco start of Ike Kavas van Kofax die in 2010 met Ephesoft begint. Beide bedrijven maken gebruik van het Open Source business model. Hiermee hebben ze het traditionele koop- en onderhoudsmodel verlaten ten gunste van een meer gebruiksgerichte prijspolitiek. Dit beginnende met een opensources versie die tot een bepaalde functionaliteit en omvang gratis kan worden gebruikt. Verder aangevuld met premium versies met premium support waar je een gebruiksvergoeding voor betaald.

Ook hun software ontwikkelstrategie is fundamenteel anders. Deze is niet meer gebaseerd op een 100% eigen ontwikkelcapaciteit en snelheid. De productontwikkeling wordt mede gerealiseerd door nauwe samenwerking met meerdere co-creatie partners. Ook het snel integreren van nieuwe functionaliteit van andere opensource leveranciers hoort bij de strategie. Hiervoor is een constante marktscan voor interessante functies een standaard element van de CTO functie geworden. Niet meer alles zelf bedenken en ontwikkelen, maar vooral extern observeren, bediscussiëren en bij goed gevolg integreren. Hiermee worden nieuwe functies en platformupgrades zeer snel gerealiseerd. En het mes snijdt aan twee kanten. De platformleverancier blijft innovatief met snelle vernieuwingen en de niche-functie leverancier lift mee op de statuur en klantenbase van de platformleverancier. Met alle voordelen voor de eindgebruiker die het uiteindelijke product gebruikt.

De tijd dat een onderneming één tot maximaal twee keer per jaar aan de hand van een gedegen meer jaren planning de functionaliteit van de informatiesystemen aanpaste is ver verleden tijd. Nieuwe kanalen en functies voor in- en externe communicatie, de explosie groei in vormen en volume van te verzamelen, te analyseren en te beheren informatie en de snelheid waarmee nieuwe toepassingen moeten worden gerealiseerd vereisen een veel frequentere aanpassing. Dit is nauwelijks meer mogelijk met uitsluitend interne kennis en resources. Alles zelf doen op basis van een strategische keuze voor een in huis one-size-fit-all toepassing is meer remmend dan versnellend.

Een versnelling ligt in het slim combineren van een opensource platform voor de basisfunctionaliteit met daaraan toegevoegd innovatieve niche oplossingen voor gerichte deelfuncties. Met name voor oplossingen voor het verwerken en het beheer van ongestructureerde informatie zijn die mogelijkheden in overvloed beschikbaar. Doordat de functionele eisen hiervoor minder hard zijn gedefinieerd geeft dit de ruimte om een eigen oplossingsomgeving samen te stellen op basis van verschillende deelcomponenten. Extern functioneel kralen rijgen. Met deze externe co-creatie aanpak verandert de rol van de interne IT afdeling. Zij zal constant de ontwikkelingen en het beschikbaar komen van hoofd- en deelfuncties in de wereldwijde softwaremarkt moeten analyseren en matchen met de businesswensen van de eigen onderneming. Bij gebleken toepasbaarheid zal zij de externe partijen moeten motiveren om de omgevingen met elkaar te verbinden. Met tevens de “leveringsgarantie” dat de functionaliteit ook voor de toekomst wordt gegarandeerd. De ketting moet wel blijven functioneren. Applicatie co-creatie met het beste uit de Saas en Opensource markt om zo de gewenste nieuwste functionaliteit snel beschikbaar te hebben voor de interne en externe slagkracht.

Bovenvermelde aanpak is fundamenteel anders dan de toe nu toe gebruikelijke. Corporate applicaties voor het beheer van ongestructureerde informatie werden voorheen aangeschaft vanwege de zo compleet mogelijke functionaliteit die ze als suite bieden. Bij het vastleggen, beheren en presenteren van ongestructureerde informatie zijn de wensen vaak een combinatie van basisfunctionaliteit aangevuld met proces of medewerker specifieke wensen. Hierdoor worden implementatieprojecten op dit gebied vaak omvangrijke knutselprojecten waarbij het gekochte pakket met inzet van veel interne of extern ingehuurde experts wordt verbouwd. Een verbouwing die de verdere inzet van het basispakket, de upgrade naar een nieuw release of de migratie van de toepassing naar een moderne omgeving er niet eenvoudiger op maakte. Punt daarbij is ook dat de functionele doorontwikkeling van het basispakket de verantwoordelijkheid van de pakketleverancier is en dat eventueel andere functionaliteiten door de gebruiker zelf moeten worden geselecteerd en geïntegreerd. Dit met alle compatibiliteitsrisico’s van dien in de toekomst.

De Saas/opensource omgeving biedt het schaalbare gebruik van een configureerbare oplossingsomgeving. Ook is deze omgeving meer open en eenvoudig te verrijken of te integreren met andere opensource toepassingen. Nieuw is dit op zich niet. Wel nieuw is de methodiek om deze integratie niet zelf als organisatie te doen maar door de leveranciers van basis en deelfuncties. Dit met een afname of gebruiksgarantie van de nieuwe te creëren functionaliteit zonder deze exclusief te claimen. De bredere vercommercialisering van de gecombineerde oplossing is een prikkel voor de softwareleveranciers om de integratie snel en toekomst vast te realiseren. Wat een snelle vernieuwing  van de eigen informatiehuishouding ten goede komt.

Deze blog is onderdeel van een serie blogs in AGconnect i.v.m. 50 jaar IT.

De automatische classificatie van ongestructureerde informatie is al jaren een probleem. Wat een mens in één oogopslag ziet, is voor software nog steeds een hele kunst. Door de combinatie van verschillende technieken en methoden worden de resultaten steeds beter.

Zo goed zelfs dat volledig automatische classificatie voor steeds meer toepassingen een realiteit is. Een goede ontwikkeling, ook in het kader van de komende Algemene Verordening Gegevensbescherming (AVG).

 

Leg een aanvraagformulier, een formele brief, een contract en een declaratie, al dan niet digitaal, naast elkaar en een mens ziet direct wat ieder document is. Hij leest de relevante gegevens, doet nog een inhoudscontrole en plaatst ze ook nog in een mogelijk onderling verband. Deze ogenschijnlijk vanzelfsprekende actie is bij nadere analyse een combinatie van verschillende herkennings- en analysetechnieken. Er is onder andere sprake van de analyse van het objecttype (vorm, aard, layout), de inhoud (tekst, cijfers, structuur), de betekenis (inhoud in context), relevantie (onderwerp, woordkeus, leeftijd, auteur, geadresseerde) en authenticiteit (handtekening, stempel). Omdat het soort en de inhoudsvorm van nieuwe digitale content constant veranderen, is het gebruik van op één technologie gebaseerde herkennings- en classificatiemethode een risico.

Dit geldt ook voor de classificatie van reeds lange tijd in een organisatie aanwezige, soms nog fysieke, oude content. ‘Oud’ ook in de zin van vorm, inhoud, onderwerp en taalgebruik. Een aanvraag voor zwangerschapsverlof uit 1980 ziet er totaal anders uit dan het laatste UWV-formulier hiervoor.

Wereldbeker

Het inhoudelijk analyseren en classificeren van een object op basis van alleen woordfrequentie (word counting) gaat voorbij aan de aard van het document, de aanvraag zelf of juist een klacht over een verkeerd verwerkte aanvraag. Alleen woordanalyse gaat voorbij aan de context waarbinnen de woorden zijn gebruikt. Een wereldbeker kan zomaar gezien worden als een hele grote drinkbeker. Het alleen zoeken van informatie met een specifieke layout, zoals een datum, ziet niet het verschil tussen de documentdatum en de datum waarop het contract getekend is en ingaat.

Reeds lang bestaande analyse- en classificatieoplossingen zijn ooit vanuit de toen beschikbare technologie voor één primaire toepassing ontwikkeld en daarvoor nog steeds prima te gebruiken. De toepasbaarheid ervan voor alle vormen van digitale content en ook het ‘oude’ materiaal wordt echter steeds meer een uitdaging. Nieuwe classificatieoplossingen combineren dan ook meerdere analysetechnieken in één oplossing.

Businessrelevantie

Content werd voorheen geclassificeerd om in digitale werkprocessen door mensen te worden geanalyseerd en verwerkt. Nu is het streven om de geclassificeerde content en vooral de inhoud ervan direct te verwerken in transactiegebaseerde applicaties. Het classificatieproces wordt steeds meer toepassingsgericht. Ook de classificatie van content voor specifieke bedrijfsdoelstellingen, compliance-issues, e-discoveryvraagstukken en wet- en regelgeving wordt steeds actueler. Dit betekent dat de classificatieoplossing naast een zorgvuldige analyse en gegevensextractie tevens in staat moet zijn om de van toepassing zijnde businessregels in het classificatieresultaat te integreren.

Hiermee kan als direct resultaat van de classificatie de impact, de waarde of het risico van de geanalyseerde objecten in relatie tot die businessregel worden bepaald. Bijvoorbeeld: wat voor soort AVG-gerelateerde en voor de organisatie nog waardevolle documenten staan er in een afdeling-Fileshare. Of: wat voor contractdocumenten er in de algemene opslagomgeving van de ontslagen medewerker staan die nog niet bekend zijn in het centrale klantdossiers.

Hulpmiddel

De toepassing van contentclassificatie verandert van een technologische keuze in het toepassen van een gericht businesshulpmiddel. Dit om op basis van een geautomatiseerde waardebepaling van het geanalyseerde object direct de juiste vervolgacties te bepalen of te ondernemen. Een onmisbaar hulpmiddel om de explosief groeiende hoeveelheid digitale content op de juiste wijze te kunnen blijven behandelen.

Negen van de tien organisaties hebben geen inzicht in de waarde of het risico van de aanwezige content

Voor de evolutie van content- naar informatiemanagement is de kwaliteit van content van cruciaal belang. Slecht geclassificeerde content heeft veel negatieve gevolgen. Kortom, zegt Hans Kaashoek, tijd om orde op zaken te stellen en grip te krijgen op alle aanwezige content. Een fundamentele analyse van deze content is noodzakelijk.

Enterprise Content Management (ECM), voor het beheer en het werken met ongestructureerde informatie, evolueert richting Enterprise Informatie Management. Ook de functionele verrijking van de ECM oplossing met contentanalyse en nieuwe zoek- en integratiefuncties draagt bij aan deze evolutie. De effectiviteit en het rendement van een EIM-oplossing wordt echter in hoge mate bepaald door de kwaliteit van de onderliggende content. Content (files, e-mails, foto’s, video, blogs) wordt naast gestructureerde data (ERP, CRM, HRM) steeds nadrukkelijker gezien als bedrijf kritische informatie. Ontoereikende of niet geclassificeerde content, bestaand en nieuw, die over meerdere bronsystemen of locaties is opgeslagen heeft een permanent negatief effect op de kwaliteit van de EIM-oplossing en de kosten van beheer en opslag. Slecht geclassificeerde content beperkt tevens de mogelijkheden van de nieuwste informatieontsluiting- en gebruiksfuncties. De explosieve toename van de hoeveelheid content die een organisatie ontvangt, creëert en opslaat versterkt al deze problemen. Tijd dus om orde op zaken te stellen en zo weer grip te krijgen op alle content in een organisatie. Contentanalyse en -herclassificatie voor de verbetering van de kwaliteit van de in- en externe informatievoorziening. Contentschoning en -consolidatie voor het beperken van de risico’s van out-dated content en de stijging van opslag- en beheerkosten. De combinatie van beide biedt op bedrijfsniveau vele voordelen om een digitale organisatie flexibel en slagvaardig te maken.

Geen inzicht
Vijfentwintig jaar document- en contentmanagement hebben hun sporen nagelaten in het informatielandschap. Ooit als state-of-the-art geïntroduceerde documentbeheersystemen zijn nu technisch verouderd en een blok aan het IT-been. Afdelingsgerichte toepassingen waarin de gebruiker eenvoudig zijn weg en informatie kon vinden zijn door beperkte functionaliteit ongeschikt voor organisatie brede inzet. Zijn de documenten ooit gescand en opgeslagen in het TIFF-formaat dan is inhoudelijk zoeken uitgesloten. Ontwikkelingen in terminologie, begripskader en registratie- en rapportage-eisen veranderen maatwerksystemen in echte informatiesilo’s. Vooral als de digitale files alleen met een doc-id-nummer geregistreerd zijn en deze via complex maatwerk, met vaak ook proceslogica, hecht geïntegreerd zijn met bedrijfsapplicaties. Het uitfaseren van deze systemen is niet eenvoudig. Veel content verdwijnt uit het gezichtsveld door de herinrichting van een organisatie of het einde van een project. Zonder eigenaar worden eens bedrijfskritische documentsystemen passieve informatiebronnen waarvan de kennis van de inhoud, de betekenis en de waarde ontbreken. Ook medewerkers wisselen van functie of verlaten de onderneming en laten allerlei dossiers en files achter. De toepassing van ECM-systemen ten spijt, staat veel content op fileshares, in inboxen en allerlei snel aangemaakte SharePoint-sites. Deze content is meestal “geordend” in een door de gebruiker verzonnen mappenstructuur met de filenaam als enige ontsluiting. Resultaat van dit alles is dat negen van tien organisaties geen inzicht hebben in de exacte hoeveelheid, de waarde en het risico van alle aanwezige content. Content die essentiëel is voor één integrale klantbenadering of zaakafhandeling en die een adequate informatiehuishouding vereist. Een informatiehuishouding waaraan door toenemende digitalisering van organisaties, werkprocessen en klantinteractie steeds hogere eisen wordt gesteld. Een informatiehuishouding die, net als in de datawereld, eenduidig en uniform moet worden ontsloten en beheerd.

Schrikbeeld
Tachtig procent of meer van de bedrijfsinformatie is ongestructureerde content die op diverse locaties wordt opgeslagen. Recentelijke nog werden alle inkomende berichten door een postkamer of een DIV medewerker geregistreerd. Nu gaan ze via multichannel input zonder registratie direct naar de medewerker of de processen. Content in cloud-toepassingen heeft een eigen ontsluitingstructuur en is daardoor lastig te integreren met bestaande informatiebronnen. Nieuwe versies van ECM en informatiebeheersystemen bieden weliswaar geavanceerde functionaliteit maar deze kan lang niet altijd optimaal worden benut. Zo biedt bijvoorbeeld SharePoint 2013 veel uitgebreidere contentbeheer-, classificatie- en ontsluitingsfuncties dan de 2007 of 2010 versies. Deze functionaliteit komt echter niet tot zijn recht bij een lift & shift contentmigratie omdat essentiële metadatavelden niet in de voorgaande versie aanwezig zijn en dus nieuw gedefinieerd moeten worden. In menig organisatie ontbreekt het aan een overall metadatamodel waardoor content nog vaak toepassingsgericht wordt geclassificeerd. Hierdoor ontbreekt het overzicht van alle aanwezige en relevante informatie over een klant, zaak of project.

Wat organisaties wel zien is de lange maar toch onvolledige resultaatlijst na een zoekopdracht of de explosieve stijging van opslag- en beheerskosten. Toename van de vereiste opslagcapaciteit met ruim dertig procent per jaar is geen uitzondering. Het overgrote deel is voor content zoals e-mails, documenten, foto’s en video. Het met tien hoogresolutie foto’s via mobielschademelden.nl registreren van een ongeval geeft duizend keer meer datavolume dan via één schadeformulier. De opslagkosten voor één petabyte zijn vele miljoenen euro’s/jaar. Het financiële schrikbeeld voor menig CIO van een grote onderneming. Van de ongestructureerde informatie staat tachtig procent ongeclassificeerd in fileshares, inboxen of SharePoint sites. Ruim zestig procent van alle bedrijfsinformatie is dus content met een onbekende waarde of risico. Teveel content te lang bewaren leidt tot significante risico’s in aansprakelijkheid of rechtmatigheid. Gerichte of rechtmatige schoning is noodzakelijk maar wordt lang niet altijd uitgevoerd. Om voorgaande uitdagingen te adresseren en de organisatie gereed te maken voor een volledig digitale toekomst is een fundamentele analyse van alle aanwezige content op enig moment noodzakelijk. Werk dat voorheen door geduldige specialisten werd uitgevoerd maar nu steeds vaker met software wordt gedaan. Waarbij de laatste zowel technisch als functioneel aanzienlijk eenvoudiger opschaalt dan de eerste.

Contentverrijking
Het resultaat en doorlooptijd van een contentoptimalisatieproject wordt mede bepaald door de mate en kwaliteit van de classificatie. Classificatie op basis van traditionele file-analyse met alleen wordcounting of keyword-extractie is ontoereikend. Omdat hierna nog de mapping van de geëxtraheerde keywords op de organisatietaxonomie moet worden gedaan. Deze mapping en de afhandeling van de uitzonderingen zijn foutgevoelige en tijdrovende processen. Nieuw is de classificatie met zelflerende algoritmen die gebruikmaken van een representatieve referentieset van gelabelde objecten én de daarbij behorende verwerkingsregels. Het proces verloopt hierdoor vrijwel volledig automatisch. Contentverrijking en -consolidatieprojecten doorlopen doorgaans de volgende stappen: - contentinventarisatie en –mapping over alle bronsystemen en opslaglocaties heen, - definitie metadatastructuur voor de doelomgeving - GAP analyse en projectscooping, - creatie referentieset met procesregels - detailkoppeling met bronsystemen, - lezen, analyseren en classificeren content, - verrijking metadatagegevens en herclassificatie content, - optioneel: ontdubbelen, bepaling laatste versie, verwijderen dark-data en opschoning - terugschrijven of inlezen content en metadata in doelomgeving. En alles met gedetailleerde logging,  procesdashboards, rapportagefuncties en validatieslagen. Dat ondernemingen de kwaliteit, beheersbaarheid en kosten van ongestructureerde informatie serieus nemen blijkt uit de vele oplossingen en projecten op dit gebied.

Twee stromingen
Voor de optimalisatie van contenttoegang en -gebruik zijn twee stromingen in de markt te onderkennen. Fundamentele contentanalyse, -verrijking en -consolidatie enerzijds en de inzet van geavanceerde zoektechnologie anderzijds. De inzet van zoektechnologie heeft voor- en nadelen.
Enkele voordelen zijn:
- minder complex implementatie- en veranderingsproces,
- werkt goed binnen gerichte informatieverzamelingen,
- semantisch zoeken wordt steeds beter,
- eenvoudig in gebruik.
Enkele nadelen zijn:
- geen ontdubbeling, opschoning en opslagreductie,
- eigen formulering vraagstelling kan tot verschillende antwoorden leiden,
- vereist goede opbouw thesauri en woord in context analyse,
- en als grootste nadeel; het probleem wordt niet bij de bron aangepakt en geeft geen fundamentele verbetering van de bestaande informatiehuishouding.

Positieve effecten
De operationele en financiële resultaten van tot nu toe uitgevoerde contentclassificatieprojecten zijn uiterst positief. Inzicht krijgen in de werkelijke aard en hoeveelheid content die een organisatie bezit is soms al zeer waardevol. Oude verzamelingen en versnipperde content wordt geschoond, verrijkt en logisch of zelfs fysiek geconsolideerd in één uniforme en organisatiebrede informatieverzameling. Dossiers bevatten alle relevante informatie en ondersteunen iedere kenniswerker. Kennis die hierdoor beschikbaar komt voor de organisatie en niet langer persoonlijk bezit is van medewerkers. Dit verhoogt tevens de organisatieflexibiliteit en inrichtingsmogelijkheden, ook in relatie tot digitale klantinteractie. Effectief gebruik van de nieuwste ontsluiting- en beheerfuncties wordt mogelijk wat de gebruikswaarde van standaard software verhoogd. Een integrale klant- of zaakbenadering vereist geen complexe informatie- en systeemintegratie meer. Na een fysieke consolidatie kunnen softwarelicenties van oude beheersystemen worden opgezegd. Vermindering van het opslagvolume met dertig tot veertig procent en daaraan gerelateerde kosten en beheerinspanning worden al snel gerealiseerd. Toekomstige herclassificatie wordt door de actualisering en opschoning aanzienlijk eenvoudiger. De informatieverzameling is op orde en voldoet aan informatie governance richtlijnen.

Grip op de kwaliteit, de hoeveelheid en het gebruik van content brengt, naast kostenbesparingen, de realisatie van de echte kennisorganisatie een stap dichterbij. Met het inzicht van wie welke content voor welke taak gebruikt kunnen kennisprofielen worden aangemaakt en informatierelevantie worden bepaald. Pro-actieve ondersteuning van medewerkers of zelfwerkzame externe relaties wordt een automatisme. Nieuwe informatie wordt onder de “save-knop” automatisch geclassificeerd en zo altijd juist ontsloten en opgeslagen. Content in context wordt essentiële bedrijfsinformatie en waardevolle kennis voor iedereen.