Inhoud
- Digitalisatie versus Optical Character Recognition
- Wat gebeurt er na OCR met een document?
- De invloed van de branche op de keuze voor OCR
- Wat kost een OCR-pakket?
- Kan de scanner ook OCR uitvoeren?
In de 21e eeuw beogen bedrijven steeds vaker een zogenaamd paperless office , waarbij de traditionele papieren A4’tjes vervangen worden door digitale versies, zoals pdf’s, Word-documenten en Excel-lijsten. Organisaties ontvangen echter ook nog vaak documenten in papieren vorm. Denk hierbij aan facturen, papieren poststukken , bepaalde handleidingen etc. Bovendien kan ook niet elk ‘digital born’ document zomaar doorzocht of bewerkt worden. Hierdoor ervaren veel organisaties de noodzaak om een functionaliteit te implementeren voor de conversie van deze documenten naar een werkbaar digitaal formaat. Een programma of functionaliteit voor Optical Character Recognition (OCR), ook wel optische tekenherkenning genoemd, kan deze taak uitvoeren.
Samen met de groeiende noodzaak om alle bedrijfsdocumenten digitaal bewerkbaar te hebben, nemen ook de mogelijkheden voor OCR toe. Sommige leveranciers bieden losse pakketten aan, andere hebben een OCR-module in hun DMS-pakket . Nog andere bedrijven hebben scanners met OCR ontwikkeld. De DMS Wijzer geeft oriënterende bedrijven een duidelijk overzicht van de mogelijkheden om OCR toe te voegen aan documentbeheer.
Opmerking: OCR maakt documenten leesbaar en bewerkbaar, maar geeft niet iedere medewerker ook automatisch de volledige rechten over alle documenten. Door het instellen van een goede rechtenstructuur en toegangscontrole , blijven bijvoorbeeld gevoelige patiëntgegevens onleesbaar of niet-bewerkbaar voor niet-gerechtigden zoals een administratief medewerker.
Is OCR hetzelfde als ‘digitalisatie’?
‘Digitalisatie’ is een populaire term, maar zegt eigenlijk niet veel. Via een eenvoudige scan of zelfs door het nemen van een foto digitaliseer je in principe al een document. Er bestaat dan namelijk een digitale versie. Deze versie is in eerste instantie echter een gewone afbeelding, meestal in TIFF-, JPG- of pdf-formaat. Een persoon kan dit document begrijpen, maar de computer herkent geen inhoudelijke informatie. Bijgevolg kan er buiten weergeven dus niet veel mee gedaan worden.
Na het scannen van een document moet er daarom nog een tweede stap volgen, de conversie naar een werkbaar document. De OCR-module leest de informatie in en zorgt ervoor dat deze werkbaar wordt in de gewenste systemen. Meestal is dit een systeem voor documentbeheer . Vaak zit een OCR-module dan ook inbegrepen bij een DMS-pakket. In het DMS Functionaliteitenoverzicht kunnen oriënterende projectleiders kiezen wat ze precies nodig hebben op het gebied van OCR. Ook alle andere mogelijke DMS-functionaliteiten.komen er aan bod.
OCR wordt vaak exclusief geassocieerd met het inscannen van documenten. Toch is merendeel van de documenten die ingelezen worden via OCR, eigenlijk al digital born. Het gaat hierbij meestal om externe documenten die gedeeld worden, zoals bijvoorbeeld bouwtekeningen van een klant die een renovatie wil. Het gebeurt echter vaak dat deze documenten gemaakt zijn met behulp van computerprogramma’s die een andere code (of ‘taal’) gebruiken dan het programma waarin je bedrijf ze wil gebruiken. Niet elk computerprogramma ‘denkt’ namelijk in dezelfde code. Als gevolg wordt bij het kopiëren van tekst uit deze tekening naar het eigen systeem, de achterliggende code anders geïnterpreteerd, en ziet een medewerker enkel gekke tekens. OCR leest de tekst in en zet deze om naar een formaat en code die binnen het DMS doorzoekbaar, indexeerbaar en bewerkbaar is.
Tip! Bij het kiezen van OCR-software is het erg belangrijk om het pakket even ‘in actie’ te zien. Zo kan je beoordelen of bijvoorbeeld kolommen en tabellen correct ingelezen worden. In de DMS Wijzer staan vijf tips om bedrijven te helpen de juiste software te kiezen.
Welke bewerkingen kunnen er uitgevoerd worden op een document ingelezen door OCR?
In principe fungeert een document dat geconverteerd is door OCR zoals alle andere documenten in het DMS. Alle aangeschafte DMS-functionaliteiten kunnen er dus op worden toegepast. De meest voorkomende bewerkingen op geconverteerde documenten zijn de volgende:
-
- Zoeken: door de tekst uit afbeeldingen (scans of onleesbare digitale documenten) leesbaar te maken, kan er ook gezocht worden op de inhoud. Bij de opname van het document in het DMS kan er bovendien ook metadata worden toegevoegd. Zo kan er via de zoekfunctie op verschillende niveaus naar resultaten voor de gezochte term gespeurd worden. Afhankelijk van het systeem zal deze metadata manueel of automatisch worden toegevoegd. De meeste pakketten kunnen op basis van vooraf ingestelde templates al een hoop metadata zelf toekennen.
Let op! Zoekresultaten binnen het DMS zijn niet enkel afhankelijk van de kwaliteit van de ingelezen data. Er bestaan ook verschillen tussen zoekfuncties en functionaliteiten voor metadata. Elk systeem heeft hierin een licht afwijkende andere werkwijze. In de DMS Wijzer vinden oriënterende projectleiders een uitgebreid vergelijk tussen verschillende pakketten.
- Gegevens invoeren: de aangevinkte vakjes in een (gescand) document of de tekst in invulvelden worden herkend en overgezet naar de juiste systemen. Denk hierbij vooral aan inschrijvingsformulieren van klanten of leveranciers, of testen die bij sollicitanten worden afgenomen. De antwoorden kunnen gebruikt worden in het pakket voor documentbeheer zelf (bijvoorbeeld voor het aanmaken van een klantdossier), maar ook meteen naar het juiste systeem worden gepusht, zoals het CRM-pakket of HRM-systeem .
- Automatische acties: helemaal mooi is het wanneer documenten na het inlezen ook meteen automatisch juist geïndexeerd worden en de juiste workflow ingaan. Niet elke OCR-module is hier even sterk in, en het is vooral ook belangrijk dat de verwerkingsregels goed zijn ingesteld. Zo kan een bedrijf bijvoorbeeld instellen dat elk document waarin de klant herkend wordt als ‘Tim Peeters’, naar de bijbehorende account manager wordt gestuurd, of dat facturen van leverancier X enkel bewerkbaar zijn voor een bepaalde afdeling van de boekhouding . Via een koppeling met het ERP-systeem zou zelfs de betaling van dit soort facturen meteen geautomatiseerd kunnen worden. In dit geval worden de gegevens uit de factuur ingelezen door OCR, en meteen doorgestuurd naar de boekhoudmodule. Met deze factuurgegevens (bedrijfsnaam, btw-nummer, bankrekeningnummer, bedrag etc.) kan de betaling indien gewenst dan automatisch ingeboekt worden.
Is de sector bepalend voor het soort OCR-module?
Het soort OCR-module dat een bedrijf kiest, is niet per se afhankelijk van de exacte sector waarin een bedrijf actief is. Belangrijker is het om te kijken naar het soort documenten zelf. Gaat het bijvoorbeeld eerder om het inlezen van facturen? Of eerder technische tekeningen die moeten geconverteerd worden vanuit of naar AutoCAD? De meeste OCR-modules kunnen tegenwoordig zowel getypte als handgeschreven tekst herkennen, en begrijpen zelfs tekens zoals kruisjes in een tabel. Toch bieden niet alle modules exact dezelfde functionaliteiten aan. Let bij de specificaties van de module op onderstaande termen.
Optical Character Recognition (OCR): algemene naam voor tekenherkenning. Hiermee kan bedoeld worden dat enkel getypte tekst herkend wordt (de basisfunctionaliteit), of de term kan overkoepelend gebruikt worden en ook ICR en OMR omvatten.
Intelligent Character Recognition (ICR): een meer ‘intelligente’ vorm van OCR. Hierbij worden ook tekst die minder duidelijk is ingescand en handgeschreven tekst herkend. Echte ICR is echter nog lastig te vinden. Zeker bij handgeschreven tekst hangt de herkenbaarheid nog erg af van de netheid en vorm van geschrift. Bovendien is de algemene regel ook: hoe fijner het systeem, hoe duurder het prijskaartje.
Optical Mark Recognition (OMR): tekenherkenning voor ingevulde informatie die niet in tekstvorm is weergegeven. Denk hierbij aan de aangevinkt antwoorden op een test of ander invulformulier.
Zonal OCR: voor het inlezen van een bepaalde sectie van het document. Dit soort OCR wordt veel gebruikt voor data entry of rechtstreeks gebruik van de gegevens van een deel van het document, en niet om het document als dusdanig op te nemen in het DMS. Zonal OCR is vooral interessant voor bedrijven die bijvoorbeeld batches van orders binnen krijgen waaruit bestel- en bezorggegevens gelezen moeten worden. Ook voor gescande inschrijfformulieren wordt de techniek regelmatig gebruikt. Het bedrijf heeft namelijk enkel de ingevulde data nodig, niet de overige tekst zoals een introductiepagina of extra uitleg die de klant te zien krijgt.
Let op! Ook de branche is niet helemaal onbelangrijk bij het kiezen van een OCR-module. De functionaliteit moet namelijk wel compatibel zijn met een DMS-pakket dat geschikt is voor je specifieke branche . Vooral voor strikt gereguleerde sectoren zoals de bouw , logistiek en farmacie is het van belang dat een DMS-pakket gebruikt wordt dat sectorspecifiek is.
Full OCR: om het volledige document op te nemen in het DMS, en niet alleen bepaalde gegevens (zoals bij zonal OCR). Met full OCR wordt het hele document geregistreerd en kan het bewerkt en gearchiveerd worden. Dit wordt voornamelijk gebruikt voor documenten die vanuit andere afdelingen of zakelijke relaties komen. Denk hierbij aan een gebruikershandleiding, een technische tekening van een machine waar verschillende bedrijven samen aan werken, of facturen.
Belangrijk! Niet alle leveranciers gebruiken al deze termen. Vaak is een OCR-module bijvoorbeeld sowieso ‘intelligent’ of is zonal OCR mogelijk, ook al wordt het niet expliciet vermeld. Staar je dus niet blind op termen, maar vraag aan de leverancier wat er precies mee bedoeld wordt.
Kosten van OCR-software
OCR-software kan in verschillende vormen worden afgenomen. Origineel werd OCR-software vooral ontwikkeld in de vorm van losstaande pakketten, die documenten inlezen en dan naar het DMS of een andere applicatie ‘sturen’. Deze pakketten zijn nog steeds los te verkrijgen. Meestal worden licenties meteen verkocht, eerder dan in SaaS-vorm aangeboden. Een kooplicentie voor één gebruiker heeft een gemiddelde kost tussen de 200 en 300 euro.
De laatste jaren heeft er een verschuiving plaatsgevonden. OCR wordt door veel bedrijven steeds meer gezien als een basisfunctionaliteit bij documentbeheer. Hierdoor zijn veel leveranciers van DMS-pakketten een samenwerking aangegaan met OCR-leveranciers. Hierdoor wordt OCR echt volledig geïntegreerd in de oplossing. De module op zich heeft een gemiddelde kost van 20 euro per maand per gebruiker. Door de integratie in de oplossing moet er echter rekening gehouden worden met de totaalprijs voor het DMS-pakket . In de DMS Wijzer vinden oriënterende projectleiders hiervan een specifiek rekenvoorbeeld.
OCR in scansoftware
Niet alleen DMS-pakketten hebben vaak een OCR-module ingebouwd, ook scanoplossingen bieden deze mogelijkheid vaak aan. In dit geval wordt het papieren document gescand, en meteen door hetzelfde scanprogramma ingelezen met OCR (indien de gebruiker dit wenst). De scanapplicatie wordt bestuurd vanaf de gelinkte computer. Het resultaat is op het scherm te bekijken in deze applicatie, vanwaar het geëxporteerd kan worden naar de gewenste programma’s. In het scanprogramma kunnen daarnaast ook bestanden die al digitaal zijn, zoals een foto van een tekening, geïmporteerd worden. Zo kan er ook op deze bestanden OCR toegepast worden. Het kiezen een scanoplossing met OCR heeft een aantal voordelen tegenover een DMS met OCR.
Het grootste voordeel van een OCR-module in scanoplossingen is de kwaliteit van het resultaat. Producenten van scanoplossingen hebben vaak jarenlange ervaring met capturing, en zijn meestal al langer met OCR bezig dan DMS-leveranciers. De techniek is door de jaren heen dus echt verfijnd. Bij een OCR-module aangeboden door leveranciers uit de scanbranche is het bedrijf ook meer zeker dat niet-tekstuele elementen zoals tabellen en kolommen goed herkend worden. Deze moeten dus niet manueel overgenomen worden.
De reden dat veel bedrijven tóch kiezen voor een DMS-pakket met OCR-module is de integratie met de DMS-functionaliteiten zelf. Niet elke leverancier van scanoplossingen zorgt er namelijk voor dat er ook een sterk DMS achterzit. Dit betekent dat de documenten wel klaar zijn voor gebruik, maar functionaliteiten zoals versiebeheer , workflows en archief ontbreken of zijn niet afdoende. Hiervoor moet dan nog een koppeling gemaakt worden met een ander pakket.
Het lijkt dus kiezen voor óf optimale OCR, óf optimaal documentbeheer. Gelukkig zijn er ook leveranciers die deze beide werelden gecombineerd hebben. Het aantal van dit soort leveranciers groeit de laatste jaren bovendien in aantal. Houd er echter wel rekening mee dat hoe uitgebreider het pakket, hoe duurder het meestal zal uitvallen. Het optimale pakket is voor elke organisatie verschillend. ICT Portal kan oriënterende projectleiders op basis van de specifieke eisen en wensen helpen bij het vinden van goede opties: +31 (0)20 369 0457.