Program för dataextraktion är, i korthet, en programvara för databrytning, informationsutvinning eller datautvinning. På engelska används ofta begreppen data mining eller data extraction.
Program för dataextraktion – Plustek Capture
Plustek Capture är en licensierad programvara för extraktion av data från dokument. Enligt principen ”drag-and-drop” bygger man upp sitt eget flöde för att välja ut vad som ska hämtas från dokument och hur informationen sedan ska hanteras.
Plustek Capture – 3 i 1
Man kan i princip dela upp Plustek Capture i tre delar eftersom programvaran jobbar i tre steg: DocWorkflow, DocServer och DocValidation. Varje komponent ansvarar för en del i arbetsflödet.
DocWorkflow
- Pre-installed ”ready to use” operators
- Create workflows using the modular principle
- Setup processes and workflows by drag & drop
- Verify and optimize workflow in preview mode
DocServer
- Classify documents and separate into respective workflows
- Convenient data extraction for structured forms
- Design data extraction for unstructured documents
- Automatically perform workflows via ”hot folder”
DocValidation
- Captured data are clearly layout along with capture image for quick verification
- Operate in browser-based user interface
- Ability to manually modify and make corrections to data
- Conveniently export file to external application
Förklaring enligt Wiki
Principen med dataextraktion kan enligt Wiki-källor beskrivas som: ”Tekniker för datautvinning tillämpas inom områden som visualisering av öppna data, bioinformatik, affärsunderrättelser (business intelligence), beslutsstödsystem, webbanvändningsanalys (web mining), IT-forensik och analys av medicinska data, sensordata och mycket annat. Text mining innebär datautvinning ur icke-strukturerade data i form av text, och kan användas för maskinöversättning, automatisk sammanfattning av texter, statistisk analys av språk, med mera. Det bredare begreppet big data åsyftar även tekniker för insamling av data från flera stora databaser och datafiler till ett sökbart informationslager (data warehousing), vilket ofta föregår men inte ska sammanblandas med datautvinning.”
samt:
”Dataextrahering är handlingen eller processen för att hämta data från (vanligtvis ostrukturerade eller dåligt strukturerade) datakällor för ytterligare databearbetning eller datalagring ( datamigrering ). Importen till det mellanliggande extraheringssystemet följs alltså vanligtvis av datatransformation och eventuellt tillägg av metadata innan export till ett annat steg i dataarbetsflödet.”