Co je vytěžování dat z dokumentů?
Vytěžování dat je proces získávání dat z digitální předlohy. Tuto činnost provádí software, který nahrazuje ruční předpisování textu. Systém detekuje text na obrázku a extrahuje ho do libovolných systémů. Ruční přepis dokumentů je nákladný, zdlouhavý a může být příčinou nemalé chybovosti.
Vytěžování provádí OCR (optical character recognation) software. Následně je možné s vytěženým textem dále pracovat jako s jakýmkoliv digitálním textem. OCR je systém, který opticky rozpozná znaky z obrázku dokumentu a pomocí algoritmů jim přiřadí znak. Systém si po rozpoznání své výsledky kontroluje a využívá k tomu vlastnosti daného jazyka, jelikož každý jazyk má určitou pravděpodobnost výskytu kombinací určitých písmen vedle sebe.
Novinkou v oboru vytěžování dat je systém ICR (inteligent character recogration), který je nástavbou systému OCR. Zaměřuje se na vytěžování dat z ručně psaných textů, což je v oblasti vytěžování dat novinka. Systém OCR je také schopen rozpoznat ručně psaný text, ale kvalita rozpoznání značně klesá oproti tištěnému textu. Jaký je rozdíl mezi OCR a ICR?
Hlavní přednosti vytěžování
Automatizace procesů
Eliminace chyb
Efektivita zpracování dokumentů
Napojení na ERP, DMS, ECM systémy