»
 

Co je vytěžování dat z dokumentů?

Vytěžování dat je proces získávání dat z digitální předlohy. Tuto činnost provádí software, který nahrazuje ruční předpisování textu. Systém detekuje text na obrázku a extrahuje ho do libovolných systémů. Ruční přepis dokumentů je nákladný, zdlouhavý a může být příčinou nemalé chybovosti.

Vytěžování provádí OCR (optical character recognation) software. Následně je možné s vytěženým textem dále pracovat jako s jakýmkoliv digitálním textem. OCR je systém, který opticky rozpozná znaky z obrázku dokumentu a pomocí algoritmů jim přiřadí znak. Systém si po rozpoznání své výsledky kontroluje a využívá k tomu vlastnosti daného jazyka, jelikož každý jazyk má určitou pravděpodobnost výskytu kombinací určitých písmen vedle sebe.

Novinkou v oboru vytěžování dat je systém ICR (inteligent character recogration), který je nástavbou systému OCR. Zaměřuje se na vytěžování dat z ručně psaných textů, což je v oblasti vytěžování dat novinka. Systém OCR je také schopen rozpoznat ručně psaný text, ale kvalita rozpoznání značně klesá oproti tištěnému textu. Jaký je rozdíl mezi OCR a ICR?


Hlavní přednosti vytěžování

  • Automatizace procesů

  • Eliminace chyb

  • Efektivita zpracování dokumentů

  • Napojení na ERP, DMS, ECM systémy


  • Software pro vytěžování dat

    Software pro vytěžování dat z faktur - OCR
    Vytěžování dat z faktur / Software / OCR / Hlavičky a patičky / Položky faktury / Objednávky

    Hledáte vytěžovací nástroj? Chcete vytěžovat faktury či jiné dokumenty?

    Napište nám o své představě. Připravíme pro Vás optimální návrh řešení, cenovou nabídku a představíme podobné projekty. Pro delší zprávy a přílohy můžete využít email: .