← Produkty Produkt

AI extrakce dat z dokumentů

Z faktur, smluv, poptávek a formulářů uděláme čistá strukturovaná data, se kterými si vaše systémy poradí samy. OCR a moderní multimodální modely v jedné pipeline — se skóre spolehlivosti, validací proti schématu a frontou pro lidskou kontrolu tam, kde je potřeba druhý pár očí.

Zahájit projekt

Dokumenty, které běžně zpracováváme

Ten chaos, který vám lidi pořád přepisují do excelu.

Většinu firemních dokumentů nikdo nepřipravoval pro strojové čtení. Skenovaná PDF, vícestránkové formuláře, dodavatelské šablony, které se každý kvartál mění, tabulky lámané přes několik stránek, ručně dopsané poznámky na okraji. Stavíme pipeline, které zvládnou dokumenty, jaké máte vy — ne ty hezké ukázky z prezentace.

Dodavatelské faktury — položky, DPH, splatnosti, vazba na objednávky — rovnou do vašeho systému závazků.

Vícestránkové smlouvy — strany, podmínky, termíny prodloužení, rozhodné právo, ustanovení o ručení.

Příchozí poptávky a výběrová řízení — požadavky, termíny, přílohy, compliance checklisty.

Onboardingové formuláře a KYC balíčky — identifikační údaje, podpisy, doložené dokumenty.

Co je v pipeline

Produkční pipeline pro extrakci, ne chytře napsaný prompt

Začínáme schématem

Vycházíme z cílového schématu vašeho navazujícího systému — ERP, AP, CRM, datový sklad. Pipeline vrací data přesně v tom tvaru, validovaná a připravená k zápisu.

OCR + multimodální modely

OCR, které rozumí rozvržení stránky, pro skeny a fotky; multimodální modely (Claude, GPT, Gemini) tam, kde struktura něco znamená. Vybíráme podle typu dokumentu, ne podle dodavatele.

Skóre spolehlivosti

Každé vytažené pole má skóre spolehlivosti, podle kterého se pipeline rozhoduje — automatické schválení, fronta na kontrolu, nebo zamítnutí. Prahy ladíme pro každé pole zvlášť, ne plošně pro celý dokument.

Lidská kontrola v procesu

Kontrolní rozhraní, ve kterém váš tým prochází řádky s nízkým skóre vedle původní stránky. Opravy se promítají zpět do evaluace, takže pipeline ví, kde má slabá místa.

Auditní stopa a osobní údaje

U každého pole se dá dohledat zdrojová stránka, výřez i konkrétní volání modelu. Práce s osobními údaji, retenční pravidla a rezidence dat jsou promyšlené od začátku — ne dolepené na poslední chvíli kvůli auditu.

Napojení na váš stack

Výsledky končí tam, kde už pracujete — SAP, Microsoft Dynamics, Helios, vlastní ERP, SharePoint, fronty zpráv, REST API. Žádný další nástroj, do kterého se má váš tým přihlašovat.

Proč nestačí samotné OCR

Klasické OCR vám vrátí proud znaků. To je těch snadných 20 %. Těžkých 80 % je všechno, co následuje: poznat, které číslo na faktuře je celková částka, které mezisoučet a které základ DPH; vědět, že „Acme s.r.o.“ a „ACME spol. s r. o.“ je tentýž dodavatel; odlišit ručně udělaný křížek od kávové skvrny.

Tady přicházejí ke slovu moderní multimodální modely — čtou dokument jako člověk, vidí rozvržení stránky, nadpisy i okolní kontext. Kombinujeme je s OCR, validací proti schématu a vašimi vlastními číselníky, aby výstup byl obhajitelný, ne jen věrohodný.

Jak to dodáváme

Začneme tím, že si pročteme reálný vzorek vašich dokumentů — ne ty hezké, ale ty problémové. S vaším týmem dohodneme cílové schéma, nastavíme prahy přijatelnosti pro jednotlivá pole a nasadíme pipeline do vašeho prostředí (Azure, on-prem nebo hybrid). Evaluační rámce jsou součástí dodávky.

Zůstaneme dost dlouho na to, abychom provoz předali — runbooky, dashboardy a playbook pro doučování modelu. Žádný Jupyter notebook někde na laptopu. Žádná závislost na nás napořád.