Full-text search

OCR szerviz részletes működése

Feltöltött fájlt megvizsgálja a szervíz, ez alapján elvégzi a megfelelő műveletet, beállítja a státuszokat (vagy updatelei a művelet végén).
Az OCR szerviz négy alszervizt foglal magába

FTS alszerviz:

FTS = Full-Text Search
A fájlokból kiexportálja a szöveges tartalmat.
A nyers szöveget szavakra bontja, majd REGEX mintaillesztéssel validálja (OCR-ezett szavak esetében megpróbálja alakilag kiszűrni azokat a szavakat, amely feltehetően hibásak)
REGEX illesztés szabályozható a szerviz beállításaiban
Ha adott szó létezik az adatbázisban, akkor csak az új referenciát jegyzi be, ha nem létezik, akkor létrehozza a szótárbejegyzést és utána a referenciát.
Támogatott text típusú állományok: '.pdf', '.docx', '.xlsx', '.pptx', '.txt', '.msg', '.htm', '.html', '.rtf', '.doc', '.xls'
FTS státusz – „kész” kiszótározta a rendszer, vagy ha image alapú a fájl akkor OCR-ezésre jelöli a fájlt

OCR alszerviz:

Működési elve

figyeli, hogy DVM (DocPort Volume manger)-ben (megadott paraméterek alapján), milyen image típusú fájl található, és a státuszát, hogy már feldolgozta-e
amikor státusz alapján feldolgozható egy dokumentum, lekéri a DVM-ből, majd saját work könyvtárában elkezdi a transzformációt
többlapos image fájlokat lapokra bontja, majd többszálú feldolgozási ciklusban OCR-t (TESSERACT) futtat rajta
laponként megvizsgálja, hogy hány külön imaget tartalmaz (PDF esetén) és stream információk alapján kitömöríti az eredeti képeket és eltárolja a képpozíciókat (méretet stb.) az oldalon
A képeket lapokra helyezi, és szövegpozíciónak megfelelően a szókoordinátákkal, képekkel, képkoordinátákkal PDF/A-t képez belőle
létrejött PDF/A-t visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új PDF/A jön létre)
Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza

Támogatott formátumok: Egyoldalas/többoldalas TIFF, BMP, GIF, JPG, PNG, TGA, PDF (ebben szinte az összes pdf-be ágyazható képformátum)
Képjavítás

Feldolgozás előtti képmanipulációs feladatok futtatása
Black ’N’ White = Fekete fehér
Despeckle = Pont eltávolítás
Despeckle more = Intenzívebb ponteltávolítás
Equlize Intensity = Intenzitás egyenlítése
Negative = Negatív
Bitonal Dilate 4= Fekete fehér képen zajeltávolítás
Bitonal Dilate 8= Fekete fehér képen intenzívebb zajeltávolítás
Auto Deskew = Lapkiegyenesítés

Egyéb tulajdonságok

Hibatűrés: amennyiben nem fatális hibát észlel, automatikus korrekciót hajt végre és szükség esetén újraindítja a szervizt (azaz nem áll le hiba esetén a szerviz)
Részletes logolás saját adatbázisába, (hibakereső, debug mód)
Adattisztítás (már nem létező fájlok esetében)

OCR státusz

„nem szükséges” PDF/A fájl, vagy olyan fájl esetén, amelynél nem szükséges az OCR művelet (docx, xls, stb.)
„kész” OCR motor feldolgozta az eredeti fájlt (ami OCR-ezhető) és létrehozta PDF/A fájlt

TXT alszerviz:

A txt szerviz egy másodlagos (lassabb, pontosabb) OCR-ezést hajt végre
Hasonlóan az OCR szervízhez itt is kitömöríti a képeket, majd OCR-ezi
az OCR állományt összefűzi egy text fájlba
létrejött text visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új text fájl jön létre)
Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza
TXT státusz „kész”, ha elkészült az új txt fájl

Az OCR-hez Google Tesseract motorját használja a rendszer, amelynek nincs további licensz költsége.A motorhoz tartozik egy traineddata állomány, ami poligonokhoz rendelt magyar karakterek felismerését tartalmazza.

Erőforrás kezelő alszerviz:
Az OCR szerviz jelentős terhelést is jelenthet a szerverre (képfeldolgozás, adatbázis és fájlműveletek) ezért külön időzítő konfigurálható a felületén, hogy mikor fusson. Az időzítővel hét napjaira és órára bontottan lehet beállítani a működést. (Pl.: munkaidőben ne foglalja le a szerver kapacitását). Beállítható, hogy mely szolgáltatások fussanak szervízben, így tetszés szerint kikapcsolható valamely részfeladat.

Prioritás
1./legmagasabb/ FTS (szótarázás) (ha van szótárazható fájl), akkor ez indul el először(ebbe tartozik, pdf/a, txt, doc, docx, xls, xlsx, rtf, htm, html, msg, stb)
2./másodlagos/ OCR (gyorsabb típusú OCR motor) – PDF/A-t hoz létre OCREZHETŐ állományokból -image típusú fájlok (tif, jpeg, gif, stb) és image típusú PDF (azaz amikor elkészül az FTS szerviz kiszótározza)
3./harmadlagos/ TXT (legalacsonyabb prioritás – lassabb de pontosabb OCR motor- amely eredménye egy új TXT fájl FTS motor pedig kiszótározza
(amíg van 1-es, addig nem csinálja a 2-est, amíg van 2-es nem csinálja a 3-ast)

Mivel prioritásban az első az FTS és ha feldolgozható fájlokat talál, akkor elkezdi felépíteni a kereshető szótárakat az eredeti fájlokból. mikor végzett a második menetben maradtak azok az állományok, amelyek image típusúak voltak ezekből az OCR szerviz generált PDF/A-t majd „visszakerültek” az FTS szervízhez, amely kiszótározta ezeket az állományokat is. Amikor már mindkét fő szerviz végzett, akkor az ún. „utógondozás”, azaz az eredeti állományok újra feldolgozása következik a TXT alszervízbe (tehát egy állományhoz tartozó szavak 2x vannak feldolgozva, növelve ezzel a keresési pontosság eredményét)