A megoldás célja, hogy feltárolt fájlok tartalmában lehessen szabadszövegesen keresni. A fájlok lehetnek kép típusúak, vagy szövegesek (Word, Excel, PDF stb.). A feldolgozás teljesen automatikus és a háttérben történik, úgy, hogy fájlok szöveges részeit a szerviz szavakra bontja, majd szavakat adatbázisban eltárolja. Tehát nem nyers fájlokban történik a keresés, hanem egy feldolgozás után.
Így manuális adatrögzítés nélkül is kereshetővé tudnak válni nagyobb gyűjtemények. (pl.: szerződéstárak)
A fájlok feldolgozásra bekerülhetnek felhasználó általi feltöltéssel, vagy teljesen automatikusan is ha kombináljuk a Hotfolder szervízzel lásd: Automatikus adatbázis építése
Szerviz áttekintése
Fájlok szöveges tartalmát a rendszer automatikusan kinyeri, szavakra bontja majd adatbázist épít belőle. A fájlokban történő kereséshez a rendszer biztosít saját felületet vagy kapcsolódást más rendszerek számára.
Támogatott fájltípusok:
Text típusú fájlok (pdf/a, txt, doc, docx, xls, xlsx, pptx, rtf, htm, html, msg /email/)
Image alapú (szkennelt): pdf, tiff, jpg, png stb.
Az image alapú fájlok esetében a rendszer előbb OCR-ezi és az így kinyert szöveges információt. Minden feltárolt fájlohoz elmenti adatázisba, milyen szavak fordulnak elő benne, így később bármilyen szavak visszakereshetők (teljes vagy töredékes módon) anélkül, hogy a fájlt ismételten elemezni vagy OCR-ezni kellene.
OCR szerviz részletes működése
Feltöltött fájlt megvizsgálja a szervíz, ez alapján elvégzi a megfelelő műveletet, beállítja a státuszokat (vagy updatelei a művelet végén). Az OCR szerviz négy alszervizt foglal magába
FTS alszerviz:
FTS = Full-Text Search
A fájlokból kiexportálja a szöveges tartalmat.
A nyers szöveget szavakra bontja, majd REGEX mintaillesztéssel validálja (OCR-ezett szavak esetében megpróbálja alakilag kiszűrni azokat a szavakat, amely feltehetően hibásak)
REGEX illesztés szabályozható a szerviz beállításaiban
Ha adott szó létezik az adatbázisban, akkor csak az új referenciát jegyzi be, ha nem létezik, akkor létrehozza a szótárbejegyzést és utána a referenciát.
Támogatott text típusú állományok: '.pdf', '.docx', '.xlsx', '.pptx', '.txt', '.msg', '.htm', '.html', '.rtf', '.doc', '.xls'
FTS státusz – „kész” kiszótározta a rendszer, vagy ha image alapú a fájl akkor OCR-ezésre jelöli a fájlt
OCR alszerviz:
Működési elve
figyeli, hogy DVM (DocPort Volume manger)-ben (megadott paraméterek alapján), milyen image típusú fájl található, és a státuszát, hogy már feldolgozta-e
amikor státusz alapján feldolgozható egy dokumentum, lekéri a DVM-ből, majd saját work könyvtárában elkezdi a transzformációt
többlapos image fájlokat lapokra bontja, majd többszálú feldolgozási ciklusban OCR-t (TESSERACT) futtat rajta
laponként megvizsgálja, hogy hány külön imaget tartalmaz (PDF esetén) és stream információk alapján kitömöríti az eredeti képeket és eltárolja a képpozíciókat (méretet stb.) az oldalon
A képeket lapokra helyezi, és szövegpozíciónak megfelelően a szókoordinátákkal, képekkel, képkoordinátákkal PDF/A-t képez belőle
létrejött PDF/A-t visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új PDF/A jön létre)
Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza
Támogatott formátumok: Egyoldalas/többoldalas TIFF, BMP, GIF, JPG, PNG, TGA, PDF (ebben szinte az összes pdf-be ágyazható képformátum)
Képjavítás
Feldolgozás előtti képmanipulációs feladatok futtatása
Black ’N’ White = Fekete fehér
Despeckle = Pont eltávolítás
Despeckle more = Intenzívebb ponteltávolítás
Equlize Intensity = Intenzitás egyenlítése
Negative = Negatív
Bitonal Dilate 4= Fekete fehér képen zajeltávolítás
Bitonal Dilate 8= Fekete fehér képen intenzívebb zajeltávolítás
Auto Deskew = Lapkiegyenesítés
Egyéb tulajdonságok
Hibatűrés: amennyiben nem fatális hibát észlel, automatikus korrekciót hajt végre és szükség esetén újraindítja a szervizt (azaz nem áll le hiba esetén a szerviz)
Részletes logolás saját adatbázisába, (hibakereső, debug mód)
Adattisztítás (már nem létező fájlok esetében)
OCR státusz
„nem szükséges” PDF/A fájl, vagy olyan fájl esetén, amelynél nem szükséges az OCR művelet (docx, xls, stb.)
„kész” OCR motor feldolgozta az eredeti fájlt (ami OCR-ezhető) és létrehozta PDF/A fájlt
TXT alszerviz:
A txt szerviz egy másodlagos (lassabb, pontosabb) OCR-ezést hajt végre
Hasonlóan az OCR szervízhez itt is kitömöríti a képeket, majd OCR-ezi
az OCR állományt összefűzi egy text fájlba
létrejött text visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új text fájl jön létre)
Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza
TXT státusz „kész”, ha elkészült az új txt fájl
Az OCR-hez Google Tesseract motorját használja a rendszer, amelynek nincs további licensz költsége.A motorhoz tartozik egy traineddata állomány, ami poligonokhoz rendelt magyar karakterek felismerését tartalmazza.
Erőforrás kezelő alszerviz: Az OCR szerviz jelentős terhelést is jelenthet a szerverre (képfeldolgozás, adatbázis és fájlműveletek) ezért külön időzítő konfigurálható a felületén, hogy mikor fusson. Az időzítővel hét napjaira és órára bontottan lehet beállítani a működést. (Pl.: munkaidőben ne foglalja le a szerver kapacitását). Beállítható, hogy mely szolgáltatások fussanak szervízben, így tetszés szerint kikapcsolható valamely részfeladat.
Prioritás 1./legmagasabb/ FTS (szótarázás) (ha van szótárazható fájl), akkor ez indul el először(ebbe tartozik, pdf/a, txt, doc, docx, xls, xlsx, rtf, htm, html, msg, stb) 2./másodlagos/ OCR (gyorsabb típusú OCR motor) – PDF/A-t hoz létre OCREZHETŐ állományokból -image típusú fájlok (tif, jpeg, gif, stb) és image típusú PDF (azaz amikor elkészül az FTS szerviz kiszótározza) 3./harmadlagos/ TXT (legalacsonyabb prioritás – lassabb de pontosabb OCR motor- amely eredménye egy új TXT fájl FTS motor pedig kiszótározza (amíg van 1-es, addig nem csinálja a 2-est, amíg van 2-es nem csinálja a 3-ast)
Mivel prioritásban az első az FTS és ha feldolgozható fájlokat talál, akkor elkezdi felépíteni a kereshető szótárakat az eredeti fájlokból. mikor végzett a második menetben maradtak azok az állományok, amelyek image típusúak voltak ezekből az OCR szerviz generált PDF/A-t majd „visszakerültek” az FTS szervízhez, amely kiszótározta ezeket az állományokat is. Amikor már mindkét fő szerviz végzett, akkor az ún. „utógondozás”, azaz az eredeti állományok újra feldolgozása következik a TXT alszervízbe (tehát egy állományhoz tartozó szavak 2x vannak feldolgozva, növelve ezzel a keresési pontosság eredményét)
Mintaképek
Mintaképek megtekintése....
A képek adott konfigurációról vagy beállításról készültek, amelyek testreszabástól függően változhatnak...
További információ
Szeretne további információkat, vagy részleteket megismerni?