DocPort
FÁJLOK TARTALMÁBAN KERESÉS
Összefoglalás
A megoldás célja, hogy feltárolt fájlok tartalmában lehessen szabadszövegesen keresni. A fájlok lehetnek kép típusúak, vagy szövegesek (Word, Excel, PDF stb.).
A feldolgozás teljesen automatikus és a háttérben történik, úgy, hogy fájlok szöveges részeit a szerviz szavakra bontja, majd szavakat adatbázisban eltárolja. Tehát nem nyers fájlokban történik a keresés, hanem egy feldolgozás után.

Így manuális adatrögzítés nélkül is kereshetővé tudnak válni nagyobb gyűjtemények. (pl.: szerződéstárak)

A fájlok feldolgozásra bekerülhetnek felhasználó általi feltöltéssel, vagy teljesen automatikusan is ha kombináljuk a Hotfolder szervízzel lásd:
Automatikus adatbázis építése
Szerviz áttekintése
Fájlok szöveges tartalmát a rendszer automatikusan kinyeri, szavakra bontja majd adatbázist épít belőle.
A fájlokban történő kereséshez a rendszer biztosít saját felületet vagy kapcsolódást más rendszerek számára.

Támogatott fájltípusok:
  • Text típusú fájlok (pdf/a, txt, doc, docx, xls, xlsx, pptx, rtf, htm, html, msg /email/)
  • Image alapú (szkennelt): pdf, tiff, jpg, png stb.


  • Az image alapú fájlok esetében a rendszer előbb OCR-ezi és az így kinyert szöveges információt. Minden feltárolt fájlohoz elmenti adatázisba, milyen szavak fordulnak elő benne, így később bármilyen szavak visszakereshetők (teljes vagy töredékes módon) anélkül, hogy a fájlt ismételten elemezni vagy OCR-ezni kellene.
    OCR szerviz részletes működése
    Feltöltött fájlt megvizsgálja a szervíz, ez alapján elvégzi a megfelelő műveletet, beállítja a státuszokat (vagy updatelei a művelet végén).
    Az OCR szerviz négy alszervizt foglal magába

    FTS alszerviz:
    • FTS = Full-Text Search
    • A fájlokból kiexportálja a szöveges tartalmat.
    • A nyers szöveget szavakra bontja, majd REGEX mintaillesztéssel validálja (OCR-ezett szavak esetében megpróbálja alakilag kiszűrni azokat a szavakat, amely feltehetően hibásak)
    • REGEX illesztés szabályozható a szerviz beállításaiban
    • Ha adott szó létezik az adatbázisban, akkor csak az új referenciát jegyzi be, ha nem létezik, akkor létrehozza a szótárbejegyzést és utána a referenciát.
    • Támogatott text típusú állományok: '.pdf', '.docx', '.xlsx', '.pptx', '.txt', '.msg', '.htm', '.html', '.rtf', '.doc', '.xls'
    • FTS státusz – „kész” kiszótározta a rendszer, vagy ha image alapú a fájl akkor OCR-ezésre jelöli a fájlt

    OCR alszerviz:
    • Működési elve
      • figyeli, hogy DVM (DocPort Volume manger)-ben (megadott paraméterek alapján), milyen image típusú fájl található, és a státuszát, hogy már feldolgozta-e
      • amikor státusz alapján feldolgozható egy dokumentum, lekéri a DVM-ből, majd saját work könyvtárában elkezdi a transzformációt
      • többlapos image fájlokat lapokra bontja, majd többszálú feldolgozási ciklusban OCR-t (TESSERACT) futtat rajta
      • laponként megvizsgálja, hogy hány külön imaget tartalmaz (PDF esetén) és stream információk alapján kitömöríti az eredeti képeket és eltárolja a képpozíciókat (méretet stb.) az oldalon
      • A képeket lapokra helyezi, és szövegpozíciónak megfelelően a szókoordinátákkal, képekkel, képkoordinátákkal PDF/A-t képez belőle
      • létrejött PDF/A-t visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új PDF/A jön létre)
      • Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza
    • Támogatott formátumok: Egyoldalas/többoldalas TIFF, BMP, GIF, JPG, PNG, TGA, PDF (ebben szinte az összes pdf-be ágyazható képformátum)
    • Képjavítás
      • Feldolgozás előtti képmanipulációs feladatok futtatása
      • Black ’N’ White = Fekete fehér
      • Despeckle = Pont eltávolítás
      • Despeckle more = Intenzívebb ponteltávolítás
      • Equlize Intensity = Intenzitás egyenlítése
      • Negative = Negatív
      • Bitonal Dilate 4= Fekete fehér képen zajeltávolítás
      • Bitonal Dilate 8= Fekete fehér képen intenzívebb zajeltávolítás
      • Auto Deskew = Lapkiegyenesítés
    • Egyéb tulajdonságok
      • Hibatűrés: amennyiben nem fatális hibát észlel, automatikus korrekciót hajt végre és szükség esetén újraindítja a szervizt (azaz nem áll le hiba esetén a szerviz)
      • Részletes logolás saját adatbázisába, (hibakereső, debug mód)
      • Adattisztítás (már nem létező fájlok esetében)
    • OCR státusz
      • „nem szükséges” PDF/A fájl, vagy olyan fájl esetén, amelynél nem szükséges az OCR művelet (docx, xls, stb.)
      • „kész” OCR motor feldolgozta az eredeti fájlt (ami OCR-ezhető) és létrehozta PDF/A fájlt

    TXT alszerviz:
    • A txt szerviz egy másodlagos (lassabb, pontosabb) OCR-ezést hajt végre
    • Hasonlóan az OCR szervízhez itt is kitömöríti a képeket, majd OCR-ezi
    • az OCR állományt összefűzi egy text fájlba
    • létrejött text visszatölti a DVM-be az irat rekordhoz (az eredeti fájl mellett egy új text fájl jön létre)
    • Ezután az FTS szerviz a szöveget kinyeri belőle és kiszótározza
    • TXT státusz „kész”, ha elkészült az új txt fájl

    Az OCR-hez Google Tesseract motorját használja a rendszer, amelynek nincs további licensz költsége.A motorhoz tartozik egy traineddata állomány, ami poligonokhoz rendelt magyar karakterek felismerését tartalmazza.

    Erőforrás kezelő alszerviz:
    Az OCR szerviz jelentős terhelést is jelenthet a szerverre (képfeldolgozás, adatbázis és fájlműveletek) ezért külön időzítő konfigurálható a felületén, hogy mikor fusson. Az időzítővel hét napjaira és órára bontottan lehet beállítani a működést. (Pl.: munkaidőben ne foglalja le a szerver kapacitását). Beállítható, hogy mely szolgáltatások fussanak szervízben, így tetszés szerint kikapcsolható valamely részfeladat.

    Prioritás
    1./legmagasabb/ FTS (szótarázás) (ha van szótárazható fájl), akkor ez indul el először(ebbe tartozik, pdf/a, txt, doc, docx, xls, xlsx, rtf, htm, html, msg, stb)
    2./másodlagos/ OCR (gyorsabb típusú OCR motor) – PDF/A-t hoz létre OCREZHETŐ állományokból -image típusú fájlok (tif, jpeg, gif, stb) és image típusú PDF (azaz amikor elkészül az FTS szerviz kiszótározza)
    3./harmadlagos/ TXT (legalacsonyabb prioritás – lassabb de pontosabb OCR motor- amely eredménye egy új TXT fájl FTS motor pedig kiszótározza
    (amíg van 1-es, addig nem csinálja a 2-est, amíg van 2-es nem csinálja a 3-ast)

    Mivel prioritásban az első az FTS és ha feldolgozható fájlokat talál, akkor elkezdi felépíteni a kereshető szótárakat az eredeti fájlokból. mikor végzett a második menetben maradtak azok az állományok, amelyek image típusúak voltak ezekből az OCR szerviz generált PDF/A-t majd „visszakerültek” az FTS szervízhez, amely kiszótározta ezeket az állományokat is. Amikor már mindkét fő szerviz végzett, akkor az ún. „utógondozás”, azaz az eredeti állományok újra feldolgozása következik a TXT alszervízbe (tehát egy állományhoz tartozó szavak 2x vannak feldolgozva, növelve ezzel a keresési pontosság eredményét)
    Mintaképek
    Mintaképek megtekintése....

    A képek adott konfigurációról vagy beállításról készültek, amelyek testreszabástól függően változhatnak...

    További információ
    Szeretne további információkat, vagy részleteket megismerni?

    Keressen bennünket bizalommal....