Tesseract Action
Esegue l'OCR su una o più immagini utilizzando il file
Restituisce l'intero testo dei documenti analizzati oppure, se viene trovato un X-OCR-Regex nel intestazione, il testo che corrisponde a un'espressione regolare specificata, il testo che corrisponde a più nomi espressioni regolari o se il testo corrisponde a un'espressione regolare specificata.
Campi di caricamento del ciclo del modulo che sfruttano Media.MultipleDownload di CodBi quindi caricando sono supportate più immagini. Il JSON restituito conterrà le proprietà denominate in base i nomi dei file trasmessi che contengono il testo trovato.
Proprietà plugin
AI_Tesseract_Languages Specifica opzionale del codice lingua a tre lettere della lingua Tesseract sarà in grado di riconoscere (il valore predefinito è deu). È possibile separare più lingue con un ++ (es. deu + eng). -- **AI_Tesseract_PoolSize ** Numero di istanze di Tesseract presenti disponibile contemporaneamente (vedi sizePool).
AI_Tesseract_MaxCPUPercent Soglia di utilizzo della CPU (%): blocca le richieste OCR quando viene superata (impostazione predefinita:
101.0, effettivamente disabilitata).AI_Tesseract_MaxRAMPercent Soglia di utilizzo della RAM (%): blocca le richieste OCR quando viene superata (impostazione predefinita:
101.0, effettivamente disabilitata).
URL necessari per una corretta inizializzazione:
L'URL del repository Maven può essere modificato utilizzando il plug-in AI_Tesseract_MavenRepository proprietà.
Domini da autorizzare
repo1.maven.org
github.com
raw.githubusercontent.com
api.github.com
objects.githubusercontent.com
DSGVO, EU-AI ACT e vantaggi tecnici rispetto all'approccio AI con server dedicato
Nessuna configurazione separata del server AI (meno sistemi da proteggere e controllare).
Trasferimento dati ridotto: l'elaborazione rimane all'interno del runtime del plugin.
Ambito di conformità più semplice: meno endpoint e costi operativi inferiori.
Minore latenza e meno dipendenze di rete per l'esecuzione dell'OCR.
Minimizzazione dei dati più semplice: meno copie di dati e posizioni di archiviazione.
Confini di responsabilità più chiari per i ruoli di responsabile/controllore.
Risposta semplificata alle violazioni: nessun server AI separato da gestire in caso di incidenti.
Implementazione più semplice dei diritti dell'interessato (accesso, cancellazione) senza coordinamento con a servizio AI separato.
Il plugin non memorizza i dati delle immagini o i risultati dell'OCR in modo persistente, riducendo al minimo la conservazione dei dati preoccupazioni.
Risposta alla richiesta di cancellazione più semplice: i dati non vengono mai archiviati nemmeno nei backup del server quindi non è necessaria alcuna cancellazione.
Nota sulla rimozione
Se l'OCR è stato attivato una volta che la DLL utilizzata è stata bloccata in memoria, rendendo impossibile eliminare il file file del plugin dal server. Questa è una limitazione tecnica della libreria Tesseract e non un Problema specifico di CodBi. Se desideri rimuovere il plugin dopo l'attivazione, devi prima farlo disabilitare il plugin e riavviare il server. Successivamente puoi eliminare il plugin.
Functions
Se attivato dalla proprietà del plugin CodBi Active_AI contenente OCR, utilizza AI bidello per archiviare le immagini che hanno un ID (se trasmesso nell'intestazione X-OCR-Image-ID) e estrae tutto il testo dalle immagini trasmesse o tramite X-OCR-Image-ID specificate.
Inizializza questo plugin se la proprietà CodBi-Plugin Active_AI contiene OCR (caso insensibile). Determinando il pluginRoot indica al metodo execute dove memorizzare il file immagini temporanee. Inoltre, saranno presenti le librerie native appropriate per il sistema operativo del server estratto dal JAR e copiato sull'unità del server prima di essere clonato per essere fornito come versioni che non verranno bloccate a causa di possibili inizializzazioni precedenti del plugin. Questo servlet controllerà se i modelli appropriati per le lingue specificate tramite il file CodBi-Plugin-Property AI_Tesseract_Languages (ad esempio deu+ita+eng o semplicemente deu) sono già presente nelle risorse locali del Plugin e scaricare il modello per ciascuna lingua automaticamente, in caso contrario. Se la proprietà non è impostata verrà assunto deu.
Avvia un'attività che rimuove le immagini inutilizzate scadute (msExpirationIDedImages) dal cache (cacheIDedImages).
Cancella i dati locali necessari per eseguire Tesseract, se Active_AI non contiene OCR. Inoltre, viene verificata la conformità di AI_Tesseract_Languages ^a-z{3}(\s\+\sa-z{3})*$**, se impostato.