TesseractAction

Esegue l'OCR su una o più immagini utilizzando il file

Tesseract.

Restituisce l'intero testo dei documenti analizzati oppure, se viene trovato un X-OCR-Regex nel intestazione, il testo che corrisponde a un'espressione regolare specificata, il testo che corrisponde a più nomi espressioni regolari o se il testo corrisponde a un'espressione regolare specificata.

Campi di caricamento del ciclo del modulo che sfruttano Media.MultipleDownload di CodBi quindi caricando sono supportate più immagini. Il JSON restituito conterrà le proprietà denominate in base i nomi dei file trasmessi che contengono il testo trovato.

Proprietà plugin

  • AI_Tesseract_Languages Specifica opzionale del codice lingua a tre lettere della lingua Tesseract sarà in grado di riconoscere (il valore predefinito è deu). È possibile separare più lingue con un ++ (es. deu + eng). -- **AI_Tesseract_PoolSize ** Numero di istanze di Tesseract presenti disponibile contemporaneamente (vedi sizePool).

  • AI_Tesseract_MaxCPUPercent Soglia di utilizzo della CPU (%): blocca le richieste OCR quando viene superata (impostazione predefinita: 101.0, effettivamente disabilitata).

  • AI_Tesseract_MaxRAMPercent Soglia di utilizzo della RAM (%): blocca le richieste OCR quando viene superata (impostazione predefinita: 101.0, effettivamente disabilitata).

URL necessari per una corretta inizializzazione:

L'URL del repository Maven può essere modificato utilizzando il plug-in AI_Tesseract_MavenRepository proprietà.

Domini da autorizzare

  • repo1.maven.org

  • github.com

  • raw.githubusercontent.com

  • api.github.com

  • objects.githubusercontent.com

DSGVO, EU-AI ACT e vantaggi tecnici rispetto all'approccio AI con server dedicato

  • Nessuna configurazione separata del server AI (meno sistemi da proteggere e controllare).

  • Trasferimento dati ridotto: l'elaborazione rimane all'interno del runtime del plugin.

  • Ambito di conformità più semplice: meno endpoint e costi operativi inferiori.

  • Minore latenza e meno dipendenze di rete per l'esecuzione dell'OCR.

  • Minimizzazione dei dati più semplice: meno copie di dati e posizioni di archiviazione.

  • Confini di responsabilità più chiari per i ruoli di responsabile/controllore.

  • Risposta semplificata alle violazioni: nessun server AI separato da gestire in caso di incidenti.

  • Implementazione più semplice dei diritti dell'interessato (accesso, cancellazione) senza coordinamento con a servizio AI separato.

  • Il plugin non memorizza i dati delle immagini o i risultati dell'OCR in modo persistente, riducendo al minimo la conservazione dei dati preoccupazioni.

  • Risposta alla richiesta di cancellazione più semplice: i dati non vengono mai archiviati nemmeno nei backup del server quindi non è necessaria alcuna cancellazione.

Nota sulla rimozione

Se l'OCR è stato attivato una volta che la DLL utilizzata è stata bloccata in memoria, rendendo impossibile eliminare il file file del plugin dal server. Questa è una limitazione tecnica della libreria Tesseract e non un Problema specifico di CodBi. Se desideri rimuovere il plugin dopo l'attivazione, devi prima farlo disabilitare il plugin e riavviare il server. Successivamente puoi eliminare il plugin.

Constructors

Link copied to clipboard
constructor()

Types

Link copied to clipboard
object Companion

Companion for static members.

Functions

Link copied to clipboard
open override fun execute(params: IPluginServletActionParams): IPluginServletActionRetVal

Se attivato dalla proprietà del plugin CodBi Active_AI contenente OCR, utilizza AI bidello per archiviare le immagini che hanno un ID (se trasmesso nell'intestazione X-OCR-Image-ID) e estrae tutto il testo dalle immagini trasmesse o tramite X-OCR-Image-ID specificate.

Link copied to clipboard
Link copied to clipboard
open override fun getDisplayName(p0: Locale): String
Link copied to clipboard
open override fun getName(): String

Specifica il nome di questo IPluginServletAction.

Link copied to clipboard
open override fun initialize(configData: IPluginInitializeData)

Inizializza questo plugin se la proprietà CodBi-Plugin Active_AI contiene OCR (caso insensibile). Determinando il pluginRoot indica al metodo execute dove memorizzare il file immagini temporanee. Inoltre, saranno presenti le librerie native appropriate per il sistema operativo del server estratto dal JAR e copiato sull'unità del server prima di essere clonato per essere fornito come versioni che non verranno bloccate a causa di possibili inizializzazioni precedenti del plugin. Questo servlet controllerà se i modelli appropriati per le lingue specificate tramite il file CodBi-Plugin-Property AI_Tesseract_Languages (ad esempio deu+ita+eng o semplicemente deu) sono già presente nelle risorse locali del Plugin e scaricare il modello per ciascuna lingua automaticamente, in caso contrario. Se la proprietà non è impostata verrà assunto deu.

Link copied to clipboard
open fun initPlugin()
Link copied to clipboard
open fun install(p0: IPluginInstallData)
Link copied to clipboard
open override fun shutdown(shutdownData: IPluginShutdownData?)

Chiude il pool e rilascia tutti gli handle Tesseract.

open fun shutdown()
Link copied to clipboard

Avvia un'attività che rimuove le immagini inutilizzate scadute (msExpirationIDedImages) dal cache (cacheIDedImages).

Link copied to clipboard
open fun uninstall(p0: IPluginUninstallData)
Link copied to clipboard
open override fun validateConfigurationData(configData: IPluginValidationData): IPluginInitializeValidationResult?

Cancella i dati locali necessari per eseguire Tesseract, se Active_AI non contiene OCR. Inoltre, viene verificata la conformità di AI_Tesseract_Languages ^a-z{3}(\s\+\sa-z{3})*$**, se impostato.