TesseractAction

Führt OCR für ein oder mehrere Bilder mit durch

Tesseract.

Gibt entweder den gesamten Text des/der geparsten Dokument(s) zurück oder, falls ein X-OCR-Regex im gefunden wird Header, der Text entspricht einem angegebenen regulären Ausdruck, der Text entspricht mehreren benannten reguläre Ausdrücke oder ob der Text mit einem angegebenen regulären Ausdruck übereinstimmt.

Formcycle-Upload-Felder, die CodBis Media.MultipleDownload nutzen und so hochladen Es werden mehr als ein Bild unterstützt. Der zurückgegebene JSON enthält die entsprechend benannten Eigenschaften der Name der übertragenen Datei, die den gefundenen Text enthält.

Plugin-Eigenschaften

  • AI_Tesseract_Languages Optionale dreibuchstabige Sprachcode-Spezifikation der Sprache Tesseract muss in der Lage sein, es zu erkennen (standardmäßig deu). Mehrere Sprachen können getrennt werden durch ein + (z. B. deu + eng). -- **AI_Tesseract_PoolSize ** Anzahl der Tesseract-Instanzen gleichzeitig verfügbar (siehe sizePool).

  • AI_Tesseract_MaxCPUPercent CPU-Auslastungsschwellenwert (%) – blockiert OCR-Anfragen, wenn sie überschritten werden (Standard: 101.0, effektiv deaktiviert).

  • AI_Tesseract_MaxRAMPercent RAM-Nutzungsschwellenwert (%) – blockiert OCR-Anfragen, wenn sie überschritten werden (Standard: 101.0, effektiv deaktiviert).

Für die ordnungsgemäße Initialisierung erforderliche URLs:

Die URL des Maven-Repositorys kann mit dem AI_Tesseract_MavenRepository-Plugin geändert werden Eigentum.

Domains zur Whitelist

  • repo1.maven.org

  • github.com

  • raw.githubusercontent.com

  • api.github.com

  • objects.githubusercontent.com

DSGVO, EU-AI ACT & technische Vorteile gegenüber dem dedizierten Server-KI-Ansatz

  • Keine separate KI-Servereinrichtung (weniger zu sichernde und zu prüfende Systeme).

  • Reduzierter Datentransfer: Die Verarbeitung bleibt innerhalb der Plugin-Laufzeit.

  • Einfacherer Compliance-Umfang: weniger Endpunkte und geringerer Betriebsaufwand. – Geringere Latenz und weniger Netzwerkabhängigkeiten für die OCR-Ausführung.

  • Einfachere Datenminimierung: weniger Datenkopien und Speicherorte.

  • Klarere Verantwortlichkeitsgrenzen für Prozessor-/Controller-Rollen.

  • Vereinfachte Reaktion auf Sicherheitsverletzungen: Kein separater KI-Server, der bei Vorfällen verwaltet werden muss.

  • Einfachere Umsetzung der Betroffenenrechte (Auskunft, Löschung) ohne Abstimmung mit a separater KI-Dienst.

  • Das Plugin speichert Bilddaten oder OCR-Ergebnisse nicht dauerhaft, wodurch die Datenspeicherung minimiert wird Anliegen.

  • Problemloseste Antwort auf Löschanfragen: Daten werden niemals gespeichert, auch nicht in Server-Backups Daher ist keine Löschung erforderlich.

Hinweis zum Entfernen

Wenn OCR aktiviert wurde, ist die verwendete DLL im Speicher gesperrt, sodass sie nicht mehr gelöscht werden kann Plugin-Dateien vom Server. Das ist eine technische Einschränkung der Tesseract-Bibliothek und keine CodBi-spezifisches Problem. Wenn Sie das Plugin nach der Aktivierung entfernen möchten, müssen Sie dies zunächst tun Deaktivieren Sie das Plugin und starten Sie dann den Server neu. Danach können Sie das Plugin löschen.

Constructors

Link copied to clipboard
constructor()

Types

Link copied to clipboard
object Companion

Companion for static members.

Functions

Link copied to clipboard
open override fun execute(params: IPluginServletActionParams): IPluginServletActionRetVal

Verwendet AI, wenn es durch die CodBi-Plugin-Property Active_AI mit OCR aktiviert wird Hausmeister zum Speichern von Bildern, die eine ID haben (sofern im Header X-OCR-Image-ID übermittelt) und extrahiert den gesamten Text aus den übertragenen oder über X-OCR-Image-ID angegebenen Bildern.

Link copied to clipboard
Link copied to clipboard
open override fun getDisplayName(p0: Locale): String
Link copied to clipboard
open override fun getName(): String

Gibt den Namen dieser IPluginServletAction an.

Link copied to clipboard
open override fun initialize(configData: IPluginInitializeData)

Initialisiert dieses Plugin, wenn die CodBi-Plugin-Property Active_AI OCR enthält (case unempfindlich). Durch die Bestimmung der pluginRoot teilt sie der execute-Methode mit, wo sie gespeichert werden soll temporäre Bilder. Darüber hinaus werden die entsprechenden nativen Bibliotheken für das Betriebssystem des Servers bereitgestellt Aus dem JAR extrahiert und auf das Laufwerk des Servers kopiert, bevor es zur Bereitstellung geklont wird als Versionen, die aufgrund möglicher früherer Initialisierungen des Plugins nicht gesperrt werden. Das Das Servlet prüft, ob die entsprechenden Modelle für die über das angegebene Sprache vorhanden sind CodBi-Plugin-Property AI_Tesseract_Languages (z. B. deu+ita+eng oder einfach deu) sind bereits vorhanden in den lokalen Ressourcen des Plugins vorhanden sein und das Modell für jede Sprache herunterladen automatisch, wenn nicht. Wenn die Eigenschaft nicht gesetzt ist, wird deu angenommen.

Link copied to clipboard
open fun initPlugin()
Link copied to clipboard
open fun install(p0: IPluginInstallData)
Link copied to clipboard
open override fun shutdown(shutdownData: IPluginShutdownData?)

Fährt den Pool herunter und gibt alle Tesseract-Handles frei.

open fun shutdown()
Link copied to clipboard

Initiiert eine Aufgabe, die nicht verwendete, abgelaufene Bilder (msExpirationIDedImages) aus dem entfernt Cache (cacheIDedImages).

Link copied to clipboard
open fun uninstall(p0: IPluginUninstallData)
Link copied to clipboard
open override fun validateConfigurationData(configData: IPluginValidationData): IPluginInitializeValidationResult?

Löscht die lokalen Daten, die zum Ausführen von Tesseract erforderlich sind, wenn Active_AI kein OCR enthält. Darüber hinaus wird AI_Tesseract_Languages auf Einhaltung überprüft ^a-z{3}(\s\+\sa-z{3})*$**, wenn es gesetzt ist.