Tesseract Action
Führt OCR für ein oder mehrere Bilder mit durch
Gibt entweder den gesamten Text des/der geparsten Dokument(s) zurück oder, falls ein X-OCR-Regex im gefunden wird Header, der Text entspricht einem angegebenen regulären Ausdruck, der Text entspricht mehreren benannten reguläre Ausdrücke oder ob der Text mit einem angegebenen regulären Ausdruck übereinstimmt.
Formcycle-Upload-Felder, die CodBis Media.MultipleDownload nutzen und so hochladen Es werden mehr als ein Bild unterstützt. Der zurückgegebene JSON enthält die entsprechend benannten Eigenschaften der Name der übertragenen Datei, die den gefundenen Text enthält.
Plugin-Eigenschaften
AI_Tesseract_Languages Optionale dreibuchstabige Sprachcode-Spezifikation der Sprache Tesseract muss in der Lage sein, es zu erkennen (standardmäßig deu). Mehrere Sprachen können getrennt werden durch ein + (z. B. deu + eng). -- **AI_Tesseract_PoolSize ** Anzahl der Tesseract-Instanzen gleichzeitig verfügbar (siehe sizePool).
AI_Tesseract_MaxCPUPercent CPU-Auslastungsschwellenwert (%) – blockiert OCR-Anfragen, wenn sie überschritten werden (Standard:
101.0, effektiv deaktiviert).AI_Tesseract_MaxRAMPercent RAM-Nutzungsschwellenwert (%) – blockiert OCR-Anfragen, wenn sie überschritten werden (Standard:
101.0, effektiv deaktiviert).
Für die ordnungsgemäße Initialisierung erforderliche URLs:
Die URL des Maven-Repositorys kann mit dem AI_Tesseract_MavenRepository-Plugin geändert werden Eigentum.
Domains zur Whitelist
repo1.maven.org
github.com
raw.githubusercontent.com
api.github.com
objects.githubusercontent.com
DSGVO, EU-AI ACT & technische Vorteile gegenüber dem dedizierten Server-KI-Ansatz
Keine separate KI-Servereinrichtung (weniger zu sichernde und zu prüfende Systeme).
Reduzierter Datentransfer: Die Verarbeitung bleibt innerhalb der Plugin-Laufzeit.
Einfacherer Compliance-Umfang: weniger Endpunkte und geringerer Betriebsaufwand. – Geringere Latenz und weniger Netzwerkabhängigkeiten für die OCR-Ausführung.
Einfachere Datenminimierung: weniger Datenkopien und Speicherorte.
Klarere Verantwortlichkeitsgrenzen für Prozessor-/Controller-Rollen.
Vereinfachte Reaktion auf Sicherheitsverletzungen: Kein separater KI-Server, der bei Vorfällen verwaltet werden muss.
Einfachere Umsetzung der Betroffenenrechte (Auskunft, Löschung) ohne Abstimmung mit a separater KI-Dienst.
Das Plugin speichert Bilddaten oder OCR-Ergebnisse nicht dauerhaft, wodurch die Datenspeicherung minimiert wird Anliegen.
Problemloseste Antwort auf Löschanfragen: Daten werden niemals gespeichert, auch nicht in Server-Backups Daher ist keine Löschung erforderlich.
Hinweis zum Entfernen
Wenn OCR aktiviert wurde, ist die verwendete DLL im Speicher gesperrt, sodass sie nicht mehr gelöscht werden kann Plugin-Dateien vom Server. Das ist eine technische Einschränkung der Tesseract-Bibliothek und keine CodBi-spezifisches Problem. Wenn Sie das Plugin nach der Aktivierung entfernen möchten, müssen Sie dies zunächst tun Deaktivieren Sie das Plugin und starten Sie dann den Server neu. Danach können Sie das Plugin löschen.
Functions
Verwendet AI, wenn es durch die CodBi-Plugin-Property Active_AI mit OCR aktiviert wird Hausmeister zum Speichern von Bildern, die eine ID haben (sofern im Header X-OCR-Image-ID übermittelt) und extrahiert den gesamten Text aus den übertragenen oder über X-OCR-Image-ID angegebenen Bildern.
Initialisiert dieses Plugin, wenn die CodBi-Plugin-Property Active_AI OCR enthält (case unempfindlich). Durch die Bestimmung der pluginRoot teilt sie der execute-Methode mit, wo sie gespeichert werden soll temporäre Bilder. Darüber hinaus werden die entsprechenden nativen Bibliotheken für das Betriebssystem des Servers bereitgestellt Aus dem JAR extrahiert und auf das Laufwerk des Servers kopiert, bevor es zur Bereitstellung geklont wird als Versionen, die aufgrund möglicher früherer Initialisierungen des Plugins nicht gesperrt werden. Das Das Servlet prüft, ob die entsprechenden Modelle für die über das angegebene Sprache vorhanden sind CodBi-Plugin-Property AI_Tesseract_Languages (z. B. deu+ita+eng oder einfach deu) sind bereits vorhanden in den lokalen Ressourcen des Plugins vorhanden sein und das Modell für jede Sprache herunterladen automatisch, wenn nicht. Wenn die Eigenschaft nicht gesetzt ist, wird deu angenommen.
Initiiert eine Aufgabe, die nicht verwendete, abgelaufene Bilder (msExpirationIDedImages) aus dem entfernt Cache (cacheIDedImages).
Löscht die lokalen Daten, die zum Ausführen von Tesseract erforderlich sind, wenn Active_AI kein OCR enthält. Darüber hinaus wird AI_Tesseract_Languages auf Einhaltung überprüft ^a-z{3}(\s\+\sa-z{3})*$**, wenn es gesetzt ist.