Standard
Standard – Allgemeiner GGUF-Modellläufer über den lokalen LLAMA-Server-Prozess. Alle KI-Berechnungen finden statt im externen LLAMA-Server-Prozess. Wenn es OOMs gibt, bleibt die Tomcat-JVM am Leben – nur die LLAMA-Server stirbt.
Plugin-Eigenschaften
| Eigenschaft | Typ | Standard | Beschreibung |
|---|---|---|---|
Active_AI | String | — | Muss llama_std enthalten, um dieses Modell zu aktivieren |
AI_LLAMA_STD_ModelUrl | URL | Qwen3-VL-2B Q4_K_M HuggingFace | Download-URL für die GGUF-Modelldatei |
AI_LLAMA_STD_MmprojUrl | URL | Qwen3-VL-2B mmproj (bei Verwendung des Standardmodells) | Download-URL für die Vision-Projektordatei (mmproj). Bei Nur-Text-Modellen weglassen (Sichtfunktionen deaktiviert). Automatische Einstellung bei Verwendung des Standard-VL-Modells |
AI_LLAMA_STD_MaxPixels | Long | 3211264 | Maximales Pixelbudget für die Bildverkleinerung (min. 3136) |
AI_LLAMA_STD_MaxUploadBytes | Long | 52428800 | Maximale Rohbildgröße in Bytes vor der Dekodierung (Standard 50 MB, min. 1 MB) |
AI_LLAMA_STD_MaxTokens | Int | 2048 | Maximal zu generierende Token pro Antwort |
AI_LLAMA_STD_MaxRAMPercent | Double | 101.0 | RAM-Nutzungsschwellenwert (%) – blockiert Anfragen, wenn sie überschritten werden |
AI_LLAMA_STD_MaxComputePercent | Double | 101.0 | Rechennutzungsschwellenwert (%) – Gates auf GPU % (CUDA) oder CPU % (Fallback). Blockiert Anfragen bei Überschreitung |
AI_LLAMA_STD_MaxCPUPercent | Double | — | Legacy-Alias für MaxComputePercent (als Fallback akzeptiert) |
AI_LLAMA_STD_LlamaRelease | String | b8175 | llama.cpp Release-Tag für Server-Binär-Download |
AI_LLAMA_STD_ServerUrl_<Plattform> | URL | (automatisch vom Release-Tag) | Plattformspezifische Überschreibung für die LLAMA-Server-Binär-URL |
AI_LLAMA_STD_UpdateCheckHours | Long | 24 | Stunden zwischen GitHub-Release-Checks (0 = deaktiviert) |
AI_LLAMA_STD_NotifyEmail | String | — | E-Mail-Adresse für Update-Benachrichtigungen |
AI_LLAMA_STD_ThinkingModelUrl | URL | — | Download-URL für ein dediziertes Denkmodell GGUF (optional) |
AI_LLAMA_STD_ThinkingMmprojUrl | URL | — | Download-URL für die mmproj-Datei des Denkmodells (optional) |
AI_LLAMA_STD_ExternalUrl | URL | — | Basis-URL einer externen OpenAI-kompatiblen API; überschreibt lokales Modell |
AI_LLAMA_STD_ExternalApiKey | String | — | API-Schlüssel für die externe AI (als Bearer-Token gesendet) |
AI_LLAMA_STD_ExternalModel | String | — | Modellname für die externe API (z. B. gpt-4o, claude-3-opus) |
AI_LLAMA_STD_ExternalNoPrompt | Boolean | false | Wenn „true“, überspringt alle integrierten Systemaufforderungsabschnitte (§1–§6) für die externe KI – sendet nur die Benutzernachricht und den Chatverlauf. |
AI_LLAMA_STD_PromptIdentity | String | (integriert) | Überschreiben Sie den Identitäts-/Rollensatz („Sie sind ein hilfreicher Assistent ...“). Verwenden Sie „{date}“ für das heutige Datum, „{time}“ für die aktuelle Uhrzeit. |
AI_LLAMA_STD_PromptLocation | String | (integriert) | Überschreiben Sie die Standortkontextanweisung. Verwenden Sie „{location}“ als Platzhalter. |
AI_LLAMA_STD_PromptSearch | String | (eingebaut) | Überschreiben Sie den CALL:search-Anweisungsblock (vor den Beispielen). |
AI_LLAMA_STD_PromptThinking | String | (integriert) | Überschreiben Sie die Denkmodus-Anweisung. Verwenden Sie „{Sprache}“ als Platzhalter. |
AI_LLAMA_STD_PromptNoInternet | String | (integriert) | Überschreiben Sie die Warnung „Kein Internetzugang“. |
AI_LLAMA_STD_PromptRules | String | (integriert) | Überschreiben Sie die allgemeinen Regeln (Sprache, Maße, Unabhängigkeit). |
AI_LLAMA_STD_FallbackLocation | String | — | Fallback-Standort-String, der verwendet wird, wenn die Geolokalisierung fehlschlägt (z. B. „Ansbach, Nürnberger Straße 32, Bayern, Deutschland“) |
AI_LLAMA_STD_NominatimDomain | String | nominatim.openstreetmap.org | Domäne für Reverse-Geokodierungsanfragen (ohne Pfad). |
AI_LLAMA_STD_IpGeolocationDomain | String | ipwho.is | Domäne für IP-Geolocation-Anfragen (ohne Pfad). |
AI_BraveSearch_ApiKey | String | — | Brave Search API-Schlüssel – aktiviert das Websuchtool für das Modell |
AI_BraveSearch_MaxResults | Int | 5 | Maximale Anzahl von Brave Search-Ergebnissen pro Abfrage (1–20). |
AI_LLAMA_STD_Language | String | — | Zweibuchstabiger ISO 639-1-Code (z. B. „de“, „fr“) – zwingt die KI, in dieser Sprache zu antworten und überspringt die automatische Erkennung. Überschrieben durch die funktionsspezifische Antwortsprache toLoad. |
AI_LLAMA_STD_SPECIALIST_XXX | URL | — | Download-URL für ein spezielles GGUF-Modell namens „XXX“. Der Name wird vom Administrator ausgewählt und von der „specialist“-toLoad-Eigenschaft ohne Berücksichtigung der Groß-/Kleinschreibung abgeglichen. |
AI_LLAMA_STD_SPECIALIST_MMProj_XXX | URL | — | Download-URL für den multimodalen Projektor (mmproj) des Spezialisten „XXX“. Optional – weglassen, wenn das Spezialistenmodell keine Sichtfähigkeit hat. |
AI_LLAMA_STD_EXT_SPECIALIST_XXX | URL | — | Basis-URL einer externen OpenAI-kompatiblen API für einen Spezialisten namens „XXX“. Wird von der toLoad-Eigenschaft „specialist“ ohne Berücksichtigung der Groß- und Kleinschreibung abgeglichen. |
AI_LLAMA_STD_EXT_SPECIALIST_Key_XXX | String | — | API-Schlüssel für den externen Spezialisten „XXX“ (als Bearer-Token gesendet). Optional. |
AI_LLAMA_STD_EXT_SPECIALIST_Model_XXX | String | — | Modellname für den externen Spezialisten „XXX“ (z. B. „gpt-4o“). Optional – weglassen, um den API-Standard zu verwenden. |
AI_LLAMA_STD_ExtraParams | JSON | — | Zusätzliche Parameter, die an jeden Vervollständigungsanforderungstext angehängt werden (z. B. {"top_p":0.9,"seed":42}). Die Schlüssel „messages“, „stream“, „model“, „id_slot“ und „logprobs“ werden stillschweigend ignoriert. |
Domains zur Whitelist
github.com – LLAMA-Server-Binärversionen und Release-Check-API
api.github.com – Überprüfung der neuesten Version
objects.githubusercontent.com – GitHub-Release-Asset-CDN
huggingface.co – GGUF-Modell und mmproj-Downloads
nominatim.openstreetmap.org – umgekehrte Geokodierung für den Standortkontext
ipwho.is – IP-basierter Geolocation-Fallback
api.search.brave.com – Brave-Websuche (nur wenn „AI_BraveSearch_ApiKey“ konfiguriert ist)
Functions
Liest alle Plugin-Eigenschaften, lädt bei Bedarf Modelldateien herunter und startet den LLAMA-Server -Prozess und startet den Ressourcenmonitor und den Versionsprüfungs-Daemon.
Initiiert eine Aufgabe, die nicht verwendete, abgelaufene Bilder (msExpirationIDedImages) aus dem entfernt Cache (cacheIDedImages).
Lehnt die Installation auf Mandantenebene ab. CodBi muss als System-Plugin installiert werden, da es KI-Dienste (Whisper, LLAMA) binden lokale Server-Ports und verwalten schwergewichtige Prozesse würde zu Konflikten führen, wenn sie einmal pro Mandant instanziiert würden.