Ollama¶

Lokale LLM-Inferenz mit Intel GPU-Beschleunigung und Open WebUI als Frontend. Ollama · Open WebUI

Noch nicht hinter Traefik

Open WebUI ist aktuell direkt über Port 3000 erreichbar und nicht über Traefik geroutet.

Zugriff¶

Zwei Ollama-Instanzen:
- ollama-ipex (Port 11434): Intel IPEX-LLM-optimiert für Intel iGPU via oneAPI/SYCL
- ollama-vision (Port 11435): Standard Ollama für Vision-Modelle
Intel GPU: Beide Instanzen mounten /dev/dri für GPU-Zugriff. Die IPEX-Instanz braucht spezielle oneAPI-Umgebungsvariablen
Open WebUI: Web-Frontend auf Port 3000, verbindet sich mit der IPEX-Instanz. Auth ist deaktiviert (WEBUI_AUTH=false)
Keep-Alive: Modelle bleiben dauerhaft im Speicher (OLLAMA_KEEP_ALIVE=-1)
Healthcheck: IPEX-Instanz hat Healthcheck auf /api/tags, Open WebUI wartet auf service_healthy

Pfad	Zweck
`/mnt/ssd/container-data/ollama/ollama_data`	IPEX Ollama-Daten
`/mnt/ssd/container-data/ollama/models`	Modell-Dateien
`/mnt/ssd/container-data/ollama/ollama_vision_data`	Vision Ollama-Daten
`/mnt/ssd/container-data/ollama/openwebui`	Open WebUI Daten