Zum Inhalt

Ollama

Lokale LLM-Inferenz mit Intel GPU-Beschleunigung und Open WebUI als Frontend. Ollama · Open WebUI

Noch nicht hinter Traefik

Open WebUI ist aktuell direkt über Port 3000 erreichbar und nicht über Traefik geroutet.

Zugriff

URL http://<host-ip>:3000 (Open WebUI)
Netzwerk Standard Docker-Netzwerk
Traefik Nein

Konfigurationsbesonderheiten

  • Zwei Ollama-Instanzen:
    • ollama-ipex (Port 11434): Intel IPEX-LLM-optimiert für Intel iGPU via oneAPI/SYCL
    • ollama-vision (Port 11435): Standard Ollama für Vision-Modelle
  • Intel GPU: Beide Instanzen mounten /dev/dri für GPU-Zugriff. Die IPEX-Instanz braucht spezielle oneAPI-Umgebungsvariablen
  • Open WebUI: Web-Frontend auf Port 3000, verbindet sich mit der IPEX-Instanz. Auth ist deaktiviert (WEBUI_AUTH=false)
  • Keep-Alive: Modelle bleiben dauerhaft im Speicher (OLLAMA_KEEP_ALIVE=-1)
  • Healthcheck: IPEX-Instanz hat Healthcheck auf /api/tags, Open WebUI wartet auf service_healthy

Wichtige Pfade

Pfad Zweck
/mnt/ssd/container-data/ollama/ollama_data IPEX Ollama-Daten
/mnt/ssd/container-data/ollama/models Modell-Dateien
/mnt/ssd/container-data/ollama/ollama_vision_data Vision Ollama-Daten
/mnt/ssd/container-data/ollama/openwebui Open WebUI Daten

ToDo

  • Hinter Traefik stellen (Open WebUI)