2026-04-15

DeepSeek V4 in Python einsetzen: vom Setup bis zur Produktion

DeepSeek V4 stellt eine OpenAI-kompatible API bereit, also brauchst du in Python kein neues SDK zu lernen: das offizielle openai-Paket funktioniert direkt, du tauschst nur Base URL und API-Key aus. Dieser Leitfaden führt durch Installation, ersten Chat-Call, Streaming, Function Calling und die Kostenkontrolle bei hohem Volumen.

1. SDK installieren und API-Key setzen

Kein DeepSeek-spezifisches Paket nötig. Das offizielle openai-SDK spricht den DeepSeek-Endpunkt nativ. API-Key immer in eine Umgebungsvariable legen, niemals in den Code.

Den Key bekommst du aus der DeepSeek-Konsole oder über /pricing (gleiche API, günstiger). Als DEEPSEEK_API_KEY exportieren.

pip install "openai>=1.40.0" python-dotenv
echo "DEEPSEEK_API_KEY=sk-..." >> .env

2. Erste Chat-Completion

OpenAI-Client anlegen und base_url auf den DeepSeek-Endpunkt setzen. chat.completions.create ist mit OpenAI identisch; nur der Modellname ändert sich: deepseek-v4-flash für den Alltag, deepseek-v4-pro für tiefes Reasoning.

import os
from dotenv import load_dotenv
from openai import OpenAI

load_dotenv()

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a concise technical assistant."},
        {"role": "user", "content": "Write a Python one-liner to flatten a nested list."},
    ],
    temperature=0.2,
)

print(response.choices[0].message.content)
print("tokens used:", response.usage.total_tokens)

3. Streaming für reaktive UIs

In Chat-UIs, CLIs oder Agent-Loops sollen Tokens sofort erscheinen. Mit stream=True bekommst du ein Iterable aus Chunks, jeder Chunk ist ein OpenAI-kompatibles Delta.

stream = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Explain MoE in 3 sentences."}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

4. Function Calling (Tool Use)

V4 unterstützt Tool Use im OpenAI-Stil: du deklarierst das JSON-Schema, das Modell entscheidet, wann gerufen wird, dein Code führt aus und liefert das Ergebnis zurück. V4 ist hier deutlich stabiler als V3.

Modell-Argumente behandeln wie Nutzereingaben — immer mit pydantic oder jsonschema validieren, bevor ausgeführt wird.

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get the current weather for a city",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"],
        },
    },
}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Weather in Tokyo?"}],
    tools=tools,
)

call = response.choices[0].message.tool_calls[0]
# call.function.name == "get_weather"
# call.function.arguments == '{"city":"Tokyo"}'

5. Token-Kosten im Griff behalten

DeepSeek rechnet Input- und Output-Tokens getrennt ab, Output etwa doppelt so teuer wie Input. System-Prompt und komplette Historie zählen als Input, lange Chats blähen die Rechnung schnell.

Drei Praktiken: System-Prompt kurz und stabil halten (cacheable), Historie ab ~6k Tokens zusammenfassen, max_tokens begrenzen. Für hohes Volumen liefert /pricing rabattierte offizielle Keys.

FAQ

Brauche ich ein DeepSeek-eigenes SDK?

Nein. Das openai-Paket funktioniert; LangChain, LlamaIndex und Instructor ebenfalls.

deepseek-v4-flash oder deepseek-v4-pro?

Mit deepseek-v4-flash starten. Bei Mathe, strikter Logik oder langen Gedankenketten auf deepseek-v4-pro umschalten.

Kann ich asyncio nutzen?

Ja, AsyncOpenAI statt OpenAI, der Rest ist identisch.

Wo gibt es günstigere API-Keys?

Bei /pricing — offizielle Keys mit Rabatt.

Python + DeepSeek V4 ist der schnellste Weg zu einem produktiven LLM-Stack 2026: das SDK, das du schon kennst, Qualität auf Augenhöhe mit GPT 5.4 und ein Preis, der in reale Projekte passt.

Rabatt-Keys ansehen