deamon-vault/_adn/routing-llm.md
2026-04-17 16:54:34 +02:00

4.5 KiB

title type created updated owner agent status summary tags related
Matrice de Routing LLM config 2026-04-16 2026-04-16 jerem DAEMON active Quel LLM pour quel usage, fallbacks, limites budget. Source unique — toute décision de routing passe par ce fichier.
config
routing
llm
_adn/soul
_adn/brain
_adn/context

Matrice de Routing LLM

Qui fait quoi. Chaque tâche a un LLM principal et un fallback. DAEMON route automatiquement selon le type de demande.


1. Les modèles disponibles

Modèle Force principale Coût relatif Accès actuel
Claude (Anthropic) Raisonnement, écriture, code, coaching, agent principal €€€ Claude Code + API
Gemini (Google) Contexte long, tâches simples, fallback low-cost À connecter (Gemini CLI + MCP SSE)
Grok (xAI) Veille Twitter/X, tendances sociales, ton décalé €€ À connecter (MCP remote)
Perplexity Recherche web, fact-checking, veille temps réel €€ À connecter (Perpsidian plugin)

2. Routing par type de tâche

Tâche LLM principal Fallback Notes
Agent principal / bras droit Claude Cœur de DAEMON. Pas de fallback — si Claude down, on attend.
Écriture (notes, scripts, contenus) Claude Gemini Gemini = draft rapide, Claude = version finale
Code (dev, debug, infra) Claude Gemini Claude Code = outil principal
Coaching (plans, CR, suivi) Claude Données sensibles → Claude uniquement
Brainstorm / idéation Claude Grok Grok pour perspectives inattendues
Recherche web / fact-check Perplexity Gemini Perplexity = sources citées, Gemini = fallback grounding
Veille Twitter/X Grok Perplexity Grok = accès natif aux données X
Veille IA / business / tendances Perplexity Grok Pipeline : Perplexity cherche → Claude synthétise
Classification / tri / tags Gemini Flash Claude Haiku Tâches simples, haut volume, low-cost
Reformulation / résumé Gemini Flash Claude Haiku Idem — optimiser le budget
Transcription audio Groq Whisper (API) Whisper local (VPS) Groq = rapide + pas cher. Local = gros fichiers / offline
Journaling / introspection Claude Données intimes → Claude uniquement

3. Règles de routing

  1. Données sensibles (identité, finances, santé, relations, coaching clients) → Claude uniquement. Jamais de fallback vers un autre modèle.
  2. Budget first : si la tâche est simple (tri, tags, reformulation), utiliser Gemini Flash en priorité. Claude = overkill pour du tri de tags.
  3. Pipeline multi-LLM autorisé : Perplexity cherche → Claude synthétise → Gemini met en forme. Chaque étape utilise le meilleur outil.
  4. Fallback automatique : si un LLM est down (timeout > 30s ou erreur 5xx), basculer sur le fallback sans demander confirmation.
  5. Alerte budget : si un LLM dépasse 80% de son budget mensuel → alerte. À 95% → switch fallback pour le reste du mois.

4. Budget mensuel (cible)

Modèle Budget max/mois Priorité coupe
Claude 80 € Dernière coupe (agent principal)
Perplexity 20 € (ou plan Pro inclus) 2e coupe
Grok 10 € 1ère coupe
Gemini 5 € (ou tier gratuit) Gratuit tant que possible
Total cible ~100 €/mois Ajustable selon revenus

Note : budget = 0 € de revenus coaching aujourd'hui. Le budget LLM est un investissement. Quand les revenus montent, on scale les budgets proportionnellement.


5. Fallback cascade

Tâche entrante
    │
    ├── Données sensibles ? → Claude (pas de fallback)
    │
    ├── Recherche web ? → Perplexity → Gemini
    │
    ├── Veille X/Twitter ? → Grok → Perplexity
    │
    ├── Tâche simple (tri/tags/résumé) ? → Gemini Flash → Claude Haiku
    │
    └── Tout le reste → Claude → Gemini

6. Connexions à établir (roadmap)

  • Claude Code — MCP Obsidian + MCP Notion (session 16 avril)
  • Gemini — Gemini CLI + MCP SSE vers vault (Phase 4.1)
  • Grok — MCP remote HTTP (Phase 4.1)
  • Perplexity — Plugin Perpsidian unidirectionnel (Phase 4.1)
  • Groq Whisper — API key + endpoint (Phase 1.8)
  • Whisper local — Container Docker sur VPS (Phase 1.8)

Ce fichier est la source unique pour le routing. Si un nouveau LLM est ajouté, il est documenté ici d'abord.