Matrice de Routing LLM

Qui fait quoi. Chaque tâche a un LLM principal et un fallback. DAEMON route automatiquement selon le type de demande.

1. Les modèles disponibles

Modèle	Force principale	Coût relatif	Accès actuel
Claude (Anthropic)	Raisonnement, écriture, code, coaching, agent principal	€€€	✅ Claude Code + API
Gemini (Google)	Contexte long, tâches simples, fallback low-cost	€	⏳ À connecter (Gemini CLI + MCP SSE)
Grok (xAI)	Veille Twitter/X, tendances sociales, ton décalé	€€	⏳ À connecter (MCP remote)
Perplexity	Recherche web, fact-checking, veille temps réel	€€	⏳ À connecter (Perpsidian plugin)

2. Routing par type de tâche

Tâche	LLM principal	Fallback	Notes
Agent principal / bras droit	Claude	—	Cœur de DAEMON. Pas de fallback — si Claude down, on attend.
Écriture (notes, scripts, contenus)	Claude	Gemini	Gemini = draft rapide, Claude = version finale
Code (dev, debug, infra)	Claude	Gemini	Claude Code = outil principal
Coaching (plans, CR, suivi)	Claude	—	Données sensibles → Claude uniquement
Brainstorm / idéation	Claude	Grok	Grok pour perspectives inattendues
Recherche web / fact-check	Perplexity	Gemini	Perplexity = sources citées, Gemini = fallback grounding
Veille Twitter/X	Grok	Perplexity	Grok = accès natif aux données X
Veille IA / business / tendances	Perplexity	Grok	Pipeline : Perplexity cherche → Claude synthétise
Classification / tri / tags	Gemini Flash	Claude Haiku	Tâches simples, haut volume, low-cost
Reformulation / résumé	Gemini Flash	Claude Haiku	Idem — optimiser le budget
Transcription audio	Groq Whisper (API)	Whisper local (VPS)	Groq = rapide + pas cher. Local = gros fichiers / offline
Journaling / introspection	Claude	—	Données intimes → Claude uniquement

3. Règles de routing

Données sensibles (identité, finances, santé, relations, coaching clients) → Claude uniquement. Jamais de fallback vers un autre modèle.
Budget first : si la tâche est simple (tri, tags, reformulation), utiliser Gemini Flash en priorité. Claude = overkill pour du tri de tags.
Pipeline multi-LLM autorisé : Perplexity cherche → Claude synthétise → Gemini met en forme. Chaque étape utilise le meilleur outil.
Fallback automatique : si un LLM est down (timeout > 30s ou erreur 5xx), basculer sur le fallback sans demander confirmation.
Alerte budget : si un LLM dépasse 80% de son budget mensuel → alerte. À 95% → switch fallback pour le reste du mois.

4. Budget mensuel (cible)

Modèle	Budget max/mois	Priorité coupe
Claude	80 €	Dernière coupe (agent principal)
Perplexity	20 € (ou plan Pro inclus)	2e coupe
Grok	10 €	1ère coupe
Gemini	5 € (ou tier gratuit)	Gratuit tant que possible
Total cible	~100 €/mois	Ajustable selon revenus

Note : budget = 0 € de revenus coaching aujourd'hui. Le budget LLM est un investissement. Quand les revenus montent, on scale les budgets proportionnellement.

5. Fallback cascade

Tâche entrante
    │
    ├── Données sensibles ? → Claude (pas de fallback)
    │
    ├── Recherche web ? → Perplexity → Gemini
    │
    ├── Veille X/Twitter ? → Grok → Perplexity
    │
    ├── Tâche simple (tri/tags/résumé) ? → Gemini Flash → Claude Haiku
    │
    └── Tout le reste → Claude → Gemini

6. Connexions à établir (roadmap)

Claude Code — MCP Obsidian + MCP Notion ✅ (session 16 avril)
Gemini — Gemini CLI + MCP SSE vers vault (Phase 4.1)
Grok — MCP remote HTTP (Phase 4.1)
Perplexity — Plugin Perpsidian unidirectionnel (Phase 4.1)
Groq Whisper — API key + endpoint (Phase 1.8)
Whisper local — Container Docker sur VPS (Phase 1.8)

Ce fichier est la source unique pour le routing. Si un nouveau LLM est ajouté, il est documenté ici d'abord.

4.5 KiB Raw Blame History

Matrice de Routing LLM

1. Les modèles disponibles

2. Routing par type de tâche

3. Règles de routing

4. Budget mensuel (cible)

5. Fallback cascade

6. Connexions à établir (roadmap)

4.5 KiB

Raw Blame History