4.5 KiB
4.5 KiB
| title | type | created | updated | owner | agent | status | summary | tags | related | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Matrice de Routing LLM | config | 2026-04-16 | 2026-04-16 | jerem | DAEMON | active | Quel LLM pour quel usage, fallbacks, limites budget. Source unique — toute décision de routing passe par ce fichier. |
|
|
Matrice de Routing LLM
Qui fait quoi. Chaque tâche a un LLM principal et un fallback. DAEMON route automatiquement selon le type de demande.
1. Les modèles disponibles
| Modèle | Force principale | Coût relatif | Accès actuel |
|---|---|---|---|
| Claude (Anthropic) | Raisonnement, écriture, code, coaching, agent principal | €€€ | ✅ Claude Code + API |
| Gemini (Google) | Contexte long, tâches simples, fallback low-cost | € | ⏳ À connecter (Gemini CLI + MCP SSE) |
| Grok (xAI) | Veille Twitter/X, tendances sociales, ton décalé | €€ | ⏳ À connecter (MCP remote) |
| Perplexity | Recherche web, fact-checking, veille temps réel | €€ | ⏳ À connecter (Perpsidian plugin) |
2. Routing par type de tâche
| Tâche | LLM principal | Fallback | Notes |
|---|---|---|---|
| Agent principal / bras droit | Claude | — | Cœur de DAEMON. Pas de fallback — si Claude down, on attend. |
| Écriture (notes, scripts, contenus) | Claude | Gemini | Gemini = draft rapide, Claude = version finale |
| Code (dev, debug, infra) | Claude | Gemini | Claude Code = outil principal |
| Coaching (plans, CR, suivi) | Claude | — | Données sensibles → Claude uniquement |
| Brainstorm / idéation | Claude | Grok | Grok pour perspectives inattendues |
| Recherche web / fact-check | Perplexity | Gemini | Perplexity = sources citées, Gemini = fallback grounding |
| Veille Twitter/X | Grok | Perplexity | Grok = accès natif aux données X |
| Veille IA / business / tendances | Perplexity | Grok | Pipeline : Perplexity cherche → Claude synthétise |
| Classification / tri / tags | Gemini Flash | Claude Haiku | Tâches simples, haut volume, low-cost |
| Reformulation / résumé | Gemini Flash | Claude Haiku | Idem — optimiser le budget |
| Transcription audio | Groq Whisper (API) | Whisper local (VPS) | Groq = rapide + pas cher. Local = gros fichiers / offline |
| Journaling / introspection | Claude | — | Données intimes → Claude uniquement |
3. Règles de routing
- Données sensibles (identité, finances, santé, relations, coaching clients) → Claude uniquement. Jamais de fallback vers un autre modèle.
- Budget first : si la tâche est simple (tri, tags, reformulation), utiliser Gemini Flash en priorité. Claude = overkill pour du tri de tags.
- Pipeline multi-LLM autorisé : Perplexity cherche → Claude synthétise → Gemini met en forme. Chaque étape utilise le meilleur outil.
- Fallback automatique : si un LLM est down (timeout > 30s ou erreur 5xx), basculer sur le fallback sans demander confirmation.
- Alerte budget : si un LLM dépasse 80% de son budget mensuel → alerte. À 95% → switch fallback pour le reste du mois.
4. Budget mensuel (cible)
| Modèle | Budget max/mois | Priorité coupe |
|---|---|---|
| Claude | 80 € | Dernière coupe (agent principal) |
| Perplexity | 20 € (ou plan Pro inclus) | 2e coupe |
| Grok | 10 € | 1ère coupe |
| Gemini | 5 € (ou tier gratuit) | Gratuit tant que possible |
| Total cible | ~100 €/mois | Ajustable selon revenus |
Note : budget = 0 € de revenus coaching aujourd'hui. Le budget LLM est un investissement. Quand les revenus montent, on scale les budgets proportionnellement.
5. Fallback cascade
Tâche entrante
│
├── Données sensibles ? → Claude (pas de fallback)
│
├── Recherche web ? → Perplexity → Gemini
│
├── Veille X/Twitter ? → Grok → Perplexity
│
├── Tâche simple (tri/tags/résumé) ? → Gemini Flash → Claude Haiku
│
└── Tout le reste → Claude → Gemini
6. Connexions à établir (roadmap)
- Claude Code — MCP Obsidian + MCP Notion ✅ (session 16 avril)
- Gemini — Gemini CLI + MCP SSE vers vault (Phase 4.1)
- Grok — MCP remote HTTP (Phase 4.1)
- Perplexity — Plugin Perpsidian unidirectionnel (Phase 4.1)
- Groq Whisper — API key + endpoint (Phase 1.8)
- Whisper local — Container Docker sur VPS (Phase 1.8)
Ce fichier est la source unique pour le routing. Si un nouveau LLM est ajouté, il est documenté ici d'abord.