Concept

Comprendre le fonctionnement de murmurai et sa philosophie.

Le problème

La saisie de texte au clavier est parfois plus lente que la parole, surtout pour des phrases longues ou de la rédaction libre. Les solutions de dictée existantes sont soit basées sur le cloud (vie privée, latence, coût), soit complexes à configurer. murmurai propose une alternative simple : un outil push-to-talk qui transcrit votre voix localement et colle le texte là où se trouve votre curseur.

La solution murmurai

murmurai repose sur quatre principes : 1. 100% hors-ligne — Tout le traitement se fait localement grâce à faster-whisper, une implémentation optimisée d'OpenAI Whisper. Aucune donnée audio ne quitte votre Mac. 2. Push-to-talk — Maintenez la touche Option droite (⌥), parlez, relâchez. Pas de commande vocale "start" / "stop", pas de bouton à cliquer. 3. Zéro friction — Le texte transcrit est automatiquement collé à la position du curseur via une simulation de Cmd+V. Pas de fenêtre intermédiaire, pas de copier-coller manuel. 4. Mode Agent — Un second raccourci envoie votre voix et le texte sélectionné à un modèle Ollama local. La réponse AI remplace directement la sélection. Ollama est optionnel et n'est requis que pour ce mode. murmurai intègre également un système de fusion bilingue FR/EN avec un dictionnaire de ~100 termes de jargon technique, corrigeant automatiquement les termes mal reconnus (ex. "commettre" → "commit").

Mode Agent

Le Mode Agent est un second mode d'interaction qui transforme murmurai en assistant AI vocal : 1. Sélectionnez du texte dans n'importe quelle application 2. Maintenez la touche Agent (configurable) 3. Dictez votre instruction vocale (ex. "refactorise cette fonction", "traduis en anglais") 4. Relâchez la touche — murmurai envoie votre instruction + le texte sélectionné au modèle Ollama local 5. La réponse AI remplace directement la sélection Le Mode Agent nécessite Ollama installé localement. Le modèle Ollama est sélectionnable dynamiquement depuis la barre de menu. Le streaming des réponses et l'annulation sont supportés.

Fusion bilingue

murmurai gère nativement la transcription bilingue français/anglais. Le système de fusion locale corrige automatiquement les termes techniques mal reconnus grâce à un dictionnaire de ~100 termes de jargon. Par exemple, Whisper peut transcrire "commettre" au lieu de "commit", ou "pousser" au lieu de "push". Le dictionnaire de jargon détecte et corrige ces erreurs en post-traitement, préservant la structure de phrase française tout en maintenant les termes techniques anglais corrects. Les utilisateurs peuvent ajouter leurs propres termes dans le fichier de configuration ~/.config/murmurai/config.json.

Transcription en streaming

murmurai ne transcrit pas seulement après l'enregistrement — il traite l'audio en temps réel pendant que vous parlez (streaming). Cela signifie que le résultat est disponible quasi instantanément au moment où vous relâchez la touche. Le pipeline audio est optimisé pour minimiser la latence tout en maintenant une bonne qualité de transcription.

Modèles Whisper

murmurai utilise faster-whisper, une réimplémentation de Whisper en CTranslate2 qui offre des performances 4x supérieures à l'implémentation originale d'OpenAI. Cinq tailles de modèle sont disponibles, du plus léger (tiny, ~75 Mo) au plus précis (large-v3, ~3 Go). Le modèle par défaut est "small" (~500 Mo), qui offre un bon équilibre entre vitesse et qualité.