Sprachfluss · Competitive Gap
Was die starken Diktier-Apps können und Sprachfluss noch nicht — priorisiert nach Nutzen.
Hoher Nutzen — hier würde sich Arbeit am meisten lohnen.
Eine WhatsApp-Sprachnachricht oder ein Voice-Memo per Teilen-Menü reinschicken → Transkript. Fehlt komplett, ist aber einer der häufigsten Wünsche.
Die Pipeline steht schon — es braucht nur eine Datei- statt Mic-Audioquelle plus einen Share-Intent.
Die Live-Preview ist aktuell ein CPU-teurer Re-Run auf dem wachsenden Buffer, kein echtes Streaming. Wispr Flow / superwhisper fühlen sich „instant" an.
Sherpa-ONNX kann echte Streaming-Transducer — damit ginge das nativ und ohne Mehrlast.
„neue Zeile", „Komma", „streich das", „neuer Absatz" während des Diktats. Die jetzigen Voice-Commands matchen nur die ganze Äußerung — das ist etwas anderes.
Für Meetings/Interviews (das Feld von Otter, Google Recorder): Diarisierung („wer hat was gesagt") plus Untertitel-/SRT-Export.
In Sprache A sprechen → Text in Sprache B. Whisper kann translate-to-EN nativ, der AI-Enhance-Schritt jede Richtung.
Die Keyboard-Extension und Intents auf iOS hinken Android klar hinterher — gleiche Engine, halbe Oberfläche.
Kleinere Punkte, die „noch nicht perfekt" sind.
Sprachfluss gegen die Referenz-Apps.
| Feature | Sprachfluss | Wispr/superwhisper | Otter | Futo |
|---|---|---|---|---|
| On-Device Recognition | ✓ | teils | Cloud | ✓ |
| AI-Cleanup (Provider-agnostisch) | ✓ | ✓ | eigen | ✗ |
| Audio-Datei-Import | ✗ | ✓ | ✓ | ✗ |
| Echtes Live-Streaming | Re-Run | ✓ | ✓ | teils |
| Inline-Diktierkommandos | ✗ | teils | ✗ | ✗ |
| Sprecher-Trennung | ✗ | ✗ | ✓ | ✗ |
| Übersetzung | ✗ | teils | ✓ | ✗ |
| Notizen / History / Usage | ✓ | teils | ✓ | ✗ |
| iOS-Keyboard | WIP | ✓ | App | Android |
Mit Audio-Import / Share-to-Sprachfluss anfangen — größter Nutzen pro Aufwand, weil die Recognition-Pipeline schon steht und nur eine Datei-Audioquelle plus Share-Intent fehlt.