Sprachfluss · Competitive Gap

Welche Features uns noch abgehen

Was die starken Diktier-Apps können und Sprachfluss noch nicht — priorisiert nach Nutzen.

Vorweg: Sprachfluss ist schon deutlich vollständiger als die meisten Diktier-Apps. On-Device Whisper + Parakeet, Sprach-Routing, AI-Enhance mit mehreren Providern, Edit-Mode, Instant-Replacements, Voice-Commands, Notizen/History/Usage, Floating-Button + IME + Assist-Geste, Denoiser, Media-Ducking. Die folgenden Punkte sind die echten Lücken gegenüber den Mitbewerbern.

Größte Lücken

Hoher Nutzen — hier würde sich Arbeit am meisten lohnen.

1Audio-Datei transkribieren / Share-to-Sprachfluss

Eine WhatsApp-Sprachnachricht oder ein Voice-Memo per Teilen-Menü reinschicken → Transkript. Fehlt komplett, ist aber einer der häufigsten Wünsche.

Die Pipeline steht schon — es braucht nur eine Datei- statt Mic-Audioquelle plus einen Share-Intent.

Nutzen: sehr hochAufwand: niedrigAiko, alle Memo-Apps

2Echtes Streaming / Latenz

Die Live-Preview ist aktuell ein CPU-teurer Re-Run auf dem wachsenden Buffer, kein echtes Streaming. Wispr Flow / superwhisper fühlen sich „instant" an.

Sherpa-ONNX kann echte Streaming-Transducer — damit ginge das nativ und ohne Mehrlast.

Nutzen: hochAufwand: mittelWispr Flow, superwhisper

3Inline-Diktierkommandos (Dragon-Stil)

„neue Zeile", „Komma", „streich das", „neuer Absatz" während des Diktats. Die jetzigen Voice-Commands matchen nur die ganze Äußerung — das ist etwas anderes.

Nutzen: hochAufwand: mittelDragon, iOS-Diktat

4Sprecher-Trennung + Lang-Aufnahme + SRT-Export

Für Meetings/Interviews (das Feld von Otter, Google Recorder): Diarisierung („wer hat was gesagt") plus Untertitel-/SRT-Export.

Nutzen: mittel-hochAufwand: hochOtter, Google Recorder

5Übersetzung

In Sprache A sprechen → Text in Sprache B. Whisper kann translate-to-EN nativ, der AI-Enhance-Schritt jede Richtung.

Nutzen: mittelAufwand: niedrig-mittelWhisper nativ

6iOS-Parität

Die Keyboard-Extension und Intents auf iOS hinken Android klar hinterher — gleiche Engine, halbe Oberfläche.

Nutzen: hoch (Markt)Aufwand: hoch

Politur

Kleinere Punkte, die „noch nicht perfekt" sind.

Download-Integrität — sha256 im Katalog leer, Modelle werden nicht verifiziert Quick-Tile / Widget / Wear OS — 1-Tap-Diktat ohne App-Wechsel Selbstlernendes Vokabular — Hotwords aus History-Korrekturen Konfidenz-Highlighting — unsichere Wörter markieren Cloud-Sync/Backup — opt-in, verschlüsselt, geräteübergreifend Zahlen-/Datums-Normalisierung — „zwanzig Euro" → „20 €"

Vergleich

Sprachfluss gegen die Referenz-Apps.

FeatureSprachflussWispr/superwhisperOtterFuto
On-Device RecognitionteilsCloud
AI-Cleanup (Provider-agnostisch)eigen
Audio-Datei-Import
Echtes Live-StreamingRe-Runteils
Inline-Diktierkommandosteils
Sprecher-Trennung
Übersetzungteils
Notizen / History / Usageteils
iOS-KeyboardWIPAppAndroid
vorhanden teils eingeschränkt fehlt

Empfehlung

Mit Audio-Import / Share-to-Sprachfluss anfangen — größter Nutzen pro Aufwand, weil die Recognition-Pipeline schon steht und nur eine Datei-Audioquelle plus Share-Intent fehlt.