Vibe Coding ist für mich keine abstrakte Zukunftsvision mehr – es ist die Art, wie ich seit einiger Zeit echte Probleme löse. Konkret: Ich habe mir ein eigenes KI-gestütztes Diktiertool gebaut, das auf meinem Mac Mini mit Apple Silicon läuft, Sprache per Whisper-Modell transkribiert und den Text dann in jedes beliebige Textfeld auf meinem Windows-Rechner einfügt. Kein monatliches Abo, keine Datenschutz-Bedenken bei Cloud-Diensten, kein Vendor Lock-in.
Und das Beste: Ich habe das Gleiche für mein Android-Smartphone umgesetzt. Mit einem schwebenden Button, den ich in jeder App nutzen kann.
Aber lass mich von vorne anfangen.
Das Problem: Diktierdienste kosten Geld – und viel davon
Wer regelmäßig diktiert, kennt das: Die guten Tools sind nicht günstig. Dienste wie SuperWhisper oder ähnliche Lösungen funktionieren zwar gut, sind jedoch an Nutzungslimits oder monatliche Kosten geknüpft. Wer viel diktiert – sei es für E-Mails, Notizen, Blog-Entwürfe oder Ticketbeschreibungen – läuft schnell in Kosten hinein, die sich summieren.
Gleichzeitig ist die Technologie dahinter längst Open Source. OpenAI Whisper ist kostenlos verfügbar, läuft lokal auf leistungsfähiger Hardware und liefert beeindruckende Transkriptionsqualität. Die Frage war also nicht, ob es geht – sondern wie ich es für meinen Workflow zusammenbaue.
Die Architektur: Mac Mini als KI-Herzstück, Windows als Arbeitsrechner
Mein Setup ist hybrid: Der Arbeitsalltag läuft auf einem Windows-Rechner, die rechenintensiven KI-Aufgaben übernimmt ein Mac Mini mit Apple-Silicon-Chip. Der M-Chip ist für lokale KI-Workloads geradezu perfekt – er verarbeitet Whisper-Modelle schnell, effizient und ohne GPU-Overkill.

So funktioniert der Ablauf technisch
Das Prinzip ist denkbar einfach: Ich spreche in ein Mikrofon, die Aufnahme wird an den Mac Mini übertragen, dort per Whisper-Modell in Text umgewandelt und das Ergebnis wird automatisch in das Textfeld eingefügt, in dem mein Cursor vorher stand. Klingt simpel – und genau das ist es, was die Lösung so wertvoll macht.
Folglich brauche ich keine komplizierte Cloud-Infrastruktur, keine API-Keys und keine monatliche Rechnung. Alles läuft im lokalen Netzwerk. Datenschutztechnisch ist das ohnehin die sauberere Lösung, insbesondere wenn man bedenkt, dass Sprachaufnahmen zu den sensibelsten Daten gehören, die man erzeugt.
Vibe Coding: Wie ich das Tool tatsächlich gebaut habe
Ich bin kein Softwareentwickler im klassischen Sinne. Dennoch habe ich dieses Tool gebaut – und zwar mit KI-Unterstützung. Vibe Coding bedeutet für mich: Ich beschreibe, was ich brauche. Die KI schreibt den Code. Ich teste, justiere, hinterfrage und beschreibe das nächste Stück. So entsteht funktionierendes Werkzeug, ohne dass ich jede Zeile Code auswendig kenne.
Das ist kein Schummeln. Das ist die Fähigkeit, ein technisches Problem klar zu formulieren und die richtigen Werkzeuge einzusetzen. Genau dieselbe Logik, die ich beim Einsatz von ChatGPT als Denkpartner beschreibe, gilt hier: KI ersetzt kein Denken, aber sie beschleunigt massiv die Umsetzung.
Die konkrete Umsetzung Schritt für Schritt
Im Wesentlichen besteht das System aus drei Komponenten:
- Aufnahme-Client (Windows): Ein kleines Skript, das auf Tastendruck die Aufnahme startet und stoppt, dann die Audiodatei an den Mac Mini schickt.
- Transkriptions-Server (Mac Mini): Ein lokaler Service, der die Audiodatei empfängt, per Whisper transkribiert und den fertigen Text zurücksendet.
- Einfüge-Mechanismus (Windows): Das Transkriptionsergebnis wird per Zwischenablage oder direkter Simulation in das aktive Textfeld eingefügt – genau dort, wo der Cursor zuletzt war.
Darüber hinaus gibt es keine komplizierten Konfigurationen. Das Tool funktioniert in jedem Programm: in Outlook, in Jira, in Notion, im Browser, im Terminal. Überall dort, wo ein Textfeld existiert.
Die Android-App: Diktierfunktion auf dem Smartphone
Was mich jedoch am meisten begeistert hat, war die Erkenntnis, dass ich dieselbe Logik auch für mein Smartphone umsetzen kann. Deshalb habe ich mir eine Android-App gebaut – ebenfalls per Vibe Coding – mit einem schwebenden Button (Floating Action Button), den ich überall auf dem Bildschirm positionieren kann.
Der Floating Button als Game Changer
Der Floating Button schwebt als permanentes Layer über jeder App. Ich kann ihn in eine Ecke schieben, fast verstecken, und bei Bedarf antippen. Dann spreche ich, die Aufnahme läuft über den gleichen Whisper-Server auf dem Mac Mini, und der transkribierte Text erscheint im aktiven Textfeld meines Smartphones.
Das funktioniert in WhatsApp genauso wie in der Notizen-App, im Browser oder in jedem anderen Eingabefeld. Insbesondere auf dem Smartphone, wo das Tippen mühsam ist, macht das einen enormen Unterschied in der täglichen Produktivität.
Gleichzeitig verbinde ich damit immer dasselbe Backend. Der Mac Mini ist der einzige Ort, an dem das Whisper-Modell läuft. Windows-Rechner und Android-Smartphone nutzen ihn als zentralen Dienst – das ist ressourcenschonend und konsistent.
Warum das mehr ist als ein persönliches Nerd-Projekt
Ich erzähle das nicht, um mit einem selbst gebauten Tool zu prahlen. Ich erzähle es, weil es eine Denkweise illustriert, die ich für zunehmend wichtig halte – sowohl für Einzelpersonen als auch für Organisationen.
Die Fähigkeit, eigene Werkzeuge zu bauen, verändert das Verhältnis zur Technologie grundlegend. Statt Konsument eines SaaS-Produkts zu sein, werde ich zum Gestalter meines eigenen Workflows. Ich bin nicht abhängig von Produktentscheidungen eines Anbieters, nicht eingeschränkt durch Preistabellen und nicht darauf angewiesen, dass irgendjemand das Feature baut, das ich brauche.
Das klingt nach Selbstermächtigung – und das ist es auch. Allerdings ist Vibe Coding kein Allheilmittel. Es erfordert klares Denken, die Bereitschaft, Fehler zu debuggen und Geduld im Iterationsprozess. Wer hingegen bereit ist, diese Hürden zu nehmen, öffnet sich ein völlig neues Repertoire an Möglichkeiten.
Produktivität durch bessere Werkzeuge
In meiner Arbeit als Berater und Coach spreche ich häufig darüber, wie Teams ihre Arbeitsabläufe optimieren können. Die Kanban-Methode zum Beispiel basiert auf dem Prinzip, Engpässe sichtbar zu machen und zu beseitigen. Das gilt nicht nur für Teams, sondern auch für individuelle Workflows.
Diktieren ist für mich kein Luxus, sondern ein echter Produktivitätshebel. Ich denke schneller als ich tippe. Wenn ich Gedanken direkt in Text überführen kann, ohne den Umweg über die Tastatur, wird der Output dichter und natürlicher. Deshalb war es mir das Investment an Zeit wert, dieses Tool zu bauen.
Ähnlich argumentiere ich auch beim Thema Getting Things Done: Es geht nicht darum, ein System perfekt zu befolgen, sondern darum, Reibung aus dem eigenen Workflow zu nehmen. Genau das tut dieses Diktiertool.
Was du daraus mitnehmen kannst
Du musst kein Entwickler sein, um dir eigene Tools zu bauen. Du musst jedoch in der Lage sein, dein Problem präzise zu beschreiben. Das ist die Kernkompetenz im Zeitalter von Vibe Coding.
Folgende Fragen helfen dabei, das eigene Tool-Projekt zu starten:
- Was nervt mich täglich? Welche Aufgabe kostet überproportional viel Zeit oder Energie?
- Gibt es dafür eine bezahlte Lösung? Wenn ja, was genau tut sie – und kann ich das nachbauen?
- Welche Komponenten brauche ich? Ein Eingabe-Mechanismus, eine Verarbeitungslogik, eine Ausgabe.
- Welche KI-Modelle sind dafür verfügbar? Lokal oder via API? Was sind die Trade-offs?
Dementsprechend ist das erste Tool oft das schwerste – danach wird das Muster vertraut. Und jedes weitere Werkzeug, das du baust, schärft dein Verständnis dafür, was möglich ist.
Vibe Coding als Haltung, nicht als Technik
Vibe Coding ist für mich letztlich eine Haltung. Die Überzeugung, dass Technologie kein Expertenprivileg ist, sondern ein Werkzeug für alle, die bereit sind, sich damit auseinanderzusetzen. Die KI übernimmt das Tippen. Der Mensch übernimmt das Denken.
Das Ergebnis? Ein Diktiertool, das mir täglich Minuten spart, auf allen meinen Geräten funktioniert, kein Geld kostet und exakt so arbeitet, wie ich es brauche. Kein Feature-Bloat, keine überflüssigen Einstellungen, kein Newsletter-Opt-in.
Nur ein Werkzeug. Das tut, was ich will. Weil ich es selbst gebaut habe.
Dein nächster Schritt
Wenn dich dieses Thema interessiert und du selbst anfangen möchtest, eigene Tools per Vibe Coding zu bauen – oder wenn du Fragen zur Architektur meines Setups hast – dann schreib mir gerne direkt. Ich teile regelmäßig solche Erfahrungen aus meinem Arbeitsalltag, weil ich überzeugt bin: Die spannendsten Produktivitätshacks entstehen nicht im Silicon Valley. Sie entstehen am eigenen Schreibtisch, wenn man aufhört zu warten, dass jemand anderes das passende Tool baut.



