mictoo
MP3 · WAV · M4A · FLAC · KOSTENLOS

Audio in Text
Kostenlose KI-Transkription

Kostenlose KI-Transkription für jede Audiodatei. MP3, WAV, M4A, FLAC, OGG, AAC. Ohne Konto, ohne Tarif pro Minute.

KI-ZusammenfassungÜbersetzen, 28 SprachenOpenAI Whisper

Datei hier ablegen

oder zum Auswählen klicken

MP3 · MP4 · WAV · M4A · OGG · WEBM · FLAC  ·  Max. 25 MB  ·  Max. 30 Min. (60 Min. · Anmelden)

Größere Datei? So komprimieren.

Längere Aufnahme? So aufteilen.

So funktioniert es

📂

Audio ablegen

Jedes gängige Format funktioniert. MP3 vom Handy, WAV vom Field Recorder, M4A aus iPhone Sprachmemos, FLAC aus einem Podcast-Export. Datei reinziehen oder klicken zum Auswählen.

KI transkribiert

Wir nutzen OpenAI Whisper large-v3. Eine 10-Minuten-Datei dauert etwa 20 Sekunden. Eine 30-Minuten-Datei weniger als eine Minute.

📋

Kopieren, herunterladen oder bearbeiten

Lesen Sie das Transkript im Browser. Laden Sie es als TXT für Notizen herunter oder als SRT, wenn Sie Zeitstempel brauchen. Korrigieren Sie falsch erkannte Wörter inline vor dem Export.

Warum Mictoo für Audio in Text

Ein Modell, und es ist das beste

Wir nutzen Whisper large-v3 für alle. Keine Trickserei mit „die Gratisversion läuft auf einem schwächeren Modell". Dasselbe Modell, das in teuren Enterprise-Transkriptionen steckt, transkribiert Ihre Datei.

Formatunterstützung wirklich breit

MP3, WAV, M4A, FLAC, OGG, WEBM, AAC, plus Videoformate mit Audio drin (MP4, MOV). Keine Reibung à la „wir akzeptieren nur MP3, konvertieren Sie zuerst".

Über 50 Sprachen, auch zweisprachige Dateien

Auto-Erkennung wählt die Sprache aus einer kurzen Audio-Probe. Wenn Ihre Datei mitten in der Aufnahme die Sprache wechselt (typisch bei Interviews), folgt Whisper dem Wechsel.

Keine Datei wird gespeichert

Ihr Audio wird zum Transkriptions-Anbieter gestreamt, verarbeitet und verworfen. Wir schreiben die Datei nie in unsere Datenbank oder unseren Speicher. Die Anbieter (Groq, OpenAI) trainieren nicht auf API-Daten.

Kostenlos ohne Sternchen

Bis zu 30 Minuten pro Datei ohne Konto. Mit kostenloser Anmeldung bis zu 60 Minuten pro Datei. Nichts weiter ist eingeschränkt.

Wann Audio in Text wirklich Zeit spart

Interview-Notizen

Sie haben eine Stunde mit einer Quelle gesprochen. Statt die Aufnahme nach einem Zitat zu durchsuchen, machen Sie Strg+F im Transkript. Fünf Sekunden statt fünf Minuten.

Sprachmemo-Aufräumen

Sie haben eine halb-fertige Idee unterwegs ins Handy diktiert. Jetzt wollen Sie sie als Text. M4A ablegen, Sätze bekommen, in Notion kopieren.

Vorlesungen und Webinare nachbereiten

Eine zweistündige Vorlesung in 2-fach-Geschwindigkeit ist hart. Ein Text-Transkript lässt Sie Abschnitt für Abschnitt scannen und nur in die Teile eintauchen, die wichtig sind.

Übersetzungs-Vorbereitung

Whisper transkribiert in der Ausgangssprache. Von dort kopieren Sie in DeepL oder ChatGPT und übersetzen sauber. Besser als automatische Übersetzungen aus dem rohen Audio.

Audio-Suche im Backkatalog

Jahre an Aufnahmen von Calls, Episoden oder Meetings? Per Batch-Transkription bekommen Sie plötzlich ein durchsuchbares Archiv. Billiger als jedes „KI-Meeting-Tool" mit Abo.

Tipps für saubere Audio-Transkription

1

Mono reicht. Stereo ist verschwendete Bandbreite

Sprache braucht keine zwei Kanäle. Wenn die Datei riesig ist, kodieren Sie sie in Mono um, und die Größe halbiert sich ohne Qualitätsverlust für die Transkription. ffmpeg-Einzeiler: ffmpeg -i input.wav -ac 1 output.wav.

2

64 kbps MP3 reichen für Sprache völlig

Wenn Sie aus einer DAW oder einem Editor exportieren, gibt 64 kbps Mono MP3 Whisper alles, was es braucht. Höhere Bitraten verbessern die Genauigkeit nicht, sie machen die Datei nur größer.

3

Lange Stille am Anfang und Ende abschneiden

Wenn Ihre Aufnahme 90 Sekunden tote Luft vor dem ersten Wort hat, fressen diese 90 Sekunden Ihr Längen-Limit. Schneiden Sie sie in Audacity weg (Effect, Truncate Silence) vor dem Upload.

4

Sprache manuell wählen für kurze Dateien

Die Auto-Erkennung samplet den ersten Audio-Chunk, um die Sprache zu identifizieren. Für Dateien unter 5 Minuten ist diese Stichprobe klein und die Erkennung unzuverlässig. Wählen Sie die Sprache explizit aus dem Dropdown.

5

Hintergrundmusik bringt Whisper zum Halluzinieren

Wenn Ihr Audio Musik unter der Sprache hat (Sponsor-Reads, Intro-Beds, B-Roll), fügt das Modell manchmal erfundene Wörter in Musik-nur-Abschnitten ein. Wenn Sie eine Version ohne Musik haben, nehmen Sie die.

6

Bei sehr verrauschten Dateien zuerst entrauschen

Kostenlose Optionen: Audacity Noise Reduction (eingebaut) oder Adobe Podcast Enhance (kostenloses Web-Tool, überraschend gut). Datei einmal durchlaufen lassen, dann die saubere Version hochladen.

Häufig gestellte Fragen

Welcher kostenlose Audio-zu-Text-Konverter ist der beste?

Wir sind voreingenommen, aber die ehrliche Antwort: Jedes Tool, das Whisper large-v3 nutzt, ist Spitze im Free-Tier. Mictoo läuft auf genau diesem Modell ohne Anmeldewand. Otter und Trint sind gut, berechnen aber pro Minute über ihr Free-Kontingent hinaus. Für gelegentliche Transkripte ist Free die richtige Stufe.

Wie genau ist Audio in Text?

Für saubere Sprache in einer Hauptsprache: 5 bis 10 Prozent Wortfehlerrate. Für verrauschtes Audio, starke Akzente oder Fachvokabular sinkt die Genauigkeit. Für die meisten Anwendungen (Notizen, Suche, Entwürfe) reicht das. Für juristische oder medizinische Aufzeichnungen nehmen Sie einen Menschen.

Welche Audioformate unterstützen Sie?

MP3, WAV, M4A, FLAC, OGG, WEBM, AAC. Auch Videodateien wie MP4 und MOV (wir extrahieren das Audio automatisch). AIFF und ALAC werden nicht direkt unterstützt. Konvertieren Sie diese zuerst in WAV oder FLAC.

Wie lange dauert die Transkription?

Eine 5-Minuten-Datei ist meist in 10 bis 15 Sekunden fertig. Eine 30-Minuten-Datei in 45 bis 60 Sekunden. Wir verarbeiten die ganze Datei als eine Anfrage, kein Aufteilen auf Ihrer Seite nötig.

Kann ich eine Telefonaufnahme transkribieren?

Ja. Telefonanrufe sind meist 8 kHz Mono mit etwas Komprimierung. Whisper kommt damit klar, die Genauigkeit ist etwas niedriger als bei Studio-Audio. Stellen Sie sicher, dass die Aufnahme in Ihrer Jurisdiktion legal ist.

Muss ich die Sprache auswählen?

Nein, Auto-Erkennung ist standardmäßig aktiv. Für Audio unter 5 Minuten oder Dateien mit einem nicht-sprachlichen Anfang wählen Sie die Sprache manuell für zuverlässigere Ergebnisse.

Gibt es Kosten pro Minute?

Keine Gebühren. Transkription ist kostenlos ohne Minuten-Zähler. Wir finanzieren uns über Display-Werbung und einen geplanten Pro-Tarif für Power-User.

Wie groß darf die Datei maximal sein?

25 MB ohne Konto, 60 MB nach kostenloser Anmeldung. Wenn die Datei größer ist, siehe unseren Komprimierungs-Guide.

Wird mein Audio auf Ihren Servern gespeichert?

Nein. Wir streamen die Datei direkt zum Transkriptions-Anbieter, bekommen den Text zurück und verwerfen das Audio. Es wird nichts in unsere Datenbank oder unseren Speicher geschrieben.

Kann ich das Transkript vor dem Download bearbeiten?

Ja. Nach der Transkription können Sie falsch erkannte Wörter inline im Ergebnis-Viewer korrigieren und dann die bearbeitete Version herunterladen.

Welche Ausgabeformate gibt es?

Plain Text (TXT), Untertiteldatei (SRT) mit Zeitstempeln und Kopieren in die Zwischenablage. Die SRT funktioniert in YouTube Studio, Premiere Pro, DaVinci Resolve und jedem Standard-Video-Editor.

Funktioniert Mictoo auf dem Handy?

Ja. Die Seite ist mobile-freundlich. Sie können direkt vom Handy hochladen, auch aus der iOS-Dateien-App oder dem Android-Downloads-Ordner.

Bereit zum Transkribieren?

Scrollen Sie nach oben und legen Sie Ihre Datei ab. Das Transkript ist in etwa einer Minute fertig.

↑ Zurück zum Uploader