MP3をテキストに
無料MP3文字起こし
任意のMP3の無料AI文字起こし。ファイルをドロップ、数秒でテキスト取得。アカウント不要、分単位課金なし、メール不要。
使い方
MP3をドロップ
任意のMP3対応。ポッドキャストのダウンロード、ボイスメモのエクスポート、音声リップ、AI生成音声ファイル。ドラッグするかクリックして選択。
AIが文字起こし
Whisper large-v3がMP3を読んで音声をテキストに変換します。一般的な30分のポッドキャストは約1分で完了。5分のボイスメモは約15秒。
コピー、ダウンロード、編集
ブラウザで読む、クリップボードにコピー、またはTXTかSRTでダウンロード。エクスポート前に誤認識された単語をインラインで修正。
なぜMictooがMP3に向いているか
Whisper large-v3、無料層のために削られたモデルではない
「無料ユーザー用」に小さなモデル、有料ユーザー用に大きなモデル、なんてことはしません。同じモデル、同じ精度、すべてのファイル。
MP3特有の扱いがうまい
MP3は不可逆圧縮で、ツールによっては非常に高圧縮のファイル(32 kbps、モノラル、低サンプルレート)で詰まります。Whisperは文句なしに処理。24 kbpsの電話通話MP3でも読める文字起こしを見てきました。
ファイル変換不要
一部の「MP3テキスト」ツールは内部でWAVを要求してMP3を再エンコードします。私たちはMP3を直接モデルに送ります。より速く、二度目のエンコードによる劣化なし。
分カウンターなし
一部の競合は月60分まで無料、それ以降は1分25セント課金。私たちは広告で運営、分数制限なし。1ファイルでも100ファイルでも文字起こし。
デフォルトでプライバシー
MP3は音声プロバイダに行き、文字起こしされて破棄されます。私たち側のディスクに音声を書き込むことは決してありません。
人々が「MP3をテキストに」を使う目的
ポッドキャストエピソード
ポッドキャストホスト(Anchor、Buzzsprout、Transistor)からMP3をドラッグして、ショーノート、ブログでの再利用、アクセシビリティ用のテキストを取得。
通話録音
MP3はほとんどの通話録音アプリの標準エクスポート。長い通話を素早くスキャンして重要な部分を見つけるために文字起こし。
スマホからエクスポートしたボイスメモ
iPhoneのボイスメモはデフォルトでM4Aですが、AirDropでMP3として送った、またはMP3で保存するAndroidアプリを使った場合、これがあなたのツールです。
オーディオブックの抜粋や講義のリップ
勉強用に、音声の横にテキストがあると記憶定着が倍になります。著作権の正しい側にいるだけです。
AI音声とTTS出力
ElevenLabs、OpenAI TTS、Murfなどの合成ツールで音声を生成した場合、字幕や同期作業のためにクリーンな文字起こしを戻したいかもしれません。
MP3文字起こしのコツ
可変ビットレートよりも一定ビットレートがWhisperには良い
MP3 VBR(可変ビットレート)はエッジケースで一部の音声デコーダーを混乱させることがあります。エクスポートを制御できるなら、CBR 64または96 kbpsモノラルを選んでください。モデルへの負荷が減ります。
MP3の音声は64 kbpsモノラルがスイートスポット
それより高くても音声には無駄。64 kbpsモノラルの60分エピソードは約28 MB。25 MBの無料層に収まり、60 MBログイン層には余裕。
MP3が巨大(60 MB超)なら分割前に再エンコード
分割して2ファイル文字起こしより、低ビットレートで1回再エンコードする方が手間が少ない。ffmpeg: ffmpeg -i big.mp3 -ac 1 -b:a 64k small.mp3。元の200 MBが25〜40 MBに。
ファイルがギリギリならID3メタデータを削除
ID3タグ(カバー、歌詞など)はMP3に数MB追加されることがあります。制限を1〜2 MB超えているなら、ffmpeg -i in.mp3 -map_metadata -1 -c:a copy out.mp3でタグを削除すれば足ります。
古いコンバータの悪いMP3エンコードは無音ギャップを引き起こす
文字起こしがセクションをスキップする場合、MP3にバグのあるエンコーダーからの実際の無音ギャップがある可能性。ソースから再エンコードするか、AudacityのFind Silenceで確認。
電話通話のMP3(8 kHzモノラル)は精度がやや低めと見込む
電話音声は高周波が失われ、精度がいくつかポイント下がります。読めるレベルは保つので、名前や数字でクリーンアップを多めに計画してください。
よくある質問
MP3は文字起こしに最適なフォーマットですか?
ほとんどのユーザーには、はい。MP3は小さく、どこでもサポートされ、Whisperでの精度はWAVやFLACと実質同じです。ロスレス(WAV、FLAC)は編集にも音声が必要な場合だけ使ってください。
どのMP3ビットレートが最適?
32 kbpsモノラルから320 kbpsステレオまで何でも。音声には64〜96 kbpsモノラルが実用的なスイートスポット。それより高くても文字起こしは改善せず、それより低いとモデルにとっての可解性が下がり始めます。
MP3が60 MBを超えます。どうすれば?
2つのオプション。低ビットレートに再エンコード(64 kbpsモノラルはほとんどのMP3を4分の1以下に)、または60 MB以下のチャンクに分割。両方のガイドがあります。
MP3の文字起こしにどれくらい時間がかかりますか?
音声の長さの約1〜2%。60分のMP3は約60秒で完了。10分のは10〜20秒。ネットワークアップロードが通常一番長い待ち時間です。
MP3は保存または共有されますか?
いいえ。ファイルは音声プロバイダ(Groq、バックアップとしてOpenAI)に行き、文字起こしされて破棄されます。私たちのサーバーには書き込まれず、使用するプロバイダはAPIデータでトレーニングしません。
複数のMP3をバッチでアップロードできますか?
まだワンクリックではできません。今は1つずつ文字起こしします。バッチアップロードは有料Proプランのロードマップにあります。
どの言語をサポートしていますか?
50以上の言語。自動検出がほとんどのケースを処理。5分未満のファイルや音楽や無音で始まるファイルでは言語を手動で選んでください。
MP3からタイムコードを取得できますか?
はい。SRT(字幕ファイル)としてダウンロードすれば数秒ごとのタイムコードが得られます。または単語レベルの粒度はタイムコード付き文字起こしページをお使いください。
Mictooはチャプターマーカー付きポッドキャストMP3で動作しますか?
音声を抽出してチャプターメタデータは無視します。1つのドキュメントとして完全な文字起こしを取得。チャプター整列文字起こしが必要なら、事前にチャプター境界でMP3を分割してください。
MP3の文字起こしにはスピーカーラベルがありますか?
デフォルトでは自動的にはありません。Whisperはダイアライゼーションを行いません。ラベルが必要なら、各スピーカーのトラックを別々にアップロードし(あれば)、自分でラベル付けしてください。
AI生成音声のMP3を文字起こしできますか?
はい。TTS音声(ElevenLabs、OpenAI、Murfなど)は背景ノイズやためらいがないので、人間の声よりクリーンに文字起こしされます。
MP3が珍しい言語です。動作しますか?
Whisperがその言語をサポートしているなら、はい。モデルは50以上の言語を良好な精度でカバーし、多くの他言語に基本サポートがあります。試してみてください。結果が使えない場合、その言語はトレーニングデータ外の可能性があります。
文字起こしを始めますか?
上にスクロールしてファイルをドロップしてください。約1分でテキストが完成します。
↑ アップローダーに戻る