インタビュー文字起こし
無料インタビュー文字起こし
あらゆるインタビュー録画をクリーンで引用可能なテキストに変換。ジャーナリスト、研究者、ポッドキャスター、採用チーム向け。アカウント不要、分単位課金なし、メール不要。
使い方
インタビュー音声をドロップ
ボイスレコーダーのMP3、スマホのM4A、ビデオ通話のMP4、フィールドレコーダーのWAV。すべて動作。
AIが文字起こし
Whisper large-v3が音声を読みます。30分のインタビューは通常約1分で完了。
読む、編集する、エクスポート
タイムコード付き文字起こしをめくる。誤った名前や専門用語をインラインで修正。メモ用にTXT、動画用にSRTでダウンロード、またはコーディングソフトウェアにコピー。
インタビュー文字起こしにMictooを使う理由
Whisperはインタビューでうまく動作
2声と明確なやり取りの単一録音は音声認識で最もクリーンなケース。ほとんどのインタビューは初回パスで90〜95%の精度。
引用とソース検索用のタイムコード
SRTエクスポートの各行にはタイムコードがあります。引用を確認したり録画の特定の瞬間に戻りたい時、タイムコードがどこか正確に教えてくれます。
インタビューあたりのコストなし
一部の文字起こしサービスは分単位またはインタビュー単位で課金。私たちはしません。1つでも50でも文字起こし、価格は同じ(無料)。
50以上の言語、バイリンガルインタビューも
クロスリンガルインタビューは研究とジャーナリズムで一般的。Whisperはほとんどのサービスよりコードスイッチングをうまく扱います。
プライバシーとソース保護
ファイルは文字起こしプロバイダにストリーミングされて破棄。音声を保持しません。機密ソース素材には重要。
インタビュー文字起こしを使う人々
ジャーナリズムと特集記事執筆
記者はインタビューを文字起こしして正確に引用し、長い会話を最も有用な素材を求めてスキャン。60分のインタビューは公開された記事で3〜5のキー引用になることが多い。
質的研究と学術研究
研究者はNVivo、Atlas.ti、MAXQDAのようなツールでコード化と分析のために半構造化インタビューを文字起こし。文字起こしはデータセット。
ポッドキャストインタビュー
ショーホストはショーノート、エピソードブログ投稿、ソーシャル用引用グラフィック用にゲストインタビューを文字起こし。音声は1つのオーディエンス、テキストは検索を通じて別のオーディエンスに届く。
採用と候補者スクリーニング
リクルーターと採用マネージャーはチームと共有するためにインタビューを文字起こし。異なるタイムゾーンのレビュアーには動画より簡単。全員が同じテキストを持つとメモを比較するのが簡単。
ユーザー研究とカスタマーインタビュー
製品チームはパターンを見つけるために顧客との会話を文字起こし。文字起こしは研究リポジトリ(Dovetail、Marvin、または共有Notion)に行く。
インタビュー文字起こしのコツ
電話インタビューでも実物のマイクを使う
対面の人にはラベリアまたはUSBマイク、電話のインタビュアーには適切なヘッドセット。録音の品質は文字起こし精度の最大の単一要因。
静かな環境で録音
カフェのインタビューはカメラ前では素晴らしく見えますが、文字起こしが悪い。背景音楽とおしゃべりは人々が考えるより精度を傷つけます。
2声インタビューでは、全録画を文字起こししてからスピーカーラベルを手動で追加
Whisperはダイアライゼーションをしません。クリーンな質疑応答インタビューでは、「インタビュアー:」と「ソース:」を追加するのに30分インタビューあたり約5分かかります。
別々の音声トラックがあれば(Riverside、SquadCast)、各々を別々に文字起こし
推測なしでクリーンな帰属を得る。一部の研究レコーダーはステレオファイルの2チャンネルで2つのマイクをキャプチャ。先に2つのモノファイルに分割できます。
日付とソース名で文字起こしを保存
2026-05-25-jane-smith.txtという名前の文字起こしファイルは、transcript-final-v2.txtより6ヶ月後に見つけやすい。
精度のために最初の50行を編集、残りは放置
人々は文字起こしをスキャン。最初の部分が最も重要。それを超えては、使うと思う引用だけ修正。
インタビューが英語でない場合は言語を手動で設定
自動検出はほとんどのファイルで動作しますが、最初の5秒のフォールススタートが誤誘導することがあります。明示的に言語を選ぶ方が信頼できる。
よくある質問
ジャーナリズム引用に十分正確?
逐語引用には常に音声に対して確認すべき。Whisperはクリーンなインタビュー音声で単語の90〜95%を正しく取得。逃す5〜10%は名前、専門用語、重なるスピーチを含むことが多い。公開する引用には録画に戻るためにSRTタイムコードを使用。
スピーカーラベルは取得できますか?
自動的にはありません。会話の流れに基づいて追加します。2話者インタビューには速い。パネルやフォーカスグループには、より多くの時間を計画するか、ある場合は各話者のトラックを別々にアップロード。
別の言語のインタビューを文字起こしできますか?
はい、自動検出で50以上の言語。5分未満のインタビューや英語の世間話で始まる非英語インタビューには、言語を手動で選択。
インタビューが90分です。どうすれば?
60分制限以下のチャンクに分割。自然な休憩は会話が止まる場所(インタビュー中盤のコーヒー、トピック変更)。
専門用語と固有名詞はどれくらい正確?
一般的な語彙より精度が低い。Whisperはソースの会社名、使った医療用語、参照した特定のソフトウェアを知りません。手動で修正することを予想。残りの文字起こしはしっかりしています。
音声は保存されますか?
いいえ。ファイルは文字起こしプロバイダ(Groq、バックアップとしてOpenAI)にストリーミングされ、処理されて破棄。サーバーに音声を保持しません。
研究倫理ポリシーに準拠していますか?
ほとんどのIRB承認研究プロトコルは音声がどこで処理されるかを知る必要があります。プロバイダはUSで処理。私たちは保持しません。特定のIRBコンプライアンスにはワークフローを文書化してIRBで確認。
文字起こしをNVivo、Atlas.ti、Dedooseにインポートできますか?
はい。TXTでダウンロードして質的分析ツールにインポート。文字起こしはプレーンテキスト、特別なフォーマット不要。
文字起こしにはどれくらい時間がかかりますか?
音声の長さの約1〜2%。30分のインタビューは約60秒で完了。
インタビューの音声品質が悪い場合は?
先にデノイズツール(Audacity Noise ReductionまたはAdobe Podcast Enhance)に通す。それからクリーンなバージョンをアップロード。良いインプットは顕著により良いアウトプット。
スマホで録音したインタビューを文字起こしできますか?
はい。iPhone Voice MemosはM4Aで保存、Androidボイスレコーダーは通常M4AまたはMP3。両方動作。AirDropまたはメールでコンピュータにファイルを送り、ここにアップロード。
SRTのタイムコードは元の録画と正確に一致しますか?
はい、ミリ秒まで。SRTタイムコードは音声ファイルの実時間を反映。任意のオーディオやビデオプレーヤーで特定の瞬間に戻るのに動作。
文字起こしを始めますか?
上にスクロールしてファイルをドロップしてください。約1分でテキストが完成します。
↑ アップローダーに戻る