Расшифровка подкастов
Бесплатный генератор транскриптов
Превратите любой эпизод в чистый текст. Загрузите MP3, MP4 или M4A и получите расшифровку за секунды. Без аккаунта, без оплаты за минуту.
Перетащите файл сюда
или нажмите, чтобы выбрать
MP3 · MP4 · WAV · M4A · OGG · WEBM · FLAC · Макс. 25 МБ · Макс. 30 мин (60 мин · Войти)
Как это работает
Загрузите эпизод
MP3, MP4, M4A, WAV или FLAC. Cloud Recording из Riverside, экспорт из Descript, сырое аудио из Zoom, файлы anchor.fm. Всё подходит.
AI делает работу
Whisper large-v3 работает на нашем бэкенде и превращает аудио в текст. Большинство 30-минутных эпизодов готовы меньше чем за минуту.
Копируйте, скачивайте или редактируйте
Возьмите текст как TXT, SRT для субтитров или вставьте прямо в редактор show notes. Поправьте неверные слова в нашем редакторе перед экспортом.
Почему подкастеры выбирают Mictoo
С длинными эпизодами всё в порядке
До 60 минут на файл после бесплатной авторизации. Для разделения на две части мы сохраняем относительные таймкоды, чтобы SRT-файлы можно было склеить обратно без расчётов.
Акценты и наложение голосов держатся
Whisper large-v3 — сильнейшая открытая модель распознавания речи для не-нативного английского. Если соведущий из Берлина или Сан-Паулу, расшифровка не превратится в кашу.
Музыкальные подложки не ломают результат
Наш пайплайн запускает voice activity detection перед расшифровкой. Длинные инструментальные интро помечаются как тишина, а не как выдуманные слова. Рекламные блоки с музыкой под голосом тоже выходят чистыми.
Никаких подписок
Многие подкастеры расшифровывают один-два эпизода в месяц. Платить 15 долларов за месячный seat для этого — расточительно. Грузите файл по необходимости. Мы зарабатываем на рекламе и будущем Pro-тарифе для тяжёлых юзеров.
Ваше аудио не хранится
Файлы напрямую отправляются провайдеру распознавания, расшифровываются и удаляются. Мы не храним ваши эпизоды, а провайдеры (Groq, OpenAI) не используют API-данные для обучения.
Что подкастеры на самом деле делают с расшифровкой
Show notes и посты в блог
Вставьте расшифровку в CMS, разметьте главы, добавьте ссылки, опубликуйте пост. 45-минутный эпизод обычно даёт 6000–8000 слов исходника. Из одной записи — три-четыре слегка отредактированных поста.
Цитаты для соцсетей
Просканируйте расшифровку на ту самую строчку и сделайте карточку. Гораздо быстрее, чем мотать аудио на 1.5x в поисках таймкода.
Поиск по архиву прошлых эпизодов
Прогоните старые эпизоды через пакетную расшифровку — внезапно получите Ctrl+F по годам разговоров. Удобно, когда гость возвращается и нужно вспомнить, о чём говорили в прошлый раз.
Замена авто-субтитров YouTube
Авто-субтитры YouTube посредственны для подкастов с двумя голосами и музыкой. Загрузите SRT из Mictoo. Лучше пунктуация, меньше ошибок, лучше доступность.
Транскрипт для доступности
Многие подкастеры добавляют ссылку «читать расшифровку» в RSS show notes. Помогает глухим и слабослышащим, и поисковики находят ваш контент.
Советы для чистых расшифровок подкастов
Сначала уберите музыку интро и аутро
Whisper хорошо игнорирует музыку, но 90-секундное инструментальное холодное открытие иногда триггерит призрачные слова. Если интро одно и то же в каждом эпизоде, обрежьте первые 1:30 в Audacity перед загрузкой. Сэкономите несколько минут чистки.
Экспортируйте в 64 кбит/с моно, если исходник огромный
Голосу не нужно стерео, 64 кбит/с достаточно для речи. Двухчасовой эпизод на 64 кбит/с моно — примерно 55 МБ. Помещается в лимит 60 МБ с авторизацией без разбивки. ffmpeg: ffmpeg -i episode.wav -ac 1 -b:a 64k episode.mp3.
Для интервью с плохим аудио гостя расшифровывайте каждую дорожку отдельно
Если пишете в Riverside или SquadCast и есть отдельные дорожки на спикера, загружайте каждую отдельно. Whisper легче справляется с одним голосом за раз. Получите чистую атрибуцию, меньше потерянных слов на пересечениях.
Для коротких эпизодов выбирайте язык явно
Автоопределение анализирует первый кусок аудио. Если откроете однословным cold open или смехом, определение может уйти в неправильный язык. Для чего-то короче 5 минут выбирайте язык вручную.
Пунктуация будет несовершенной. Поправьте первые 10 строк, остальное оставьте
Whisper в основном расставляет пунктуацию правильно, но иногда пропускает точки с запятой и прямую речь. Для show notes важны первые 10 строк (люди их пробегают глазами). Дальше — отгружайте как есть.
Используйте SRT-экспорт, даже если субтитры не нужны
SRT даёт таймкоды каждые несколько секунд. Даже если вставляете в пост в блог, эти таймкоды помогают вернуться к аудио и проверить цитату. У нас есть бесплатный SRT-генератор прямо на сайте.
Частые вопросы
Можно расшифровать 2-часовой эпизод?
Да, но сначала разделите. Лимит на файл — 30 минут бесплатно или 60 минут после авторизации. Для 2-часового эпизода разделите на две-три части и расшифруйте каждую. Гайд по делению аудио показывает, как это сделать за 60 секунд в ffmpeg или Audacity.
Получу ли метки спикеров (ведущий vs гость)?
Не автоматически. Сам Whisper не делает диаризацию. Если есть отдельные дорожки на спикера (часто в Riverside, SquadCast, Zencastr), загружайте каждую отдельно и подписывайте в финальной расшифровке. Мы рассматриваем добавление диаризации, но только когда сможем сделать её хорошо.
Как справляется с акцентами и билингвальными подкастами?
Whisper large-v3 обучен на 680 000 часов многоязычного аудио. Не-нативный английский, региональные акценты и code-switching работают лучше, чем в моделях поменьше. Для подкаста, который переключается между английским и испанским посреди эпизода, выберите «Авто-определение» и Whisper будет следовать за переключением.
Какие аудиоформаты поддерживаете для подкастов?
MP3, M4A, WAV, FLAC, OGG, WEBM и AAC. Плюс видео — MP4 и MOV (извлекаем аудио). Если ваш подкаст-хостинг даёт скачать в любом из этих форматов, всё хорошо. AIFF и ALAC напрямую не поддерживаются — сначала конвертируйте в WAV.
Есть ли лимит слов на эпизод?
Лимита слов нет. Только размер файла (25 МБ бесплатно, 60 МБ с авторизацией) и длительность (30 мин бесплатно, 60 мин с авторизацией). Типичный 60-минутный эпизод даёт 9000–11000 слов.
Насколько точна расшифровка подкаста по сравнению с человеком?
Для чистого студийного аудио Whisper large-v3 даёт word error rate 5–10%. Человек — 3–5%. Для большинства show notes и репостинга в блог AI достаточно. Для судебных показаний или академического цитирования наймите человека.
Эпизод хранится на ваших серверах?
Нет. Мы передаём аудио напрямую провайдеру распознавания (Groq, с OpenAI как резерв). Они обрабатывают, мы удаляем. Мы никогда не пишем ваш файл подкаста в базу или хранилище.
Можно скачать как SRT для субтитров?
Да. После расшифровки нажмите кнопку SRT-загрузки. Используйте прямо в YouTube Studio, Premiere Pro, DaVinci Resolve или любом видеоредакторе.
Берёте плату за минуту?
Нет. Расшифровка в Mictoo бесплатна. Сейчас мы на рекламе, позже появится платный Pro-тариф для тех, кому нужны более длинные файлы или пакетные загрузки.
В эпизоде есть мат. Будет ли он зацензурен?
Никакой фильтрации. Расшифровка отражает ровно то, что было сказано. Если нужна «чистая» версия — отредактируйте сами после скачивания.
Можно отредактировать расшифровку перед скачиванием?
Да. В окне результата есть базовый редактор. Поправьте слова и скачайте отредактированную версию как TXT или SRT.
Расшифровка подкастов в Mictoo соответствует GDPR?
Мы не храним аудио или расшифровку после закрытия страницы. Мы в Европе, у наших провайдеров (Groq US, OpenAI US) подписаны DPA. По специфическим вопросам соответствия — см. Privacy Policy или напишите на info@mictoo.com.
Готовы расшифровать?
Прокрутите вверх и загрузите файл. Расшифровка будет готова примерно через минуту.
↑ Вернуться к загрузке