Transcripción con marcas de tiempo
Transcripciones time-coded gratis
Marcas de tiempo precisas para cada línea o palabra de tu audio. Vuelve a momentos exactos, cita frases concretas, construye marcadores de capítulos. Gratis, sin registro.
Suelta tu archivo aquí
o haz clic para buscar
MP3 · MP4 · WAV · M4A · OGG · WEBM · FLAC · Máx. 25 MB · Máx. 30 min (60 min · Iniciar sesión)
Cómo funciona
Sube el archivo
MP3, M4A, MP4, WAV, FLAC, OGG, WEBM, AAC. Trabajamos con formatos de audio y vídeo.
La IA transcribe y marca los tiempos
Whisper large-v3 genera la transcripción con marcas precisas al milisegundo por segmento (y opcionalmente por palabra).
Elige la granularidad y descarga
Marcas por frase (lo más común) o por palabra (para trabajo de alineación precisa). Descarga como TXT con marcas inline, SRT para flujos de subtítulos, o copia al portapapeles.
Por qué Mictoo para transcripción con marcas
Marcas al milisegundo
Whisper produce marcas con precisión de milisegundo. Más preciso que cualquier tasa de fotogramas común, más que suficiente para trabajo de citación.
Por frase por defecto, por palabra cuando lo necesitas
Por frase mantiene las transcripciones legibles. Por palabra es excesivo para tomar notas pero esencial para montaje de vídeo y alineación con música.
Gratis
Sin contador de minutos. Sin tier "las marcas cuestan extra". El mismo precio que la transcripción simple (gratis).
Export SRT para flujos de vídeo
Las marcas en formato SRT funcionan directamente en Premiere, DaVinci, CapCut y YouTube Studio como pistas de subtítulos.
Marcas inline en TXT para citación
Texto plano con marcadores [00:01:23] al inicio de cada segmento. Fácil de pegar en notas de research, posts de blog o borradores periodísticos.
No guardamos archivos
El audio va al proveedor de transcripción y se descarta. Nada queda en nuestros servidores.
Para qué se usan las transcripciones con marcas
Periodismo y citación
¿Citando a una fuente de una entrevista? Pon la marca de tiempo junto a la cita en tus notas. Cuando el editor o fact-checker pregunte "¿dónde dijeron eso exactamente?", tienes la respuesta en dos segundos.
Marcadores de capítulo para podcast
Genera la transcripción, escanea buscando cortes naturales de sección, copia las marcas a la función de capítulos de tu podcast host. Los reproductores modernos muestran capítulos en la barra de reproducción.
Cortes brutos de montaje de vídeo
Obtén la transcripción, marca las líneas que quieres conservar, búscalas en la línea de tiempo por marca de tiempo. El "montaje en papel" es mucho más rápido que rebobinar.
Research académico y codificación cualitativa
Los investigadores en NVivo, Atlas.ti o MAXQDA etiquetan segmentos de transcripción con códigos. Las marcas dejan volver al audio en el momento exacto cuando codifican pasajes ambiguos.
Alineación con música para vídeos de karaoke
Marcas por palabra para proyectos tipo karaoke o lyric-video. Cada palabra se ilumina en el momento exacto en que se canta.
Consejos para transcripción con marcas
Las marcas por frase sirven para el 95 % de los casos
Salvo que hagas alineación con música o subtítulos por palabra, por frase es lo que quieres. Más legible, más fácil de editar.
Las marcas por palabra inflan tamaño y complejidad
Un SRT por palabra para una charla de 30 minutos tiene miles de entradas. Úsalo solo cuando realmente necesites precisión por palabra.
Para podcasts, genera marcadores de capítulo desde cortes naturales
Mira la transcripción buscando transiciones de tema, cambios de agenda o presentaciones de invitado. Copia esas marcas en tu podcast host como marcadores de capítulo.
Para periodismo, guarda la marca con cada cita que puedas usar
El tú del futuro, 3 semanas después, no recordará de qué entrevista vino una cita, mucho menos en qué punto de la entrevista. La marca lo resuelve.
Las marcas SRT son zero-padded, las TXT no
SRT usa 00:01:23,456. TXT suele usar [1:23]. Si pegas en un CMS que espera un formato, convierte antes.
Para montaje de vídeo, la marca en nuestro SRT se alinea contra el audio en el archivo original
Si reexportas tu vídeo a otra tasa de fotogramas, las marcas siguen coincidiendo porque están en tiempo absoluto (milisegundos), no en fotogramas.
Las marcas se desvían en audio malo
Cuando Whisper alucina palabras en zonas de música o silencio, las marcas de esas palabras fantasma son aproximaciones. Las marcas de habla real siguen siendo precisas. Confía en las secciones de habla, ignora las de música.
Preguntas frecuentes
¿Cuál es la diferencia entre marcas por frase y por palabra?
Por frase: una marca por línea de texto (normalmente una frase). Por palabra: una marca por palabra. Por frase es legible y buena para citación, podcasting y la mayoría del trabajo de vídeo. Por palabra es para alineación con música, vídeos de karaoke y animaciones de subtítulos por palabra.
¿Qué precisión tienen las marcas de tiempo?
Whisper produce marcas en milisegundos. Se alinean correctamente a cada tasa de fotogramas común (24, 25, 29.97, 30, 50, 60 fps) sin offset.
¿Las marcas se desviarán en un archivo largo?
Raramente. Whisper alinea las marcas al audio real, así que se mantienen precisas incluso para archivos de 60 minutos. Puede haber drift subsegundo en los últimos segmentos de archivos muy largos. Si lo notas, ajústalo a mano.
¿Puedo obtener un TXT con marcas inline como [00:01:23] antes de cada línea?
Sí. Descarga como TXT y incluimos marcas por frase inline. Formato: [00:01:23] Texto de la frase aquí.
¿El SRT incluye marcas de tiempo?
Sí, ese es el sentido del formato SRT. Cada entrada de subtítulo tiene marca de inicio y de fin.
¿Cómo se compara con los subtítulos automáticos de YouTube con marcas?
Los subtítulos automáticos de YouTube tienen marcas pero no puntuación y menor precisión. Los nuestros tienen puntuación completa, mejor precisión y SRT estándar que funciona en cualquier editor de vídeo.
¿Puedo saltar a una marca concreta del audio desde la transcripción?
En nuestra vista de resultados, haz clic en cualquier marca y el reproductor de audio salta a ese momento. Tras descargar necesitas un reproductor aparte.
¿Las marcas funcionan en Premiere o DaVinci Resolve?
Sí. Importa el SRT en la línea de tiempo. Los subtítulos aparecen en los momentos correctos automáticamente.
¿Qué idiomas se soportan para transcripción con marcas?
Los mismos 50+ idiomas que la transcripción simple. Las marcas llegan automáticamente con cada transcripción sea cual sea el idioma.
¿Se guarda el audio?
No. El archivo va al proveedor de transcripción y se descarta tras procesarse.
¿Puedo usar marcas por palabra para hacer un vídeo karaoke?
Sí, pero necesitarás software de vídeo que pueda renderizar resaltado por palabra desde un formato JSON o SRT. Algunas herramientas (Premiere, After Effects, software karaoke especializado) lo soportan directamente.
¿Cuánto tarda generar la transcripción con marcas?
Lo mismo que la transcripción simple, alrededor del 1–2 % de la duración del audio. Las marcas llegan automáticamente, sin tiempo extra de procesamiento.
¿Listo para transcribir?
Sube la página y suelta tu archivo. La transcripción estará lista en aproximadamente un minuto.
↑ Volver al uploader