Vídeo a texto
Transcripción de vídeo con IA, gratis
Transcripción con IA gratuita para cualquier archivo de vídeo. Extraemos el audio por ti, automáticamente. Sin cuenta, sin tarifa por minuto, sin email.
Suelta tu archivo aquí
o haz clic para buscar
MP3 · MP4 · WAV · M4A · OGG · WEBM · FLAC · Máx. 25 MB · Máx. 30 min (60 min · Iniciar sesión)
Cómo funciona
Suelta el vídeo o pega una URL de YouTube
MP4, MOV, WEBM, AVI o cualquier contenedor de vídeo común. Grabaciones de pantalla, vlogs, exports de webinars, MP4 de Zoom. Arrástralo o haz clic para elegir. Nuevo: pega un enlace de YouTube en lugar de subir y sacamos la transcripción en segundos, sin necesidad de descarga.
Extraemos el audio, la IA lo transcribe
Sacamos la pista de audio del vídeo y enviamos solo eso a Whisper large-v3. Sin necesidad de convertir a MP3 antes. Un vídeo de 30 minutos suele estar listo en alrededor de un minuto.
Copia, descarga o saca subtítulos
Descarga como TXT para notas, o como SRT para incrustar subtítulos en un editor de vídeo. Edita palabras erróneas en el navegador antes de exportar.
Por qué Mictoo para vídeo
Pega una URL de YouTube directamente
Sáltate el paso de descarga para vídeos de YouTube: pega el enlace en el campo encima de la zona de subida y la transcripción vuelve en segundos. Para vídeos sin subtítulos, sube el archivo de audio y Whisper se encarga.
Extracción de audio automática
Sueltas el MP4. Sacamos el audio de dentro y lo enviamos al modelo. Sin tener que ejecutar ffmpeg tú.
La salida funciona en editores de vídeo de verdad
El SRT que generamos funciona en Premiere Pro, DaVinci Resolve, Final Cut, CapCut y YouTube Studio. Las marcas de tiempo son precisas a nivel de fotograma.
¿Vídeo más grande? Comprime el audio, no el vídeo
Un vídeo de 200 MB son típicamente 195 MB de vídeo y 5 MB de audio. No hace falta comprimirlo todo, solo la pista de audio.
No guardamos archivos
El vídeo llega, extraemos el audio, lo enviamos al proveedor de transcripción y descartamos ambas versiones. No guardamos tu vídeo ni tu audio en nuestros servidores.
Para qué sirve transcribir vídeo
Subtítulos para vídeo en redes
TikTok, Instagram Reels, YouTube Shorts mejoran con subtítulos incrustados. Genera el SRT aquí, impórtalo en CapCut o Premiere, dale estilo y quémalo en el vídeo.
Tutoriales y cursos
Si grabas tutoriales en pantalla, una versión en texto ayuda con SEO, accesibilidad y traducción. Pega la transcripción en tu blog o plataforma de cursos como acompañamiento del vídeo.
Seguimiento a webinars
Hiciste un webinar de una hora. Transcribe la grabación, edita un poco y mándalo por email a los asistentes que no pudieron quedarse hasta el final.
Cortes de entrevistas para edición
Al editar una entrevista larga, tener la transcripción en otra pantalla te deja hacer un "montaje en papel". Marcas las líneas que quieres y luego las buscas por marca de tiempo en la línea de tiempo, mucho más rápido que rebobinar.
Preparación de traducción y doblaje
Transcribe en el idioma original, pasa el texto por DeepL o ChatGPT para traducir y úsalo como guion para el doblaje o la traducción de subtítulos.
Consejos para transcribir vídeo
Extrae el audio primero si tu vídeo supera los 60 MB
Un vídeo 1080p son sobre todo bytes de píxeles que vamos a tirar de todas formas. Saca solo la pista de audio: ffmpeg -i video.mp4 -vn -ac 1 -b:a 64k audio.mp3. Un vídeo de 500 MB baja a menos de 30 MB de audio.
Silencia la música de fondo en el editor antes de exportar
Si tu vídeo tiene música bajo el diálogo (B-roll, intro, transiciones), silencia o baja la pista musical antes de exportar la versión que vas a subir. Whisper a veces inventa palabras cuando la voz queda enterrada bajo la música.
Las grabaciones de pantalla sin música son las más fáciles
Loom, Zoom, capturas de OBS de alguien hablando sobre diapositivas dan las transcripciones más limpias. Sin música, una sola voz, micro claro. Vas a obtener precisión casi humana.
Para vídeo con varios hablantes, graba pistas de audio separadas si puedes
Si controlas la grabación, captura a cada hablante en su propia pista. Transcribe cada una por separado. Atribución más limpia, menos errores en los solapes.
La tasa de fotogramas no importa, lo que importa es el audio
Whisper no mira el vídeo, solo el audio. Un vídeo 4K con mal sonido se transcribe peor que uno de 480p con un micrófono de solapa. Pon el esfuerzo en el audio.
Las marcas SRT pueden necesitar un pequeño desfase en algunos editores
La mayoría de editores alinean las marcas SRT perfectamente. Algunos editores viejos esperan que el primer subtítulo empiece en 00:00:01,000 en vez de 00:00:00,000. Si los subtítulos van desfasados un segundo, suele ser por eso.
Preguntas frecuentes
¿Qué formatos de vídeo soportan?
MP4, MOV, WEBM, AVI, MKV, FLV. Si el vídeo se reproduce en VLC, casi seguro funciona aquí. Extraemos el audio dentro, así que el códec de vídeo no importa demasiado.
Mi archivo de vídeo es demasiado grande para subirlo. ¿Qué hago?
Dos opciones. Extrae solo el audio primero (un comando de ffmpeg, ver Consejos arriba) y sube eso. O usa un export más pequeño desde tu editor (resolución o bitrate menores). Para archivos por encima de 60 MB, extraer el audio es más rápido.
¿Puedo obtener subtítulos SRT, no solo texto plano?
Sí. Después de transcribir, pulsa "Descargar SRT". El SRT funciona en YouTube Studio, Premiere Pro, DaVinci Resolve, Final Cut, CapCut y cualquier editor de vídeo estándar.
¿Las marcas de tiempo SRT coinciden exactamente con los fotogramas?
Sí. Las marcas SRT están en milisegundos, lo que es más preciso que cualquier tasa de fotogramas. Encajan correctamente a 24, 25, 29.97, 30, 50 y 60 fps.
¿Puedo transcribir un vídeo sin sonido (solo texto en pantalla)?
No. Transcribimos audio hablado. Para reconocer texto en pantalla necesitas OCR, que es una herramienta distinta.
¿Qué precisión tiene "vídeo a texto"?
Depende del audio. Una voz en off limpia, precisión casi humana (95 % o más). Un vídeo de conferencia con mala acústica de sala, en torno al 85–90 %. Vídeo con mucha música y diálogo bajo, más abajo.
¿Mi vídeo se subirá a YouTube o a servicios de terceros?
No. Tu vídeo va a nuestro proveedor de transcripción para procesarse y se descarta. No se sube a YouTube, Google ni ningún otro lugar. No estamos en el negocio del almacenamiento de vídeo en la nube.
¿Puedo editar la transcripción antes de descargarla?
Sí. Corrige palabras mal entendidas en el navegador antes de exportar. Útil para arreglar nombres propios y términos técnicos.
¿Soportan vídeo 360 o formatos VR?
El códec de vídeo no nos importa. Mientras el archivo sea un contenedor estándar (MP4, MOV) con una pista de audio, extraemos el audio y transcribimos.
¿Qué pasa si mi vídeo tiene varias pistas de audio (comentario, original, música)?
Usamos solo la pista por defecto. Si quieres una pista concreta, vuelve a exportar el vídeo con esa pista como predeterminada, o extrae la pista deseada y súbela como audio.
¿Hay límite de duración del vídeo?
30 minutos por archivo en gratis, 60 minutos con login. Para vídeos más largos, divídelos en trozos. Las transcripciones se pueden concatenar después.
¿Puedo transcribir una emisión de vídeo en vivo?
No. Trabajamos solo con archivos grabados. Para transcripción en vivo necesitas otra categoría de herramienta.
¿Listo para transcribir?
Sube la página y suelta tu archivo. La transcripción estará lista en aproximadamente un minuto.
↑ Volver al uploader