De Storyboards a Tuberías de IA – Redefiniendo la Animación

La mayoría de la gente piensa que el video de IA significa "texto dentro, clip fuera". Pero si buscas control cinematográfico a nivel de director, es un juego completamente diferente.
En la animación tradicional, cada detalle importa: diseño de personajes, continuidad de movimiento, tiempo y transiciones de escena. Nuestro objetivo es hacer que la IA iguale ese nivel de precisión.
La animación hoy es tanto un arte como un desafío de orquestación estructurada. Pensamos como directores, pero construimos como ingenieros.
Por eso construimos Tuberías de Generación Controlada en lugar de generación de un solo paso. Estas tuberías combinan estructura y creatividad:
Tubería de Generación de Video con IA
La tubería de generación de video con IA transforma prompts de texto en videos pulidos a través de etapas estructuradas con entradas, salidas y configuraciones explícitas.
- Diseño JSON-first: cada escena es direccionable y programable (scene_id, shot_id)
- Flujos de trabajo basados en ComfyUI: DAGs modulares, reproducibles y componibles para generación de imagen/video
- Control temporal y multimodal: semillas consistentes, incrustaciones de personajes y tiempo a través de modalidades
Ahora, caminemos a través de un ejemplo simple para mostrar cómo funcionan las tuberías de IA en la práctica.
Paso 1: Comienza con un Prompt Básico
Una chica está de pie en una estación de tren a medianoche, el viento sopla su cabello.
Con la ayuda de GPT o un LLM local, expandimos esto en un objeto JSON estructurado con estilo global, definiciones de personajes y desglose por escena.
A young woman standing alone on a midnight train platform, dim lights reflecting off the wet ground, wind blowing her hair, cinematic lighting, anime art style, 4KPaso 2: Convierte el Prompt en una Tabla de Storyboard
| Scene | Shot | Camera | Visual | Dialogue |
|---|---|---|---|---|
| 1 | Wide | Sway | The girl waits alone at the platform. Wet pavement reflects dim station lights. Wind gently lifts her hair. | (No dialogue – ambient station sounds) |
| 2 | Medium | Push | The camera slowly zooms in on her eyes. A distant light appears — a train approaches. | She whispers, "It's time." |
| 3 | Close-up | Static | Her hand tightens on an old ticket, knuckles white. Her gaze flickers with nerves and resolve. | (No dialogue – deep inhale) |
| 4 | Wide | Handheld | The train screeches in, spraying mist. The doors open with a hiss. | (No dialogue – train arrival and footsteps) |
| 5 | Over-the-shoulder | Track | From behind, she steps inside. Her silhouette framed by the train's pale light. | She says softly, "I hope you're there." |
| 6 | Inside train | Swivel | She sits beside an empty seat, the world passing in blurred streaks outside. | (No dialogue – distant announcement echoes) |
| 7 | Insert | Static | Close-up of her phone: a message reads "I'm waiting." Her lips form a faint smile. | |
| 8 | Medium | Dolly | The train slows. She stands and approaches the door, breath catching in anticipation. | (No dialogue – heartbeat and brakes squeal softly) |
🛠️ 🛠️ Paso 3: Generar Visuales
Genera imágenes de fotogramas clave de alta calidad para cada toma usando Stable Diffusion a través de un flujo de trabajo de ComfyUI.
- 🎨 Usa Stable Diffusion o ComfyUI para convertir cada fila en `storyboard_v1.csv` en un fotograma clave de alta resolución.
- Mantén el estilo consistente usando el mismo punto de control base, pila LoRA, muestreador y política de semillas en todas las tomas.
- Refina las imágenes con inpainting (para caras/manos) y outpainting (para composiciones extendidas y movimiento de cámara).
🎬 🎬 Paso 4: Agregar Movimiento y Atmósfera en After Effects
Mejora los fotogramas clave estáticos con movimiento, paralaje y atmósfera usando Adobe After Effects (o un compositor equivalente).
- Importa secuencias de imágenes o fotogramas clave en Adobe After Effects como composiciones en capas.
- Aplica animaciones de fotogramas clave: paneo, zoom, capas de paralaje, superposiciones de niebla, brillo y parpadeo de luz.
- Agrega señales de sonido ambiental y transiciones cinematográficas entre escenas.
🎧 🎧 Paso 5: Agregar Voz y Subtítulos
Genera voz en off alineada al storyboard y adjunta subtítulos para accesibilidad y claridad.
- Usa XTTS o ElevenLabs para generar voces en off naturales a partir del guion, usando un perfil de hablante consistente.
- Para siglas (como API, NBA), genera fragmentos en inglés por separado y fúsiónalos en post para mantener la pronunciación limpia.
- Agrega subtítulos usando archivos de línea de tiempo `.srt` o `.json` sincronizados con la pista de voz en off.
📦 Paso 6: Composición Final con FFMPEG
Usa FFMPEG para combinar todas las piezas en un archivo de video final con audio y subtítulos.
ffmpeg -f concat -safe 0 -i mylist.txt -c copy output_temp.mp4
ffmpeg -i output_temp.mp4 -i music.mp3 -filter_complex "[0:a][1:a]amix=inputs=2" output_final.mp4
# -filter_complex: Apply audio filter to mix both audio tracks
# [0:a][1:a]amix=inputs=2: Mix both audio streams (from video and music)
# output_final.mp4: Final output file with video and mixed audio📁 Lo Que Necesitarás
- storyboard.json – short scene descriptions
{ "project_name": "Midnight Train", "scenes": [ { "scene_number": 1, "shot_type": "Wide", "camera_movement": "Sway", "description": "Girl waits alone at a midnight train platform. Wet pavement reflects dim station lights. Wind gently lifts her hair.", "duration_seconds": 5, "visual_elements": ["night", "train station", "wind effect", "reflections"], "audio_cues": ["ambient station sounds", "distant train"] }, { "scene_number": 2, "shot_type": "Medium", "camera_movement": "Push", "description": "Camera slowly zooms in on her eyes. A distant light appears — a train approaches.", "duration_seconds": 4, "visual_elements": ["close-up", "eyes", "approaching train light"], "audio_cues": ["train approaching", "whisper"] } ], "style": "cinematic anime", "aspect_ratio": "16:9", "fps": 24 } - prompts.json – GPT-expanded prompts
{ "base_prompt": "A girl stands at a midnight train station, wind blowing her hair.", "expanded_prompts": { "scene_1": { "visual_description": "A young woman standing alone on a midnight train platform, dim lights reflecting off the wet ground, wind blowing her hair, cinematic lighting, anime art style, 4K", "camera_instructions": "Wide shot, slight camera sway to create tension, shallow depth of field", "lighting": "Low-key lighting with high contrast, blue hour ambiance, artificial station lights casting long shadows" }, "scene_2": { "visual_description": "Close-up of the woman's eyes, reflecting the approaching train light, detailed eyelashes, subtle eye movement, cinematic anime style", "camera_instructions": "Slow push-in, slight handheld shake for intensity, focus pull from eyes to reflection", "lighting": "Chiaroscuro lighting, single key light source from the approaching train" } }, "style_guide": { "color_palette": ["#0a1a2f", "#1a3a5f", "#4a90e2", "#f5f5f5"], "mood": "Mysterious, anticipatory, cinematic", "art_references": ["Makoto Shinkai's night scenes", "Ghost in the Shell lighting"] } } - scene1.png, scene2.png – image outputs
- scene1.wav – voice narration per scene
- build_project.jsx – AE import + animation script
- combine_video.sh – FFMPEG merge script