He leído en alguna parte que hacen los pases por separado y luego lo juntan, como si hicieran, por ejemplo, el humo de un derrumbe por una parte y los cascotes por otra para qué no se cuelgue el ordenador.
A ver, a groso modo el asunto es así:
En el programa 3D que uses haces renders por elementos, es decir, uno para los objetos, otro solo con las sombras, otro con los brillos, alpha, ambient Occlusion, z-depth, lo que necesites según la complejidad de la escena y lo minuciosa qué sea la postproducción que le vayas a hacer.
Cada uno de estos renders será un vídeo para entendernos, uno con los objetos de tu escena (o uno para cada objeto), otro solo con las sombras de la misma escena, etc. Aunque hablo de vídeo, lo ideal en esta fase es renderizar en algún tipo de secuencia de imágenes sin compresión, como, por ejemplo, targa o similares (en vez de hacerlo directamente en avi, (*.mov), y usar códecs de compresión), ya que este tipo de formato no está comprimido (así no pierdes calidad) y además al ser una secuencia de imágenes separadas (una para cada fotograma) será reconocido por cualquier editor de vídeo sin problema (pero estos programas lo manejan como un vídeo normal, no tendrás que lidiar con miles de imágenes por separado, solo cargas la primera de la secuencia le indicas que es una secuencia y listo).
¿Y para qué se hace esto?
Pues bien, se suelen hacer diferentes renders por elementos no para qué no se cuelgue el ordenador al calcular toda la escena en el programa 3d (aunque es cierto que puede servir para a este propósito en el caso de andar muy justo de equipo procesando escenas muy pesadas), sino más bien porque así tienes el control de cada componente por separado.
Te explico: imagina qué tienes un vídeo real de una calle de tu ciudad al que le haces un tracking de cámara para poder integrar luego un robot hecho en tu software 3d favorito. En el programa 3d aplicas el tracking y crearas una cámara virtual que se moverá sincronizada con los movimientos de la cámara real de la grabación de vídeo. De esta forma cuando hagas el render de esa escena en 3d (con el robot y el movimiento de cámara virtual) el vídeo que saldrá de ese render lo usaras para juntarlo con el vídeo real (con un programa de postproducción y/o edición de vídeo).
Por supuesto como has hecho el tracking, el robot se integra con la escena real en cuanto a movimiento y rotación de cámara, pero aun así se notara qué es un añadido ya que para qué no cante tendrás que ajustar el tono, brillo, contraste, grano, del vídeo del robot para asemejarlos al del vídeo real.
Si antes has hecho un render de todo junto, es decir, el robot con sus texturas, sombras, luces, brillos en un único pase (un render normal) será mucho más complicado después ajustar algo en particular que si tienes un vídeo con el render de cada cosa por separado. Así sí, por ejemplo, tienes que, aclarar las sombras para qué se parezcan a las que tienen los objetos en el vídeo real, puedes hacerlo directamente sobre el vídeo en el que renderizaste solo las sombras, y no con todo junto donde tendrías que crear máscaras o algo similar (en el programa editor de vídeo) para poder regular solo las sombras sin que afecte al resto.