AI 이미지/AI Video

Wan VACE R2V(참조 이미지로 비디오 생성하기)

하늘이푸른오늘 2025. 6. 17. 11:14

Wan 2.1 VACE(Video All-in-one Creation and Editing)은 알리바바 팀이 개발한 비디오 생성/편집 모델입니다. 이 모델은 텍스트-비디오, 레퍼런스-비디오, 비디오-비디오(자세 및 depth), 인페인트, 아웃페인트 등을 모두 처리할 수 있는 통합 모델입니다.

VACE 는 다음과 같은 핵심 기능을 제공합니다.

  • Reference-to-Video(R2V) : 참조 이미지로부터 비디오 생성
  • Video-to-Video(V2V) : 기존의 비디오의 스타일 적용
  • Masked Video Editing(MV2V): 각각의 프레임에서 지정한 영역을 인페인트 혹은 아웃페인트

WAN VACE 모델은 ComfyUI에서 [WanVaceToVideo] 나 [TrimVideoLatent] 등의 기본 노드를 통해 사용할 수 있습니다. 

이 글에서는 ComfyUI에서 Reference-to-Video를 사용하는 방법을 설명합니다. 다른 기능은 다음에 작성하겠습니다.

참고로, Reference-to-Video는 Image-to-Video와는 다르다고 합니다. Image-to-Video는 입력된 비디오를 첫번째 프레임으로 사용하는 방식인데, R2V는 결과물은 다르지만 다른 기술이라고 합니다. 그런데 솔직히 어떤점이 다른지는 모르겠습니다. 제 눈에는 그냥 이름이 다를뿐인 듯 싶어요.

소프트 웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

생성시간

이 워크플로는 3.3 초짜리 720x1280 비디오를 생성하는데 RTX5090에서 57분이 소요됩니다. 720x720의 경우에는 23분이 소요된다고 합니다. 저는 RTX3070에서 돌렸는데 3.3초짜리 480*640 비디오를 생성하는데 2시간 40분이 소요되었습니다.

기타 비디오 생성모델

Wan 2.1과 관련된 워크플로는 아래를 참고하세요.

기타 비디오를 생성하는 모델은 여러가지가 있습니다. 언젠가 다시 한 번 비교를 해봐야겠네요.

따라하기

1 단계: 모델 다운로드

wan2.1_vace_14B_fp16.safetensors 디퓨전 모델을 다운로드 받아, ComfyUI\models\diffusion_models 폴더에 넣어줍니다.

umt5_xxl_fp8_e4m3fn_scaled.safetensors 텍스트 인코더 모델을 다운로드 받아, ComfyUI\models\text_encoders 폴더에 넣어줍니다.

wan_2.1_vae.safetensors VAE 모델을 다운로드 받아, ComfyUI\models\vae 폴더에 넣어줍니다.

2 단계: 워크플로 불러오기

아래의 Json 파일을 다운로드 받아 ComfyUI로 불러옵니다.

wan_vace_ref_to_video.json
0.01MB

이 워크플로를 불러오면 오류가 발생할 수 있습니다. 그러한 경우, 다음과 같은 작업이 필요합니다. 

3 단계: 참조 이미지 불러오기

아래와 같이 [Load Image] 노드에 원하는 이미지를 불러옵니다. 

아래의 이미지를 사용하셔도 됩니다. 

wan_vace_ref_input-585x1024.webp
0.45MB

이 이미지는 Flux1. Dev 모델을 사용하여 아래의 프롬프트로 생성한 것입니다.

Animate of a highly detailed portrait of a rebellious in victorian age but feminine young woman. She has long, brown hair tied in a high ponytail, with a few loose strands framing her face. Her skin is smooth with a slight glow, She has an intense, confident gaze directed at the viewer.

She dress conservatively yet showing her rebellious tattoo on her arm.

Her hairdress and outfit reveals her noble origin.

Her pose is casual yet assertive, She leans slightly forward, resting one arm on her knee.

The setting has warm, natural lighting that casts soft shadows on her face and outfit, emphasizing depth and realism. The textures of the fabric, metal accessories.

The background is a victorian palace, with golden wall decors and patterns.

4 단계: 프롬프트 검토

이 워크플로에 포함된 프롬프트는 아래와 같습니다.

a young victorian woman smiles and say hello

프롬프트를 작성하실 때는 피사체의 행동을 정확하게 기술해 주시는 것이 좋습니다. 예를 들면, laugh, run, fight와 같이 행위에 관한 단어를 포함시키면 좋습니다.

5 단계: 비디오 생성

이제 [Run]  버튼을 누르면 비디오가 생성됩니다.

설정 변경

비디오 해상도

Wan 2.1 VACE 14B 모델은 480p에서 720p까지 지원됩니다. 아래는 일반적으로 많이 사용되는 해상도입니다. 

  • 480 p (SD)
    • 640 × 480 (4:3) 
    • 854× 480 (16:9)
  • 720p (HD)
    • 960 x 720 (4:3)
    • 1280 × 720 (16:9) 

비디오 해상도는 [WanVaceToVideo] 노드에서 변경할 수 있습니다.

씨드 번호

씨드 번호는 [KSampler] 노드에서 변경할 수 있습니다.

이 글은 stable-diffusion-art.com의 글을 참고로하여 작성했습니다.

민, 푸른하늘