AI 이미지/AI Video

Wan VACE V2V(비디오로 비디오 생성하기)

하늘이푸른오늘 2025. 6. 17. 13:05

Wan 2.1 VACE(Video All-in-one Creation and Editing)은 알리바바 팀이 개발한 비디오 생성/편집 모델로서 자신의 컴퓨터에서 로컬로 생성할 수 있습니다. 이 모델은 텍스트-비디오, 레퍼런스-비디오, 비디오-비디오(자세 및 depth), 인페인트, 아웃페인트 등을 모두 처리할 수 있는 통합 모델입니다.

VACE 는 다음과 같은 핵심 기능을 제공합니다.

  • Reference-to-Video(R2V) : 참조 이미지로부터 비디오 생성
  • Video-to-Video(V2V) : 기존의 비디오의 스타일 적용
  • Masked Video Editing(MV2V): 각각의 프레임에서 지정한 영역을 인페인트 혹은 아웃페인트

WAN VACE 모델은 ComfyUI에서 [WanVaceToVideo] 나 [TrimVideoLatent] 등의 기본 노드를 통해 사용할 수 있습니다. 

이 글에서는 ComfyUI에서 Video-to-Video를 사용하는 방법을 설명합니다. Wan Video-to-Video는 다음과 같은 방식으로 비디오를 참조합니다.

  • 참조 비디오에 있는 사람의 움직임을 복사합니다(OpenPose를 사용함)
  • 참조 이미지에 있는 사람의 얼굴 및 의복을 복사합니다. 

아래는 이 참조 비디오와 이 참조 이미지를 사용하여 생성한 비디오입니다.

소프트 웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

생성시간

이 워크플로는 3.3 초짜리 608x1288 비디오를 생성하는데  RTX4090에서 50분이 소요됩니다. 720x720의 경우에는 23분이 소요됩니다.

RTX5070 ti에서 480x640 비디오를 생성하는데에는 30분 정도 소요되네요.

기타 비디오 생성모델

Wan 2.1과 관련된 워크플로는 아래를 참고하세요.

기타 비디오를 생성하는 모델은 여러가지가 있습니다. 언젠가 다시 한 번 비교를 해봐야겠네요.

따라하기

1 단계: 모델 다운로드

wan2.1_vace_14B_fp16.safetensors 디퓨전 모델을 다운로드 받아, ComfyUI\models\diffusion_models 폴더에 넣어줍니다.

umt5_xxl_fp8_e4m3fn_scaled.safetensors 텍스트 인코더 모델을 다운로드 받아, ComfyUI\models\text_encoders 폴더에 넣어줍니다.

wan_2.1_vae.safetensors VAE 모델을 다운로드 받아, ComfyUI\models\vae 폴더에 넣어줍니다.

2 단계: 워크플로 불러오기

아래의 Json 파일을 다운로드 받아 ComfyUI로 불러옵니다.

Wan_VACE_v2v.json
0.02MB

이 워크플로를 불러오면 오류가 발생할 수 있습니다. 그러한 경우, 다음과 같은 작업이 필요합니다. 

3 단계: 참조 비디오 불러오기

아래와 같이 [Load Video] 노드에 원하는 이미지를 불러옵니다. 여기에서는 TikTok 비디오를 사용했는데, 이 도구를 이용하면 다운로드 받을 수 있습니다. 

4 단계: 참조 이미지 불러오기

이 워크플로에서는 참조 비디오 외에 참조 이미지가 필요합니다. 레퍼런스-비디오 워크플로와 마찬가지로, 이미지의 특징을 복사해 사용합니다. 

elf-585x1024.webp
0.48MB

이 이미지는 Flux1. Dev 모델을 사용하여 아래의 프롬프트로 생성한 것입니다.

close up portriat of a stunning, ethereal woman elf with flowing hair stands in an enchanted forest at twilight. Her beautiful eyes and face is clearly visible. Blonde, Danish. smile.

4 단계: 프롬프트 검토

이 워크플로에 포함된 프롬프트는 아래와 같습니다.

a stunning, ethereal woman elf with flowing hair stands in an enchanted forest at twilight. Her beautiful eyes and face is clearly visible. Blonde, Danish. smile. dancing,

프롬프트를 작성하실 때는 피사체의 행동을 정확하게 기술해 주시는 것이 좋습니다. 예를 들면, laugh, run, fight와 같이 행위에 관한 단어를 포함시키면 좋습니다.

5 단계: 비디오 생성

이제 [Run]  버튼을 누르면 비디오가 생성됩니다.

설정 변경

비디오 해상도

Wan 2.1 VACE 14B 모델은 480p에서 720p까지 지원됩니다. 아래는 일반적으로 많이 사용되는 해상도입니다. 

  • 480 p (SD)
    • 640 × 480 (4:3) 
    • 854× 480 (16:9)
  • 720p (HD)
    • 960 x 720 (4:3)
    • 1280 × 720 (16:9) 

비디오 해상도는 [WanVaceToVideo] 노드에서 변경할 수 있습니다.

씨드 번호

씨드 번호는 [KSampler] 노드에서 변경할 수 있습니다.

메모리 부족(Out-of-memory)시 대처방법

길이가 긴 비디오를 고해상도로 생성하면 메모리 부족 오류가 발생할 수 있습니다. "allocation on device" 오류가 발생하면 [WanVaceToVideo] 노드에서 width, height, length 등의 매개변수를 줄여보세요. 

이 글은 stable-diffusion-art.com의 글을 참고로하여 작성했습니다.

민, 푸른하늘