AI 이미지/SD Video

SD Forge를 사용해서 SVD 비디오 생성하기

하늘이푸른오늘 2024. 5. 8. 11:32

스테이블 디퓨전 WebUI Forge를 사용하면 Stable Video Diffusion(SVD) 비디오를 생성할 수 있습니다. 특히 SD Forge를 사용하면 GUI내에서 모든 SVD 비디오 제작에 필요한 모든 단계를 수행할 수 있습니다.

이 글은 SD Forge에 SVD 모델을 설정하고 실행시켜 아래와 같은 비디오를 생성하는 방법을 다룹니다.

소프트웨어

이 글을 따라하시려면 먼저 SD Forge를 설치하셔야 합니다. 설치방법은 여기를 보시면됩니다. 스테이블 디퓨전을 처음 접하신다면 이 글부터 읽어보시기 바랍니다.

SVD는 SD Forge 뿐만 아니라, ComfyUI 등에서도 실행시킬 수 있습니다. 이에 대한 자세한 내용은 이 글을 읽어보시기 바랍니다. 

SVD 모델 설치

위에서 설치한 SD Forge는 웹 인터페이스일 뿐이고, 비디오를 생성하려면 SVD XT 모델을 다운로드 받고 SD Forge의 svd 폴더에 넣어야 합니다. 

먼저 여기에 들어가셔서 사용동의를 해야 합니다.

그 다음 SVD  1.1 모델을 다운로드 받아  webui_forge_cu121_torch21 > webui > models >svd  폴더에 넣어줍니다. 

SVD 모델을 사용해 비디오 생성하기

 1단계: 기본 이미지 생성하기

비디오를 생성하려면, 먼저 기본이 되는 이미지가 필요합니다. 이 글에서는 아래와 같이 이미지를 생성하지만, 자신이 가지고 있는 비디오를 사용하셔도 됩니다. 

체크포인트 모델: juggernautXL_v7
프롬프트: a woman with long hair windy and tattoos on her body, a green shirt, epic fantasy character art, cyberpunk art, fantasy art
이미지 크기: 576x1024
샘플링 방법: DPM++ 2M Karras
샘플링 단계: 20
CFG 척도: 7

아래는 이렇게 생성한 이미지중 하나입니다. 위의 프롬프트에서 windy 가 들어간 것은 비디오에서 머리가 휘날리는 효과를 보이기 위함입니다.

2단계: 이미지를 SVD로 보내기

생성된 그림 아래쪽을 보면 여러가지 아이콘이 있습니다. 이중에서 슬레이트 모양의 아이콘을 눌러주면 SVD로 이미지가 전달됩니다.

3단계: SVD 비디오 생성하기

활성화된 SVD 탭에서 아래와 같이 SDV Checkpoint Filename이 선택되어 있는지 확인하고....

나머지는 그대로 두고 맨 아래쪽에 있는 [Generate] 버튼을 눌러줍니다. 아래는 이렇게 해서 생성된 비디오 입니다. 제 3070 GPU 에서 약 1분30초 정도 걸렸네요.

아래는 생성된 비디오입니다.

SVD 설정

Motion bucket id

Motion bucket id는 비디오의 움직이는 정도를 조절합니다. 0~255까지 설정할 수 있는데, 높은 값을 입력할수록 움직임이 커집니다. 예를 들어 위의 비디오는 127로 생성한 것인데, 아래는 255로 생성한 것입니다.

Video 프레임

생성되는 프레임 수입니다. 생성되는 이미지의 수라고 생각하면 됩니다. 기본값은 14입니다.

FPS

FPS(초당 프레임 수, frames per secode)는 비디오의 속도를 제어합니다. FPS를 낮추면 비디오가 천천히 작동하여 총 작동시간은 늘어나게 됩니다. 기본값은 6입니다. 

프레임수의 기본값은 14이고, FPS의 기본 값은 6이므로, 생성된 비디오의 상영시간은 2.3초가 됩니다.

아래는 Motion bucket id=64로 설정하고 48프레임, FPS=6으로 생성한 비디오입니다. 프레임수가 14에서 48 프레임으로 늘어났으니, 생성시간은 1.5분*4=6분 정도가 되어야 할 것 같은데, 거의 15분만에 생성되네요. 그런데... 생각보다 부드러운 영상이 만들어지지 않습니다. 특히 뇌피셜로는 Motion bucket id를 낮추고 FPS 를 높이면 아주 부드러운 영상이 만들어질 거라 생각했는데, FPS를 올리면 그냥 움직임이 너무 빨라지네요. 좀 더 테스트해봐야 할 듯 싶습니다.

Augmentation level

augmentation level은 최초의 이미지에 추가되는 노이즈의 양입니다. 최초 이미지를 많이 변경시키거나, 기본 크기와 다른 비디오를 생성할 때 사용합니다. 

이상입니다.

이 글은 https://stable-diffusion-art.com/forge-svd/ 를 번역하면서 약간 수정, 보완해서 작성한 글입니다.

====