인공지능 비디오 38

구글 Imagen 4 사용 방법

구글이 Google I/O 2025에서 최신 버전의 이미지 생성모델 Imagen 4를 발표했습니다. 한층 더 디테일이 살아있는 이미지를 생성할 수 있으며, 특히 프롬프트 이해도가 훨씬 높아졌고 이미지에 텍스트를 렌더링하는 능력도 올라갔습니다. 구글은 Gemini 2.5 Flash 등 일련의 인공지능 제품/서비스에서 ChatGPT 등에서 빼앗겼던 주도권을 되찾는 중으로, Imagen 4도 미드저니나 Flux, GPT-Image와 같은 경쟁자를 바짝 추격하거나 앞서기 시작하고 있습니다.새로운 생성 모델사용 방법Gemini에서 사용하는 방법Whisk에서 사용하는 방법아래는 2025년 6월 18일 현재 Text-to-Image 서비스에 대한 Leaderboard입니다. 역시 아직도 GPT-4o가 1등을 차지하..

AI 이미지 2025.06.17

Wan VACE V2V(비디오로 비디오 생성하기)

Wan 2.1 VACE(Video All-in-one Creation and Editing)은 알리바바 팀이 개발한 비디오 생성/편집 모델로서 자신의 컴퓨터에서 로컬로 생성할 수 있습니다. 이 모델은 텍스트-비디오, 레퍼런스-비디오, 비디오-비디오(자세 및 depth), 인페인트, 아웃페인트 등을 모두 처리할 수 있는 통합 모델입니다.소프트웨어생성 시간기타 비디오 생성 모델VACE 는 다음과 같은 핵심 기능을 제공합니다.Reference-to-Video(R2V) : 참조 이미지로부터 비디오 생성Video-to-Video(V2V) : 기존의 비디오의 스타일 적용Masked Video Editing(MV2V): 각각의 프레임에서 지정한 영역을 인페인트 혹은 아웃페인트WAN VACE 모델은 ComfyUI에서 ..

Wan VACE R2V(참조 이미지로 비디오 생성하기)

Wan 2.1 VACE(Video All-in-one Creation and Editing)은 알리바바 팀이 개발한 비디오 생성/편집 모델입니다. 이 모델은 텍스트-비디오, 레퍼런스-비디오, 비디오-비디오(자세 및 depth), 인페인트, 아웃페인트 등을 모두 처리할 수 있는 통합 모델입니다.소프트웨어생성 시간기타 비디오 생성 모델VACE 는 다음과 같은 핵심 기능을 제공합니다.Reference-to-Video(R2V) : 참조 이미지로부터 비디오 생성Video-to-Video(V2V) : 기존의 비디오의 스타일 적용Masked Video Editing(MV2V): 각각의 프레임에서 지정한 영역을 인페인트 혹은 아웃페인트WAN VACE 모델은 ComfyUI에서 [WanVaceToVideo] 나 [Trim..

구글 AI 비디오 생성 서비스 Veo-2 사용법

이제 구글 AI Studio 에서 구글 AI 비디오 생성 모델인 Veo-2를 사용할 수 있게 되었습니다. 관련 공지는 이 글을 읽어보시기 바랍니다. Veo-2는 텍스트-비디오(Text-to-Video) 뿐만 아니라, 이미지-비디오(Image-to-Video)도 지원합니다. 또한 최대 8초짜 고해상도(720p) 비디오를 생성할 수 있습니다.2025년 4월 24일 현재 Artificial Intelligence의 텍스트-비디오 리더보드에 따르면 아래와 같이 구글 Veo-2가 Kling이나 Open AI의 Sora까지 제치고 1등을 차지하고 있습니다. 오픈소스 비디오 모델인 Wan 2.1, Hunyuan, Mochi 등은 10위권 근처에서 도토리 키재기를 하고 있네요. 따라서 현재 Kling이나 Runway..

VRAM이 작은 PC에서 긴 Video를 생성하기

프레임팩(FramePack)은 비디오 길이에 관계없이 VRAM을 적게(6 GB) 소모하는 비디오 생성 기법입니다. 프레임팩은 이미지-비디오(Image-to-Video), 즉 텍스트 명령과 이미지를 상용하여 비디오를 생성합니다.이 글에서는 프레임팩이 무엇인지 소개하고 윈도에서 사용하는 방법을 설명합니다.프레임팩이란?프레임팩 설치 방법(윈도)프레임팩 사용 방법프레임팩이란?프레임팩(FramePack)은 비디오에서 이전 프레임을 기반으로 다음 프레임을 예측합니다. 이 과정에서 비디오의 길이에 관계없이 틀랜스포머(transformer)내에서 고정된 콘텍스트 길이를 사용합니다. 이를 통해 많은 비디오 생성기(Wan 2.1, Hunyuan, LTX Video 등)들에서 볼 수 있는, 메모리에 따라 비디오 길이가 제..

Flux-Hunyuan 텍스트-비디오 워크플로

이 워크플로는 이미지 생성 AI 모델(FLUX)과 비디오 생성 AI 모델(Hunyuan)을 이용해 비디오를 생성합니다.Flux를 사용하여 AI 이미지를 생성합니다.이렇게 생성된 이미지를 첫 프레임으로 사용하여, Hunyuan 이미지-비디오 모델을 이용해 비디오로 전환합니다. 아래는 이렇게 생성한 비디오의 예입니다.소프트웨어워크플로 작동 원리따라하기소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.워크플로 작동 원리이 워크플로 전반부는 Flux.1 dev를 사용하여 고품질의 이미지를 생성합니다. 이 부분은 제가 요즘 자주 사용하는 워크플로..

Flux-Wan2.1 기계 곤충 비디오(ComfyUI)

이 워크플로는 텍스트 프롬프트로부터 아름다운 기계 곤충 비디오를 생성하는 워크플로입니다. 이 워크플로는 FLUX AI를 사용하여 고품질의 이미지를 생성한 후, Wan 2.1 Video를 사용하여 비디오를 생성합니다.소프트웨어워크플로 작동 원리따라하기소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.워크플로 작동 원리이 워크플로 전반부는 Flux.1 dev를 사용하여 고품질의 이미지를 생성합니다. 이 부분은 제가 요즘 자주 사용하는 워크플로를 약간 수정한 겁니다. 수정한 부분은 맨 오른쪽으로, 생성된 이미지를 [Image Sender] 노..

악뮤 작별인사 뮤직비디오

원래 악동뮤지션의 톡톡튀는 가사와 감성을 좋아했지만, 작별인사는 그중에서도 제일 좋아하는 노래중의 하나입니다. 그런데 아쉽게도 이 노래는 뮤직비디오가 없더군요. 그냥 파란 하늘같은 이미지에 노래가사만 나오던가, 두분이서 노래부르는 모습을 촬영한 영상만 있을 뿐이었습니다.그래서 한번 만들어 보기로 했습니다. 요즘 ChatGPT에서 이미지 생성기능이 엄청 좋아졌거든요. 예전에도 한번 시도해 본적이 있었는데, 그때는 DALL-E 3로 생성하는데다가 한번 생성한 후, 다음 그림과의 일관성이 유지가 안되어서 그림 스타일이 들쭉날쭉하는 바람에 실패했거든요.가사 정리하기이미지 생성 준비생성된 이미지비디오 생성짧은 생각가사 정리하기일단 가사는 아래와 같습니다. 전체 가사 없는 부분까지 포함해서 전체 14x4= 56 마..

생성속도가 더 빠른 Hunyuan Video 워크플로

Hunyuan Video는 자신의 PC에서 돌릴 수 있는 여러가지 비디오 모델중 가장 품질이 좋은 축에 속하는 모델입니다. 거기다가 다른 모델에 비하면 속도도 상당히 빠른 편입니다. Hunyuan Video 는 텍스트-비디오, 참조이미지를 사용한 비디오, 이미지-비디오 등을 지원하며, LoRA와 함께 사용하는 것도 가능한, 다재다능한 모델입니다.다만, 많은 사용자들이 지적하는 가장 큰 문제는 생성 속도가 상당히 늦다는 것이었습니다. (49 프레임, 480p 비디오를 생성할 때 약 6분 정도 소요되었습니다. 여기를 읽어보세요) 이 글에서는 Hunyuan 이미지-비디오 생성속도를 3배 올리는 방법을 소개시켜드립니다. 소프트웨어Hunyuan 이미지-비디오 모델 개요Hunyuan 이미지-비디오(Image-to-..

Teacache와 Sage Attention을 사용해 Wan 2.1 비디오를 빠르게 생성하기

Wan 2.1 비디오는 자신의 PC에서 사용할 수 있는 최신 비디오 생성형 AI 모델입니다. 하지만, 좋은 품질의 비디오를 생성하려면 상당한 시간이 소요됩니다(제 RTX 3070을 사용할 경우, 720p 비디오는 2시간, 480p 비디오는 20분 정도 소요됐습니다). 특히 여러 비디오를 생성해서 좋은 것을 선택해야 하므로, 생성에 필요한 시간은 막대한 수준입니다.이 글에서 소개하는  Wan 2.1 워크필로는 Teacache와 Sage Attention을 사용하여 생성시간을 약 30%가량 줄여줍니다. 머... 한 70% 정도 줄여주면 좋겠지만, 이정도로도 감지덕지 해야죠.소프트웨어속도가 빨라지는 원리Fast Wan 2.1 Teacache/Sage 어텐션 워크플로이미지-비디오(Image-to-Video) 따..