공간정보와 인터넷지도

Teacache와 Sage Attention을 사용해 Wan 2.1 비디오를 빠르게 생성하기

Wan 2.1 비디오는 자신의 PC에서 사용할 수 있는 최신 비디오 생성형 AI 모델입니다. 하지만, 좋은 품질의 비디오를 생성하려면 상당한 시간이 소요됩니다(제 RTX 3070을 사용할 경우, 720p 비디오는 2시간, 480p 비디오는 20분 정도 소요됐습니다). 특히 여러 비디오를 생성해서 좋은 것을 선택해야 하므로, 생성에 필요한 시간은 막대한 수준입니다.이 글에서 소개하는 Wan 2.1 워크필로는 Teacache와 Sage Attention을 사용하여 생성시간을 약 30%가량 줄여줍니다. 머... 한 70% 정도 줄여주면 좋겠지만, 이정도로도 감지덕지 해야죠.소프트웨어속도가 빨라지는 원리Fast Wan 2.1 Teacache/Sage 어텐션 워크플로이미지-비디오(Image-to-Video) 따..

AI 이미지/AI Video 2025.03.31

Ideogram V3 출시

2025년 3월 26일, Ideogram 에서 이미지 생성형 AI 모델 3.0 버전을 출시했습니다.이번 업데이트는 혁명적이라고는 할 수 없지만, 예전 버전에 비해 사실적 사진, 이미지내 텍스트 처리, 스타일 일관성 등 몇가지 중요한 측면에서 상당한 혁신을 이루었습니다.주목할 만한 개선사항스타일 참조 및 무작위 스타일새로운 기능중에서 "스타일 참조" 기능이 도입된 것이 특히 호평을 받고 있습니다. 사용자가 3개의 이미지를 올려서 자신의 창작물의 심미적 방향을 조정할 수 있습니다. "무작위 스타일(Random Style)" 옵션을 사용하면 43억개의 스타일 라이브러리에서 임의의 이미지를 가져와 예상할 수 없는, 영감이 넘치는 이미지가 생성됩니다.효율적인 텍스트 렌더링Ideogram V2에서도 강점중의 하나였..

AI 이미지/AI 서비스 2025.03.30

새로운 GPT-4o 이미지 - ChatGPT

OpenAI에서 엊그제 GPT-4o 챗봇에 이미지 생성 기능을 추가하였습니다. (관련 공지 링크) 사실 그냥 "추가"라고 하기에는 너무 센세이션을 일으키고 있습니다. 제가 이제까지 여러가지 이미지 생성 모델이나 서비스를 다루어 왔지만, 이번 GPT-4o에 추가된 이미지 생성기능은 그야말로 혁명적이라고 할 수 있기 때문입니다.GPT 4o 이미지의 장점GPT 4o 이미지 생성방법언제 사용할 수 있나?결론4o 이미지의 장점고품질의 이미지제가 사용하는 ChatGPT에는 아직 새로운 이미지 생성기능이 반영이 되어 있지 않아 직접 시험해 보지는 못했지만, 여러 SNS에 올려진 사용기를 보면 이미지 품질은 정말 뛰어나다고 합니다. 또한 여러가지 스타일의 이미지도 자유자재로 생성이 된다고 하고요. 이 글을 읽어보면 그..

AI 이미지/AI 서비스 2025.03.28

캐릭터 찌그러뜨리기 - Wan 2.1 LoRA

Wan 2.1 Video는 소비자용 컴퓨터를 사용해서 고품질의 비디오를 생성할 수 있는 생성형 인공지능 비디오 모델입니다. 그런데, AI 비디오 기업 중 하나인 Remade AI에서 Wan 2.1 Video를 위한 재미있는 LoRA모델을 공개했습니다. 보통의 LoRA는 특정 캐릭터나 스타일을 만들어 넣는 것이 보통이지만, 이 LoRA는 Wan 2.1 비디오에 캐릭터를 회전시키거나 찌브러뜨리거나 부풀리는 등의 특수 효과를 넣어주는 역할을 합니다. rotate 소프트웨어Remade LoRA for Wan 2.1 VideoLotation LoRA 따라하기다른 LoRA 사용하기소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. Com..

AI 이미지/AI Video 2025.03.26

LTX Video 0.9.5

LTX Video 0.9.5는 예전에 소개시켜 드렸던 LTX 비디오 모델의 업그레이드 버전입니다. 이 모델은 매우 빠르게 비디오를 생성할 수 있는 것이 장점입니다. RTX 4090의 경우 4초짜리 비디오를 17초만에 생성할 수 있다고 합니다.소프트웨어LTXV 0.9.5에서 개선된 사항LTXV 0.9.5 Text-to-Video 워크플로 따라하기LTXV 0.9.5 Image-to-Video 워크플로 따라하기첫 프레임과 마지막 프레임을 지정한 비디오참고사항소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제가 제일 좋아하는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.LTXV 0.9.5에서 개선된 사항라이선스LTXV 0.9.5는 상..

AI 이미지/AI Video 2025.03.25

새로운 이미지 AI 강자 탄생 - Reve Image 1.0

얼마전부터 이미지 생성행 AI 에 새로운 폭풍이 몰아치고 있습니다. 캘리포니아에 소재한 Reve AI라는 회사에서 출시한 Reve Image 1.0 입니다. 며칠전 Halfmoon(반달)이라는 이름으로 처음 등장하더니, 이제는 얼마전까지만 해도 1위를 차지하고 있던 Recraft AI를 제치고 Text-to-Image Leader 보드에서 1위를 차지했습니다. 보시는 것처럼, Google Imagen 3, BFL의 FLUX1.1 pro, Midjourny 등을 모두 제쳤네요.Reve AI: 캘리포니아의 새로운 도전자그런데 아직까지도 이 모델에 대한 공식적인 공지 나 보도자료는 나오지 않고 있습니다. 이 모델을 제작한 Reve AI, Inc 에 대해서도 별로 알려진 게 없는 상태고요. 본사가 캘리포니아에 ..

AI 이미지/AI 서비스 2025.03.25

Gemini에서 이미지 생성 방법

구글 DeepMind의 이미지 생성 AI 인 Imagen 3가 발표된지 몇주만에 이미지 생성을 위한 새로운 첨단 모델중 하나로 자리잡았습니다. 아직 시도해 보지 않으셨거나 무료로 그 효과를 느껴보고 싶다면, 구글의 챗봇인 Gemini를 통해서 무료로 사용할 수 있습니다(참고로 Image FX 사이트에서도 사용할 수 있습니다).Gemini의 Imagen3Gemini에서 프롬프트 잘쓰기Gemini로 생성한 이미지의 예Gemini의 Imagen3Gemini란? 영어로 Gemini란 쌍둥이라는 뜻입니다. 구글에서 개발한 다재다능한 대화형 비서에 왜 쌍둥이란 이름을 붙였는지는 잘 모르겠네요. 아마 구글과 Gemini는 한 몸이라는 뜻으로 붙이지 않았을까... 상상해 봅니다. 어쨌든 현재 대규모 언어 모델(LLM,..

AI 이미지/AI 서비스 2025.03.24

구글 Imagen 3 개요

Imagen 3는 구글 Deepmine에서 개발한 최신 인공지능 이미지 생성 모델입니다. 이 모델은 1532x1532 해상도의 뛰어난 품질의 이미지를 생성합니다. 특히 놀라운 디테일, 생상하고 사실적인 색상 렌더링 능력이 돋보입니다. Imagen 3는 극 사실주의로부터 추상 미술, 애니메이션까지 다양한 예술 스타일을 표현하는데 뛰어난 강점을 가지고 있습니다.Imagen 3는 Gemini 와 ImageFX 사이트에서 사용할 수 있으며, API 를 통해 다양한 도구와 통합할 수 있습니다.Imagen 3란?Imagen 3의 아키텍처DeepMinde 란?Imagen 3의 사용방법Imagen 3의 프롬프트Imagen 3의 세부사항Imagen 3란?Imagen 3는 구글 DeepMind 연구자들이 개발한, 고급 디..

AI 이미지/AI 서비스 2025.03.22

Hunyuan 이미지-비디오 (ComfyUI)

Hunyuan 비디오 모델은 오픈소스 AI 커뮤니티에서 엄청하게 호평을 받고 있습니다. Hunyuan 비디오는 텍스트-비디오(Text-to-Video) 뿐만 아니라, 참조 이미지를 사용해 비디오를 제작하는 방법도 있고, LoRA 모델과 함께 사용할 수도 있습니다.하지만, 지금까지는 비디오 모델에서는 가장 중요하다고 생각되는 이미지-비디오(Image-to-Video) 기능이 없었습니다. 그런데 이제 Hunyuan 이미지-비디오 모델을 사용할 수 있겠다는 소식입니다.소프트웨어Hunyuan 이미지-비디오 모델 개요Hunyuan 이미지-비디오(Image-to-Video) 따라하기참고소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ..

AI 이미지/AI Video 2025.03.19

Wan 2.1 Video 모델로 비디오 생성하기(ComfyUI)

Wan 2.1 Video는 일련의 개방형 인공지능 비디오 생성 모델입니다. 이 모델은 다양한 비디오 생성을 지원합니다. 텍스트-이미지 및 이미지-비디오를 지원할 뿐 아니라, 특히 480p(720x480) 또는 720p(1280x720) 해상도의 비디오를 생성할 수 있습니다. 소프트웨어Wan 2.1 샘플 비디오Wan 2.1 모델이란이미지-비디오(Image-to-Video) 따라하기텍스트-비디오(Text-to-Video) 따라하기결론소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력하며, 현재 거의 대세로 자리잡고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.Wan 2.1 샘플 비디오아래의 남자가 나타나는 비디오는 이..

AI 이미지/AI Video 2025.03.16

알리바바, Wan 2.1 공개

2025년 2월 25일, 알리바바에서 고급 비디오 생성 작업을 위해 설계된 오픈 소스 AI 모델인 Wan 2.1을 공개했습니다. 2025년 2월의 공식적으로 공개되었으며, 현재 Apache 2.0 라이선스하에 자유롭게 사용할 수 있어, 전세계의 개발자들이나 기업들이 거의 아무런 제한없이 사용할 수 있습니다.Wan 2.1 이란?중요 기능 및 벤치마크 성능Wan 2.1을 Latenode의 자동 워크플로에 통합하기Wan 2.1 이란?Wan 2.1은 텍스트 프롬프트 또는 이미지 프롬프트를 입력받아 비디오를 생성할 수 있는 대규모언어모델(LLM, large language model)입니다. VBench에서 행해진 독립적인 평가에 따르면 Wan 2.1은 약 84.7%에 달하는 점수를 획득하여, 최고 성능의 AI ..

AI 이미지/AI Video 2025.03.16

스팀펑크 이미지 생성용 프롬프트

빅토리아 시대의 우아함이 산업혁명 시대의 생생한 에너지와 만나는 장면을 상상을 해보세요. 반짝이는 톱니바귀, 커다란 증기기관, 복고적이지만 미래지향적 의상을 결합한 매혹적인 스타일. 바로 그것이 스팀펑크입니다.이제 AI 덕분에 이 매력이 넘치는 세계관을 매우 정확하게 창의적으로 살아숨쉬게 만들 수 있게 되었습니다. Flux 나 Stable Diffusion 3.5 와 같은 디퓨전 모델을 사용하면 스팀펑크 애호가와 디지털 아트 애호가들에게 무한한 잠재력의 문을 열어줍니다.이 글에서는 인공지능을 사용한 스팀펑크 이미지 생성의 핵심에 대해 자세히 알아보겠습니다. 이 글은 디퓨전 모델을 최적으로 사용하여 대담한 복고적-미래지향적 비전을 현실로 가져오는 방법을 알려드립니다. 만화책 삽화를 그리시던, 비디오 게임 ..

AI 이미지/프롬프트 공학 2025.03.12

Flex.1 - 새로운 오픈소스 Flux

Flex.1 Alpha 개요개발 배경사용 방법Flux.1 dev GUFF 와 Flex.1-alpha 의 비교새로운 오픈소스 이미지 생성용 인공지능 모델 Flex.1이 HuggingFace 에 공유되었습니다.Flex.1-alpha 는 예전에 Flux 미세조정 솔루션을 공유했던 ostris가 개발했습니다. 이 모델은 매개변수가 80억개이며, "guidance embedder"와 통합하여, 이미지 생성시 무분류기 안내(CFG, Classifier-Free Guidance)가 필요 없는 특징이 있습니다.Flex.1은 FLUX.1 deve 아키텍처위에 개발되었는데, 듀얼 트랜스포머 블록(dual transformer block)의 수를 19개에서 8개로 줄였다고 합니다. 이렇게 최적화시킴으로써 이미지 품질을 유지..

AI 이미지/Flux AI 2025.03.10

BFL, FLUX Pro 미세조정 API 발표

이미지 생성형 인공지능 모델 FLUX를 개발한 Black Forest Labs(이하 BFL)에서 Flux Pro 미세조정 API를 발표했습니다. Flux Pro는 Replicate나 fal.ai 와 같은 파트너사에서만 사용할 수 있어서, 그 동안에는 기본 base 모델로만 이미지를 생성할 수 있는데, 이번 미세조정 API를 사용하면 사용자가 원하는 인물, 물체, 브랜드, 스타일 등을 추가할 수 있다는 것입니다.이 기능은 기본적으로 Flux Dev에서 LoRA를 학습하는 것과 비슷하다고 볼 수 있지만, Flux.1 pro 뿐만 아니라, Flux 1.1 pro Ulta 혹은 Raw 모델에도 사용할 수 있다는 점이 중요하다고 할 수 있습니다. 즉, FLUX Pro 미세조정 API를 사용하면 자신만의 이미지나..

AI 이미지/Flux AI 2025.03.09

Flux 1.1 [pro] Ultra & Raw 모드

2024년 11월 6일, 이미지 생성형 인공지능 모델인 FLUX의 개발사 Black Forest Labs(이하 BFL)에서 10월 2일 발표한 Flux 1.1 [pro] 모델을 업그레이드하여 새롭게 Ultra 모드와 Raw 모드를 추가시켰다고 발표하였습니다.이번 발표의 핵심은 FLUX1.1 [pro] Ultra 모드입니다. 이 모드는 기존의 FLUX1.1 [pro]에 비해 4배의 해상도로 출력이 가능해졌습니다. FLUX1.1 [pro]가 1024x1024 이상에 최적화 되어 있으니, 적어도 2048x2048 이상의 이미지를 생성하는데 아무런 문제가 없다는 것입니다. 특히, 이렇게 해상도가 높아지면서도 생성 속도는 10초 정도로, 경쟁 서비스에 비해 월등히 빠른 속도를 자랑합니다. 생성 비용은 이미지 한장..

AI 이미지/Flux AI 2025.03.08

공간정보와 인터넷지도

전체 글 1902

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31