Text-to-Image 6

Mogao: 새로운 미스터리 AI - Seedream 3.0

갱신: Mogao는 ByteDance 의 최신 모델인 Seedream 3.0 으로 밝혀졌습니다. 현재는 이미지 아레나에서 2등으로 내려앉았네요.====이미지 생성형 인공지능 세계에 또다른 게임체인저가 등장해서 시장을 흔들고 있습니다. 그의 이름은 모가오(Mogao) 입니다. 현제 웹사이트도, 주소도 없고, 심지어는 로고도 없습니다. 그냥 며칠전에 이미지 아레나에 등장해서 2025년 4월 14일 현재 1위를 차지했습니다. GPT-4o까지 밀어내고요!4월 초부터 ArtificialAnalysis.ai의 이미지 아레나의 변화상황을 주의 깊게 살펴본 사람들은, 공식 순위에는 없지만 블라인드 테스트에서 매우 활발하게 나타난 모가오라는 모델을 주목했습니다.하지만, 그 결과는 그다지 눈에 띄지 않았습니다. 저 개인적..

SD 3.5를 위한 프롬프트 20선

Stability AI는 현재 Flux의 등장으로 오픈소스 인공지능 이미지 생성 분야의 주도권을 잃었지만, 그래도 계속해서 이 분야에 새로운 바람을 불러 일으키고 있습니다. 작년 10월에 출시된 SD 3.5는 더 뛰어난 품질의 이미지를 생성하고, 프롬프트 이해 능력을 높임으로써, 이 분야에 새로운 디딤돌이 될 것으로 보입니다.예술가, 디자이너, 기술자 등 모두 창작활동에서 더 유연하고 더 정확하게 자신이 원하는 바를 얻을 수 있을 것입니다. 텍스트 생성 기능도 훨씬 향상되어, 더 많은 분야에서 응용이 가능할 것으로 보입니다.하지만 효과적인 프롬프트를 만드는 것은 쉽지 않습니다. 특히 초보자들에게는 상당히 어렵죠. 여기에 나열한 20개의 프롬프트는 멋진 이미지를 생성하고자 하는 분들에게 많이 도움이 될 것..

ComfyUI에서 이미지 배경 생성하기

기존의 이미지에서 배경만 새로운 인공지능 배경으로 생성할 수 있습니다. 이 워크플로는 이미지의 전경(또는 주체)는 변경하지 않고, 원 이미지의 배경과 일관성이 있는 새로운 배경을 생성합니다. 원하는 배경을 지정할 수도 있고요.아래는 원 이미지 입니다(인터넷에서 향수로 검색해서 찾은 이미지중 하나입니다).아래는 새로운 인공지능 배경으로 교체한 이미지입니다.소프트웨어워크플로 개요따라하기개인적인 느낌소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력한 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.워크플로 개요이 워크플로는 이미지 배경 삭제하기에서 사용했던 BRIA 모델을 사용해서 배경을 삭제하고 마스크를 만든 후, SDXL ..

Flux1 dev GUFF 모델에서 ControlNet 사용하기

Xlabs AI에서 ComfyUI에서 사용할 수 있는 Flux용 ControlNet 모델과 관련 커스톰 노드(x-flux-comfyui)를 개발했습니다. 이 글은 이 것들을 사용하는 방법에 관한 글입니다.소프트웨어따라하기참고다른 ContolNet소프트웨어이 글에서는 스테이블 디퓨전용 GUI중에서도 요즘 가장 널리 사용되고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.따라하기1단계: 모델 다운로드참고로, 3070에서 이 워크플로를 돌리려고 하니, F16은 메모리 부족 에러를 일으켰습니다. 그래서 Q3_K_S 모델로 바꿨더니 겨우겨우 돌아가네요. ㅠㅠGGUF unet 모델저는 Flux dev GGUF 모델을 사용합니다(참고 Sch..

Text-to-Image(txt2img)란?

Text-to-Image(txt2img)는 인공지능 모델을 사용해서 입력된 텍스트(여러개의 단어)를 이미지로 생성해주는 것을 말합니다. txt2img AI 모델은 여러가지가 존재합니다. Text-to-image 모델의 작동 원리 Text-to-image 사용 방법 스테이블 디퓨전 txt2img 기본 설정 txt2img 모델 학습방법 Text-to-Image 모델의 종류 DALL-E Imagen 스테이블 디퓨전(Stable Diffusion) 미드저니(Midjourney) Text-to-image 모델의 작동 원리 txt2img 모델은 자연어 문장을 입력받아, 그 문장에 맞는 이미지를 생성해주는 신경망(neural network)입니다. 스테이블 디퓨전(Stable Diffusion)및 기타 인공지능 모델..

AnimateDiff - 쉬운 text-to-video

Text-to-video는 말 그대로 입력한 텍스트 프롬프트만 사용해 비디오를 생성하는 기법입니다. 디퓨전 기반의 text-to-video 모델은 매우 빠른 속도로 발전하고 있습니다. 이 글에서는 자신의 PC에서 직접 사용할 수 있는 text-to-video 모델 중 가장 유명한 것중 하나인 AnimateDiff를 소개(논문: AnimateDiff:Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning, Yuwei Guo 등)하고 그 작업과정을 보여드립니다. 참고: 2023년 12월, Stable Video Diffusion이 공개되었습니다. txt2vid, img2vid는 SDV를 사용하는 것이 더 빠르고 품질이 ..