불과 몇달 전, ChatGPT는 단순한 텍스트 기반 챗봇에서 전지전능한 생성형 보조자로 변신하는데 성공하였습니다. GTP-4o 모델 과 이미지 생성도구를 통합한 덕분에, 아무런 그래픽관련 기술이 없는 사람도 챗봇 인터페이스에서 직접 개인화된 이미지를 생성할 수 있게 되었습니다.
이 글은 ChatGPT에서 이미지를 생성하고 편집하는 기법을 처음부터 끝까지 파헤쳐 보겠습니다.
GPT-4o: 2025의 새로운 기능
ChatGPT의 이미지 생성기능은 예전부터 있었습니다. 단, 예전에는 DALL-E 3를 기반으로 하였다면, 지금은 GPT-4o 모델을 기반으로 변경되었습니다.
GPT-4o는 텍스트, 이미지, 목소리 및 비디오까지 모두 하나의 모델로 통합한 새로운 멀티모달 아키텍처입니다. 사용자의 입장에서는 설명과 시각적 이미지의 일관성이 더 좋아졌으며, 이미지와 직접 상호 작용할 수 있다는 점이 장점입니다. 즉, 이미지를 수정하거나, 텍스트를 추가하거나, 이미지 일부를 수정하는 것이 가능해졌습니다.
👉 DALL-E와 GPT-4o의 차이 전반적으로 GPT-4o에서 생성된 결과가 DALL-E 기반으로 생성된 이미지보다 품질이 좋다는 것은 느끼실 수 있으실 겁니다. 하지만, 더 중요한 차이점은 이미지를 생성하는 방법이 달라졌다는 것입니다. 미드저니나 SDXL, DALL-E 등은 디퓨전 기법의 모델입니다. 즉, 무작위 잡음에서 여러 단계에 걸쳐 점진적으로 이미지를 구성해 나가는 생성형 기법을 채택하고 있습니다. 각각의 단계마다 이미지의 상세한 부분을 수정해가서 고품질의 이미지를 생성하지만, 프롬프트가 복잡해지면 일관성이 떨어지는 결과가 나오는 단점이 있습니다. GPT-4o는 통합 모델을 기반으로 합니다. 이 모델은 시각적 자동 회귀 렌더링(VAR, visual autoregressive rendering)와 유사한 로직을 따릅니다. 이 모델에서 이미지는 좀더 직접적으로, 픽셀별, 각 부분 별로 프롬프트에서 제공된 전체적인 문맥을 고려하여 생성됩니다. 그 결과 의미론적으로 더 잘 매치되고, 명령을 잘 따르게 됩니다. 특히 텍스트를 삽입하거나, 이미지 구성요소간의 구도가 복잡한 경우 그 효과가 두드러지게 나타납니다. 간단히 요약하여, DALL-E는 이미지를 점진적인 정제(디퓨전)를 통해 생성하는 반면, GPT-4o 는 이지지를 좀 더 직접적으로 구성함으로써 반응성과 제어성, 그리고 문맥에 대한 이해가 향상된 결과를 생성하게 됩니다. |
2025년 4월부터 OpenAI는 두 번의 발표를 통해 인공지능 이미지 생성 기능을 강화하였습니다.
첫번째는 "GPT-Image-1" 엔진에 기반한 이미지 생성 전문의 API입니다. 이 API 를 이용하여 제3의 응용(블로그 포함)에 인공지능 이미지 생성기능을 쉽게 통합할 수 있습니다. 두번째는 무료버전(사용 제한이 있고 생성 속도가 늦음)을 포함하여 모든 사용다들이 ChatGPT 인터페이스를 통해 이미지 생성기능을 사용할 수 있게 되었습니다. 이를 통해 ChatGPT 는 고품질의 시각적 창작물을 최대한 많은 사람들이 사용할 수 있도록 하는 중요한 전기를 마련했습니다.
ChatGPT를 사용한 이미지 생성
이미지 생성
ChatG사용해 이미지를 생성하는 것은 간단합니다. 그냥 어떤 그림을 그리고 싶은지 정확하게 명령을 내리기만 하면 됩니다. 아래는 예입니다. 명령은 영어로도, 한글로도 가능합니다.
"A red fox reading a newspaper in a Parisian cafe, vintage cartoon style, pastel colors."
"파리의 한 카페에서 신문을 읽고 있는 빨간 여우를 옛날 만화 스타일로 파스텔 톤으로 그려줘"
명령을 내리면 몇 초 이내(무료 버전의 경우 10분 이상 걸릴 수도 있습니다)에 이미지를 생성해줍니다. 그림이 생성된 후에는 그림에 마우스를 올리고, 왼쪽아래에서 다운로드 버튼을 누르면 다운로드 받을 수 있습니다.
생성된 그림이 마음에 들지 않으면 색상 팔레트를 바꾸거나 원하는 요소를 추가하거나, 그림 포맷을 바꾸는 등 원하는 대로 편집할 수 있습니다.
이러한 과정을 거치지 않고, 자신의 이미지를 올리고 배경을 바꾸거나 캐릭터를 추가하는 등의 수정을 할 수도 있습니다.
프롬프트 가이드
생성형 인공지능은 모두 마찬가지이지만, ChatGPT를 사용해 자신이 원하는 멋진 이미지를 생성하려면 잘 구성한 프롬프트가 필요합니다. 대부분의 사람들의 생각과는 달리, ChatGPT는 이미지를 생성할 때 낮은 창의성만 사용합니다. 즉 지시를 충실히 이행하지만, 독창적으로 연출하거나, 스스로 대담한 그래픽 스타일을 생성하는 경우는 극히 드뭅니다.
주제를 요청하는 것 외에도, 스타일, 구도, 분위기 등의 창의적인 내용을 제공하는 것은 사용자의 몫입니다. 창의적이면서도 의도적인 프롬프트를 많이 제공할 수록 더 독특하고 멋진 결과가 나올 가능성이 높아집니다. 따라서 단순히 장면을 모호하게 기술하는 것 뿐 만 아니라, 의도한 결과물을 얻을 수 있도록 충분히 정확한 명령을 내려야 하며, 시각적 연관성을 해칠 수 있는 과도한 복잡성은 피해야 합니다.
아래는 프롬프트를 쓸 때 고려해야할 핵심적인 사항입니다.
- 주제: 무엇을 표현할 것이가? (예: 로봇(robot), 버려진 집(an abandoned house), 마법에 걸린 숲의 정경(an enchanted forest scene) 등)
- 스타일 : 사진(photo), 만화(manga), 수채화(watercolor), 펙셀아트(pixel art), 스케치(pencil sketch), 디지털 아트(digital art) 등
- 분위기/톤 : 밝은(bright), 어두운(dark), 꿈결같은(dreamlike), 극적인(dramatic), 미래지형적(futuristic), 따뜻한(warm)
- 구도/프레임 : 클로즈업(close-up), 로우 앵글(low-angle), 탑 뷰(top view), 흐린 배경(background blur), 피사계 심도(depth of field) 등
- 색상 : 따뜻한 팔레트(warm palette), 파스텔 톤(pastel tone), 네온(neon), 흑백(black and white), 채도가 낮은(desaturated), 강한 대비(strong contrast) 등
이러한 요소를 결합하면 매우 명확한 프롬프트를 만들 수 있습니다.
![]() |
![]() |
A realistic portrait of a woman in the Italian Renaissance style, framed in close-up, with a calm gaze and an upright posture. Grazing golden light coming from the left, highlighting the volumes of the face and the textures of the fabric. A dark chiaroscuro background creates a solemn and silent atmosphere. A rich but restrained palette: pale gold, deep brown, and touches of carmine red. 이탈리아 르네상스 스타일의 사실적인 초상화로, 차분한 시선과 똑바로 선 자세로 클로즈업된 여성의 초상화. 왼쪽에서 스치는 황금빛 빛이 얼굴의 볼륨과 천의 질감을 강조합니다. 어두운 키아로스코 배경은 엄숙하고 조용한 분위기를 연출합니다. 풍부하지만 절제된 팔레트: 옅은 골드, 진한 갈색, 카민 레드 터치. | 90s cartoon-style cosmonaut cat standing proudly on the moon, arms outstretched in a heroic pose. Blue spacesuit with exaggerated patches, open helmet revealing his mischievous expression. Highly saturated colors, strong black outlines. Background: night sky filled with twinkling stars, planet Earth visible on the horizon. Style inspired by vintage cartoons like Animaniacs or Tiny Toons 90년대 만화 스타일의 우주비행사 고양이가 달에 당당히 서서 영웅적인 포즈로 두 팔을 뻗고 있습니다. 과장된 패치가 있는 파란색 우주복과 열린 헬멧으로 장난스러운 표정을 드러내고 있습니다. 채도가 높은 색상, 강한 검은색 윤곽선. 배경: 반짝이는 별들로 가득한 밤하늘, 수평선에 보이는 지구 행성. 애니매니악이나 타이니툰과 같은 빈티지 만화에서 영감을 받은 스타일 |
프롬프트가 너무 모호할 경우("이탈리아 르네상스 스타일의 여성")에는 일반적으로 설득력이 떨어지고 뚜렷하지 않은 결과를 초래합니다. 반대로 너무 장황하거나 모순되는 프롬프트를 넣으면, 일관성 없는 이미지가 생성됩니다. 정확성과 단순성 사이의 균형을 찾는 것이 매력적인 비주얼을 만들기 위한 최고의 전략입니다.
프롬프트 수정
맨 처음에 완벽히 원하는 결과를 얻는 것은 거의 불가능합니다. 하지만 ChatGPT 이미지 생성은 반복적으로 가능하며, 수정하라는 프롬프트를 넣어서 점차 원하는 결과를 만들어 갈 수 있습니다. 따라서 서두르지말고 시험해보고, 세부조정하시면 됩니다.
수정 프롬프트를 넣을 때 유의하여야 할 점은 아래와 같습니다.
- 프롬프트 재구성 : 정말로 중요한 요소(주 피사체, 분위기, 그래픽 스타일 등)을 강조할 것
- 과도한 설명 간소화 : 너무 복잡한 프롬프트는 시각적 메시지를 흐트리거나 혼란스러운 이미지를 생성할 수 있음
- 여러가지 변형을 시험 : 동일한 프롬프트를 약간 변화시켜서(예: 스타일, 조명, 촬영 각도 등을 바꿔서) 시험해 볼 것
- 제약사항의 추가 또는 삭제 : 너무 자세한 지시는 생성을 방해할 수 있고, 너무 모호한 지시는 관련없는 이미지가 생성될 수 있음
처음부터 완벽함을 추구하는 것보다, 점진적으로 탐색해 나가는 것이 창의성이 높고 진정으로 개인화된 결과물을 얻을 수 있는 가장 좋은 방법입니다.
⚠️ 반복 생성시 품질 저하 ChatGPT 이미지 생성은 시각적 자동 회귀 렌더링 모델이어서, 각각의 새로운 이미지는 이전의 문맥을 참고로하여 생성됩니다. 따라서 일관성있는 상호작용이 가능함으로써, 점진적으로 더 향상되거나 점진적으로 변화되는 이미지를 생성할 수 있습니다. 예를 들어, AI에게 악어를 그려달라고 요청하고나서 안경, 모자, 사이키 조명을 추가할 수 있습니다. 이렇게 하면 일관성, 연속성을 유지하면서도 이미지를 변화 발전시킬 수 있습니다. 하지만 이러한 문맥 기억은 한계가 있습니다. 반복적인 수정으로 인해 이미지 품질이 "저하"될 수 있다는 것입니다. 상세한 디테일이 뭉그러지거나, 색의 채도가 높아지거나(원색화), 캐릭터의 일관성이 깨지는 등의 문제가 나타날 수 있습이다. 이는 ChatGPT를 사용하여 대화를 길게 반복해나갈 때 발생하는, 모델이 "미끄러지기" 시작하여 정확도가 떨어지는 현상과 비슷합니다. 이럴때 가장 좋은 방법은 처음부터 다시 시작하는 것은 이미지 선명도와 자세함이 줄어들기 시작하면 현재 대화를 닫고 새로운 대화를 열어 새로 시작하는 것이 좋습니다. |
또한, 생성한 이미지의 특정 부분을 직접 수정할 수도 있습니다. 먼저 생성된 이미지를 클릭한 후, 오른 쪽 위에 있는 선택 버튼을 누르고, 수정하고자 하는 지역을 표시한 뒤 원하는 명령을 내리면 됩니다(참고: 제가 해보니 아래와 같이 명령을 내리면 여우가 앉아있는 탁자까지 지워버렸습니다. 범위를 좁게 선택하고, 선택된 부분만 지우라고 명령하는 게 좋을 것 같습니다). 그냥 지역을 명시하지 않고 "자켓 색을 빨간 색으로 바꿔줘", "에펠탑 둘레로 폭죽을 터뜨려줘", "화분에 꽃을 추가해줘"와 같이 명령을 내리셔도 됩니다.
![]() |
![]() |
이와 같이 문맥에 맞는 상호작용을 통해 전체 프롬프트를 다시 작성하지 않고도 원하는 부분을 수정할 수 있습니다. 따라서 나머지 구성을 유지하면서 세부 사항을 수정하고, 오류를 복구하고, 대비를 개선하거나 이미지의 한 부분에 새로운 객체를 추가할 수 있습니다.
기존 이미지 수정
ChatGPT는 이미지 생성 뿐만 아니라, 기존 이미지를 수정하는데도 사용할 수 있습니다.
ChatGPT 대화창 왼쪽에 있는 + 버튼을 눌러 이미지를 업로드한 뒤에는 이 이미지를 직접 편집할 수 있습니다. 그냥 원하는 수정 사항을 자연어로 명령하면 됩니다.
예를 들어 다음과 같은 작업이 가능합니다.
- 사람, 원하지 않는 물체나 로고, 워터마크 등 특정한 아이템을 삭제
- 배경을 완전히 다른 풍경, 텍스처, 실내풍경, 혹은 상상의 풍경으로 변경
- 텍스트, 인용문, 로고, 심볼, 빛 효과 등의 시각적 요소 추가
당신은 ChatGPT를 조수라고 생각하셔도 됩니다. 미켈란젤로가 벽화를 그릴 때 조수를 썼던 것 처럼요. ChatGPT는 여러분의 의도를 이해하여 수정사항을 적용하고, 즉시 시각적인 결과를 생성해줍니다. 따라서 그림에 잼뱅인 사람들, 포토샵을 모르는 사람들도 쉽고 효율적으로 원하는 결과물을 얻을 수 있습니다.
🔥 셀카 사진을 지브리 스타일로 바꾸기 GPT-4o가 처음 공개되었을 때, 가장 널리 바이럴을 탄 것은 실제 초상화나 셀카를 지브리 스튜디오 스타일의 캐릭터로 변환하는 기능이었습니다. 정말로 많은 사용자들이 이웃집 토토로나 센과 치히로의 행방불면에 나오는 시적이고 꿈꾸는 듯한 스타일로 자신의 얼굴을 변환해서 공유했었죠. 너무나 유행하는 바람에 샘 앨트만이 자제해 달라고 요청하는 글까지 올리기도 했습니다. ChatGPT는 이러한 변환을 매우 잘합니다. 사진을 올리고 원하는 그래픽 스타일을 지정하면 매우 식별 가능한 시각적 코드에 따라 선, 색, 장식을 재해석을 재 해석하여 새로운 이미지를 생성해주죠. 이 기능은 아바타를 만들거나, 개인 프로필 일러스트로 사용하거나, 그냥 자신을 애니메이션 세계 속에 밀어넣는 즐거움을 위해 해볼 수도 있습니다. 이 기법을 사용하는 방법은 ChatGPT를 사용하여 스타일 변경하기를 참고하세요. |
고급 기능
ChatGPT는 단순히 텍스트를 입력하면 이미지를 생성하는 단순한 기능 이상을 제공합니다. 일부 고급 기능은 초보자들이 생각하지 못했던 매우 구체적인 창의적 가능성을 제공합니다.
- 투명 배경 이미지 : 프롬프트에 명시적으로 지정하면(예: "transparent background for web logo(투명 배경의 웹용 로고)", "icon without background(배경이 없는 아이콘)" 등), 알파 채널이 추가된 PNG 파일을 얻을 수 있습니다. 이는 로고, 픽토그램(pictogram), 인터페이스 요소, 기타 중첩해서 사용해야 하는 이미지를 디자인하는데 특히 유용합니다.
- 텍스트 삽입 : GPT-4o는 기존 버전에 비해 텍스트 삽입 기능이 매우 향상되었습니다. 제목, 슬로건, 인용문, 기타 원하는 텍스트를 이미지에 추가해 달라고 요청할 수 있습니다. 폰트 등의 타이포그래피나 배치를 완벽하게 통제할 수는 없지만, 일반적인 썸네일이나 슬라이드, 소셜 게시물에 사용하기에는 충분한 결과물을 얻을 수 있습니다.
- 소셜 섬네일 등 : 일러스트와 텍스트가 통합된 "턴키" 이미지를 만들 수 있습니다. 원하는 장면을 설명하는 프롬프트와, 영감을 주는 인용문 또는 슬로건을 결합하여, 링크드인, 인스타그램, 핀터리스트와 같은 소셜미디어에 공유할 수 있는 이미지를 생성할 수 있습니다. 특히 편집물이나 게시물을 돋보이게 하는데 이상적입니다(저도 모든 게시물 앞에 이러한 이미지를 추가하고 있습니다).
- 주제에 대한 변형 : 룩이 마음에 들기는 하지만, 다른 대안을 찾고 싶다면 색상, 분위기, 계절, 조명, 위치 또는 감정의 변화를 반영한 다양한 변형을 요청할 수 있습니다. 이를 통해 동일한 아이디어에 대한 다양한 비주얼 또는 다양한 용도(예: 캐러셀, 시각적 A/B 테스트, 다국어 캠페인)에 필요한 일관된 이미지를 생성할 수 있습니다.
아직 부족한 기능
ChatGPT를 이용한 이미지 생성이 놀라울만한 능력을 보여주고 있지만, 아직도 몇가지 기술적, 실용적 한계가 있어서, 이를 이해하여야 좌절이나 불쾌함을 줄일 수 있습니다.
- 복잡한 디테일과 미세한 일관성 : 복잡하고 미세한 부분이 무작위로 모델링 되는 경향이 있습니다. 예를 들면 손이 기형이거나 손가락 수가 잘못되는 경우가 있습니다. 악기, 차량, 기어와 같은 기술적인 객체들이 왜곡되거나 일관성이 떨어질 수 있습니다. 마찬가지로 포스터, 간판 표지 등에 삽입된 긴 텍스트가 읽을 수 없거나 오타가 많이 들어가는 경우가 발생할 수 있습니다.
- 원근감 및 구도 : GPT-4o는 원근법을 완벽하게 따르지 못하고 있습니다. 객체간의 비율이 잘못되거나 시야각이 이상하거나 깊이를 잘못 렌더링하는 경우가 발생할 수 있습니다.
- 이미지 포맷 제한 : 정확한 종횡비를 얻기 힘들 수 있습니다. 종횡비 16:9, A4 세로 포스터 등과 같이 명시적으로 지정하더라도 치수가 일치하지 않는 경우가 훨씬 많습니다. 특정한 크기가 필요할 경우, 포토샵과 같은 도구를 사용하여 편집하시는 것이 좋습니다.
- 접근 제한 및 생성 시간 : 특히 무료 사용자의 경우 (사용량이 많은 시간에 특히) 대기시간이 길어집니다. 또한 생성할 수 있는 이미지의 수가 제한되어 있어, 여러가지 변형을 만들어보고자 할 때에는 사용하기가 힘들 수 있습니다. 그냥 테스트하거나 한두장 뽑아 보는 게 아니라, 전문적인 이미지가 필요하다면 Plus 계정으로 가입하시는 게 좋습니다.
- 노란색 틴트 : ChatGPTㄹ르 사용하여 이미지를 생성하면 노란색-주황색쪽이 지배적으로 나타나는 경향이 있습니다. 따라서 편집 소프트웨어를 사용하여 색상을 수정하거나 이미지를 생성할 때 "cold and blue tone(차갑고 푸른 톤)" 혹은 "neutral natural light(중성 자연광)" 등을 지정해서 생성하는 것이 좋습니다.
결론
GPT-4o는 이미지 생성 인공지능 분야에 새로운 길을 열었습니다. 누구나 쉽게 접근할 수 있고, 바쁘며, 대화식으로 운영가능한 도구입니다. 이 도구는 여러분의 아이디어를 시각적으로 변화시킬 수 있는 강력한 도구입니다. 이 도구를 사용하면 메시지를 정제하고, 스타일을 시험해보고 불과 몇분만에 컨셉을 현실화 시킬 수 있습니다.
이 도구는 그래픽 전문가들을 대신할 수 없습니다. 하지만 누구나 쉽게 시험할 수 있고 기술이 없는 사람들도 보다 유연하게 보다 자동화하여 그래픽을 도구화할 수 있게 되었습니다.
이제 시험하고, 연구하고 발견해보세요. 첫 프롬프트를 실행해서 이미지를 생성하고, 그 이미지를 편집하고, 기대하지 않았던 새로운 스타일을 탐험해 보세요. GPT-4o의 잠재적인 창의성을 실현하는 것은 많은 연습을 통해 이룰 수 있습니다.
이상입니다.
이 글은 stablediffuision.blog의 글을 참고로하여 작성했습니다.
민, 푸른하늘