AI 이미지/AI 기타

ChatGPT4에서 DALL-E 3 사용해 보기

하늘이푸른오늘 2024. 2. 4. 15:33

얼마전에 마이크로소프트 CoPilot에서 DALL-E 3 를 사용해본 글을 올렸습니다. DALL-E 3 는 특히 프롬프트를 이해하고 따르는 능력이 매우 좋다는 장점이 있고, 이미지를 수정하는 기능이 없고 크기를 변경할 수 없다는 점이 단점이 있다고 말씀드렸습니다. 하지만 Copilot에서는 무료로 사용할 수 있는 장점이 있죠.

이번에는 유료(한달에 20달러)인 ChatGPT 4에서 DALL-E 3를 테스트해보겠습니다. 제가 하는 일 때문에 한달간 유료 결재를 했거든요. 사실 ChatGPT 4를 계속 사용한다면야 한달 20달러가 그다지 비싸다고는 생각하지 않습니다. 하지만 개인적으로 사용하는 입장에서는 그냥 아깝죠. 

테스트 방법은 예전 글에서 사용한 프롬프트를 재활용해서 비교하는 방식입니다. 그런데 제목 보시면 아시겠지만, DALL-E 3를 사용하는 방법이 여러가지다 보니, 모두 다 해보지는 않았습니다. 참고하세요.

ChatGPT에서 DALL-E 3를 사용하는 방법

ChatGPT 4에서 DALL_E를 사용하는 방법은 여러가지가 있습니다. 첫번째는 기본화면에서 이미지를 생성하는 방법입니다. 즉, 아래와 같이 ChatGPT 4화면에서 그냥 어떤 그림을 그려달라고 하면 ChatGPT가 알아서 그림을 그려줍니다. 물론 내부적으로는 DALL_E 3에서 그림을 그리겠죠.

다른 방법은 ChatGPT 메뉴에서 Explore GPTs  라고 되어 있는 부분을 누르고 들어가서...

맞춤형 ChatGPT 버전(custom versions of ChatGPT)에서 DALL-E 를 찾아 실행하는 방법입니다. 일반적으로 DALL-E 3라고 하면 바로 여기서 실행하는 것을 말합니다.

그리고 이 바로 아래에 보면, DALL-E 의 응용서비스 들도 있습니다. 

이 글에서는 첫번째와 두번째 방법을 위주로 설명드리겠습니다.

ChatGPT4 기본 화면에서 이미지 생성하기

기본 그리기

우선 ChatGPT 4에서 "모자 쓴 고양이"를 그려달라고 요청했습니다. 아래 그림처럼 "모자 쓴 고양이를 그려줘"라고 입력을 하면,"Creating images"라고 나오고, 잠시후 아래와 같은 이미지를 생성해줍니다.

CoPilot에서는 4장을 생성하는 게 기본인데 ChatGPT 4 기본화면에서는 한장만 그려주네요. 그래서 "모자 쓴 고양이 그림을 4장 생성해줘"라고 바꿔봤습니다. 그랬더니.... 아래와 같이 한번에 한장씩만 생성할 수 있다는 메시지가 뜨네요. 물론 "다시 그려줘"라고 명령을 내리면 새로운 그림을 그려줍니다.

다음으로 "자동차가 달리고 있는 강변도로 옆에 있는 많은 사람들이 쉬고 있는 공원을 그려줘"라고 입력해 봤습니다. 계속 다시 그려줘라고 입력하려니 상당히 귀찮네요. 어쨌든 아래 그림과 같이 아주 잘 그려줍니다. 사실 이 이런 현실적인(세상 어딘가에 있을 법한) 이미지는 스테이블 디퓨전을 써도 잘 그려집니다.

다음은 초현실적인 그림 "바닷가에서 요가하는 퍼그" 그림입니다. 당연히 다시 그려달라고 했습니다.

길고 복잡한 프롬프트

이번엔 "강변 공원에서 외계인들과 함께 춤을 추고 있는 아름다운 아가씨가 있어. 뒤쪽으로는 많은 관객들이 박수를 치면서 구경하고 있고, 하늘에는 비행접시가 떠있어. 강에는 유람선이 떠있어. 이 광경을 그림으로 그려줘"라고 입력한 결과입니다. 첫번째는 그냥, 두번째는 사실적 스타일을 지정해서 생성했습니다.

예전 글에서 말씀드린 것처럼, DALL-E 3는 이렇게 길고 복잡한 프롬프트를 잘 이해하고 잘 따라서 그린다는 것을 알 수 있습니다.

다시 한번 "슈퍼히어로 옷을 입고 있는 귀여운 푸들 강아지. 옷의 가운데에 배트맨 마크를 달고 있다. 푸들은 당당한 포즈를 취하고 있다. 뒷 배경에 "BOOM!!"이라는 폭발 문자가 보인다. 그려줘"라는 명령을 입력해 봤습니다. 세번째 사진은 "배경을 어둡게 해서 다시 생성해줘"라고 입력해서 나온 결과인데, 잘 먹네요. 그런데 맨 마지막은 그냥 하나더 생성해 달라고 했는데 배경이 더 어두워졌네요. ㅠㅠ

아이디어 탐구용 그림

예전 글과 마찬가지로 "태양광 발전으로 지구의 환경 문제가 해결될 것이라는 전망을 담은 일러스트레이션을 그리고 싶어. 여러가지 아이디어를 담아서 표현해줘"라고 지시해 봤습니다. 흠... 예전 보다 훨씬 낫네요. 그리고 설명도 간결하게 잘 생성되었습니다.

이 글을 작성하다가 갑자기 생각나서... "악동뮤지션 작별인사라는 노래의 가사에 어울리는 그림을 그려줘"라고 입력해 봤습니다. 나쁘진 않은데, 정말 가사까지 고려해서 생성했는지는 좀 의심스럽네요. 

그래서... 1절 가사인 "떠날 때 창틀에 화분이 비었길래/뒤 뜰의 꽃을 옮겨 담았어요 제라늄 꽃을/떠날 때 책장에 먼지가 쌓였길래/책 하나 속에 꽂아두었어요 짧은 편지를//정든 찻잔도 색이 바랜 벽지도/흔적이 힘들어서 바꾸지 말아요/내 마음에도 같은 것들을 남긴 것처럼" 를 복사해서 어울리는 이미지를 생성해 달라고 해봤습니다. 그랬더니 아래처럼 생성해 줬네요. 오른쪽이 가사와 비슷한 것 같기는 하고... 꽃이 제라늄과 다른 것 같기는해도 쓸쓸한 기분까지 잘 표현되어 있네요.

내친 김에 아래는 2절 가사로 생성해 본 결과입니다. 두번째는 가사를 없애고 새로 그려달라고 그런겁니다.

기본 화면에서 그리기 평가

이상에서 본 것처럼, ChatGPT4 기본 화면에서도 원하는 이미지를 잘 생성해줍니다. 긴 프롬프트도 잘 이해하고요. 그런데 기본 이미지가 1:1 이미지라는 점이 좀 아쉽고, 한번에 한개씩만 생성되는 것은 너무나도 아쉽네요. 이미지 크기를 바꿀 수도 있긴 하지만, 완전히 다른 이미지가 만들어진다는 점 참고하세요.

맞춤형 ChatGPT 버전 DALL-E 3에서 이미지 생성하기

시작하는 방법

맞춤형 ChatGPT버전이란, ChatGPT 4 메뉴에서 아래의 [Explore GPTs]를 클릭하고

OpenAI 사에서 직접 만든(ChatGPT에서 만든) 맞춤형 ChatGPT에서 DALL_E를 실행시키는 방법입니다. 이렇게 실행하는 것이 일반적으로 DALL-E 3를 사용한다고 할 수 있습니다.

이 아이콘을 클릭하면 아래와 같이 DALL-E가 실행됩니다. 로고 빼고는 ChatGPT 나 다름 없어 보입니다.

기본 그리기

이미지를 생성해 보겠습니다. 맨먼저 바닷가에서 요가하는 퍼그를 피카소 스타일로 그려달라고 하니, 아래처럼 생성하지 못한다고 나왔습니다. 최신작품이 1912년 이후에 나왔다면 막혀있답니다.

그래서 입체주의 스타일로 그려달라고 했더니 아래와 같은 결과가 나왔습니다. 일단 2장이 생성되었네요. 좀 낫습니다. 그런데 여기도 1:1로 생성하는 군요. 이상하네요. 원래 landscape 로 나오는 게 기본이거든요.

그래서 "자동차가 달리고 있는 강변도로 옆에 있는 많은 사람들이 쉬고 있는 공원을 그려줘"로 시도해 봤습니다. 보시는 것처럼 가로로 넓은 이미지가 기본으로 생성됩니다. 1792x1024 크기네요. 흠... 

어쨌든 잘 그려집니다. 

다음으로 "강변 공원에서 외계인들과 함께 춤을 추고 있는 아름다운 아가씨가 있어. 뒤쪽으로는 많은 관객들이 박수를 치면서 구경하고 있고, 하늘에는 비행접시가 떠있어. 강에는 유람선이 떠있어. 이 광경을 사이버네틱 스타일로 그려줘"라고 입력했습니다. 물론 잘 그려집니다.

한번 더. "하늘에서 돈이 내린다면"을 초현실주의 스타일로 종횡비가 3:2 인 그림으로 그려줘"라고 한 결과입니다. 그런데... 종횡비 3:2는 잘 이해를 못하네요. 생성된 이미지는 1792x1024입니다. 원래 3:2 라면 1536x1024가 되어야 하는데 말이죠.

또한번 " 하늘에서 돈이 내린다면, 동양화 스타일, ar 3:2"로 입력했는데 여전히 그림 크기는 못맞추는 군요.

여기까지 테스트에서 알 수 있는 것처럼, 종횡비 잘못 맞추는 것 뺴고는 달리3가 일반적인 그림을 그리는데는 아주 좋습니다.

이미지 이해하기

DALL_E 3 는 이미지를 업로드한 다음 이를 사용해서 명령을 내리는 게 가능합니다. 아래는 제가 그림을 올리고 설명해달라고 한 결과입니다. 보시면 정말 잘 이미지를 잘 이해하고 해설한다는 것을 알 수 있습니다. 

이렇게 그림을 올린 후, "이 그림과 비슷한 그림을 사실적인 사진 스타일로 생성해줘"라고 입력해서 얻은 결과입니다. 잘 만들어주네요.

아래는 다른 그림으로 테스트해본 결과입니다. 맨 왼쪽이 원본입니다. 그림 해설에서는 "이 이미지는 한 여성과 그녀의 강아지를 묘사한 회화 작품입니다. 여성은 검은색 복장에 검은 모자를 쓰고 있으며, 약간 슬픔이 느껴지는 표정으로 옆을 바라보고 있습니다. 그녀의 팔에는 솜털 같은 흰색의 강아지가 편안하게 안겨있으며, 강아지는 관객을 향해 눈을 뜨고 있어 호기심이 느껴집니다. 이 작품은 두 주제의 친밀함과 조화를 강조하며, 노란색과 검은색의 대비가 돋보이는 배경이 인상적입니다. 화가의 붓질은 대담하고 자유롭게 표현되어 있으며, 특히 강아지의 털과 여성의 옷감의 질감이 잘 묘사되어 있습니다. 이 작품은 인상파 화풍을 연상시키는 터치와 색감 사용으로, 감정과 분위기 전달에 중점을 둔 것으로 보입니다."라고 나오네요. 작품해설 기가 막힙니다.

그런데 4:5 portrait 비율로 출력해 달라했는데 종횡비를 못맞추는 건 여전합니다.  "Here are two portrait-style images in a 4:5 aspect ratio, featuring a woman in a black dress and hat with a small, fluffy white dog." 이렇게 4:5 스타일이라고 해놓고선 실제로는 1:1 그림만 생성합니다.

이 기능은 제가 예전 글에 적었던 것처럼 Copilot에서는 작동이 안됐었습니다. 그런데 여기에선 잘 작동되니 기분이 좋네요.

DALL-E 응용에서 이미지 생성하기

시작하는 방법

DALL-E 응용이란, ChatGPT 4 메뉴에서 아래의 [Explore GPTs]를 클릭하고

아래 그림과 같이 DALL-E 항목에 나오는 응용을 실행하는 것을 말합니다. 이들은 일반적인, 아무 이미지나 생성할 수 있는 DALL-E 와는 달리, 좀더 구체적인 분야에 적용된 응용으로, 아래에 보시는 것처럼, 로고 생성, 타투 생성 등 여러가지가 있습니다. 이 응용들은 OpenAI가 생성한 것이 아니라, OpenAI가 제공하는 API를 사용해 제3자가 개발된 응용입니다.

로고 생성기라니 재미있네요. 그래서 한번 시도를 해봤습니다. 이 블로그의 제목인 "공간정보와 인터넷 지도"에 대한 로고를 만들어 달라고 했는데, 바로 생성하는 게 아니라 여러가지 질문을 하네요. 저는 적당히 했는데, 첫문제에서 마지막 옵션을 선택하면 그냥 알아서 생성해줍니다.

  • 로고 스타일 - vibrant(생기넘치는)/ neutral(중립)/serious(진지한)/질문 스킵하고 자유생성
  • 단순한 정도 - 1은 매우 단순, 10은 매우 복잡
  • 색채 - Blue and White/Green and Yellow/Red and Black/Custom palette
  • 갯수 - 1개 또는 9개

아래는 제가 생성해본 결과입니다. 양쪽다 모두 마음에 들지는 않는데...(약간 복잡하고 색이 너무 많네요)

"너무 색이 많고 복잡해. 단순하게 만들어줘"라고 명령을 내리기 아래와 같이 나왔습니다. 그래도 제 마음에 드는 건 없는데, 그래도 여러번 해보면 괜찮은 게 나오지 않을까 싶기도 하네요.

Cartoonize Yourself

이번엔 사진을 올리면 Pixar 스타일의 카툰 스타일로 바꿔주는 서비스입니다. 사진을 올리고 적절한 스타일을 지정해주면 됩니다. 아래는 박은빈님 사진을 "Pixar 스타일로 만들어줘"라고 한 결과입니다. 뭐... 얼굴이 전혀 다른 사람이 되어서... ㅠㅠ

한번 더 해보겠습니다. 이번엔 김뢰하님입니다.

두 경우 모두, 얼굴은 너무 다른 사람으로 나옵니다. 픽사 스타일이니 어쩔 수 없을 것 같다... 는 느낌이고, 대신 옷이나 머리 스타일, 자세 등은 비슷하게 연출하네요.

이 서비스가 좋은 점은 DALL-E 3의 경우 픽사/디즈니/지브리 등 저작권이 있는 회사 제품 이미지는 생성할 수 없는데, 이 서비스는 가능하다는 점입니다. 물론 Pixar만 가능하니... 그건 좀 아쉽네요. ㅠㅠ

머... 기타 여러가지 서비스가 있지만, 생략하겠습니다. 이상입니다.

민, 푸른하늘

====