이미지 공유 사이트로 유명한 Freepik에서 이미지 생성 AI 개발자 플랫폼을 운영하는 Fal.ai와 함께 F Lite라고 하는 텍스트-이미지 (Text-to-Image) 생성모델을 개발하고 오픈소스로 공개했습니다. 자세한 내용은 Freepik 블로그의 공지를 보시면 됩니다.
얼마전에도 Seedream이 공개되었고, HiDream, Ideogram, Reve 등 수많은 텍스트-이미지 모델이 공개되었는데, 오픈소스로는 Flux 이후 처음인 듯 싶습니다(Janus Pro 도 있기는 하지만 품질이 워낙 개판이라...).
이번에 공개된 F Lite는 무엇보다, Freepik의 스톡 라이브러리(stock library)에 올려져 있는 고품질이고 법적으로 문제 없으며 저작권문제에서 안전한 이미지만을 사용하여 학습되었다는 것이 특징입니다. 대부분의 이미지 생성 모델은 가능한 한 많은 이미지(대략 10 장 이상)를 학습 데이터로 사용하는데, F Lite의 경우에는 8천만장의 이미지를 사용하였습니다. 즉, F Lite는 법적으로 안전한 콘텐츠만을 사용해 학습된 모델 중에는 가장 큰 텍스트-이미지 모델이라고 할 수 있습니다.
F Lite의 특징
F Lite는 DiT(Diffusion Transformer)를 기반으로 하며, 100억개의 파라미터를 가지고 있어 생성되는 이미지의 품질이 매우 뛰어나다고 합니다. 64대의 H100 GPU를 두 달동안 작동하여 학습시켰기 때문에 기존의 모델에 비해 컴퓨팅 자원은 적게 소모하였음에도 다른 어떤 모델에 못지않는 품질을 가지고 있다고 자신하네요. 물론 오픈소스로 공개되었으므로, 오픈소스 커뮤니티에서 더 미세조정(Fine Tuning)을 통해 품질이 올라갈 수 있고요.
F Lite는 다양한 고품질 이미지를 생성할 수 있는데, 그중에서도 학습데이터의 성질에 따라 일러스트레이션 및 벡터 스타일에서 강점을 나타낸다고 합니다. 다만, 첫번째 버전인 만큼 아래와 같은 단점이 나타날 수 있다고 합니다.
- 사실적인 사진에서 아주 세밀한 텍스처를 묘사하지 못하는 경우가 있음
- 복잡한 구도 혹은 인체 묘사에서 결함 발생 가능
- SD 1.x 에서 사용했던 짧고 콤마로 분리된 프롬프트에서는 좋지 못한 결과물이 생성될 수 있음. 길고 설명적인 프롬프트가 더 좋은 성능을 발휘함
- 텍스트 렌더링이 잘 안됨
F Lite 에 관한 좀 더 자세한 사항은 F Lite 기술 레포트를 참고하시면 됩니다.
F Lite 모델의 종류
Freepik에서는 두가지 종류의 F Lite 모델을 공개했습니다. F Lige Regular는 일반적인 용도이고, F Lite Textured는 미적인 품질이 높고 텍스처가 풍부해서 자세하고 설명적인 프롬프트에 적합하다고 합니다. 위에서 F Lite는 일러스트레이션 및 벡터 스타일이 잘 나온다고 했는데, 이건 F Lite Regular에 해당하고, F Lite Textured는 사실적인 사진에 적합하다고 보면 될 것 같습니다.
이들 모델은 아래의 Hugging Face에서 다운로드 받을 수 있습니다.
- F Lite Regular : https://huggingface.co/Freepik/F-Lite
- F Lite Texture : https://huggingface.co/Freepik/F-Lite-Texture
F Lite 테스트 방법
F Lite 모델을 사용하기 위한 코드도 https://huggingface.co/Freepik/F-Lite 에 오픈 소스로 공개되어 있습니다.
그리고 여기에 들어가시면 ComfyUI용 워크플로도 공개했습니다. 그런데... 어디를 봐도 f-lite 노드가 안보입니다. 커스톰 노드를 찾아봐도 없고, ComfyUI core에도 없고요. 다음 버전을 기다려봐야 할 것 같습니다.
설치 없이 그냥 테스트해보고 싶으시면 아래 사이트를 방문하시면 됩니다.
- F Lite Regular : https://huggingface.co/spaces/Freepik/F-Lite 또는 Fal.ai
- F Lite Texture : https://huggingface.co/spaces/Freepik/F-Lite-Texture 또는 Fal.ai
F Lite에 대한 반응
무엇보다 F Lite가 라이선스 걱정 없이 자유롭게 사용할 수 있다는 점에서 호평을 받고 있는 것 같습니다. 그리고 써보신 분들에 따르면 시각적인 품질 및 스타일(사진, 일러스트레이션, 3D, 카툰 등)의 다양성에서 괜찮은 평가를 받고 있는 것 같습니다. 그런데 본문에서 지적한 것처럼 질적으로 완벽하지 않은 결과가 나와서 아직까지는 그다지 쓸만하지 못하다.... Flux, Midjourney, ChatGPT, Imagen 3 등 보다 못하다는 이야기가 있네요.
그런데... 발표된지 사흘인데... 아직까지 텍스트-이미지 리더보드에는 등장하지 않고 있습니다. 여전히 GPT-4o가 1등을 유지하고 있고요. 너무 성급하지 않나... 하는 생각도 드는데, 이건 좀 더 기다려봐야 할 듯 싶네요.
이상입니다.
이 글은 StableDiffusion.blog의 글과 F Lite 공지 글 참고로 작성하였습니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기