이미지 생성 AI 스테이블 디퓨전, 알고 계신가요?
스테이블 디퓨전(Stable Diffusion)은 <Stability.ai> 사에서 2022년에 출시한 이미지 생성 AI 모델입니다. 텍스트 또는 이미지 프롬프트를 기반으로 새로운 이미지를 생성하거나 기존 이미지를 수정할 수 있는 아주, 아주, 아주 강력한 모델이라고 할 수 있으며 이미 예술, 영화, 게임 등 많은 업계에서 활용되고 있습니다. 미드저니(Midjourney), 달리(Dall-E) 같은 다른 이미지 생성 AI 서비스와 비견될 수 없을 정도로 뛰어난 효율성과 응용 가능성으로 인해 앞으로도 계속해서 발전할 것으로 예상됩니다.
그래서 차근히 스테이블 디퓨전에 대한 소개와 이를 활용하여 다양한 유형의 이미지를 제작하고 공유하는 콘텐츠를 정리해 볼까 합니다. 우선 이번 콘텐츠에서는 스테이블 디퓨전이 어떤 원리로 작동되는지, 중요한 개념은 무엇인지 알아보도록 하겠습니다.
스테이블 디퓨전 작동 원리
AI 이미지 생성이나 스테이블 디퓨전에 관심이 있으신 분들은 한번쯤 위와 같은 이미지를 접해보셨을 것입니다. 이는 잠재공간 속 디퓨전 및 노이즈 제거 메커니즘을 구조화시킨 이미지이며, 이러한 일련의 과정을 거쳐 유저가 원하는 이미지를 생성할 수 있게 되는 것입니다. 이것을 좀 더 단순화시켜보면 다음과 같습니다.
복잡한 매커니즘을 단순화시키면 위와 같이 정리해 볼 수 있습니다만, 여전히 쉽지 않은 것 같습니다. 그래서 반드시 알아야만 하는 개념 위주로 설명드리겠습니다.
스테이블 디퓨전 작동 원리에서 제일 중요한 개념은 바로 "노이즈"입니다. 만약 어떤 이미지에 노이즈를 점층적으로 적용하여 그 노이즈화 되는 단계를 학습할 수 있다면, 다시 그 학습을 바탕으로 노이즈를 단계별로 제거하여 해당 이미지를 복원하는 것 또한 가능하다는 것을 전제로 만들어진 생성형 AI이기 때문입니다.
다시 말해 노이즈(noise)란, 우리가 눈으로 볼 수 있는 픽셀 차원의 이미지를 AI 모델이 이해하고 학습할 수 있는 데이터로 변환하는 것을 의미하며 반대로 디노이징(denoising)이란, AI 모델의 잠재 공간에 집적되어 있는 데이터를 유저 컨디셔닝(conditioning)에 맞추어 다시 추론하여 새로운 이미지로 생성해 내는 과정을 뜻합니다.
스테이블 디퓨전이 미드저니와 같은 웹 기반의 서비스와 다른 점은, 다양한 스타일에 특화된 체크포인트(checkpoint) 모델들 직접 선택할 수 있다는 것이며, 여전히 Civitai 및 Huggingface와 같은 개발자 커뮤니티에 지속적으로 새로운 모델들이 업로드되고 있습니다. 그래서 같은 주제의 프롬프트일지라도 모델 세팅에 따라 전혀 다른 결과물을 생성할 수 있기에 그 가능성이 정말 무한하다고 말할 수 있습니다.
모델에 다른 이미지 생성 결과의 차이
그렇다면 간단한 이미지를 생성하여 모델 별 차이를 확인해 보겠습니다.
위 4장의 이미지는 텍스트 프롬프트와 더불어 이미지 생성 시 필요한 세부수치(ex. seed/ steps/ cfg/ etc)까지 모두 동일한 조건으로 세팅한 뒤, 체크포인트 모델만 달리 하여 생성하였습니다. 각 모델들의 결과물을 살펴보면, 모델 A는 2D 웹툰 스타일, 모델 B는 2.5D 느낌으로 생성되었습니다. 반면 모델 C와 D는 모두 실사 여성이지만 인종의 차이를 보이고 있습니다. 또한 각 이미지별 구도를 보면 모델 A와 B가 유성을 보이고 모델 C와 D가 유사성을 보입니다.
여기서 알 수 있는 사실은 각 모델마다 학습 데이터에 따라 다른 결과물이 나오지만 "그림"과 "실사"와 같은 상위 범주로 묶인 모델끼리 어느 정도 유사성을 보인다는 점입니다. 이는 각각의 특화 모델을 학습하는 과정에서 베이스가 되는 모델이 공유되었을 가능성이 있기 때문입니다. 모델 학습에 대한 이야기로 넘어가게 되면 더 더 더... 복잡할 것이니 스테이블 디퓨전 모델 학습 관련해서는 다음 기회에 다른 콘텐츠에서 좀 더 자세히 살펴보도록 하겠습니다.
이처럼 스테이블 디퓨전은 노이즈(noise)와 디노이즈(denoise) 과정을 거쳐 이미지를 생성하게 되며 그 중심에는 체크포인트(checkpoint) 모델이 있다는 것을 기억해 두시기 바랍니다. 또한 특정 모델을 선택하여 애니메이션, 실사, 디지털 아트, 코믹북, 판타지 등 원하는 스타일의 이미지를 생성할 수 있다는 점이 그 무엇보다 큰 장점이라 할 수 있겠습니다. 다만 각 모델마다 정해둔 라이선스 규정을 꼭 확인하고 사용하시기 바랍니다.
다음 콘텐츠에서는 스테이블 디퓨전 WebUI 중 ComfyUI와 그 사용법에 대해 간단히 소개할 예정입니다. ( _ _ )
'AI 제작 > Stable Diffusion' 카테고리의 다른 글
스테이블 디퓨전 4 - ComfyUI 필수 노드 및 특징 (1) | 2025.02.23 |
---|---|
스테이블 디퓨전 3 - CKPT 모델 (0) | 2025.02.18 |
스테이블 디퓨전 2 - ComfyUI 설치 방법 (2) | 2025.02.17 |