Visual Instruction Tuning

생성형 AI에 문장을 만들어 내는 text generation, 그림을 만들어 내는 image genration, 음성/음악을 만들어내는 wave generation이 있다. 그 중 이미지 생성에 관해서는 문장으로부터 이미지를 만들어 내는 text to image 알고리즘과 하나의 이미지로부터 다른 이미지를 만들어 내는 image to image 알고리즘, 그림으로부터 관련된 문장을 만들어 내는 image to text 알고리즘, 마지막으로 그림에 특정 부분을 생성해서 채워주는 Inpainting 알고리즘이 있다. 특히나 문장으로부터 이미지를 생성해 주는 알고리즘이 많은 연구가 진행되고 있는데, 가장 유명한 알고리즘 혹은 서비스로 Midjourney, Dall-E, Stable Diffusion 등이 있다. 이 글에서는 Stable Diffusion XL 알고리즘에 대해 배워보고 그 구성요소를 이해함으로써 어떻게 prompt를 만들어서 원하는 것에 가까운 결과를 얻을 수 있을지 이야기해 보자.

Sung-Cheol Kim

Visual Instruction Tuning

Share on

You May Also Enjoy

OCR for Korean language

What is OCR (Optical Character Recognition)?

Summary of prompt engineering for image generation

Summary of prompt engineering

Explain Stable Diffusion