본문 바로가기
AI Trends

[정리] Generative AI 발전 : GPT와 Diffusion 중심으로

by xoft 2024. 1. 1.

Generative AI 분야가 급격하게 발전하고 있습니다. 어떤 방향으로 성장되는지 파악하고자, 발전 History를 정리해보았습니다. 지속적으로 업데이트 해보겠습니다. (마지막 업데이트 : 2024.02.16)

 

Text Generation Date Image (+Video/3D) Generation
Gemini 1.5 (Google Deepmind)
- 토큰 길이 확장 : 32,768->1,000,000 token
2024.02 Sora (OpenAI)
- Text-to-Video

Stable Cascade (Stability AI)
- 모델 경량화+속도개선. SD1.5 대비 cost 절감 16배

Lumiere (Google)
- Text-to-Video / Image-to-Video / Stylization
GPTStore (OpenAI)
- 개인이 학습한 GPT를 거래하는 플랫폼
2024.01  
Gemini 1.0 (Google Deepmind)
- Multimodal(text/image/video/audio) 입력 LLM
2023.12 VideoPot (Google)
- Text-to-Video / Image-to-Video / Video-to-Audio
- Video Editting / Stylization / Inpainting

Imagen2 (Google)
- Text+Image 입력기능
- Visual Question and Answering 기능
- Inpainting + Outpainting 기능

Midjourney v6 (Midjourney)
- 장문의 prompt 지원

Stable Video Diffusion (Stability AI)
- Image-to-Video 모델

Stable Zero123 (Stability AI)
- Text-to-3D / Image-to-3D 모델
GPT-4 Turbo (OpenAI)
- Text-to-speech 기능 추가
- 토큰 길이 확장 : 32,000->128,000 token

GPTs (OpenAI)
- 특정목적에 맞게 GPT Customizing Tool
2023.11 Pika (Pika)
- Text-to-Video
- Video Editting / Stylization / Inpainting

SD XL Turbo
(Stability AI)
- 속도 개선 : Diffusion Process 50 step -> 4step

Stable Video Diffusion (Stability AI)
- Text-to-Video 모델
  2023.10 ChatGPT Plus에 DALL-E3 적용 (OpenAI)

Microsft Bing에 DALL-E3 적용 (MS + OpenAI)
  2023.08 DALL-E3 (OpenAI)
- 프롬프트 이해능력 향상
Llama2 (Meta)
- 토큰 길이 확장 : 2,048->4,096 token
- 상업적 사용가능한 무료 오픈소스로 공개
2023.07 Stable Diffusion  XL 1.0 (Stability AI)
- Custom데이터를 fine-tuning하기 용이
- 생성 결과물로 읽을 수 있는 text이미지를 생성
- SD2.0이 아닌 SD1.5를 fine-tuning
- 해상도 향상 : 512x512 -> 1024x1024
GPT-4 (OpenAI) = ChatGPT Plus [유료]
- 이미지 입력 기능 추가
- 더 빠른 연산속도
- 모델 크기 확장 : 175B->175T
- 토큰 길이 확장 : 4,096->32,000 token

BARD (Google)
- Google의 LLM
2023.03 Microsoft Bing에 DALL-E 적용 (OpenAI)
- DALL-E Version공개 되지 않음
Llama (Meta)
- Meta의 LLM
2023.02  
ChatGPT (OpenAI) [무료]
- GPT 최초로 서비스 시작
- GPT3.5 Turbo 모델 (=실시간 서비스용 모델)
2022.11 Stable Diffusion 2.0 (Stability AI)
- Text Encoder변경 : CLIP -> OpenCLIP
- 해상도 향상 : 512x512 -> 786x786
- Depth-to-Image 기능 추가
- x4 upscaling 기능 추가
- Text-guided inpainting model 기능 추가
  2022.10 Stable Diffusion 1.5 (Runway ML)
- Inpainting기능 추가
  2022.08 Stable Diffusion 1.4 서비스 공개 (Stability AI)
- - 
  2022.07 Midjourney (Midjourney)
- Discord기반 Text-to-Image 서비스

DALL-E2 beta 서비스 공개 (OpenAI)
- 모델 크기 : 4.6B
  2022.05 Imagen (Google)
- CLIP-guided diffusion 모델
  2022.04 DALL-E2 (OpenAI)
- CLIP-guided Diffusion 모델
- 해상도 256x256 -> 1024x1024
GPT-3.5 (OpenAI) 
- GPT3 + InstructGPT
- 토큰 길이 확장 : 2,048->4,096 token

InstructGPT (OpenAI)
- 간단한 지시문으로 텍스트 생성
- 명령어로 fine-tuning
   (=RLHF:피드백 기반 강화학습)
2022.03  
  2021.12 Stable Diffusion
(뮌헨 대학 저서 / StabilityAI+RunwayML투자)
- Text/bounding box guided 이미지 생성 모델
- CLIP, UNet, VAE로 구성
- 모델 크기 : 0.98B

GLIDE (OpenAI)
- CLIP-guided Diffusion 모델
Codex (OpenAI)
- 코드 생성 모델
2021.08  
  2021.01 CLIP (OpenAI)
- Text-Image 거리 모델

DALE-E (OpenAI) [유료]
- VAE기반 CLIP-guided Diffusion 모델
- GPT3와 연동됨
  2020.10 Vision Transformer (Google)
- Transformer사용한 CNN모델
GPT-3 (OpenAI)
- 긴문장 (약 2048token=1500단어) 처리
- 특정 Task를 수행 할 수 있는 조건이나 예시 입력 필요
- 모델 크기 확장 : 1.5->175B
- 데이터 크기 확장 : 40->600GB
2020.06  
GPT-2 (OpenAI)
- 독해, 번역, 요약, Q&A등에서 성능 향상
- 모델 크기 확장 : 0.117->1.5B
- 데이터 크기 확장 : 4->40GB
2019.02  
BERT (Google)
- 구글의 LLM
- Pretraining-finetuning 기법 사용
2018.10  
GPT (OpenAI)
- OpenAI의 첫 LLM
- Pretraining-finetuning 패러다임 시작
2018.06  
Transformer (Google)
- 중요도 판단 시계열 예측 모델
- LLM의 시초
2017.08  
  2016.11 CGAN = Pix2Pix (Berkeley대학)
- Image-to-Image 모델
  2015 Diffusion
- Denosing 모델

UNet
- Fully-Convolution Netowrk 모델
- Image Segmentation Task용도로 최초 제안됨
  2014 GAN
- Adversial Process 모델
  2013 VAE
- Encoding - Decoding 모델
RNN
- 시계열 예측 모델
1986  
  1980 CNN
- 이미지 Process 모델

 

 

 

 


 

BingChat (Dall-E3)에서 Text Prompt "ChatGPT와 Image Generation를 표현하는 미래지향적인 이미지를 생성해줘"

 

 

 

기타 서비스

서비스 설명
screenshot-to-code
- image-to-code
screenshot 찍으면 html code로 변환
heygen
- video-to-translated video
다른 언어로 번역한 영상 생성
freeflo
- image-text prompt searching
이미지를 검색 후 text prompt를 획득
suno.ai
- text-to-song
prompt한 text의 의미를 가진 가사와 노래 생성
microsoft-365-copilot
- document-to-document
MS Office 제품(Word, PowerPoint, Excel) 사용 보조 AI툴

 

 

 

 

 

퍼가실 때 아래 출처만 명시하면 될텐데, 가능하다면 본 블로그도 명시 부탁드립니다!!

 

 

출처

Research Google : https://blog.research.google/

- Lumiere : https://lumiere-video.github.io/
- Imagen : https://imagen.research.google/

- VideoPot : https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

Deepmind Google : https://deepmind.google/discover/blog/

- Gemini1.5 : https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

- Gemini1.0 : https://blog.google/technology/ai/google-gemini-ai/#sundar-note

- Imagen2 : https://deepmind.google/technologies/imagen-2/

StabilityAI : https://stability.ai/news

- Stable Cascade : https://stability.ai/news/introducing-stable-cascade
- Image-to-video : https://stability.ai/news/stable-video-diffusion-open-ai-video-model

- Text-to-3D : https://stability.ai/news/stable-zero123-3d-generation

- Stable Diffusion SD XL Turbo : https://stability.ai/news/stability-ai-sdxl-turbo

Midjourney : https://mid-journey.ai/blog/

Bing : https://blogs.bing.com/search/

- DALLE3 - Bing : https://blogs.bing.com/search/october-2023/DALL-E-3-now-available-in-Bing-Chat-and-Bing-com-create-for-free

OpenAI : https://openai.com/blog

- SORA : https://openai.com/sora

- GPTStore : https://openai.com/blog/introducing-the-gpt-store

- GPT-4 Turbo : https://openai.com/blog/new-models-and-developer-products-announced-at-devday

- GPTs : https://openai.com/blog/introducing-gpts

- DALL-E3 - ChatGPT : https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

- DALL-E3 : https://openai.com/dall-e-3

- DALL-E2 : https://openai.com/dall-e-2

- DALL-E : https://openai.com/research/dall-e

- GPT-4 : https://openai.com/gpt-4

- OpenAI API : https://platform.openai.com/docs/models

News

- Bing-DALL-E : https://techcrunch.com/2023/03/21/microsoft-brings-openais-dall-e-image-creator-to-the-new-bing/

- GPT base vs 3.5 vs 4.0 : https://www.pluralsight.com/resources/blog/data/ai-gpt-models-differences

- GPT 3.5 : https://lablab.ai/tech/openai/gpt3-5

 

댓글