[정리] Generative AI 발전 : GPT와 Diffusion 중심으로

Generative AI 분야가 급격하게 발전하고 있습니다. 어떤 방향으로 성장되는지 파악하고자, 발전 History를 정리해보았습니다. 지속적으로 업데이트 해보겠습니다. (마지막 업데이트 : 2024.02.16)

Text Generation	Date	Image (+Video/3D) Generation
Gemini 1.5 (Google Deepmind) - 토큰 길이 확장 : 32,768->1,000,000 token	2024.02	Sora (OpenAI) - Text-to-Video Stable Cascade (Stability AI) - 모델 경량화+속도개선. SD1.5 대비 cost 절감 16배 Lumiere (Google) - Text-to-Video / Image-to-Video / Stylization
GPTStore (OpenAI) - 개인이 학습한 GPT를 거래하는 플랫폼	2024.01
Gemini 1.0 (Google Deepmind) - Multimodal(text/image/video/audio) 입력 LLM	2023.12	VideoPot (Google) - Text-to-Video / Image-to-Video / Video-to-Audio - Video Editting / Stylization / Inpainting Imagen2 (Google) - Text+Image 입력기능 - Visual Question and Answering 기능 - Inpainting + Outpainting 기능 Midjourney v6 (Midjourney) - 장문의 prompt 지원 Stable Video Diffusion (Stability AI) - Image-to-Video 모델 Stable Zero123 (Stability AI) - Text-to-3D / Image-to-3D 모델
GPT-4 Turbo (OpenAI) - Text-to-speech 기능 추가 - 토큰 길이 확장 : 32,000->128,000 token GPTs (OpenAI) - 특정목적에 맞게 GPT Customizing Tool	2023.11	Pika (Pika) - Text-to-Video - Video Editting / Stylization / Inpainting SD XL Turbo (Stability AI) - 속도 개선 : Diffusion Process 50 step -> 4step Stable Video Diffusion (Stability AI) - Text-to-Video 모델
	2023.10	ChatGPT Plus에 DALL-E3 적용 (OpenAI) Microsft Bing에 DALL-E3 적용 (MS + OpenAI)
	2023.08	DALL-E3 (OpenAI) - 프롬프트 이해능력 향상
Llama2 (Meta) - 토큰 길이 확장 : 2,048->4,096 token - 상업적 사용가능한 무료 오픈소스로 공개	2023.07	Stable Diffusion XL 1.0 (Stability AI) - Custom데이터를 fine-tuning하기 용이 - 생성 결과물로 읽을 수 있는 text이미지를 생성 - SD2.0이 아닌 SD1.5를 fine-tuning - 해상도 향상 : 512x512 -> 1024x1024
GPT-4 (OpenAI) = ChatGPT Plus [유료] - 이미지 입력 기능 추가 - 더 빠른 연산속도 - 모델 크기 확장 : 175B->175T - 토큰 길이 확장 : 4,096->32,000 token BARD (Google) - Google의 LLM	2023.03	Microsoft Bing에 DALL-E 적용 (OpenAI) - DALL-E Version공개 되지 않음
Llama (Meta) - Meta의 LLM	2023.02
ChatGPT (OpenAI) [무료] - GPT 최초로 서비스 시작 - GPT3.5 Turbo 모델 (=실시간 서비스용 모델)	2022.11	Stable Diffusion 2.0 (Stability AI) - Text Encoder변경 : CLIP -> OpenCLIP - 해상도 향상 : 512x512 -> 786x786 - Depth-to-Image 기능 추가 - x4 upscaling 기능 추가 - Text-guided inpainting model 기능 추가
	2022.10	Stable Diffusion 1.5 (Runway ML) - Inpainting기능 추가
	2022.08	Stable Diffusion 1.4 서비스 공개 (Stability AI) - -
	2022.07	Midjourney (Midjourney) - Discord기반 Text-to-Image 서비스 DALL-E2 beta 서비스 공개 (OpenAI) - 모델 크기 : 4.6B
	2022.05	Imagen (Google) - CLIP-guided diffusion 모델
	2022.04	DALL-E2 (OpenAI) - CLIP-guided Diffusion 모델 - 해상도 256x256 -> 1024x1024
GPT-3.5 (OpenAI) - GPT3 + InstructGPT - 토큰 길이 확장 : 2,048->4,096 token InstructGPT (OpenAI) - 간단한 지시문으로 텍스트 생성 - 명령어로 fine-tuning (=RLHF:피드백 기반 강화학습)	2022.03
	2021.12	Stable Diffusion (뮌헨 대학 저서 / StabilityAI+RunwayML투자) - Text/bounding box guided 이미지 생성 모델 - CLIP, UNet, VAE로 구성 - 모델 크기 : 0.98B GLIDE (OpenAI) - CLIP-guided Diffusion 모델
Codex (OpenAI) - 코드 생성 모델	2021.08
	2021.01	CLIP (OpenAI) - Text-Image 거리 모델 DALE-E (OpenAI) [유료] - VAE기반 CLIP-guided Diffusion 모델 - GPT3와 연동됨
	2020.10	Vision Transformer (Google) - Transformer사용한 CNN모델
GPT-3 (OpenAI) - 긴문장 (약 2048token=1500단어) 처리 - 특정 Task를 수행 할 수 있는 조건이나 예시 입력 필요 - 모델 크기 확장 : 1.5->175B - 데이터 크기 확장 : 40->600GB	2020.06
GPT-2 (OpenAI) - 독해, 번역, 요약, Q&A등에서 성능 향상 - 모델 크기 확장 : 0.117->1.5B - 데이터 크기 확장 : 4->40GB	2019.02
BERT (Google) - 구글의 LLM - Pretraining-finetuning 기법 사용	2018.10
GPT (OpenAI) - OpenAI의 첫 LLM - Pretraining-finetuning 패러다임 시작	2018.06
Transformer (Google) - 중요도 판단 시계열 예측 모델 - LLM의 시초	2017.08
	2016.11	CGAN = Pix2Pix (Berkeley대학) - Image-to-Image 모델
	2015	Diffusion - Denosing 모델 UNet - Fully-Convolution Netowrk 모델 - Image Segmentation Task용도로 최초 제안됨
	2014	GAN - Adversial Process 모델
	2013	VAE - Encoding - Decoding 모델
RNN - 시계열 예측 모델	1986
	1980	CNN - 이미지 Process 모델

BingChat (Dall-E3)에서 Text Prompt "ChatGPT와 Image Generation를 표현하는 미래지향적인 이미지를 생성해줘"

기타 서비스

서비스	설명
screenshot-to-code - image-to-code	screenshot 찍으면 html code로 변환
heygen - video-to-translated video	다른 언어로 번역한 영상 생성
freeflo - image-text prompt searching	이미지를 검색 후 text prompt를 획득
suno.ai - text-to-song	prompt한 text의 의미를 가진 가사와 노래 생성
microsoft-365-copilot - document-to-document	MS Office 제품(Word, PowerPoint, Excel) 사용 보조 AI툴

퍼가실 때 아래 출처만 명시하면 될텐데, 가능하다면 본 블로그도 명시 부탁드립니다!!

출처

Research Google : https://blog.research.google/

- Lumiere : https://lumiere-video.github.io/
- Imagen : https://imagen.research.google/

- VideoPot : https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

Deepmind Google : https://deepmind.google/discover/blog/

- Gemini1.5 : https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

- Gemini1.0 : https://blog.google/technology/ai/google-gemini-ai/#sundar-note

- Imagen2 : https://deepmind.google/technologies/imagen-2/

StabilityAI : https://stability.ai/news

- Stable Cascade : https://stability.ai/news/introducing-stable-cascade
- Image-to-video : https://stability.ai/news/stable-video-diffusion-open-ai-video-model

- Text-to-3D : https://stability.ai/news/stable-zero123-3d-generation

- Stable Diffusion SD XL Turbo : https://stability.ai/news/stability-ai-sdxl-turbo

Midjourney : https://mid-journey.ai/blog/

Bing : https://blogs.bing.com/search/

- DALLE3 - Bing : https://blogs.bing.com/search/october-2023/DALL-E-3-now-available-in-Bing-Chat-and-Bing-com-create-for-free

OpenAI : https://openai.com/blog

- SORA : https://openai.com/sora

- GPTStore : https://openai.com/blog/introducing-the-gpt-store

- GPT-4 Turbo : https://openai.com/blog/new-models-and-developer-products-announced-at-devday

- GPTs : https://openai.com/blog/introducing-gpts

- DALL-E3 - ChatGPT : https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

- DALL-E3 : https://openai.com/dall-e-3

- DALL-E2 : https://openai.com/dall-e-2

- DALL-E : https://openai.com/research/dall-e

- GPT-4 : https://openai.com/gpt-4

- OpenAI API : https://platform.openai.com/docs/models

News

- Bing-DALL-E : https://techcrunch.com/2023/03/21/microsoft-brings-openais-dall-e-image-creator-to-the-new-bing/

- GPT base vs 3.5 vs 4.0 : https://www.pluralsight.com/resources/blog/data/ai-gpt-models-differences

- GPT 3.5 : https://lablab.ai/tech/openai/gpt3-5

저작자표시 비영리 변경금지 (새창열림)

'AI Trends' 카테고리의 다른 글

[공유] NeRF 기술 트렌드 세미나 (0)	2023.12.19
[논문 정리] 3D Gaussian Splatting (3D-GS) 동향 (0)	2023.11.24
[논문 정리] NeRF 개선 방향 및 기술 동향 (5)	2022.10.10

xoft

[정리] Generative AI 발전 : GPT와 Diffusion 중심으로

출처

'AI Trends' 카테고리의 다른 글

댓글

티스토리툴바

[정리] Generative AI 발전 : GPT와 Diffusion 중심으로

출처

'AI Trends' 카테고리의 다른 글

관련글

댓글

티스토리툴바