Generative AI 분야가 급격하게 발전하고 있습니다. 어떤 방향으로 성장되는지 파악하고자, 발전 History를 정리해보았습니다. 지속적으로 업데이트 해보겠습니다. (마지막 업데이트 : 2024.02.16)
Text Generation | Date | Image (+Video/3D) Generation |
Gemini 1.5 (Google Deepmind) - 토큰 길이 확장 : 32,768->1,000,000 token |
2024.02 | Sora (OpenAI) - Text-to-Video Stable Cascade (Stability AI) - 모델 경량화+속도개선. SD1.5 대비 cost 절감 16배 Lumiere (Google) - Text-to-Video / Image-to-Video / Stylization |
GPTStore (OpenAI) - 개인이 학습한 GPT를 거래하는 플랫폼 |
2024.01 | |
Gemini 1.0 (Google Deepmind) - Multimodal(text/image/video/audio) 입력 LLM |
2023.12 | VideoPot (Google) - Text-to-Video / Image-to-Video / Video-to-Audio - Video Editting / Stylization / Inpainting Imagen2 (Google) - Text+Image 입력기능 - Visual Question and Answering 기능 - Inpainting + Outpainting 기능 Midjourney v6 (Midjourney) - 장문의 prompt 지원 Stable Video Diffusion (Stability AI) - Image-to-Video 모델 Stable Zero123 (Stability AI) - Text-to-3D / Image-to-3D 모델 |
GPT-4 Turbo (OpenAI) - Text-to-speech 기능 추가 - 토큰 길이 확장 : 32,000->128,000 token GPTs (OpenAI) - 특정목적에 맞게 GPT Customizing Tool |
2023.11 | Pika (Pika) - Text-to-Video - Video Editting / Stylization / Inpainting SD XL Turbo (Stability AI) - 속도 개선 : Diffusion Process 50 step -> 4step Stable Video Diffusion (Stability AI) - Text-to-Video 모델 |
2023.10 | ChatGPT Plus에 DALL-E3 적용 (OpenAI) Microsft Bing에 DALL-E3 적용 (MS + OpenAI) |
|
2023.08 | DALL-E3 (OpenAI) - 프롬프트 이해능력 향상 |
|
Llama2 (Meta) - 토큰 길이 확장 : 2,048->4,096 token - 상업적 사용가능한 무료 오픈소스로 공개 |
2023.07 | Stable Diffusion XL 1.0 (Stability AI) - Custom데이터를 fine-tuning하기 용이 - 생성 결과물로 읽을 수 있는 text이미지를 생성 - SD2.0이 아닌 SD1.5를 fine-tuning - 해상도 향상 : 512x512 -> 1024x1024 |
GPT-4 (OpenAI) = ChatGPT Plus [유료] - 이미지 입력 기능 추가 - 더 빠른 연산속도 - 모델 크기 확장 : 175B->175T - 토큰 길이 확장 : 4,096->32,000 token BARD (Google) - Google의 LLM |
2023.03 | Microsoft Bing에 DALL-E 적용 (OpenAI) - DALL-E Version공개 되지 않음 |
Llama (Meta) - Meta의 LLM |
2023.02 | |
ChatGPT (OpenAI) [무료] - GPT 최초로 서비스 시작 - GPT3.5 Turbo 모델 (=실시간 서비스용 모델) |
2022.11 | Stable Diffusion 2.0 (Stability AI) - Text Encoder변경 : CLIP -> OpenCLIP - 해상도 향상 : 512x512 -> 786x786 - Depth-to-Image 기능 추가 - x4 upscaling 기능 추가 - Text-guided inpainting model 기능 추가 |
2022.10 | Stable Diffusion 1.5 (Runway ML) - Inpainting기능 추가 |
|
2022.08 | Stable Diffusion 1.4 서비스 공개 (Stability AI) - - |
|
2022.07 | Midjourney (Midjourney) - Discord기반 Text-to-Image 서비스 DALL-E2 beta 서비스 공개 (OpenAI) - 모델 크기 : 4.6B |
|
2022.05 | Imagen (Google) - CLIP-guided diffusion 모델 |
|
2022.04 | DALL-E2 (OpenAI) - CLIP-guided Diffusion 모델 - 해상도 256x256 -> 1024x1024 |
|
GPT-3.5 (OpenAI) - GPT3 + InstructGPT - 토큰 길이 확장 : 2,048->4,096 token InstructGPT (OpenAI) - 간단한 지시문으로 텍스트 생성 - 명령어로 fine-tuning (=RLHF:피드백 기반 강화학습) |
2022.03 | |
2021.12 | Stable Diffusion (뮌헨 대학 저서 / StabilityAI+RunwayML투자) - Text/bounding box guided 이미지 생성 모델 - CLIP, UNet, VAE로 구성 - 모델 크기 : 0.98B GLIDE (OpenAI) - CLIP-guided Diffusion 모델 |
|
Codex (OpenAI) - 코드 생성 모델 |
2021.08 | |
2021.01 | CLIP (OpenAI) - Text-Image 거리 모델 DALE-E (OpenAI) [유료] - VAE기반 CLIP-guided Diffusion 모델 - GPT3와 연동됨 |
|
2020.10 | Vision Transformer (Google) - Transformer사용한 CNN모델 |
|
GPT-3 (OpenAI) - 긴문장 (약 2048token=1500단어) 처리 - 특정 Task를 수행 할 수 있는 조건이나 예시 입력 필요 - 모델 크기 확장 : 1.5->175B - 데이터 크기 확장 : 40->600GB |
2020.06 | |
GPT-2 (OpenAI) - 독해, 번역, 요약, Q&A등에서 성능 향상 - 모델 크기 확장 : 0.117->1.5B - 데이터 크기 확장 : 4->40GB |
2019.02 | |
BERT (Google) - 구글의 LLM - Pretraining-finetuning 기법 사용 |
2018.10 | |
GPT (OpenAI) - OpenAI의 첫 LLM - Pretraining-finetuning 패러다임 시작 |
2018.06 | |
Transformer (Google) - 중요도 판단 시계열 예측 모델 - LLM의 시초 |
2017.08 | |
2016.11 | CGAN = Pix2Pix (Berkeley대학) - Image-to-Image 모델 |
|
2015 | Diffusion - Denosing 모델 UNet - Fully-Convolution Netowrk 모델 - Image Segmentation Task용도로 최초 제안됨 |
|
2014 | GAN - Adversial Process 모델 |
|
2013 | VAE - Encoding - Decoding 모델 |
|
RNN - 시계열 예측 모델 |
1986 | |
1980 | CNN - 이미지 Process 모델 |
기타 서비스
서비스 | 설명 |
screenshot-to-code - image-to-code |
screenshot 찍으면 html code로 변환 |
heygen - video-to-translated video |
다른 언어로 번역한 영상 생성 |
freeflo - image-text prompt searching |
이미지를 검색 후 text prompt를 획득 |
suno.ai - text-to-song |
prompt한 text의 의미를 가진 가사와 노래 생성 |
microsoft-365-copilot - document-to-document |
MS Office 제품(Word, PowerPoint, Excel) 사용 보조 AI툴 |
퍼가실 때 아래 출처만 명시하면 될텐데, 가능하다면 본 블로그도 명시 부탁드립니다!!
출처
Research Google : https://blog.research.google/
- Lumiere : https://lumiere-video.github.io/
- Imagen : https://imagen.research.google/
- VideoPot : https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
Deepmind Google : https://deepmind.google/discover/blog/
- Gemini1.5 : https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note
- Gemini1.0 : https://blog.google/technology/ai/google-gemini-ai/#sundar-note
- Imagen2 : https://deepmind.google/technologies/imagen-2/
StabilityAI : https://stability.ai/news
- Stable Cascade : https://stability.ai/news/introducing-stable-cascade
- Image-to-video : https://stability.ai/news/stable-video-diffusion-open-ai-video-model
- Text-to-3D : https://stability.ai/news/stable-zero123-3d-generation
- Stable Diffusion SD XL Turbo : https://stability.ai/news/stability-ai-sdxl-turbo
Midjourney : https://mid-journey.ai/blog/
Bing : https://blogs.bing.com/search/
- DALLE3 - Bing : https://blogs.bing.com/search/october-2023/DALL-E-3-now-available-in-Bing-Chat-and-Bing-com-create-for-free
OpenAI : https://openai.com/blog
- SORA : https://openai.com/sora
- GPTStore : https://openai.com/blog/introducing-the-gpt-store
- GPT-4 Turbo : https://openai.com/blog/new-models-and-developer-products-announced-at-devday
- GPTs : https://openai.com/blog/introducing-gpts
- DALL-E3 - ChatGPT : https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise
- DALL-E3 : https://openai.com/dall-e-3
- DALL-E2 : https://openai.com/dall-e-2
- DALL-E : https://openai.com/research/dall-e
- GPT-4 : https://openai.com/gpt-4
- OpenAI API : https://platform.openai.com/docs/models
News
- Bing-DALL-E : https://techcrunch.com/2023/03/21/microsoft-brings-openais-dall-e-image-creator-to-the-new-bing/
- GPT base vs 3.5 vs 4.0 : https://www.pluralsight.com/resources/blog/data/ai-gpt-models-differences
- GPT 3.5 : https://lablab.ai/tech/openai/gpt3-5
'AI Trends' 카테고리의 다른 글
[공유] NeRF 기술 트렌드 세미나 (0) | 2023.12.19 |
---|---|
[논문 정리] 3D Gaussian Splatting (3D-GS) 동향 (0) | 2023.11.24 |
[논문 정리] NeRF 개선 방향 및 기술 동향 (5) | 2022.10.10 |
댓글