Decart Oasis AI 마인크래프트 소개

Decart AI가 개발한 프레임 단위로 게임플레이를 생성하는 최초의 플레이 가능한 실시간 오픈 월드 AI 모델입니다.

🎮 프로젝트 개요

Decart AI가 Etched와 협력하여 개발한 Oasis AI Minecraft는 AI 게임 기술의 획기적인 성과를 나타냅니다. 이는 프레임 단위로 변환기에 의해 엔드투엔드(end-to-end) 생성되는 대화형 비디오 게임입니다.

기존 게임과 달리 Oasis는 사용자 키보드 및 마우스 입력을 받아 실시간 게임플레이를 생성하고 물리, 게임 규칙 및 그래픽을 내부적으로 시뮬레이션합니다. 모델은 사용자가 게임플레이를 직접 보면서 이동하고, 점프하고, 아이템을 집고, 블록을 부수는 등의 작업을 수행할 수 있도록 학습했습니다.

이 혁신적인 프로젝트는 최첨단 AI 연구와 고급 하드웨어 최적화를 결합하여 보다 복잡한 대화형 세계를 시뮬레이션하는 기본 모델을 향한 첫 걸음을 내디뎠으며 AI 기반 미래에 클래식 게임 엔진을 대체할 가능성이 있습니다.

기술 아키텍처

🔄 새로운 대화형 아키텍처 구축

우리는 빠른 자동 회귀 대화형 비디오 생성을 위한 최상의 아키텍처를 식별하기 위해 수백 건의 아키텍처 및 데이터 실험을 실행했습니다. 기존 양방향 모델과 달리 우리의 아키텍처는 사용자 입력 조건을 갖춘 실시간 프레임별 생성을 위해 특별히 설계되었습니다.

Oasis's ViT + DiT architecture

Transformer 기반 변이 자동 인코더와 가속화된 시공간 주의 기능을 갖춘 Oasis의 ViT DiT 아키텍처

🎯주요 특징

  • 사용자 입력에 따른 프레임별 생성
  • ViT VAE(변환 기반 변형 자동 인코더)
  • 가속축적, 인과적 시공간 주의 메커니즘

💡기술 혁신

  • 안정성 향상을 위한 추론 시 동적 노이즈
  • 실시간 성능을 위해 최적화된 추론 커널
  • 프레임 컨텍스트를 위한 추가 시간적 주의 레이어

🧠 AI 모델 기술

Oasis는 고급 LLM(대형 언어 모델)에서 영감을 받은 확산 훈련과 변환기 모델의 조합을 활용합니다. 이 모델은 각 순간의 사용자 동작에 따라 프레임 단위로 비디오를 생성합니다.

이 아키텍처는 ViT VAE(Transformer 기반 변형 자동 인코더)를 특징으로 하여 이미지 크기를 압축하고 확산을 통해 더 높은 수준의 특성에 집중할 수 있도록 하며, 축상 인과적 시공간 주의 메커니즘을 가속화합니다.

🎯 확산모델 혁신

양방향 모델과 달리 Oasis는 게임 입력에 따라 각 프레임을 조절하는 기능을 사용하여 자동 회귀 방식으로 프레임을 생성합니다. 이를 통해 사용자는 단순히 비디오를 소급하여 렌더링하는 것이 아니라 실시간으로 세계와 상호 작용할 수 있습니다.

이 모델은 확산 강제 기술을 사용하며 이전 프레임의 컨텍스트를 제공하기 위해 공간 주의 레이어 사이에 인터리브된 추가 시간 주의 레이어를 포함합니다.

⚙️ 성능

🚀 현재 역량

  • Decart의 독점 추론 프레임워크를 사용하여 프레임당 47ms 추론 시간을 달성합니다.
  • NVIDIA H100 GPU에서 20fps의 360p 해상도로 실행됩니다.
  • 최소한의 대기 시간으로 실시간 웹 브라우저 게임 플레이에 최적화되었습니다.

💫 향후 최적화

  • Etched의 Sohu 칩으로 4K 해상도 게임 플레이 가능
  • 동일한 가격과 전력 소비로 현재 하드웨어보다 10배 더 많은 사용자에게 서비스를 제공할 수 있습니다.
  • 고품질의 AI 생성 게임을 보다 쉽게 ​​접근할 수 있고 비용 효율적으로 만드는 것을 목표로 합니다.

📊 Sohu는 10배 더 많은 사용자를 지원합니다

(최대 100B 매개변수로 확장된 Oasis 아키텍처를 사용한 성능 분석)
20 FPS
실시간 프레임 속도
4K
Sohu 칩은 해상도를 지원합니다
100x
현재 모델보다 빠릅니다.
10x
더 많은 사용자에게 서비스 제공 가능

🔮 미래 개발

🎯 현재의 과제

  • 프레임 전반에 걸쳐 더 나은 세부 정보 유지를 위해 모델 메모리 개선
  • 특정 상황에서 출력 선명도 향상 및 흐릿함 감소
  • 모델 훈련 분포 외부의 엣지 케이스 및 입력 처리

🌟 미래비전

팀은 효율적인 대규모 훈련을 가능하게 하는 추가적인 최적화 기술을 개발하는 동시에 모델과 데이터 세트를 확장하는 데 적극적으로 노력하고 있습니다.

게임을 넘어 Oasis는 완전한 대화형 다중 모드 비디오 생성으로 확장하여 잠재적으로 디지털 콘텐츠 및 엔터테인먼트 플랫폼과 상호 작용하는 방식에 혁명을 일으키는 것을 목표로 합니다.

📚 선적 서류 비치