Decart AI가 개발한 프레임 단위로 게임플레이를 생성하는 최초의 플레이 가능한 실시간 오픈 월드 AI 모델입니다.
Decart AI가 Etched와 협력하여 개발한 Oasis AI Minecraft는 AI 게임 기술의 획기적인 성과를 나타냅니다. 이는 프레임 단위로 변환기에 의해 엔드투엔드(end-to-end) 생성되는 대화형 비디오 게임입니다.
기존 게임과 달리 Oasis는 사용자 키보드 및 마우스 입력을 받아 실시간 게임플레이를 생성하고 물리, 게임 규칙 및 그래픽을 내부적으로 시뮬레이션합니다. 모델은 사용자가 게임플레이를 직접 보면서 이동하고, 점프하고, 아이템을 집고, 블록을 부수는 등의 작업을 수행할 수 있도록 학습했습니다.
이 혁신적인 프로젝트는 최첨단 AI 연구와 고급 하드웨어 최적화를 결합하여 보다 복잡한 대화형 세계를 시뮬레이션하는 기본 모델을 향한 첫 걸음을 내디뎠으며 AI 기반 미래에 클래식 게임 엔진을 대체할 가능성이 있습니다.
우리는 빠른 자동 회귀 대화형 비디오 생성을 위한 최상의 아키텍처를 식별하기 위해 수백 건의 아키텍처 및 데이터 실험을 실행했습니다. 기존 양방향 모델과 달리 우리의 아키텍처는 사용자 입력 조건을 갖춘 실시간 프레임별 생성을 위해 특별히 설계되었습니다.
Transformer 기반 변이 자동 인코더와 가속화된 시공간 주의 기능을 갖춘 Oasis의 ViT DiT 아키텍처
Oasis는 고급 LLM(대형 언어 모델)에서 영감을 받은 확산 훈련과 변환기 모델의 조합을 활용합니다. 이 모델은 각 순간의 사용자 동작에 따라 프레임 단위로 비디오를 생성합니다.
이 아키텍처는 ViT VAE(Transformer 기반 변형 자동 인코더)를 특징으로 하여 이미지 크기를 압축하고 확산을 통해 더 높은 수준의 특성에 집중할 수 있도록 하며, 축상 인과적 시공간 주의 메커니즘을 가속화합니다.
양방향 모델과 달리 Oasis는 게임 입력에 따라 각 프레임을 조절하는 기능을 사용하여 자동 회귀 방식으로 프레임을 생성합니다. 이를 통해 사용자는 단순히 비디오를 소급하여 렌더링하는 것이 아니라 실시간으로 세계와 상호 작용할 수 있습니다.
이 모델은 확산 강제 기술을 사용하며 이전 프레임의 컨텍스트를 제공하기 위해 공간 주의 레이어 사이에 인터리브된 추가 시간 주의 레이어를 포함합니다.
팀은 효율적인 대규모 훈련을 가능하게 하는 추가적인 최적화 기술을 개발하는 동시에 모델과 데이터 세트를 확장하는 데 적극적으로 노력하고 있습니다.
게임을 넘어 Oasis는 완전한 대화형 다중 모드 비디오 생성으로 확장하여 잠재적으로 디지털 콘텐츠 및 엔터테인먼트 플랫폼과 상호 작용하는 방식에 혁명을 일으키는 것을 목표로 합니다.