2025년 AI 혁명: 놀라운 AI 도구 8가지와 NVIDIA의 깜짝 발표!

실시간 3D 모델 생성: Spar 3D
시선 추적 AI: GazeLLE
2D 영상을 3D로 변환: StereoCrafter
투명 영상 생성: TransPixar
영상 객체 추가 및 교체: Video AnyDoor
일관된 캐릭터 생성: Minimax
NVIDIA의 개인용 AI 슈퍼컴퓨터: DIGITS
다양한 조명 조건에서 3D 모델 재구성: Generative Multiview Relighting
요약 및 결론

소개

2025년, 인공지능(AI) 기술의 발전 속도는 상상을 초월합니다. 이번 주에도 놀라운 AI 도구들이 쏟아져 나왔는데요. 단 한 장의 이미지로 실시간 3D 모델을 생성하는 AI부터, 기존 영상에 객체를 자연스럽게 추가하는 AI, 심지어 2D 영상을 3D로 변환하는 AI까지! 마치 영화 속 장면처럼 현실이 바뀌고 있습니다. 여기에 더해 NVIDIA의 획기적인 개인용 AI 슈퍼컴퓨터 발표까지! 이번 블로그 포스트에서는 이번 주 가장 주목할 만한 AI 기술 8가지를 자세히 살펴보고, 그 놀라운 기능과 가능성을 함께 분석해 보겠습니다.

1. 실시간 3D 모델 생성: Spar 3D

먼저 소개할 AI는 Stability AI에서 발표한 Spar 3D (Stable Point Aware Reconstruction of 3D objects)입니다. Stable Diffusion으로 유명한 Stability AI답게, Spar 3D는 단 한 장의 이미지를 입력받아 실시간으로 3D 모델을 생성합니다. 놀랍게도 생성 속도는 0.3초에 불과합니다!

Spar 3D의 아키텍처는 크게 두 단계로 나뉩니다. 첫 번째 단계에서는 입력 이미지를 디코딩하여 특수한 포인트 디퓨전 모델을 통해 객체의 기본 구조를 포착하는 포인트 클라우드를 생성합니다. 두 번째 단계에서는 트라이플레인 트랜스포머가 이 포인트 클라우드 데이터와 원본 이미지를 함께 처리하여 기하학적 구조, 질감, 조명 등을 포함한 3D 데이터를 생성합니다.

이 도구는 제품 디자인, 게임 디자인, VR/AR, 애니메이션 등 다양한 분야에서 혁신을 가져올 것으로 예상됩니다. Hugging Face와 GitHub를 통해 모델 가중치와 코드를 공개하여 누구든 쉽게 사용할 수 있도록 했습니다. 직접 사용해 본 결과, 단 몇 초 만에 섬세한 3D 모델을 생성하는 놀라운 성능을 확인할 수 있었습니다.

2. 시선 추적 AI: GazeLLE

GazeLLE은 AI를 이용하여 비디오 또는 이미지 속 인물의 시선을 추적하는 기술입니다. 비디오에서 특정 인물을 선택하면, AI가 해당 인물이 영상 전체에서 어떤 곳을 바라보는지 정확하게 표시해 줍니다. 심지어 시선 예측의 신뢰도를 나타내는 히트맵까지 제공하여, 시선 추적의 정확성을 더욱 높였습니다.

GazeLLE은 비전 트랜스포머 모델을 사용하여 이미지 또는 비디오 프레임을 분석하고 인물의 시선을 파악합니다. GitHub와 Google Colab, Hugging Face Space를 통해 코드를 공개하여 접근성을 높였습니다. 실제로 사용해 보니, 여러 인물의 시선을 동시에 정확하게 추적하는 모습이 인상적이었습니다. 감시 시스템이나 사용자 인터페이스 등 다양한 분야에 활용될 가능성이 높습니다.

3. 2D 영상을 3D로 변환: StereoCrafter

StereoCrafter는 AI를 활용하여 2D 영상을 몰입형 3D 영상으로 변환하는 혁신적인 기술입니다. 일반적인 2D 영상을 3D 안경이나 VR 헤드셋(예: Apple Vision Pro)을 통해 감상할 수 있는 3D 영상으로 바꿔줍니다.

StereoCrafter는 두 단계로 구성됩니다. 첫 번째 단계에서는 영상의 깊이 맵을 생성하여 객체와 카메라 사이의 거리를 파악합니다. 두 번째 단계에서는 이 정보를 사용하여 3D 효과를 내는 왜곡된 영상을 생성하고, 디퓨전 모델을 통해 누락된 부분을 채워 완벽한 3D 영상을 만들어냅니다. 실제로 3D 안경을 통해 시청하면 몰입감 넘치는 3D 영상을 경험할 수 있습니다. GitHub를 통해 코드를 공개하여 누구나 사용할 수 있도록 했습니다.

4. 투명 영상 생성: TransPixar

TransPixar는 텍스트 설명이나 이미지를 바탕으로 투명한 요소를 포함하는 영상을 생성하는 AI입니다. 기존의 영상 생성 모델과 달리, 투명 영상 생성에 필요한 알파 채널을 생성하여 특수 효과나 애니메이션에 활용할 수 있습니다. 알파 채널은 각 픽셀의 투명도를 결정하는 정보로, 투명한 영상 생성에 필수적입니다.

TransPixar는 기존의 디퓨전 트랜스포머 아키텍처에 알파 채널 생성 기능을 추가하여 투명한 영상 생성을 가능하게 했습니다. GitHub와 Hugging Face Space를 통해 코드와 데모를 공개했습니다. 다만, 아직 영상 품질이 최고 수준은 아니지만, 투명 영상 생성이라는 난제를 해결한 혁신적인 기술입니다.

5. 영상 객체 추가 및 교체: Video AnyDoor

Video AnyDoor는 기존 영상에 객체를 추가하거나 기존 객체를 다른 객체로 자연스럽게 대체하는 AI입니다. 단순히 객체를 추가하는 것을 넘어, 색상, 밝기, 명암 등을 자동으로 조정하여 배경 영상과 완벽하게 조화를 이루도록 합니다.

Video AnyDoor는 다양한 활용 가능성을 제공합니다. 예를 들어, 패션 영상에서 모델이 입은 옷을 바꾸거나, 영상 속 배경을 변경하거나, 로고를 추가하는 등 다양한 작업을 손쉽게 수행할 수 있습니다. 아직 코드는 공개되지 않았지만, 향후 공개될 경우 영상 편집 분야에 큰 변화를 가져올 것으로 기대됩니다.

6. 일관된 캐릭터 생성: Minimax

Minimax는 일관된 캐릭터를 생성하는 기능을 추가했습니다. 기존에는 일관된 캐릭터 영상을 제작하려면 많은 사진을 이용해 학습해야 했지만, Minimax는 단 한 장의 참고 사진만으로도 일관된 캐릭터 영상을 생성합니다.

사용 방법은 간단합니다. 참고 사진을 업로드하고, 원하는 상황을 텍스트로 입력하면 AI가 해당 캐릭터를 그 상황에 맞춰 자연스럽게 움직이는 영상을 생성합니다. 이 기능은 애니메이션 제작이나 게임 개발 등 다양한 분야에서 활용될 수 있습니다.

7. NVIDIA의 개인용 AI 슈퍼컴퓨터: DIGITS

NVIDIA는 CES 2025에서 DIGITS라는 개인용 AI 슈퍼컴퓨터를 발표했습니다. Grace Hopper Superchip을 기반으로 하는 DIGITS는 최대 2000억 개의 파라미터를 가진 AI 모델을 로컬에서 실행할 수 있습니다. 두 대의 DIGITS를 연결하면 4050억 개의 파라미터를 가진 모델도 실행 가능합니다. 가격은 3000달러로 책정되었으며, 2025년 5월 출시 예정입니다. 개인용 컴퓨터에서 대규모 AI 모델을 실행할 수 있다는 점에서 큰 의미를 가집니다.

8. 다양한 조명 조건에서 3D 모델 재구성: Generative Multiview Relighting

마지막으로 소개할 AI는 Generative Multiview Relighting입니다. 이 기술은 다양한 조명 조건과 배경에서 촬영된 여러 장의 사진을 이용하여 일관성 있는 3D 모델을 생성합니다. 기존에는 조명 조건이 일정하지 않은 사진으로 3D 모델을 생성하는 것이 어려웠지만, 이 AI는 조명 조건을 보정하고 사진들을 통합하여 정확하고 사실적인 3D 모델을 생성합니다. 이 기술은 3D 모델링 분야에 혁신을 가져올 것으로 기대됩니다.

9. 요약 및 결론

2025년 현재, AI 기술은 눈부신 속도로 발전하고 있으며, 이번 주에 소개된 AI 도구들은 그 발전상을 생생하게 보여줍니다. 실시간 3D 모델 생성, 정확한 시선 추적, 2D 영상의 3D 변환, 투명 영상 생성, 영상 객체 조작 등 다양한 분야에서 혁신적인 기술들이 등장하고 있습니다. NVIDIA의 개인용 AI 슈퍼컴퓨터 발표는 AI 기술의 대중화를 앞당길 것으로 예상되며, 앞으로 AI 기술이 우리 삶에 미칠 영향은 더욱 커질 것으로 예상됩니다. 계속해서 발전하는 AI 기술의 흐름을 주목하며, 새로운 가능성과 혁신을 기대해 봅니다.

저작자표시 비영리 동일조건

티스토리