이슈보는 집사/AI

구글, Gemini 2.0 Flash 공개! 무료로 멀티모달 AI 경험하세요

우리집 고양이 토토에요 2024. 12. 12. 13:37

구글, Gemini 2.0 Flash 공개! 무료로 멀티모달 AI 경험하세요

구글이 새로운 멀티모달 AI 모델, Gemini 2.0 Flash를 실험 버전으로 공개했습니다. 아직 실험 단계이지만, 사실상 최종 버전에 가까우며 Gemini 2.0 라인업의 첫 번째 프론티어 모델입니다. OpenAI의 GPT-4나 Claude와 달리, Gemini 2.0 Flash는 네이티브 멀티모달 출력과 네이티브 도구 사용을 지원하는 차세대 모델입니다.

압도적인 성능 향상: 두 배 빠른 속도, 더 강력한 성능

Gemini 2.0 Flash는 이전 버전인 Pro보다 두 배 빠른 속도를 자랑하며, 더욱 강력한 성능을 제공합니다. 가장 주목할 만한 특징은 이미지 생성 및 편집, 그리고 오디오 출력을 기본적으로 지원한다는 점입니다. 별도의 엔드포인트 없이도 Gemini 2.0 Flash 자체에서 이미지와 오디오를 생성할 수 있습니다. 마치 GPT-4에 이미지 생성 기능이 추가된 것과 같습니다.

혁신적인 멀티모달 기능: 이미지, 오디오, 그리고 도구 활용

텍스트 음성 변환(TTS) 기능을 통해 개발자는 모델이 말하는 내용뿐만 아니라, 8개의 고품질 음성과 다양한 언어 및 억양을 선택하여 말하는 방식까지 세밀하게 제어할 수 있습니다. 또한, 이미지 생성 및 편집 기능을 통해 이전 출력을 기반으로 이미지를 수정하고 개선할 수 있으며, 텍스트와 이미지를 번갈아 출력하여 레시피와 같은 멀티모달 콘텐츠 제작에 유용합니다. 네이티브 도구 사용 능력은 도구 호출이 필요한 에이전트 작업에서 뛰어난 성능을 발휘합니다. 새롭게 추가된 멀티모달 API는 GPT-4의 실시간 API와 유사한 기능을 제공하며, 기존 Gemini 1.5 Flash와 동일한 무료 티어를 제공합니다.

새로운 AI 코딩 에이전트, Jewels: 개발 생산성 극대화

구글은 Jewels라는 새로운 AI 코딩 에이전트도 발표했습니다. Klein이나 AER, 혹은 Devon과 유사한 Jewels는 코드 베이스에서 다양한 작업을 수행할 수 있는 강력한 도구입니다. GitHub 워크플로우와 비동기적으로 통합되어 버그 수정 및 기타 시간 소모적인 작업을 처리하고, 문제 해결을 위한 포괄적인 다단계 계획을 생성하며, 여러 파일을 수정하고, GitHub에 수정 사항을 직접 반영하는 풀 리퀘스트를 준비합니다. 현재 대기자 명단에 등록하면 다음 달 또는 내년에 Jewels를 사용할 수 있습니다. Devon처럼 500달러의 비용이 들지 않는다는 점도 큰 장점입니다.

벤치마크 결과: 모든 면에서 뛰어난 성능

Gemini 2.0 Flash는 모든 벤치마크에서 1.5 Pro를 능가하는 성능을 보여줍니다. 특히 코딩 부문에서 Pro보다 훨씬 높은 점수를 기록했습니다. 비디오 및 긴 컨텍스트 부문에서는 Pro에 미치지 못하는 부분도 있지만, 전체적으로 봤을 때 매우 훌륭한 성능입니다. 현재 개발 중인 Project Mariner를 통해 Gemini Flash가 웹 브라우저를 제어하는 기능도 추가될 예정입니다.

Google AI Studio에서 Gemini 2.0 Flash 체험하기

Google AI Studio에서 Gemini 2.0 Flash 실험 모델을 사용해 볼 수 있습니다. Flash와 동일한 사용량 제한이 적용되며, 실시간 스트리밍 옵션을 통해 Gemini 2와 실시간 대화를 시작하고 화면을 공유할 수도 있습니다. 이미지 생성 및 편집 기능은 현재 Google AI Studio에서 일부 오류가 발생하는 것으로 보이지만, 수정될 예정입니다. 텍스트 음성 변환 기능은 다양한 음성과 억양을 선택하여 사용할 수 있으며, 몇 가지 개선할 부분이 있지만 상당히 훌륭한 성능을 보여줍니다. 제공되는 예제 앱을 통해 이미지에 바운딩 박스를 생성하는 등 Gemini 2.0 Flash의 에이전트 기능을 확인할 수 있습니다.

결론: 무료로 경험하는 최첨단 AI의 미래

Gemini 2.0 Flash는 무료로 제공되는 놀라운 성능의 멀티모달 AI 모델입니다. 이미지 생성, 오디오 출력, 도구 활용 등 다양한 기능을 통해 이전에는 상상할 수 없었던 AI 경험을 제공합니다. Google은 이 모델을 통해 AI 기술의 접근성을 높이고, 더 많은 사용자들이 최첨단 AI 기술의 혜택을 누릴 수 있도록 노력하고 있습니다. 앞으로 Gemini 2.0 Flash를 활용한 다양한 응용 프로그램과 서비스가 등장할 것으로 기대됩니다.