Anthropic, Claude 3.5 시리즈 출시 및 컴퓨터 제어 기능 발표
Anthropic이 Claude 3.5 Sonnet의 성능 개선 버전과 새로운 모델인 Claude 3.5 Haiku를 발표했습니다.
특히 주목할 만한 점은 업계 최초로 컴퓨터 제어 기능을 베타 버전으로 도입한 것입니다.
Claude 3.5 Sonnet의 혁신적 발전
코딩 성능
SWE-bench Verified에서 49.0% 달성, 현존하는 모든 공개 모델 중 최고 성능
도구 활용 능력
TAU-bench 리테일 도메인 69.2%, 항공 도메인 46.0% 달성
혁신적인 컴퓨터 제어 기능
새롭게 도입된 컴퓨터 제어 기능을 통해 Claude는 사람처럼 컴퓨터를 조작할 수 있게 되었습니다.
화면을 보고, 커서를 움직이며, 버튼을 클릭하고 텍스트를 입력하는 등의 작업이 가능합니다.
OSWorld 평가에서 스크린샷 기반 카테고리 14.9% 달성으로 경쟁 모델들을 크게 앞섰습니다.
Claude 3.5 Haiku: 효율성의 새로운 기준
Claude 3.5 Haiku는 이전 세대의 최상위 모델인 Claude 3 Opus와 대등한 성능을 보이면서도 더 빠른 속도와 효율적인 비용으로 운영됩니다.
SWE-bench Verified에서 40.6%를 기록하며 많은 최신 모델들을 능가하는 성능을 보여주었습니다.
주요 파트너사 적용 사례
- Asana, Canva, DoorDash - 복잡한 다단계 작업 자동화
- Replit - UI 내비게이션 및 앱 평가 기능 개발
- GitLab - DevSecOps 작업 성능 10% 향상