이슈보는 집사/AI

마이크로소프트의 LAM: 윈도우 환경에서 실제 작업을 수행하는 대규모 액션 모델

우리집 고양이 토토에요 2025. 1. 6. 23:41

마이크로소프트의 LAM: 윈도우 환경에서 실제 작업을 수행하는 대규모 액션 모델

목차

  1. LAM이란 무엇이며 어떻게 작동할까요?
  2. LAM의 훈련 과정: 데이터 수집부터 강화 학습까지
  3. LAM의 성능 평가: 오프라인 및 온라인 테스트 결과
  4. UFO 에이전트와 LAM의 통합
  5. 안전성, 확장성 및 미래 전망
  6. 요약 및 결론

소개

인공지능(AI)은 단순히 텍스트를 생성하는 것을 넘어, 이제는 컴퓨터와 직접 상호 작용하며 실제 작업을 수행하는 단계에 이르렀습니다. 마이크로소프트는 이러한 혁신적인 기술을 LAM (Large Action Model)이라는 대규모 액션 모델로 구현했습니다. LAM은 사용자의 지시를 해석하고, 단계별 솔루션을 생성하여 마이크로소프트 워드, 엑셀, 파워포인트와 같은 응용 프로그램에서 직접 작업을 실행하는 놀라운 능력을 보여줍니다. 이 블로그 포스트에서는 LAM의 작동 원리, 훈련 과정, 성능 평가 결과, 그리고 미래 전망에 대해 자세히 알아보겠습니다.

1. LAM이란 무엇이며 어떻게 작동할까요?

LAM은 단순히 텍스트를 생성하는 기존의 언어 모델과는 다릅니다. LAM은 사용자의 자연어 명령을 이해하고, 이를 바탕으로 윈도우 환경에서 실제 작업을 수행합니다. 예를 들어, "워드 문서를 열고 제목을 '프로젝트 보고서'로 변경한 후, 굵게 표시하고 16포인트 크기로 설정하세요"라는 명령을 받으면, LAM은 이를 단계별로 분해하여 워드 프로그램에서 해당 작업을 자동으로 실행합니다. 이는 마우스 클릭, 키보드 입력 등 실제 사용자의 행동을 모방하는 것을 의미합니다. LAM은 단순히 지시 사항을 설명하는 것이 아니라, 실행하는 것입니다.

2. LAM의 훈련 과정: 데이터 수집부터 강화 학습까지

LAM을 훈련시키는 과정은 매우 복잡하고 정교합니다. 마이크로소프트 연구팀은 방대한 양의 데이터를 수집하고, 다양한 기법을 활용하여 LAM의 능력을 향상시켰습니다.

데이터 수집: 연구팀은 공식 소프트웨어 문서, WikiHow 기사, Bing 검색 쿼리 등 다양한 출처에서 작업 설명과 실제 행동 순서를 포함한 방대한 양의 데이터를 수집했습니다. GPT-4를 활용하여 이러한 원시 텍스트를 구조화된 쌍으로 변환했습니다. 훈련 데이터는 글꼴 변경이나 텍스트 강조 표시와 같은 간단한 작업부터, 사용자 정의 스타일, 양식 작성, 다단계 서식 지정 등 복잡한 작업까지 다양한 주제를 다룹니다. "데이터 진화"라는 방법을 통해 GPT-4가 기본 작업에 추가적인 조건이나 지침을 추가하여 복잡성을 높였습니다. 결과적으로 76,000개가 넘는 작업 계획 쌍을 구축했습니다.

훈련 단계: LAM의 훈련은 크게 네 단계로 진행되었습니다.

  1. 기본 모델 훈련: Mistral 7B라는 기본 모델을 훈련시켜 다양한 작업에 대한 일관된 계획을 작성하도록 했습니다. 이 모델은 LAM1이 되었으며, 예를 들어 워드에서 이미지 삽입이나 글꼴 선택 방법을 설명할 수 있었지만, 실제 클릭이나 타이핑과 같은 상호 작용은 처리하지 못했습니다.
  2. 모방 학습: GPT-4가 성공적으로 수행한 2,192개의 작업 예시를 사용하여 모방 학습을 진행했습니다. 이를 통해 LAM2는 액션 단계를 생성하고 사용자 또는 전문가 AI가 수행하는 작업(예: 올바른 메뉴 항목 선택 또는 텍스트 입력)을 복제할 수 있게 되었습니다.
  3. 자기 발견 학습: GPT-4가 성공적으로 완료하지 못한 작업을 LAM2가 시도하도록 했습니다. LAM2는 이러한 작업 중 일부에 대한 새로운 해결 방법을 찾아 496개의 추가적인 성공적인 액션 시퀀스를 생성했습니다. 이 새로운 데이터로 재훈련하여 LAM3을 만들었습니다.
  4. 강화 학습: 성공적인 단계에는 +1, 실패한 단계에는 -1의 보상을 부여하는 보상 모델을 도입하여 강화 학습을 적용했습니다. 이를 통해 LAM4는 성공과 실패 모두에서 얻은 교훈을 체계적으로 반영할 수 있게 되었습니다.

3. LAM의 성능 평가: 오프라인 및 온라인 테스트 결과

LAM의 성능은 오프라인 및 온라인 환경에서 모두 평가되었습니다.

오프라인 테스트: 약 435개의 워드 작업(빈 문서 열기부터 제목, 표 삽입, 파일에서 데이터 가져오기 등 고급 서식 지정 작업까지)을 사용하여 성공률, 단계별 정확도, 모델이 올바른 인터페이스 개체 및 작업을 선택할 수 있는지 여부를 측정했습니다. 결과는 다음과 같습니다.

  • LAM1 (텍스트 지침만): 약 35.6% 성공률
  • LAM2 (GPT-4 예시 학습): 약 76.8% 성공률
  • LAM3 (자기 발견 학습 포함): 약 79.3% 성공률
  • LAM4 (강화 학습 포함): 약 81.2% 성공률
  • GPT-4 (텍스트만): 약 67.2% 성공률
  • GPT-4 Mini (텍스트만): 약 62.3% 성공률
  • GPT-4 (시각적 입력 포함): 약 75.5% 성공률

온라인 테스트: 실제 윈도우 환경에서 435개의 동일한 작업을 수행했습니다. LAM은 텍스트 입력만을 사용하여 약 71.0%의 성공률을 달성했습니다. GPT-4는 텍스트 입력만 사용했을 때 약 63.0%, 시각적 입력을 사용했을 때 약 75.5%의 성공률을 보였습니다. 하지만 LAM은 GPT-4보다 훨씬 빠르게 작업을 완료했습니다.

4. UFO 에이전트와 LAM의 통합

마이크로소프트는 LAM을 UFO (User-Friendly Operator)라는 윈도우 기반 에이전트에 통합했습니다. UFO는 화면의 GUI 요소를 분석하고 사용자가 원하는 작업을 실행합니다. 각 컨트롤의 이름, 좌표, 용도와 같은 세부 정보를 수집하여 LAM에 전달하고, LAM은 어떤 컨트롤을 선택하고, 어떤 인수를 사용하여 클릭 또는 입력을 수행할지, 어떤 텍스트를 입력할지 결정합니다. UFO는 이 계획을 실행하고, 완료된 단계를 기억합니다.

5. 안전성, 확장성 및 미래 전망

LAM은 뛰어난 성능을 보여주지만, 안전성과 확장성에 대한 고려가 필요합니다. AI가 명령을 잘못 이해하거나 예상치 못한 행동을 할 경우 심각한 결과를 초래할 수 있기 때문입니다. 마이크로소프트는 강력한 오류 검사를 통해 안전성을 확보하고, 특정 단계를 실행하기 전에 확인을 요구하는 방안을 고려하고 있습니다. 또한, Mac OS나 모바일 기기와 같은 다른 운영 체제로 LAM을 확장하기 위해서는 새로운 데이터 세트를 수집해야 하며, 이 과정은 상당한 시간과 노력을 필요로 합니다. 전이 학습이나 다중 작업 학습과 같은 기술이 도움이 될 수 있지만, 이는 여전히 활발한 연구 분야입니다.

6. 요약 및 결론

LAM은 기존의 텍스트 생성 모델을 넘어, 윈도우 환경에서 실제 작업을 수행하는 새로운 가능성을 제시합니다. 다양한 데이터 수집 방법과 정교한 훈련 과정을 통해 뛰어난 성능을 달성했으며, 오프라인 및 온라인 테스트에서 GPT-4보다 우수한 결과를 보여주었습니다. 하지만 안전성 및 확장성에 대한 지속적인 연구와 개선이 필요합니다. LAM은 AI 기반 자동화의 새로운 시대를 열었지만, 윤리적, 안전성 문제에 대한 지속적인 논의와 주의가 필요합니다. 앞으로 LAM이 다른 운영체제나 로봇 플랫폼으로 확장되어 더욱 광범위한 작업을 수행할 수 있을지 기대됩니다.