CRADLE: Empowering Foundation Agents TowardsGeneral Computer Control

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.


단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고, 공부한 내용을 정리하고 공유하면서 더 오래 기억하기 위해 블로그를 시작하게 되었습니다.


읽으시면서 틀리거나 제가 잘못 이해한 부분 지적해 주시면 정말 감사하겠습니다.  함께 배우고 성장하는 공간이 되기를 바랍니다. 감사합니다!


CRADLE: Empowering Foundation Agents TowardsGeneral Computer Control

 

 

□ Abstract

기존의 에이전트들이 다양한 환경에서 일반화하는데 어려움을 겪고 있음

이러한 문제를 해결하기 위해, 연구진은 기초 에이전트들이 스크린샷을 입력으로 받고 키보드 및 마우스 동작을 출력으로 하는 가장 통일되고 표준화된 인터페이스를 통해 소프트웨어와 상호 작용하도록 제한하는 일반 컴퓨터 제어(General Computer Control)를 제안

 

 

 구조 설명

프레임워크는 다섯 가지 주요 모듈로 구성되고, 각 단계에서는 GPT-4o 모델을 호출하여 처리

  1. Information Gathering: 스크린샷에서 관련 정보 추출(중요한 시각적 및 텍스트 정보 추출)
  2. Self-Reflection: 과거 경험을 재고하고 가능한 실패 원인 분석
  3. Task Inference: 현재 상황을 바탕으로 지속할지 새로운 과제를 제안할지 결정
  4. Skill Curation: 현재 과제에 유용한 기술을 생성, 업데이트 및 검색
  5. Action Planning: 계획된 기술을 바탕으로 구체적인 실행 가능한 작업 생성

 

 

 Results

CRADLE은 다양한 비디오 게임과 소프트웨어 애플리케이션에서 뛰어난 일반화 능력과 성능을 보임

'Red Dead Redemption 2', 'Cities: Skylines', 'Stardew Valley', 'Dealer’s Life 2'와 같은 복잡한 비디오 게임에서 주요 스토리라인을 따라 40분 길이의 실제 미션을 완료함

'Chrome', 'Outlook', 'CapCut', 'Meitu', 'Feishu' 등의 일상적 소프트웨어에서도 성공적으로 작동

 

 

 Conclusion

CRADLE은 다양한 디지털 환경에서 일반적인 기초 에이전트를 가능하게 하는 통합된 표준 인터페이스를 제공, 이는 기초 에이전트가 다양한 디지털 작업을 일반화하고 자체 개선을 촉진하는 데 있어 중요한 진전을 나타냄

현재 게임과 소프트웨어에서 중요한 역할을 하는 오디오는 현재 고려되지 않고 있음. 추후 연구에서는 오디오와 그래픽 입력을 동시에 처리할 수 있도록 CRADLE을 확장하는 것을 목표로 함

 

 

 Restriction

실제 환경에서 CRADLE 프레임워크를 설치하고 사용해보려고 시도했으나 요구사항이 너무 많고 복잡하여 실패(파이썬 종속성 문제, C++ 설정, groundingdino 설치, Chrome, Outlook 인식 불가 등...)


Tan, W., Zhang, W., Xu, X., Xia, H., Ding, Z., Li, B., Zhou, B., Yue, J., Jiang, J., Li, Y., An, R., Qin, M., Zong, C., Zheng, L., Wu, Y., Chai, X., Bi, Y., Xie, T., Gu, P., Li, X., Zhang, C., Tian, L., Wang, C., Wang, X., Karlsson, B. F., An, B., Yan, S., & Lu, Z. (2024). CRADLE: Empowering foundation agents towards general computer control. arXiv. https://arxiv.org/abs/2403.03186