Meta, AI로 다른 AI 시스템을 평가하고 개선하는 기술 소개
뉴욕 - Facebook의 모회사인 Meta Platforms Inc.가 오늘 연구 부문에서 새로운 인공지능(AI) 모델을 출시했다고 발표했습니다. 이 모델 중에는 AI 개발 과정에서 인간의 개입을 줄일 수 있는 "자가 학습 평가자(Self-Taught Evaluator)"가 포함되어 있습니다. 이 도구는 8월에 연구 논문에서 처음 소개되었으며, OpenAI의 최신 모델에서 사용되는 것과 유사한 "사고 연쇄(chain of thought)" 기술을 사용합니다.
이 방법은 복잡한 문제를 작고 논리적인 단계로 나누어 과학, 코딩, 수학과 같은 어려운 분야에서 응답의 정확성을 향상시킵니다.
"자가 학습 평가자"는 오직 AI가 생성한 데이터만을 사용하여 훈련되었으며, 이는 개발의 이 단계에서 인간의 입력이 필요하지 않았음을 의미합니다. 이러한 발전은 자체 오류로부터 학습할 수 있는 자율적인 AI 에이전트를 만들 수 있는 가능성을 시사합니다. Meta 연구원들에 따르면, 이러한 자가 개선 모델은 결국 인간의 도움 없이 광범위한 작업을 수행할 수 있게 될 것이며, 현재 필요한 인간 피드백을 통한 강화 학습(RLHF)을 넘어설 수 있습니다. RLHF는 데이터에 라벨을 붙이고 복잡한 답변을 검증하기 위해 전문 인력이 필요한 비용이 많이 들고 덜 효율적인 방법입니다.
Meta 연구원 중 한 명인 Jason Weston은 AI의 미래에 대한 비전을 공유하며 "AI가 점점 더 초인적인 능력을 갖추게 되면서, 자체 작업을 점검하는 능력이 향상되어 실제로 평균적인 인간보다 더 나아질 것으로 기대합니다"라고 말했습니다. 그는 전례 없는 수준의 AI 능력을 달성하는 데 있어 자가 학습과 자가 평가의 중요성을 강조했습니다.
Google과 Anthropic과 같은 다른 회사들도 AI 피드백을 통한 강화 학습(RLAIF)과 같은 유사한 개념에 대한 연구를 수행했지만, Meta는 자사의 모델을 공개적으로 사용할 수 있도록 함으로써 차별화를 두고 있습니다.
"자가 학습 평가자" 외에도 Meta는 오늘 업데이트된 AI 도구들을 공개했습니다. 여기에는 회사의 이미지 식별 Segment Anything 모델 개선, 대규모 언어 모델(LLM)의 응답 생성 시간을 단축하는 도구, 그리고 새로운 무기물 재료 발견을 지원하는 데이터셋 등이 포함됩니다.
Reuters가 이 기사에 기여했습니다.
이 기사는 인공지능의 도움을 받아 번역됐습니다. 자세한 내용은 이용약관을 참조하시기 바랍니다.