경제속보
전세계 경재 핫 이슈들을 업데이트 해드립니다.
주식 시장 분류

AI vs 인간: 버스타인이 말하는 LLM 활용법

72 조회
0 추천
0 비추천
본문
© Reuters.

Investing.com - 버스타인이 대규모 언어 모델(LLM)의 활용에 관한 새로운 연구를 발표했으며, AI가 독립적으로 작동할 수 있는 영역과 인간의 감독이 필요한 영역을 평가했다.

이 증권사는 AI 시스템이 정보 수집 및 종합과 같은 작업에서는 우수한 성능을 보이지만, 판단이 많이 요구되는 영역에서는 부족하다고 밝혔다.

분석가들은 금융 연구가 표준화된 산업과 다른 이유는 독점적인 "폐쇄된 데이터"와 정성적 판단에 의존하기 때문이라고 설명했다.

LLM은 5~6년에 걸친 실적 발표 콜을 요약하고 긴 보고서를 검토하는 데 효과적인 것으로 나타났다.

그러나 기업 모델을 구축하거나 투자 논리를 개발하라는 요청을 받았을 때, AI 시스템은 성능이 떨어졌다.

구조화된 지시가 있더라도 출력에는 오류, 하드코딩된 값이 포함되어 있었고 분석적 깊이가 부족했다.

프롬프트 품질이 중요한 요소로 확인되었다. 남캘리포니아대학교 연구에 따르면 프롬프트의 작은 변화가 응답의 5%에서 9% 사이를 변경시켰다.

예를 들어, 질문을 "감사합니다"로 끝내면 결과의 5.6%가 변경되었고, 질문을 진술문으로 바꾸면 8.5%가 변경되었다.

의학 연구에서 GPT-4는 "사고 연쇄" 방법을 사용하여 임상 지침과 일치하는 치료 권장 사항을 50.6%에서 52.9%의 시간 동안 생성했으며, 재귀적 사고 프롬프팅을 사용하면 63%로 증가했다.

구조화된 프롬프트는 진단 정확도를 더욱 향상시켰으며, AI는 전이성 암 사례를 F1 점수 0.886으로 식별했는데, 이는 인간 주석자 평균인 0.838보다 높았다.

테스트에서는 과도한 세부 정보가 정확도를 감소시킨다는 것도 나타났다. 성능은 처음에는 더 많은 정보로 향상되었지만 프롬프트가 과부하되면 감소하여 "프롬프트 비대화"로 이어졌다.

버스타인은 금융 작업 전반에 걸쳐 LLM을 재테스트했다. 실적 발표 콜을 처리할 때, 반복적 프롬프팅을 사용하면 평균 점수가 5점 만점에 3.8에서 4.3으로 증가했다. Perplexity는 2에서 4.5로 상승했고, ChatGPT는 3.5에서 4로 향상되었다.

경영진 어조 평가에서는 프롬프트에 특정 투자자 우려 사항을 추가한 후 평균 점수가 3.8에서 4로 증가했다.

더 넓은 산업 분석은 더 강력한 프롬프팅으로 3.2에서 3.9로 향상되었다. 투자 논리 구축은 구조화된 단계별 프레임워크에도 불구하고 3에서 3.4로만 상승했다.

경영 결정 평가에서는 전체 분석 매개변수 세트가 제공되었을 때 평균 점수가 3.5에서 4.1로 증가했다.

표준화된 작업에서는 AI 성능이 더 강력하게 나타났다. IT 헬프데스크 테스트에서 검색 증강 생성을 사용하는 AI 시스템은 SelfScore 벤치마크에서 29.4점을 기록했으며, 인간은 23.1점이었다. 검색 기술 없이도 AI 에이전트는 인간 상대보다 성능이 우수했다.

버스타인은 또한 1990년대 후반 이후 기술에 걸친 AI 진전을 추적하고 있다. 시스템은 필기 인식, 이미지 인식 및 음성 인식에서 인간 수준에 도달하거나 초과했다.

읽기 이해력, 코딩 및 수학 문제 해결에서도 발전이 보고되었지만, 미묘한 언어 해석과 복잡한 추론은 여전히 인간의 강점으로 남아 있다.

이 기사는 인공지능의 도움을 받아 번역됐습니다. 자세한 내용은 이용약관을 참조하시기 바랍니다.

관련자료
댓글 0
등록된 댓글이 없습니다.
헤드라인
공급자
해선코리아
새 글
새 댓글
  • 댓글이 없습니다.
포인트랭킹
회원랭킹
텔레그램 고객센터
텔레그램
상담신청
카카오톡 고객센터
카카오톡
상담신청
먹튀업체 고객센터
먹튀업체
제보하기
알림 0