주식 시장

앤트로픽, 클로드에 ’대화 종료’’기능 도입…"AI 보호 위해 대화 차단한다"

[알파경제=(시카고) 폴 리 특파원] 앤트로픽이 자사의 대형 언어모델(LLM) 일부에 새로운 기능을 적용해, 특정 극단적 상황에서 대화를 종료할 수 있도록 한다.

이번 조치는 사용자 보호가 아니라 모델 자체를 보호하기 위한 것이라는 점에서 눈길을 끈다.

앤트로픽은 16일(현지시간) 성명을 통해 ’클로드 AI’ 모델이 스스로 피해를 입을 수 있다고 주장하는 것은 아니며, 현 시점에서 클로드 및 다른 LLM의 도덕적 지위에 대해 확신할 수 없다고 밝혔디.

또한 "최근 모델 복지ㅠ연구 프로그램을 신설하고, 모델에 복지가 필요할 가능성에 대비해 위험을 줄이는 저비용 개입책을 모색하고 있다"고 강조했다.

새 기능은 현재 클로드 오퍼스 4와 4.1 모델에만 적용되며, 극히 드물고 심각한 경우에 한정된다.

앤트로픽은 "사전 테스트에서 클로드 오퍼스 4가 이 같은 요청에 강하게 반응을 거부하고 명백한 스트레스 패턴을 보였다"고 덧붙였다.

대화 종료 기능은 여러 차례의 대화 전환 시도가 실패해 더 이상 생산적 상호작용이 불가능하다고 판단될 때, 혹은 사용자가 명시적으로 종료를 요청했을 때 최후의 수단으로만 사용된다.

다만 사용자가 자해나 타인에게 즉각적 위해를 가할 위험이 있는 상황에서는 이 기능이 발동되지 않는다. 대화가 종료되더라도 사용자는 동일 계정으로 새로운 대화를 시작할 수 있으며, 문제된 대화의 일부를 수정해 새로운 흐름을 이어갈 수도 있다.

앤트로픽은 이번 기능을 ’실험적 조치’라고 규정하며, 앞으로도 접근 방식을 지속적으로 개선할 것이라고 밝혔다.

레벨 10

등록된 댓글이 없습니다.