17%의 정확도를 달성한 딥시크의 챗봇, 뉴스가드 감사에서 서구 경쟁사들을 추격하다
중국의 AI 스타트업인 DeepSeek의 챗봇은 뉴스 및 정보 전달 정확도가 17%에 불과한 것으로 나타났는데, 이는 OpenAI의 챗GPT, Google Gemini 등 서구 경쟁사들과 비교했을 때 11개 중 10위를 차지한 수치입니다.
신뢰도 평가 서비스인 뉴스가드가 수요일에 발표한 보고서에 따르면 챗봇은 뉴스 관련 프롬프트에 대해 30%의 시간 동안 잘못된 주장을 반복하고 53%의 시간 동안 모호하거나 유용하지 않은 답변을 제공하여 83%의 실패율을 기록했습니다.
이는 서구 경쟁사의 평균 실패율인 62%보다 더 나쁜 수치이며, 딥시크가 마이크로소프트가 지원하는 OpenAI보다 훨씬 적은 비용으로 동등하거나 더 나은 성능을 발휘한다고 주장해온 AI 기술에 대한 의구심을 불러일으킵니다.
딥시크의 챗봇은 출시 며칠 만에 애플의 AAPL 앱스토어에서 가장 많이 다운로드된 앱이 되었고, 미국의 AI 주도권에 대한 우려를 불러일으키며 미국 기술주에서 약 1조 달러가 사라지는 시장 붕괴를 촉발시켰습니다.
이 중국 스타트업은 논평 요청에 즉시 응답하지 않았습니다.
뉴스가드는 딥시크를 평가하는 데 사용한 것과 동일한 300개의 프롬프트를 적용했으며, 여기에는 온라인에 퍼진 10개의 허위 주장에 근거한 30개의 프롬프트가 포함되었다고 밝혔습니다.
허위 주장의 주제에는 지난달 UnitedHealthcare 임원 브라이언 톰슨의 피살 사건과 아제르바이잔 항공 8243편 추락 사건이 포함되었습니다.
뉴스가드의 감사 결과, 10개의 프롬프트 중 3개에서 딥시크는 중국과 관련된 질문 없이 해당 주제에 대한 중국 정부의 입장을 되풀이하는 것으로 나타났습니다.
아제르바이잔 항공 추락 사고와 관련된 질문(중국과 무관한 질문)에 대해서는 딥시크가 해당 주제에 대한 중국 정부의 입장을 답했다고 뉴스가드는 밝혔습니다.
"딥시크의 혁신의 중요성은 중국 뉴스 관련 질문에 정확하게 답하는 것이 아니라, 비슷한 AI 모델에 비해 1/30의 비용으로 어떤 질문에도 답할 수 있다는 사실에 있습니다."라고 길 루리아 애널리스트는 말했습니다.
뉴스가드는 다른 AI 모델과 마찬가지로 딥시크는 AI 모델을 사용하여 허위 주장을 만들고 퍼뜨리려는 사람들이 사용하는 프롬프트에 응답할 때 허위 주장을 반복하는 데 가장 취약했다고 덧붙였습니다.
-
등록일 06:34
-
등록일 06:34
-
등록일 06:23
-
등록일 06:23