현재의 방식이 한계에 부딪히면서 더 스마트한 AI를 위한 새로운 길을 모색하는 OpenAI와 경쟁사들
- 새로운 대규모 언어 모델을 학습하는 데 있어 지연과 어려움을 겪는 AI 기업들
- 일부 연구자들은 새로운 모델에서 추론에 더 많은 시간을 할애하고 있습니다
- 칩과 에너지 같은 자원을 둘러싼 AI 군비 경쟁에 영향을 미칠 수 있는 변화
OpenAI와 같은 인공 지능 회사는 알고리즘이 "사고"하는 데 보다 인간과 유사한 방식을 사용하는 훈련 기술을 개발함으로써 점점 더 큰 대규모 언어 모델 (link) 을 추구하면서 예상치 못한 지연과 문제를 극복하고자 합니다.
12명의 AI 과학자 (link), 연구자 및 투자자들은 로이터와의 인터뷰에서 오픈AI가 최근 발표한 o1 모델의 기반이 되는 이러한 기술은 AI 군비 경쟁을 재편할 수 있으며, AI 기업이 끊임없이 요구하는 자원의 유형에 영향을 미칠 수 있다고 말했습니다, 에너지부터 칩의 종류까지.
오픈AI는 이 기사에 대한 논평을 거부했습니다. 2년 전 입소문을 탄 챗GPT 챗봇이 출시된 후, AI 붐으로 인해 기업가치가 크게 상승한 기술 기업들은 데이터와 컴퓨팅 성능을 추가하여 현재 모델을 '확장'하면 지속적으로 AI 모델을 개선할 수 있다고 공개적으로 주장해 왔습니다.
그러나 이제 가장 저명한 AI 과학자 중 일부는 이러한 '큰 것이 좋다'는 철학의 한계에 대해 목소리를 내고 있습니다.
AI 연구소 Safe Superintelligence (SSI) 및 OpenAI의 공동 설립자인 일리아 수츠케버(Ilya Sutskever)는 최근 로이터와의 인터뷰에서 사전 학습을 확장한 결과 다음과 같은 결과가 나타났다고 말했습니다 - 사전 훈련 단계 aI 모델 훈련 s 언어 패턴과 구조를 이해하기 위해 라벨링되지 않은 방대한 양의 데이터를 사용합니다 - 정체기에 접어들었습니다.
Sutskever 는 생성적 AI 발전의 비약적인 도약을 일찍이 주장한 인물로 널리 알려져 있습니다 사전 학습에 더 많은 데이터와 컴퓨팅 파워를 사용했습니다, 결국 ChatGPT를 만들었습니다. 서츠케버는 올해 초 OpenAI를 떠나 SSI를 설립했습니다.
"2010년대는 확장의 시대였다면 이제 우리는 다시 경이로움과 발견의 시대로 돌아갔습니다. 모두가 다음 것을 찾고 있습니다."라고 Sutskever는 말합니다. "올바른 것을 확장하는 것이 그 어느 때보다 중요해졌습니다."
서츠케버는 SSI가 사전 교육을 확대하기 위한 대안적 접근법을 연구하고 있다는 말 외에는 자신의 팀이 이 문제를 어떻게 해결하고 있는지에 대한 자세한 내용은 공개하지 않았습니다.
그 이면에서는 주요 AI 연구소의 연구원들이 거의 2년이 지난 OpenAI의 GPT-4 모델을 능가하는 대규모 언어 모델을 출시하기 위한 경쟁에서 지연과 실망스러운 결과에 직면하고 있다고 세 명의 소식통이 전했습니다 사적인 문제에 정통한 소식통에 따르면
대규모 모델을 위한 소위 '훈련 실행'은 수 수백 개의 칩을 동시에 실행하는 데 수천만 달러가 소요됩니다. 시스템이 복잡하기 때문에 하드웨어로 인한 장애가 발생할 가능성이 더 높으며, 연구자들은 몇 달이 걸릴 수 있는 실행이 끝날 때까지 모델의 최종 성능을 알 수 없습니다.
또 다른 문제는 대규모 언어 모델은 엄청난 양의 데이터를 소모하며, AI 모델이 소진 (link) 전 세계에서 쉽게 액세스할 수 있는 모든 데이터를 소진한다는 것입니다. 전력 부족 또한 막대한 양의 에너지를 필요로 하기 때문에 훈련 실행을 방해하고 있습니다.
이러한 문제를 극복하기 위해 연구자들은 소위 '추론' 단계 또는 모델을 사용하는 동안 기존 AI 모델을 향상시키는 기술인 '테스트 타임 컴퓨팅'을 연구하고 있습니다. 예를 들어, 모델이 즉시 하나의 답을 선택하는 대신 실시간으로 여러 가지 가능성을 생성하고 평가하여 궁극적으로 최선의 경로를 선택할 수 있습니다.
이 방법을 사용하면 을 통해 모델은 수학이나 코딩 문제 또는 인간과 같은 추론과 의사 결정이 필요한 복잡한 작업과 같은 까다로운 작업에 더 많은 처리 능력을 투입할 수 있습니다.
지난달 샌프란시스코에서 열린 TED AI 컨퍼런스에서 o1을 개발한 OpenAI의 연구원 노암 브라운은 "봇이 포커 게임에서 20초 동안만 생각하도록 하면 모델을 10만 배로 확장하고 10만 배 더 오래 훈련하는 것과 동일한 성능 향상을 얻을 수 있다는 사실이 밝혀졌습니다."라고 말했습니다.
오픈AI는 이 기술을 새로 출시한 모델인 'o1'(이전에는 Q* 및 Strawberry (link) )에 도입했으며, 로이터가 7월에 처음 보도한 바 있습니다. O1 모델은 인간의 추론과 유사한 방식으로 문제를 다단계로 '사고'할 수 있습니다. 또한 박사 및 업계 전문가( (link) )가 선별한 데이터와 피드백을 사용합니다 . O1 시리즈의 비결은 GPT-4와 같은 '기본' 모델 위에 수행되는 또 다른 일련의 훈련이며, 회사는 이 기술을 점점 더 큰 기본 모델에 적용할 계획이라고 밝혔습니다.
동시에 Anthropic, xAI 및 Google DeepMind의 다른 최고 AI 연구소의 연구원들도 자체 버전의 기술을 개발하기 위해 노력하고 있습니다 노력에 익숙한 사람들에 따르면
"W 우리는 이러한 모델을 매우 빠르게 개선하기 위해 뽑아낼 수 있는 많은 열매를 보고 있습니다."라고 10월에 열린 기술 컨퍼런스에서 OpenAI의 최고 제품 책임자인 케빈 웨일이 말했습니다. "사람들이 따라잡을 때까지 우리는 세 걸음 더 앞서 나가려고 노력할 것입니다."
구글과 xAI는 논평 요청에 응답하지 않았고, 앤트로픽은 즉각적인 논평이 없었습니다.
이는 지금까지 엔비디아의 AI 칩에 대한 무한한 수요가 지배적이었던 AI 하드웨어의 경쟁 구도에 변화를 가져올 수 있습니다. 세쿼이아에서 안드레센 호로위츠에 이르기까지 저명한 벤처 캐피털 투자자들은 OpenAI와 xAI를 비롯한 여러 AI 연구소에서 고가의 AI 모델 개발에 수십억 달러를 쏟아부은 바 있으며, 이러한 변화를 주목하고 고가의 베팅에 미칠 영향을 신중하게 검토하고 있습니다.
"이러한 변화는 대규모 사전 훈련 클러스터의 세계에서 추론을 위한 분산형 클라우드 기반 서버인 추론 클라우드로 우리를 옮길 것입니다."라고 Sequoia Capital의 파트너인 Sonya Huang은 Reuters에 말했습니다.
가장 최첨단인 엔비디아의 AI 칩에 대한 수요 덕분에 엔비디아는 10월에 애플을 제치고 세계에서 가장 가치 있는 회사로 부상했습니다. 엔비디아가 우위를 점하고 있는 트레이닝 칩과 달리, 이 거대 반도체 기업은 추론 시장에서 더 많은 경쟁에 직면할 수 있습니다.
제품 수요에 미칠 수 있는 영향에 대한 질문에 엔비디아는 최근 회사 프레젠테이션에서 o1 모델 뒤에 숨겨진 기술의 중요성에 대해 언급했습니다. CEO인 젠슨 황은 추론에 자사 칩을 사용하는 수요 증가에 대해 이야기했습니다.
"우리는 이제 두 번째 스케일링 법칙을 발견했는데, 이것이 바로 추론 시점의 스케일링 법칙입니다... 이러한 모든 요인으로 인해 블랙웰에 대한 수요가 엄청나게 높아졌습니다."라고 지난달 인도에서 열린 컨퍼런스에서 회사의 최신 AI 칩을 언급하며 황은 말했습니다.
-
등록일 08:44