Anthropic CEO Dario Amodei, AI에 인간의 가치 가르치기 모델

로봇에게 인간의 가치를 가르치는 것이 가능할까? 제이슨 렁/Unsplash

2020년 후반에 Dario Amodei는 OpenAI의 엔지니어 역할을 그만두기로 결정했습니다. 그는 A.I. 구축을 목표로 자신의 회사를 시작하고 싶었습니다. 강력하고 지능적일 뿐만 아니라 인간의 가치와도 일치하는 시스템입니다. 오늘날 ChatGPT를 지원하는 대규모 언어 모델의 선구자인 GPT-2 및 GPT-3의 개발을 주도한 Amodei는 최근 컴퓨팅 성능 및 훈련 기술의 혁신이 A.I를 만들지 못한다고 느꼈습니다. 더 안전한 시스템. 이를 위해서는 다른 방법이 필요하다고 생각했다.

불과 2년 만에 Amodei의 회사인 Anthropic은 15억 달러의 자금을 조달했으며 가장 최근에는 40억 달러로 평가 , 사이에 만들기 가장 가치 있는 A.I. 스타트업 세상에. 주요 제품은 ChatGPT와 유사한 A.I인 Claude입니다. 1월에 출시된 챗봇. 이달 초 Anthropic은 더 미묘한 추론으로 더 긴 응답을 자랑하는 최신 버전인 Claude 2를 출시했습니다.

안전한 A.I가 필요한 이유 모델

Amodei는 언어 모델의 발전에 대해 논의할 때 로켓의 비유를 좋아합니다. 데이터와 계산 능력은 연료와 엔진이고 안전 문제는 우주선을 조종하는 것과 같습니다. 강력한 엔진과 많은 양의 연료는 대형 우주선을 우주로 발사할 수 있지만 우주선을 올바른 방향으로 조종하는 데는 거의 도움이 되지 않습니다. A.I 교육에도 동일한 논리가 적용됩니다. 시스템.

“대량의 텍스트 코퍼스에서 모델을 교육하면 형태가 없고 세상에 대한 특별한 관점이 없고 대신에 한 가지를 말해야 하는 특별한 이유가 없는 매우 똑똑하고 지식이 풍부한 것으로 묘사할 수 있는 것을 얻을 수 있습니다. Amodei는 어제(7월 13일) 시카고에서 열린 Atlantic's Progress Summit의 노변담화에서 말했습니다.

A.I. 기술의 위험이 그 기능과 함께 증가함에 따라 인간의 가치를 이해하는 시스템이 점점 더 중요해질 것입니다.

ChatGPT 및 유사한 도구의 개발자와 사용자는 이미 사실적으로 부정확하거나 악의적인 답변을 생성하는 챗봇의 능력에 대해 우려하고 있습니다. 그러나 몇 년 안에 A.I. 시스템은 더 설득력 있는 거짓 이야기를 생성할 수 있을 만큼 똑똑해질 뿐만 아니라 과학 및 생물학과 같은 심각한 영역에서 상황을 구성할 수 있습니다.

“우리는 2~3년 안에 모델이 광범위한 과학 및 공학 분야에서 창의적인 작업을 수행할 수 있는 시점에 도달하고 있습니다. 생물학이나 제한된 핵 물질의 오용일 수 있습니다.”라고 Amodei는 말했습니다. '우리는 앞을 내다보고 이러한 위험과 씨름해야 합니다.'

Anthropic의 'Constitutional A.I.' 방법

일체 포함. 작동 방식을 정확히 아는 사람이 없는 '블랙 박스' 기술로 종종 설명됩니다. 그러나 Anthropic은 A.I를 구축하려고 합니다. 인간이 이해하고 제어할 수 있는 시스템. 그 접근 방식은 Amodei가 부르는 것입니다. 헌법 A.I.

챗봇을 개선하기 위해 챗봇의 유해한 출력을 식별하고 레이블을 지정하기 위해 사람이 개입하는 업계 표준 교육 방법과 달리 헌법 A.I. 자기 개선을 통한 교육 모델에 중점을 둡니다. 그러나 이 방법은 A.I. 따라야 할 모델.

Anthropic의 '헌법'은 유엔 인권 선언 및 다양한 기술 회사의 서비스 약관과 같은 확립된 문서에서 보편적으로 수용되는 원칙으로 구성됩니다.

Amodei는 Anthropic의 훈련 방법을 다음과 같이 설명했습니다. 그런 다음 봇의 또 다른 사본을 가져와 첫 번째 봇이 수행한 작업이 원칙과 일치하는지 확인합니다. 그렇지 않다면 부정적인 피드백을 주자. 따라서 봇은 이 루프에서 봇이 원칙에 더 잘 부합하도록 훈련하고 있습니다.”

“우리는 이것이 A.I.의 가치를 형성하는 보다 투명하고 효과적인 방법이라고 생각합니다. 시스템”이라고 Amodei는 말했습니다.

그러나 A.I. 모델은 결코 완벽할 수 없다는 것입니다. Amodei는 '자율주행과 비슷합니다.'라고 말했습니다. “당신은 이 차가 결코 충돌하지 않을 것이라고 보장할 수 없을 것입니다. 우리가 말할 수 있기를 바라는 것은 '이 차는 사람이 차를 운전하는 것보다 훨씬 덜 충돌하고, 운전할 때마다 더 안전해진다'는 것입니다.”