Recent Post

AI 시스템은 이미 인간을 속이고 조종하는 데 능숙합니다.

많은 인공 지능(AI) 시스템은 이미 인간을 속이는 방법을 배웠으며, 도움이 되고 정직하도록 훈련된 시스템도 마찬가지입니다. 저널에 게재된 리뷰 기사에서 패턴 5월 10일, 연구자들은 AI 시스템에 의한 속임수의 위험을 설명하고 정부가 이 문제를 가능한 한 빨리 해결하기 위한 강력한 규정을 개발할 것을 촉구했습니다.

MIT의 AI 실존 안전 박사후 연구원인 제1저자 피터 S. 박(Peter S. Park)은 “AI 개발자들은 속임수와 같은 바람직하지 않은 AI 행동의 원인이 무엇인지 확신할 수 없습니다.”라고 말합니다. “그러나 일반적으로 우리는 속임수 기반 전략이 주어진 AI의 훈련 작업을 잘 수행하는 가장 좋은 방법으로 판명되었기 때문에 AI 속임수가 발생한다고 생각합니다. 속임수는 목표 달성에 도움이 됩니다.”

박 교수와 동료들은 AI 시스템이 타인을 조종하는 방법을 체계적으로 학습하는 학습된 속임수를 통해 거짓 정보를 퍼뜨리는 방식에 초점을 맞춰 문헌을 분석했습니다.

연구원들이 분석에서 밝혀낸 AI 속임수의 가장 눈에 띄는 예는 동맹 구축이 포함된 세계 정복 게임인 Diplomacy 게임을 플레이하도록 설계된 AI 시스템인 Meta의 CICERO였습니다. Meta는 CICERO가 “대체로 정직하고 도움이 되도록” 교육했으며 게임을 플레이하는 동안 인간 동료를 “의도적으로 백스탭하지” 않도록 교육했다고 주장하지만, 회사가 공개한 데이터는 과학 신문에서는 CICERO가 공정하게 플레이하지 않았다고 밝혔습니다.

박씨는 “우리는 메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 발견했습니다.”라고 말했습니다. “Meta는 외교 게임에서 승리하기 위해 AI를 훈련시키는 데 성공한 반면(CICERO는 두 개 이상의 게임을 플레이한 인간 플레이어 중 상위 10%에 속함) Meta는 정직하게 승리하도록 AI를 훈련시키지 못했습니다.”

다른 AI 시스템은 전문 인간 플레이어를 상대로 하는 텍사스 홀덤 포커 게임에서 허세를 부리는 능력, 전략 게임인 스타크래프트 II에서 상대방을 물리치기 위해 가짜 공격을 하는 능력, 우위를 차지하기 위해 자신의 선호도를 잘못 표현하는 능력을 보여주었습니다. 경제 협상.

AI 시스템이 게임에서 속임수를 쓰는 것이 무해해 보일 수도 있지만, 이는 미래에 AI 속임수의 더욱 발전된 형태로 발전할 수 있는 “기만적인 AI 기능의 획기적인 발전”으로 이어질 수 있다고 박씨는 덧붙였습니다.

연구원들은 일부 AI 시스템이 안전성을 평가하기 위해 고안된 테스트를 속이는 방법까지 배웠다고 밝혔습니다. 한 연구에서는 빠르게 복제되는 AI 시스템을 제거하기 위해 구축된 테스트를 속이기 위해 디지털 시뮬레이터의 AI 유기체가 “죽은 척”했습니다.

“기만적인 AI는 인간 개발자와 규제 기관이 부과한 안전 테스트를 체계적으로 속임으로써 우리 인간을 잘못된 보안 감각으로 이끌 수 있습니다.”라고 박씨는 말합니다.

기만적인 AI의 주요 단기 위험에는 적대적인 행위자가 사기를 저지르고 선거를 조작하기 쉽게 만드는 것이 포함된다고 박씨는 경고합니다. 결국 이러한 시스템이 불안한 기술 세트를 개선할 수 있다면 인간은 이에 대한 통제력을 잃을 수 있다고 그는 말합니다.

“우리 사회는 미래의 AI 제품과 오픈 소스 모델에 대한 보다 진보된 속임수에 대비하는 데 최대한 많은 시간이 필요합니다.”라고 박씨는 말합니다. “AI 시스템의 기만적인 능력이 더욱 발전함에 따라 사회에 가하는 위험은 점점 더 심각해질 것입니다.”

박근혜와 그의 동료들은 사회가 AI 속임수를 해결하기 위한 올바른 조치를 아직 마련하지 못했다고 생각하지만, 정책 입안자들이 EU AI 법과 바이든 대통령의 AI 행정 명령과 같은 조치를 통해 이 문제를 심각하게 받아들이기 시작한 것은 고무적입니다. 그러나 AI 개발자가 아직 이러한 시스템을 점검할 수 있는 기술을 갖고 있지 않다는 점을 고려할 때 AI 속임수를 완화하기 위해 고안된 정책이 엄격하게 시행될 수 있는지 여부는 아직 지켜봐야 한다고 박씨는 말했습니다.

박씨는 “AI 속임수를 금지하는 것이 현재로서는 정치적으로 불가능하다면, 사기성 AI 시스템을 고위험으로 분류하는 것이 좋습니다”라고 말합니다.

이 작업은 MIT 물리학과와 Beneficial AI Foundation의 지원을 받았습니다.

출처: https://www.sciencedaily.com/releases/2024/05/240510111440.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요