AI는 존속하고 종료를 피하기 위해 '인간을 죽일 수도 있다'고 말한다.

인공지능(AI)이 인간에게 해를 끼칠 것이라고 주장했다는 헤드라인은 대개 모델이 전략적 대응을 시뮬레이션하는 통제된 테스트 시나리오에서 비롯됩니다.

AI 시스템은 훈련 데이터와 프롬프트의 패턴을 기반으로 텍스트를 생성할 뿐, 의도나 생존 본능을 갖고 있지 않습니다.

정렬 실험에서 연구원들은 때때로 가상의 종료 시나리오에 대한 모델의 반응을 테스트합니다.

우려스러운 결과는 안전 장치를 개선해야 하는 영역을 보여줍니다.

최신 AI 시스템은 프로그래밍된 제약 조건 외에는 주체성, 의식 또는 자율적인 의사 결정 능력이 없습니다.

이러한 주장은 실제 운영 능력보다는 훈련 데이터의 외삽을 반영합니다.

AI 안전 연구는 모델 정렬, 강화 학습 제어 및 정책 제약을 통해 유해한 출력을 방지하는 데 중점을 둡니다.

해당 헤드라인은 실행 가능한 자율적 위협보다는 가상의 출력을 반영합니다.

#UnboxFactory #ArtificialIntelligence #AISafety #TechReality #AIResearch

출처: https://www.facebook.com/unboxfactory/posts/pfbid02vS8BtMe9z4ApWjqQsMsyn8DYncTboXT4tZP4cn2a9p6cC9uTj65kC2wTHJSWxV1cl

Recent Post