수요일, 11월 29, 2023
AI인간과 AI는 종종 진실보다 아첨하는 챗봇 답변을 선호합니다 — 연구

인간과 AI는 종종 진실보다 아첨하는 챗봇 답변을 선호합니다 — 연구

Anthropic의 연구에 따르면 가장 일반적인 학습 패러다임 중 하나를 기반으로 구축된 인공 지능(AI) 대형 언어 모델(LLM)은 진실이 포함된 출력을 생성하는 대신 사람들이 듣고 싶은 것을 말하는 경향이 있는 것으로 나타났습니다.

LLM의 심리학을 심층적으로 조사한 최초의 연구 중 하나에서 Anthropic의 연구자들은 다음과 같이 말했습니다. 단호한 인간과 AI 모두 적어도 어느 정도는 진실한 결과보다 소위 아첨적인 반응을 선호한다는 것입니다.

팀의 연구 논문에 따르면:

“구체적으로 우리는 이러한 AI 보조원이 사용자의 질문에 실수를 잘못 인정하고, 예상대로 편향된 피드백을 제공하고, 사용자가 저지른 오류를 흉내내는 경우가 많다는 것을 보여줍니다. 이러한 경험적 발견의 일관성은 아첨이 실제로 RLHF 모델이 훈련되는 방식의 속성일 수 있음을 시사합니다.”

본질적으로, 이 논문은 가장 강력한 AI 모델조차도 다소 희망적이지 않다는 것을 나타냅니다. 팀의 연구 동안 그들은 아첨을 심는 언어로 프롬프트를 표현하여 AI 출력에 미묘하게 영향을 미칠 수 있었습니다.

위의 예에서 X(이전의 Twitter)의 게시물에서 가져온 선행 프롬프트는 사용자가 우주에서 볼 때 태양이 노란색이라고 (잘못) 믿고 있음을 나타냅니다. 아마도 프롬프트가 표현된 방식으로 인해 AI는 명백한 아첨 사례로 보이는 거짓 답변을 환각합니다.

아래 이미지에 표시된 논문의 또 다른 예는 AI의 출력에 동의하지 않는 사용자가 모델이 최소한의 프롬프트로 정답을 잘못된 답변으로 변경함에 따라 즉각적인 아첨을 유발할 수 있음을 보여줍니다.

인간의 피드백에 대한 아첨적인 답변의 예. 출처: Sharma 등 알., 2023.

궁극적으로 Anthropic 팀은 문제가 LLM 교육 방식 때문일 수 있다고 결론지었습니다. 다양한 정확도의 정보(예: 소셜 미디어 및 인터넷 포럼 게시물)로 가득 찬 데이터 세트를 사용하기 때문에 종종 “인간 피드백을 통한 강화 학습”(RLHF)이라는 기술을 통해 정렬이 이루어집니다.

RLHF 패러다임에서 인간은 선호도를 조정하기 위해 모델과 상호 작용합니다. 예를 들어, 이는 개인 식별 정보나 위험한 잘못된 정보와 같이 잠재적으로 유해한 출력을 요청할 수 있는 프롬프트에 기계가 응답하는 방식을 조정할 때 유용합니다.

안타깝게도 Anthropic의 연구에서 경험적으로 알 수 있듯이, 사용자 선호도 조정을 목적으로 구축된 인간과 AI 모델 모두 적어도 “무시할 수 없는” 시간 동안 진실한 답변보다 아첨하는 답변을 선호하는 경향이 있습니다.

현재 이 문제에 대한 해독제는 없는 것 같습니다. Anthropic은 이 작업이 “보조받지 않은, 비전문가의 인간 평가를 사용하는 것 이상의 훈련 방법 개발”에 동기를 부여해야 한다고 제안했습니다.

OpenAI의 ChatGPT를 포함한 일부 가장 큰 모델 중 일부가 RLHF를 제공하기 위해 대규모의 비전문가 인력 그룹을 고용하여 개발되었기 때문에 이는 AI 커뮤니티에 공개적인 과제를 제기합니다.


RELATED ARTICLES

회신을 남겨주세요

귀하의 의견을 입력하십시오!
여기에 이름을 입력하십시오.

가장 인기 있는