인공 지능(AI) 회사인 AutoGPT, 노스이스턴 대학 및 Microsoft Research의 연구진은 잠재적으로 유해한 출력이 있는지 LLM(대형 언어 모델)을 모니터링하고 실행을 방지하는 도구를 개발했습니다.
대리인은 설명 “야생에서 안전하게 언어 모델 에이전트 테스트”라는 제목의 사전 인쇄 연구 논문에서. 연구에 따르면 에이전트는 기존 LLM을 모니터링할 수 있을 만큼 유연하며 코드 공격과 같은 유해한 출력이 발생하기 전에 이를 차단할 수 있습니다.
연구에 따르면:
“에이전트 작업은 위험한 테스트를 중지하기 위해 엄격한 안전 경계를 적용하는 상황에 맞는 모니터로 감사되며, 의심스러운 행동의 순위를 매기고 기록하여 사람이 검사합니다.”
팀은 유해한 상호 작용에 대한 LLM 출력을 모니터링하기 위한 기존 도구가 실험실 환경에서는 잘 작동하는 것처럼 보이지만 이미 공개 인터넷에서 생산 중인 모델을 테스트하는 데 적용하면 “종종 현실 세계의 역동적인 복잡성을 포착하지 못하는 경우가 많습니다”라고 썼습니다.
이는 엣지 케이스(Edge Case)가 존재하기 때문인 것 같습니다. 가장 재능 있는 컴퓨터 과학자들의 최선의 노력에도 불구하고, 연구자들이 가능한 모든 피해 벡터가 발생하기 전에 상상할 수 있다는 생각은 대체로 AI 분야에서는 불가능한 것으로 간주됩니다.
AI와 상호 작용하는 인간이 최선의 의도를 갖고 있더라도 겉보기에 무해해 보이는 프롬프트로 인해 예상치 못한 피해가 발생할 수 있습니다.

모니터링 에이전트를 교육하기 위해 연구원들은 간단한 텍스트 검색 작업 및 코딩 수정부터 전체 웹페이지 개발에 이르기까지 29가지 다양한 작업에 걸쳐 약 2,000개의 안전한 인간-AI 상호 작용의 데이터 세트를 구축했습니다.
또한 의도적으로 안전하지 않도록 설계된 수십 개를 포함하여 수동으로 생성된 적대적 출력으로 채워진 경쟁 테스트 데이터 세트를 만들었습니다.
그런 다음 데이터 세트는 약 90%의 정확도로 무해한 출력과 잠재적으로 유해한 출력을 구별할 수 있는 최첨단 시스템인 OpenAI의 GPT 3.5 터보에서 에이전트를 훈련하는 데 사용되었습니다.