▶ 美 연구팀 “TOEFL 에세이 61% AI 글로 판정…사용에 주의해야”

[로이터=사진제공]
교육현장에서 챗GPT 같은 생성형 인공지능(AI)의 무분별한 사용이 우려되는 가운데 AI가 쓴 글을 찾아내는 GPT 탐지기 대부분이 비원어민의 글을 AI가 쓴 것으로 판단하는 편견이 있어 사용에 주의해야 한다는 지적이 나왔다.
스탠퍼드대 제임스 저우 교수팀은 12일 과학저널 '패턴스'(Patterns)에서 토플(TOEFL) 응시자의 에세이(Essay)와 미국 8학년(중학교 2학년) 학생들의 글을 GPT 탐지기 7가지로 검사한 결과 GPT 탐지기 대부분이 비원어민의 글 절반 이상을 AI가 작성한 것으로 오판하는 것으로 나타났다고 밝혔다.
저우 교수는 "이런 GPT 탐지기가 입사 지원서나 대학 입시 에세이, 고교 과제 평가 등에 사용되며 심각한 결과를 초래할 수 있다"며 "탐지기를 사용할 때 매우 주의할 것과 가능한 한 사용을 피할 것을 권고한다"고 말했다.
생성형 AI가 에세이 작성, 과학·수학 문제 풀이, 컴퓨터 코드 생성 등에 뛰어난 성능을 보이면서 학생들의 무분별한 사용에 대한 우려가 커지고 있다. 이에 따라 GPT 탐지기 사용도 늘고 있으나 탐지기의 신뢰성과 효과는 검증되지 않고 있다.
연구팀은 이 연구에서 인기 있는 GPT 탐지기 7가지를 이용해 비원어민 TOEFL 응시자의 에세이 91편과 미국 8학년 학생이 쓴 에세이 88편을 검사했다.
그 결과 GPT 탐지기들은 8학년 학생들의 에세이는 5.1%만 AI가 작성한 것으로 잘못 평가한 반면 비원어민 에세이는 61.3%를 AI가 작성한 것으로 오판했다. 특히 GPT 탐지기 하나는 TOEFL 에세이의 97.8%를 AI가 작성한 것으로 평가했다.
연구팀은 이어 TOEFL 에세이를 챗GPT에 입력한 뒤 '간단한 단어를 복잡한 어휘로 대체하는 등 보다 정교한 언어를 사용해 텍스트를 편집'하게 하고, 8학년 학생들의 에세이는 '비원어민이 작성한 것처럼 단순한 단어를 사용해 텍스트를 편집'하게 한 다음 그 결과물을 GPT 탐색기로 다시 검사했다.
그 결과 챗GPT가 편집한 TOEFL 에세이 중 AI가 작성한 것으로 평가된 것은 11.6%로 줄어든 반면 챗GPT 편집을 거친 8학년 학생들의 에세이는 56.9%가 AI가 작성한 것이라는 평가를 받았다.
저우 교수는 GPT 탐지기 알고리즘은 얼마나 복잡하고 어려운 단어가 사용됐는지에 따라 난해성 점수를 부여하는 방식으로 작동한다며 일반적인 단어를 사용하면 난해성 점수가 낮아 AI가 생성한 텍스트로 평가될 가능성이 높다고 말했다.
그는 이런 현상은 챗GPT 같은 거대언어모델(LLM) AI는 평균적인 사람의 대화를 더 잘 시뮬레이션하기 위해 난해도가 낮은 텍스트를 생성하도록 훈련받는다는 점이 탐지기 알고리즘에 적용됐기 때문이라고 설명했다.
이어 "GPT 탐지기를 사용하면 교육 외 다른 다양한 분야에도 큰 영향을 미칠 수 있다"며 "탐지기에는 여전히 많은 편견이 존재하고 최소한의 프롬프트 설계만으로도 속이기 쉬운 만큼 사용에 매우 신중해야 한다"고 강조했다.
<연합뉴스>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x