“대화형 AI 언어모델 4개 비교해보니…”

댓글 2023-08-21 (월) 12:00:00

글꼴 크게 작게 인쇄 facebook twitter 구글

▶ “GPT-4가 가장 우수해” 여전히 정보 오류 빈발

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

건전한 댓글 문화 운영 원칙

댓글 안에 당신의 성숙함도 담아 주세요.

'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.

1. 댓글 삭제

자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.

타인에 대한 욕설 또는 비방
인신공격 또는 명예훼손
개인정보 유출 또는 사생활 침해
음란성 내용 또는 음란물 링크
상업적 광고 또는 사이트/홈피 홍보
불법정보 유출
같은 내용의 반복 (도배)
지역감정 조장
폭력 또는 사행심 조장
신고가 3번 이상 접수될 경우
기타 기사 내용과 관계없는 내용

2. 권한 제한

불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.

렌트/리스/하숙
구인구직
중고차
전문업체

오늘의 1면

트럼프, ‘선거구 조정거부’ 인디애나주 공화의원에 “강력 반대”
도널드 트럼프 대통령은 17일 내년 중간선거에서 연방 하원의원…

오피니언

옥세철 논설위원
러시아제국 부활의 꿈은 멀어져만 가고…
폭발 직전의 상황인가?
메건 매카들 워싱턴포스트 칼럼니스트 / CNN ‘GPS’ 호스트
[메건 매카들 칼럼] 지나간 시대의 낙관주의

조형숙 시인·수필가 미주문협 총무이사
나무의 얼굴
한영일 / 서울경제 논설위원
[만화경] AI 수능 도전기
선천적 복수국적 모순 이제는 바로잡아야

상처만 남은 연방정부 셧다운 종료
조지 F·윌 워싱턴포스트 칼럼니스트
[조지 F. 윌 칼럼] 바이든과 트럼프, 이민 정책의 실패
김미선 서북미문인협회 회장시인
[한국춘추] 국적의 경계 너머, 문학의 시민권

이전 다음

1/3

지사별 뉴스

위클리 교육

SAT 응시자 200만명 이상… 효율적인 시험준비 요령 중요
코로나 팬데믹으로 급감했던 대학입학표준시험 응시자 수가 다시 …

자동차

LA 신차 판매 다시 증가세… 트럭·SUV가 70% 차지
올해 9월(1~3분기)까지 LA 카운티 신차 판매가 전년 대비…

x

로그인

회원가입

Koreatimes.com 서비스는 Ktown1st.com과 통합계정입니다. 계정이 없으신 분은 회원가입을 해 주세요.

하단의 스팸방지코드(recaptcha)를 클릭해주세요.

회원가입

Hawaii - 경제

“대화형 AI 언어모델 4개 비교해보니…”

댓글 안에 당신의 성숙함도 담아 주세요.

오늘의 1면

미주 한국일보 지면보기

지사별 뉴스

x 로그인 회원가입 Koreatimes.com 서비스는 Ktown1st.com과 통합계정입니다. 계정이 없으신 분은 회원가입을 해 주세요.

통합회원 전환 안내

비밀번호 재설정

x

로그인

회원가입

Koreatimes.com 서비스는 Ktown1st.com과 통합계정입니다. 계정이 없으신 분은 회원가입을 해 주세요.