로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
[단독] 두 달 전부터 수억 인출하고 가족엔 "실종 신고해라"
N
[]
트럼프, 국정연설서 ‘미국 황금기’ 자화자찬…관세 드라이브 재확인 [종합]
N
[]
충남·대전 통합법안 보류 여파 계속…"돌아오라 vs 폐기하라"(종합)
N
[]
시민단체 “지귀연 재판부, 내란 실체 축소···윤석열 1심 오류 항소심서 바로잡아야”
N
[]
李대통령, 與상임고문단 만나 ‘통합 국정’ 강조…“대통령은 한쪽 편 아냐”
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]“원래 더 똑똑하면 헛소리도 많이 해?”…오픈AI 신모델, 환각률 역대 최고치
온카뱅크관리자
조회:
97
2025-04-21 06:27:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">o3·o4 미니 환각률 2배 증가<br>비추론 GPT-4o 보다 불안정</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="t1xcLhyjlf"> <figure class="figure_frm origin_fig" contents-hash="c9af29a3320ffd86c6b0d361fd4e7c84686d0a22423c0777e4a455fab20c0980" dmcf-pid="FtMkolWASV" dmcf-ptype="figure"> <p class="link_figure"><img alt="오픈AI와 챗GPT 로고. [로이터 = 연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/21/mk/20250421061806188eyxi.jpg" data-org-width="616" dmcf-mid="5HOHSubYl8" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/21/mk/20250421061806188eyxi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 오픈AI와 챗GPT 로고. [로이터 = 연합뉴스] </figcaption> </figure> <div contents-hash="5cb07ab480be73cb9b40ac57f586cedc436854fa086a3990fb470f2f89d0021a" dmcf-pid="3FREgSYcv2" dmcf-ptype="general"> 챗GPT 개발사 오픈AI가 최근 새롭게 내놓은 추론형 인공지능(AI) 모델 ‘o3’와 ‘o4 미니’의 환각 현상이 예전 버전보다 더 심한 것으로 나타났다. 환각은 생성형 AI 서비스가 존재하지 않거나 맥락에 맞지 않는데도 그것이 진실인 것처럼 대답하는 현상을 말한다. </div> <p contents-hash="41c1164d5a011690ed8b66a3f626309ae7e84c14d4a8ea3815ea125d08b1eb31" dmcf-pid="03eDavGky9" dmcf-ptype="general">19일(현지시간) 테크크런치에 따르면 오픈AI는 사람에 대한 모델의 지식 정확도를 측정하는 사내 벤치마크인 퍼슨(Person) QA에서 o3가 33%의 질문에 대해 환각을 일으킨다는 사실을 발견했다.</p> <p contents-hash="f388badace5ee24fac649f3840c9a08cd1139c4d9e57b30788c74f041088831e" dmcf-pid="p0dwNTHEhK" dmcf-ptype="general">이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 o1과 o3 미니 대비 2배 이상 높은 것이다.</p> <p contents-hash="22f1547a93f29dc2ceceffcdde35fc84723246d44c059eea22e36bae2aef8d1a" dmcf-pid="UpJrjyXDCb" dmcf-ptype="general">o4 미니는 무려 48%를 기록해 가장 나쁜 성적을 거뒀다.</p> <p contents-hash="473d0d03cf68f2bcb8a25700787fe9ac7097e305ef0f491f722ac2a1db45edaa" dmcf-pid="uUimAWZwCB" dmcf-ptype="general">심지어 기존 오픈AI의 비추론 모델인 GPT-4o보다도 더 자주 환각에 빠진 것으로 나타났다.</p> <figure class="figure_frm origin_fig" contents-hash="5e1cef7f4d1dfe77df1580fe62074a969a3a57b7a4bebd43fd67fd50579060c2" dmcf-pid="7unscY5rWq" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/21/mk/20250421061808858ffgw.png" data-org-width="320" dmcf-mid="1C6NJOSgv4" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/21/mk/20250421061808858ffgw.png" width="658"></p> </figure> <div contents-hash="c59c0fde4351f36bbf11692bd3bbd593fd638e70cb5e300eeb6abc0384ddee91" dmcf-pid="z7LOkG1mTz" dmcf-ptype="general"> o3와 o4 미니는 지난 16일 오픈AI가 “이미지로 사고할 수 있는 첫 번째 모델”이라는 설명과 함께 출시했다. “단순히 이미지를 보는 것뿐 아니라 시각 정보를 추론 과정에서 직접 통합할 수 있다”는 게 회사 측 설명이다. </div> <p contents-hash="1928c2d231c85408a9859f4cb723b71a8cdae981b2d8b823b389fee425fcc950" dmcf-pid="qzoIEHtsC7" dmcf-ptype="general">실제 두 모델의 경우 사용자가 화이트보드에 그린 그림이나 도표, 그래프 등을 업로드하면 AI가 이를 분석해 답변한다. 특히 흐릿하거나 화질이 낮은 이미지도 이해할 수 있고, 이를 확대하거나 회전하는 등의 작업도 가능하다.</p> <p contents-hash="8b2f6fc48c7e71e56fc4c25bbb4c40b1977a4cea734cb097318c9d78d9a55dfc" dmcf-pid="BDFfqJg2Tu" dmcf-ptype="general">코딩능력도 강해 o3는 이를 측정하는 SWE 벤치마크 검증에서 69.1%, o4 미니는 68.1%를 기록했다. 이는 기존 o3 미니(49.3%)뿐 아니라 앤스로픽의 클로드 3.7 소넷(62.3%)보다도 높은 것이다.</p> <p contents-hash="01d4dda5c6d2e9fa35c332f0714a72090aea4f1a32b19b7361400d35b1d242a9" dmcf-pid="bw34BiaVCU" dmcf-ptype="general">문제는 이런 성능 개선과 관계없이 환각 현상은 오히려 이전 버전보다 더 심해졌다는 것이다. 지금까지 새로운 AI 모델이 나올 때마다 환각 부분이 조금씩 개선된 것을 감안하면 이는 납득하기 힘들다는 게 업계 분석이다.</p> <p contents-hash="aba8a03fb53bdc2a9e8aae5ddf71bed4ed776903c3d96c34006490cf4ce46fb4" dmcf-pid="Kr08bnNfWp" dmcf-ptype="general">다만 오픈AI는 이 같은 현상의 정확한 원인을 파악하지 못하고 있다. o3와 o4 미니에 대한 기술 보고서에서 오픈AI는 추론 모델 확장이 환각 악화로 이어지는 이유를 이해하기 위해 “더 많은 연구가 필요하다”고 밝혔다.</p> <p contents-hash="cb54a48dec1e2818735011781bb9f268805e5aec6ee2136516a2fc0d434fce50" dmcf-pid="9mp6KLj4h0" dmcf-ptype="general">우선 단편적으로는 해당 모델이 “전반적으로 (예전 모델 대비) 더 많은 주장을 하기 때문에 더 정확한 주장뿐 아니라 더 부정확하거나 환각적인 주장을 하는 경우가 많다”고 설명했다.</p> <p contents-hash="5990bc570988ee8c6bc834e7e3c0124d32eb909f4dcc07accafa514f45003877" dmcf-pid="2sUP9oA8S3" dmcf-ptype="general">업계에서는 최근 오픈AI를 비롯한 주요 생성형 AI 기업들이 기존 AI 모델을 개선하는 기술의 수익률이 떨어지자 추론형 모델 개발로 전략을 바꾼 것을 감안하면 이번 사태는 향후 추론형 모델의 신뢰성에 대한 의구심을 키우는 상황으로 이어질 수 있다고 우려하고 있다.</p> <p contents-hash="3e4236aea55e60eb6f92011893f725211d40b41ba92a4d0597c48f52a914e57a" dmcf-pid="VOuQ2gc6CF" dmcf-ptype="general">특히 세무나 회계, 법조계처럼 답변의 정확성이 다른 업종보다 특히 중요한 분야에서는 환각 이슈가 해결되지 않을 경우 추론형 AI의 사용이 불가능할 수 있다.</p> <p contents-hash="2ce4f2d40979fd0ea4914f61dbf82193279b8baa70b589d045abed8fd8ea6635" dmcf-pid="fI7xVakPht" dmcf-ptype="general">이에 대해 오픈AI는 “모든 문제에서 환각 문제를 해결하는 것은 지속적인 연구 분야”라며 “정확성과 신뢰성을 개선하기 위해 지속적으로 노력하고 있다”고 해명했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기