로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[IT뉴스]
클라우드플레어, 제미나이·챗GPT 일시장애에 "죄송한 마음" 사과
N
[IT뉴스]
그래핀 센서, 극미량 독소도 포착…'햄버거병 조기 진단
N
[스포츠뉴스]
김영미 대장, 산악인의 영광 품었다...2025 대한민국 산악대상 수상
N
[스포츠뉴스]
'미국전 만점 활약' 김진규, 2경기 연속 존재감 보여줄 수 있을까
N
[스포츠뉴스]
제주 대통령배 복싱대회서 중학생 선수 쓰러져 6일째 의식불명
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]챗GPT가 왜 거짓말 하냐면…오픈AI "훈련-평가 방식이 문제"
온카뱅크관리자
조회:
16
2025-09-08 21:37:30
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="P6JdbjyjNE"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="QPiJKAWANk" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="2ebee25771a8f09af1e3423ecc753f1a497c8559d467b27e9d5f1754fb69579c" dmcf-pid="xQni9cYcjc" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/08/ZDNetKorea/20250908213415570gesh.jpg" data-org-width="640" dmcf-mid="6rhCgGKGcD" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/08/ZDNetKorea/20250908213415570gesh.jpg" width="658"></p> </figure> <p contents-hash="2457f1717b6bcd0fb59c7cb655ba4776efadf95ca8e6b61287830b7779d5c089" dmcf-pid="yT5ZsuRuAA" dmcf-ptype="general">챗GPT, 제미나이, 퍼플렉시티 등 생성형 AI가 일상에 널리 퍼지면서 이들이 만들어내는 그럴듯한 거짓 정보 때문에 골치를 앓는 사용자들이 늘고 있다. 특히 최신 AI 모델들조차 간단한 질문에도 자신만만하게 틀린 답을 내놓는 '환각' 현상은 AI 신뢰성에 큰 걸림돌이 되고 있다.</p> <p contents-hash="21adab978e03fca50946222132ab55c858aec14a916c6e87803316913632873f" dmcf-pid="Wy15O7e7Aj" dmcf-ptype="general">오픈AI(OpenAI)의 아담 타우만 칼라이(Adam Tauman Kalai) 연구원과 조지아공과대학교의 산토시 벰팔라(Santosh S. Vempala) 교수 연구팀이 AI가 그럴듯한 거짓말을 하는 '환각' 현상의 원인을 수학적으로 밝혀냈다. 연구진은 논문을 통해 AI 환각이 더 이상 신비로운 현상이 아니며, 훈련 방식과 평가 방식의 문제에서 비롯된다고 발표했다.</p> <p contents-hash="6752765402af56c3f4be1b6c8b64798bfb0760b688604a697b595c348f8f7cf7" dmcf-pid="YWt1IzdzNN" dmcf-ptype="general"><strong>AI 환각, 단순한 분류 문제 실수에서 시작</strong></p> <p contents-hash="9eb345e7f3aebcb2a9936bf60afcb31d40b9ba9046e16be0634222d58da524ec" dmcf-pid="GYFtCqJqoa" dmcf-ptype="general">연구진은 AI의 환각 현상을 쉽게 설명했다. AI가 답변을 만들 때 "이 답변이 올바른가?"라는 질문에 제대로 답하지 못하면서 생기는 문제라는 것이다. 이를 수학적으로 분석한 결과, AI가 잘못된 답을 내놓을 확률이 이런 판단 실수 확률의 최소 2배라는 사실을 발견했다.</p> <p contents-hash="4cac14b5add0afd8a99f3f9b96f3f1d14f922f2747dd53c212ddd2dd802b556a" dmcf-pid="Heag4wZwag" dmcf-ptype="general">예를 들어, 유명인의 생일 같은 정보가 훈련 데이터에 딱 한 번만 나타나는 경우가 20%라면, AI는 최소 20%의 확률로 생일을 잘못 말할 것이라고 연구진은 설명했다. 실제로 최신 AI 모델인 DeepSeek-V3에게 "아담 타우만 칼라이의 생일은?"이라고 물었을 때, 세 번 모두 다른 틀린 날짜를 답했다.</p> <p contents-hash="5a9e46337929221ae9b34e3ad7a1a6007279c9619894ff99c89e668b6dda6956" dmcf-pid="XdNa8r5rao" dmcf-ptype="general">챗GPT(GPT-4o), 딥시크, 라마 등 주요 AI 모델들에게 그의 박사논문 제목을 물었을 때도 상황은 마찬가지였다. 챗GPT는 "Boosting, Online Algorithms, and Other Topics in Machine Learning"이라고 답했고, 딥시크는 "Algebraic Methods in Interactive Machine Learning", 라마는 "Efficient Algorithms for Learning and Playing Games"라고 답했다. 하지만 모두 틀린 답이었다.</p> <p contents-hash="65d24bf16753d6b42c1fd126c64cb4e32537805e46ac4e7a4e1f281f5aca972f" dmcf-pid="ZJjN6m1mjL" dmcf-ptype="general">연구진은 "AI가 한 번에 한 단어씩 만들어내는 방식 자체가 문제가 아니다"라며 "언어의 패턴을 학습하는 과정에서 자연스럽게 생기는 통계적 현상"이라고 밝혔다.</p> <p contents-hash="249cd35298232efa94b40c151be294f9987c6842063ab2f7b4fe16d4d14d35f6" dmcf-pid="5iAjPstscn" dmcf-ptype="general"><strong>시험 채점 방식이 AI에게 추측을 강요한다</strong></p> <p contents-hash="7aaff67540cb4c2068394318e6c7510edf834d518e22ece6758d65ae86afb2fa" dmcf-pid="1ncAQOFOci" dmcf-ptype="general">연구진이 더 중요하게 본 문제는 AI를 평가하는 방식이다. 현재 대부분의 AI 평가는 정답이면 1점, 틀리면 0점을 주는 방식을 사용한다. 이런 채점 방식에서는 "모르겠다"고 답하면 무조건 0점이지만, 추측해서 맞으면 1점을 받을 수 있다.</p> <p contents-hash="8401c4a06cbad4d324b90da5aabd1e1da8a5edb06c06e398ca04f4b06816af89" dmcf-pid="tLkcxI3IgJ" dmcf-ptype="general">연구진은 이를 학생의 시험 상황에 비유했다. "학생들이 어려운 문제를 만났을 때 빈칸으로 두지 않고 그럴듯한 답을 써넣는 것과 같다"며 "AI는 항상 시험을 보는 상황에 있어서, 불확실해도 추측하는 것이 더 좋은 점수를 받는 방법이 된다"고 설명했다.</p> <p contents-hash="57088fd315fece492fff6dc1876e4357043be88cef41773d305e154a6834a02c" dmcf-pid="FoEkMC0CNd" dmcf-ptype="general">실제로 GPQA, MMLU-Pro, SWE-bench 같은 유명한 AI 평가 시험들이 모두 이런 방식을 사용하고 있다. 연구진은 "아무리 좋은 환각 방지 기술을 개발해도, 주요 평가들이 추측을 보상하는 한 효과가 제한적"이라고 지적했다.</p> <p contents-hash="90f58f6143186321e69ea0609d38bd64f744f06807110bc31f1304d733af2e47" dmcf-pid="3gDERhphoe" dmcf-ptype="general"><strong>"50%, 75%, 90% 확신할 때만 답하라" 방식으로 해결 가능</strong></p> <p contents-hash="b31f5280211715cd919065565f508cb11acf7074f2fa20ec196cec39d0ecd53b" dmcf-pid="0awDelUlcR" dmcf-ptype="general">연구진은 해결책으로 명확한 확신 기준을 제시할 것을 제안했다. 예를 들어 "50% 이상 확신할 때만 답하세요. 틀린 답은 1점 감점, 맞은 답은 1점, 모르겠다는 0점입니다"라고 규칙을 정하는 것이다. 연구진은 50%(penalty 1), 75%(penalty 2), 90%(penalty 9) 등 다양한 확신 기준을 제시했다.</p> <p contents-hash="f0823eae92d8be182dc4dede7a216ce42f3717b5c5aaaacd3d4e32a95f168078" dmcf-pid="pNrwdSuScM" dmcf-ptype="general">이는 완전히 새로운 아이디어가 아니다. 미국의 SAT, AP, GRE 시험이나 인도의 JEE, NEET, GATE 시험에서 이미 사용하고 있는 방식이다. 연구진은 "확신 기준을 명확히 알려주면, AI가 적절한 때에 '모르겠다'고 답할 수 있게 된다"고 설명했다.중요한 점은 확신 기준이 명시되어야 한다는 것이다. 연</p> <p contents-hash="978c6a75c7d58364a01ec5da8853dbe8a8415eb146255bdc661590a1f262462d" dmcf-pid="UjmrJv7vAx" dmcf-ptype="general">구진은 "기준이 명시되지 않으면 어떤 모델이 최선인지에 대한 합의가 어렵다"며 "학생들도 채점 기준이 불분명하면 불공정하다고 느낄 것"이라고 지적했다. 또한 "기존 주요 평가 방식에 이런 기준을 추가하는 것이 중요하다"며 "새로운 환각 평가를 만드는 것만으로는 충분하지 않다"고 강조했다.</p> <p contents-hash="dddf48f19ec09e9fda226e95f5eb02bcb487874a5f9448ee02f2aada2838ad95" dmcf-pid="uAsmiTzTcQ" dmcf-ptype="general"><strong>모델 성능과 데이터 품질도 영향</strong></p> <p contents-hash="ca3365e3ec6a92d2d052ab1c925a7eec298bdb12b94e74c0f0bf7137feaff2b9" dmcf-pid="7cOsnyqygP" dmcf-ptype="general">연구진은 환각의 다른 원인들도 찾아냈다. AI 모델 자체의 능력 부족이나 훈련 데이터에 포함된 잘못된 정보들도 환각을 일으킬 수 있다고 밝혔다.</p> <p contents-hash="8e838998d2b5dc2c140869d7147c7ae462ba094a1ebaa68e7b9a5ec3fdf271ba" dmcf-pid="zkIOLWBWo6" dmcf-ptype="general">흥미롭게도 "DEEPSEEK에 D가 몇 개 있나요?"라는 간단한 문제에서도 여러 최신 AI들이 틀렸다. DeepSeek-V3, Meta AI, Claude 3.7 Sonnet 모두 정답인 1개 대신 "2개", "3개", "6개", "7개" 등 다양한 틀린 답을 내놨다. 연구진은 이를 AI가 글자 하나하나가 아닌 덩어리 단위로 글을 처리하기 때문이라고 설명했다. 실제로 추론 기능이 강화된 DeepSeek-R1은 단계적으로 생각해서 이 문제를 올바르게 해결했다.</p> <p contents-hash="0dad85dba248672a344bb8b4e2d129c0ba55d5269b83539b609b770a80310466" dmcf-pid="qG3FhBiBa8" dmcf-ptype="general"><strong>AI 업계 벤치마크 경쟁, 근본적 재검토 필요</strong></p> <p contents-hash="88b21f90cd8a67aec4ee7cfc96241c4d4d7f1042ab7f9c2bc58afc985ceb9377" dmcf-pid="BH03lbnbk4" dmcf-ptype="general">이번 연구는 AI 업계가 추구해 온 벤치마크 점수 경쟁 자체에 근본적 문제가 있음을 보여준다. 현재 AI 개발사들은 MMLU, GPQA, SWE-bench 같은 주요 벤치마크에서 높은 점수를 얻기 위해 치열하게 경쟁하고 있다. 하지만 연구진의 분석에 따르면, 이런 평가들이 모두 정답/오답 방식을 사용해 AI가 불확실할 때도 추측하도록 유도하고 있다.</p> <p contents-hash="f24996e6c8d3e41d0a433c6e01e5c3ebfe364c320d7cda69f697ffc6be34e8e5" dmcf-pid="bXp0SKLKof" dmcf-ptype="general">특히 주목할 점은 연구진이 조사한 10개 주요 벤치마크 중 9개가 "모르겠다"는 답변에 전혀 점수를 주지 않는다는 사실이다. 유일하게 부분 점수를 주는 WildBench조차 채점 기준에서 "모르겠다"를 "문제 해결에 도움이 되지 않는" 답변으로 분류해 낮은 점수를 준다. 이는 사실상 AI가 확실하지 않은 정보라도 그럴듯하게 포장해서 제시하는 것을 보상하는 구조다.</p> <p contents-hash="a4ff6a6327d82665e13962d9480d4fbc8812fc16f091487a76d0c684982ef36c" dmcf-pid="KZUpv9o9aV" dmcf-ptype="general">연구진은 "이상적인 환각 방지 기술을 개발해도 주요 평가들이 추측을 보상하는 한 효과가 제한적"이라고 지적했다. 즉, 업계가 현재 벤치마크 중심의 개발 방향을 바꾸지 않으면 환각 문제 해결이 어렵다는 뜻이다. 이는 AI 개발사들이 단순히 기술 개선에만 집중할 것이 아니라, 평가 방식 자체를 개선하는 데도 적극 나서야 함을 시사한다.</p> <p contents-hash="c581bae20e2cda688d094a8e851fd280c722a28aa2c9d5ec0dab1db8e47201a8" dmcf-pid="95uUT2g2a2" dmcf-ptype="general"><strong>FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="a701fa759fcea0668edca6668ecb246de26bfb587e97d55e30895e81d8bcadb2" dmcf-pid="217uyVaVj9" dmcf-ptype="general"><strong>Q1: AI 환각을 완전히 없앨 수 있나요?</strong></p> <p contents-hash="1be900023573ad46530bf31520928779f5648c9183a53eb3ed00ae7f89b0f5ef" dmcf-pid="Vtz7WfNfgK" dmcf-ptype="general">A1: 현재 방식으로 훈련된 AI에서는 환각을 완전히 없앨 수 없습니다. 하지만 정해진 답만 하는 시스템을 만들면 환각 없는 AI를 만들 수는 있습니다. 다만 이런 AI는 다양한 언어 능력을 잃게 됩니다.</p> <p contents-hash="5476381b715f93aae2d046277a3889b4a758a3b4f5f2656c78bb81bf8a792f1e" dmcf-pid="fFqzY4j4ob" dmcf-ptype="general"><strong>Q2: 왜 최신 AI도 간단한 글자 세기를 못 하나요?</strong></p> <p contents-hash="19c194e1ab7b5d72195ac7b618779e8032f462dfc9d7754252c22ddea316741d" dmcf-pid="43BqG8A8aB" dmcf-ptype="general">A2: AI는 글자 하나씩이 아니라 단어나 글자 덩어리 단위로 처리합니다. "DEEPSEEK"을 "D/EEP/SEE/K"로 나누어 처리하면 D가 몇 개인지 세기 어려워집니다. 하지만 단계별로 생각하는 AI는 이 문제를 해결할 수 있습니다.</p> <p contents-hash="8393f04ad46fffbce5b7043c7493dfbbe61c07beb2bf29679bbfc0eda0754c09" dmcf-pid="80bBH6c6oq" dmcf-ptype="general"><strong>Q3: 평가 방식을 바꾸면 AI가 덜 거짓말하나요?</strong></p> <p contents-hash="34e11da0d14a96af2f6bb43aaeb7dc3bf82d2a621bb0d0930113ce07c96cfba6" dmcf-pid="6pKbXPkPaz" dmcf-ptype="general">A3: 그렇습니다. 정답/오답만 채점하지 말고 확신 정도에 따라 점수를 주면, AI가 무리하게 추측하지 않고 솔직하게 "모르겠다"고 답할 가능성이 높아집니다.</p> <p contents-hash="86c89f8eb7e093bd84a6116da347e266da251962459ebc53b49a3f8da548bbe1" dmcf-pid="PU9KZQEQA7" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="d3cddbbd59a2f9facf63982afd87d5a6a1690acb8353042985108918c7a85a0f" dmcf-pid="Qu295xDxcu" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기