로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
“앞으로 ‘L’들어간 주식은 안 사”···중복상장 저지 나선 LS주주
N
[IT뉴스]
‘주술회전’ 영역 전개에 숨은 과학적 구석
N
[연예뉴스]
‘임신 12주’ 김지영, 낙상 사고 당했다…“등이 갈리도록 넘어져”
N
[연예뉴스]
29기 영숙 또 교수 모드, 연하남 영식 화장실서 오열 (나는 솔로)[결정적장면]
N
[연예뉴스]
29기 옥순 “절대 어장관리 안 해” 데프콘 황당 “기억을 못하네” (나는 솔로)[결정적장면]
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]"이건 사람한테 물어봐야겠다"… AI 스스로 한계 인정하는 법 배웠다
온카뱅크관리자
조회:
8
2026-01-21 21:27:53
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="y21hcYSrgW"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="WVtlkGvmAy" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="c7ac282f5782b1f9c2e0876ff7c9d99275f1c3a13289ddd9457fc84fb6ccecf5" dmcf-pid="YfFSEHTscT" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/21/ZDNetKorea/20260121212325744gvnu.jpg" data-org-width="640" dmcf-mid="xtL4uR6bkY" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/21/ZDNetKorea/20260121212325744gvnu.jpg" width="658"></p> </figure> <p contents-hash="8d92734347e8f56a5c3f459ccc086fedd187edb1f20e0c95c6f2576c908a1670" dmcf-pid="G43vDXyOov" dmcf-ptype="general">미국 광고 기술 회사 제프르와 이스라엘 테크니온 공과대학 연구팀이 AI가 자신의 판단이 틀릴 가능성을 스스로 예측해 사람에게 도움을 청하는 시스템을 개발했다. 해당 논문에 따르면, 이 기술은 AI가 확신 있는 것만 처리하고, 헷갈리는 건 인간 전문가에게 넘김으로써 정확도를 높이면서도 비용을 대폭 줄인다.</p> <p contents-hash="7bb497819b7765c6abbf6b563325067f417241c58342e59f4a6019e48cf25d9d" dmcf-pid="H80TwZWIaS" dmcf-ptype="general"><strong>GPT-4o 미니, 사람 도움 요청 절반으로 줄였는데 정확도는 오히려 상승</strong></p> <p contents-hash="43cf56df271d7b67f8dcbe858163ae304428dcd685c4c28d20ca9df136eeee3b" dmcf-pid="X6pyr5YCNl" dmcf-ptype="general">연구팀이 만든 시스템의 핵심은 간단하다. AI가 콘텐츠를 검열할 때마다 "내 판단이 맞을 확률"을 동시에 계산한다. 이 확률이 낮으면 자동으로 사람 검토자에게 넘기고, 높으면 AI가 직접 처리한다.</p> <p contents-hash="59f31dd31d35e1ea6b15adfc10bb1e57e7b1a7ca5c707196a6f69e14474bdd18" dmcf-pid="ZFhjRrcngh" dmcf-ptype="general">오픈AI의 검열 데이터로 실험한 결과, GPT-4o 미니 모델은 사람에게 넘기는 비율을 37%에서 16%로 절반 이상 줄였다. 놀라운 건 정확도가 떨어진 게 아니라 오히려 81%에서 94%로 올랐다는 점이다. 즉, AI가 자신 있는 것만 골라서 처리하니 실수가 줄어든 것이다.</p> <p contents-hash="10ebd3ffb171bae9112192e6e7a79fcbb2921aed044b909d72842b90741ce2a5" dmcf-pid="53lAemkLoC" dmcf-ptype="general">비용 절감 효과도 컸다. GPT-4o 미니는 운영 비용이 132달러에서 38달러로 71% 감소했다. 구글의 제미나 2.0 모델도 74달러에서 41달러로 41% 줄었다. 여기서 비용은 사람 검토자의 인건비와 AI 실수로 인한 예상 손실을 합친 금액이다.</p> <p contents-hash="ad654a571e5eeb968422fbbd2c8a58451b21afe01c38f3bff9c78ccad72e943f" dmcf-pid="10ScdsEocI" dmcf-ptype="general"><strong>AI가 보내는 네 가지 신호... "헷갈려요" 인정하는 순간 포착</strong></p> <p contents-hash="d1a580a393ccc87777542a2e84580b6ba1ac2587dd0db3f80a6ac4d9328a46fe" dmcf-pid="tpvkJODgoO" dmcf-ptype="general">이 시스템은 AI가 내보내는 네 가지 신호를 종합 분석한다.</p> <p contents-hash="f9ce6ce15c43de80eb8bf6f9f91108882ac5cf2e448aa49d28e5e5e47ea291b2" dmcf-pid="FUTEiIwaas" dmcf-ptype="general">첫 번째는 AI가 답을 선택할 때 각 선택지에 부여하는 확률이다. 예를 들어 "유해함" 70%, "무해함" 25%라면 꽤 확신하는 것이지만, "유해함" 52%, "무해함" 48%라면 헷갈리는 것이다.</p> <p contents-hash="6a963c0f6177586778356237c74a8fd4ce966da0eec1d6c84e1c45950778fb8d" dmcf-pid="3uyDnCrNkm" dmcf-ptype="general">두 번째는 AI가 스스로 매기는 신뢰도 점수다. AI에게 "당신 답이 맞을 확률이 몇 퍼센트인가요?"라고 물으면 0~100점으로 답하게 한다. 또 "매우 낮음, 낮음, 보통, 높음, 매우 높음" 중 하나를 선택하게도 한다.</p> <p contents-hash="386a62a0feac912faf78a1492174651e075f9bb18f88e721d3a54202a1ad2edb" dmcf-pid="07WwLhmjgr" dmcf-ptype="general">세 번째는 AI의 중간 사고 과정을 분석하는 것이다. AI가 답을 내기까지의 추론 과정을 단계별로 살펴보며 얼마나 일관되고 자신 있게 말하는지 측정한다. 다만 이 방식은 콘텐츠 검열에서는 오히려 AI를 과신하게 만들어 최종 버전에서는 제외됐다.</p> <p contents-hash="2976fdaf218b24c058c3a1915cabad9d34b12d1a408203a274625d969a4f6a2f" dmcf-pid="pzYrolsAcw" dmcf-ptype="general">네 번째가 이번 연구의 핵심 혁신이다. AI가 단순히 "확신 없음"이라고만 말하는 게 아니라, 그 이유를 두 가지로 구분한다. "정보가 부족해서 모르겠어요"와 "규정 자체가 애매해서 모르겠어요"로 나눈다.</p> <p contents-hash="1e915624ad25612e9a7812cd75f96d8552388097249a64e1740696273269f955" dmcf-pid="UqGmgSOcgD" dmcf-ptype="general"><strong>"정보 부족"과 "규칙 애매함" 구분... 담당자 배정까지 자동화</strong></p> <p contents-hash="1d7aa3a1728a4574ae535f8d6cb35e985165ce2d3967d8d9eb5b303a6bc6b864" dmcf-pid="uBHsavIkaE" dmcf-ptype="general">AI가 이유를 구분하는 건 실무에서 큰 의미가 있다. "정보가 부족해서 모르겠다"고 하면 경험 많은 상급 검토자에게 배정한다. 예를 들어 동영상 화면이 흐릿하거나, 맥락 정보가 빠져있어서 판단하기 어려운 경우다.</p> <p contents-hash="a42c88c076a088a6d4cc547f313adfe1bceaa476444a87f09bc4583db518bea2" dmcf-pid="7bXONTCEAk" dmcf-ptype="general">반면 "규칙 자체가 애매해서 모르겠다"고 하면 검열 가이드라인을 업데이트하거나 AI 재교육의 신호로 활용한다. 예를 들어 어떤 표현이 지역에 따라 욕인지 아닌지 기준이 다른 경우, 회사 규정에 명확한 기준이 없는 경우다.</p> <p contents-hash="c794094ff9ff1702797a5e16fe758d93b745bf34aac45cf4002abbd9becb82a9" dmcf-pid="zKZIjyhDNc" dmcf-ptype="general">실제로 구글의 제미나이 모델에서 이 "이유 구분" 기능을 제거하자 비용이 눈에 띄게 올랐다. 이는 AI가 단순히 "잘 모르겠다"고만 하는 것보다, "왜 모르는지"까지 알려주는 게 훨씬 효율적임을 보여준다.</p> <p contents-hash="9cd02b4b8eac3c5c96f9382da93c3d28660f19955714652b971cdc09f933996d" dmcf-pid="q95CAWlwcA" dmcf-ptype="general"><strong>12개 언어 동영상 검열까지 성공... 텍스트 넘어 영상·음성도 분석</strong></p> <p contents-hash="b449ba12089202a32a40d2c07aa6dd487dd6aacb294676d42b5ed2b923e21f74" dmcf-pid="B1IaxDjJcj" dmcf-ptype="general">연구팀은 두 가지 데이터로 시스템을 검증했다.</p> <p contents-hash="5f01d372c5a28363265097f9fffc970635e5fb20a2aa524804bd62fcf8e4b37f" dmcf-pid="btCNMwAijN" dmcf-ptype="general">첫째는 영어 텍스트 1,680개를 혐오 발언, 자해, 성적 콘텐츠, 폭력 등으로 분류하는 작업이다.</p> <p contents-hash="e78c08f3ef97a0942b8b508245b34173f6974a54b287cf6a431852b7f5683c61" dmcf-pid="KFhjRrcnNa" dmcf-ptype="general">둘째는 12개 언어로 된 짧은 동영상 1,500개를 분석하는 작업이다. 동영상은 텍스트, 썸네일 이미지, 음성을 문자로 바꾼 대본, 영상 장면 등 네 가지 정보를 모두 활용했다.</p> <p contents-hash="86f9a6b1a5de9b41d31248b9240882d0de225f3e3f876dde058c2a002cb32363" dmcf-pid="93lAemkLgg" dmcf-ptype="general">영어 텍스트 검열에서는 모든 AI 모델이 기존 방식보다 좋은 성적을 냈다. GPT-4.1 미니와 GPT-4o의 정확도가 각각 88.79%에서 91.93%, 84.41%에서 91.35%로 올랐다.</p> <p contents-hash="9c4e18df47bd5f8c0f7c9babd0e75404e0d851de14d741652884dc5f047e8f5d" dmcf-pid="20ScdsEojo" dmcf-ptype="general">더 복잡한 동영상 검열에서는 모델마다 차이가 있었다. GPT-4o 미니는 정확도가 85.71%에서 87.34%로, GPT-4o는 88.05%에서 91.42%로 향상됐다. 특히 제미나이 2.0은 69.85%에서 85.47%로 급등했다. 다만 중국의 큐웬이나 메타의 라마 같은 일부 오픈소스 모델은 전체 평균 정확도는 오르고 개별 케이스 정확도는 떨어지는 등 혼재된 결과를 보였다.</p> <p contents-hash="b759d190be757fb91b1c0df3bba847311789bd5be961676ec359e426491b63ed" dmcf-pid="VpvkJODgjL" dmcf-ptype="general"><strong>특별한 수학 기법으로 학습... 드물게 나오는 실수 케이스 집중 분석</strong></p> <p contents-hash="7b7da384e36bddba1c515912fdab3fa2fc2babaf1c7c0cc6fc84d33c5d892707" dmcf-pid="fUTEiIwacn" dmcf-ptype="general">이 시스템은 "리지 회귀"라는 통계 기법으로 학습한다. 복잡해 보이지만 원리는 단순하다. AI의 여러 신호들이 서로 비슷한 정보를 담고 있을 수 있는데, 이를 적절히 조절해서 중복을 피하고 안정적인 예측을 만든다.</p> <p contents-hash="24109108372f9613fea9c7b4e958563c907a02be7f49afd69511adfde8ce159c" dmcf-pid="4uyDnCrNNi" dmcf-ptype="general">가장 큰 어려움은 데이터 불균형이었다. AI의 판단은 보통 80퍼가 맞기 때문에 실수 상황은 20퍼에 불가하다. 따라서 AI가 "대부분 맞으니까 항상 맞다고 예측하자"는 식으로 학습할 위험이 있다.</p> <p contents-hash="2376ba6434e851974f7d4a75a2b1db08c247b29e095dbdee041279b8264e0b59" dmcf-pid="87WwLhmjNJ" dmcf-ptype="general">연구팀은 이를 해결하기 위해 맞는 케이스를 적절히 줄이고, 드문 "확신 없음" 케이스는 모두 유지했다. 또한 실수의 비용을 더 높게 설정해서 시스템이 실수를 잡는 데 집중하도록 만들었다. 최종적으로 동영상 데이터는 훈련용 800개와 테스트용 300개로, 텍스트 데이터는 훈련용 3,500개와 테스트용 900개로 나눠 평가했다.</p> <p contents-hash="2fbdc1e838aad320560aa27d8a013a88dcba046767e72fb5ade54509bcde427a" dmcf-pid="6zYrolsAAd" dmcf-ptype="general"><strong>각 신호의 기여도 실험... 모든 신호가 서로 보완하며 작동</strong></p> <p contents-hash="a5132b62b10facee585e885b29ef5fd423d2df9a1f855f36f28945a867d5540d" dmcf-pid="PqGmgSOcoe" dmcf-ptype="general">연구팀은 네 가지 신호 중 하나씩 제거하면서 각각의 중요도를 측정했다. 결과는 명확했다. 어떤 신호를 제거하더라도 성능이 떨어졌다. 이는 네 가지 신호가 각자 다른 측면을 보여주며 서로 보완한다는 뜻이다.</p> <p contents-hash="e88e3df66276ddb7880174f061b8913a89790ece6e09fce7dc0b10c80a3555d1" dmcf-pid="QBHsavIkoR" dmcf-ptype="general">영어 텍스트 검열에서는 AI가 각 답변 선택지에 부여하는 확률 신호를 제거했을 때 비용이 가장 많이 올랐다. 이는 AI의 내부 확률 계산이 가장 강력한 단일 신호임을 보여준다.</p> <p contents-hash="8dd68dc90dc8ccdbe561e7ee3fa3b9aa516782a126d1dbf20c8589c94abcc566" dmcf-pid="xn2FTz0HaM" dmcf-ptype="general">AI가 스스로 매기는 신뢰도 점수를 제거하면 비용이 약 5~15% 올랐다. 이는 AI의 자기 평가가 확률 계산으로는 잡히지 않는 추가 정보를 제공함을 의미한다.</p> <p contents-hash="a45ab2f63e650e2cbf5718c5afcf26225077ad778a83b6b970f37b1cc4de4c07" dmcf-pid="y5OgQENdkx" dmcf-ptype="general">"정보 부족"과 "규칙 애매함"을 구분하는 신호는 단순한 예/아니오 정보인데도 비용 절감에 확실히 기여했다. 특히 제미나이 모델들에서 이 신호를 제거하자 비용이 뚜렷하게 증가했다.</p> <p contents-hash="4ecf45b8ec30e147110dc972b88179d7345855b49f0216f8b8246a3ca87fc4d0" dmcf-pid="W1IaxDjJkQ" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="5ae8fdb0ce78323306691a83306065f966ff120c710a59e51bc388bc7eab26bf" dmcf-pid="YtCNMwAigP" dmcf-ptype="general"><strong>Q1. 이 기술은 어떤 AI에 적용할 수 있나요?</strong></p> <p contents-hash="28749e49027a8480f95fc6178d00d8f13817eb6e60e068e556135fa2566444c0" dmcf-pid="GFhjRrcno6" dmcf-ptype="general">A. GPT-4o, 구글 제미나이, 메타 라마, 중국 큐웬 등 대부분의 대형 AI 모델에 적용 가능합니다. AI가 각 답변에 부여하는 확률 정보를 제공하기만 하면 되고, AI 내부 구조를 들여다볼 필요가 없어서 범용적입니다. 오픈소스와 상용 서비스 모두 사용할 수 있습니다.</p> <p contents-hash="a86dbfc834e0e9750dcc9b54c0d63433d893dcb21bcd65ce8c9784e50bdf6a83" dmcf-pid="H3lAemkLk8" dmcf-ptype="general"><strong>Q2. AI가 이유를 구분하는 게 왜 중요한가요?</strong></p> <p contents-hash="55e5d59f946c5bbdc3cea08f7bd540e4dfd6d1d9c51d2397c60b5d6c36bf9f4c" dmcf-pid="X0ScdsEoo4" dmcf-ptype="general">A. "정보가 부족해서 모른다"는 건 경험 많은 사람이 봐야 하고, "규칙이 애매해서 모른다"는 건 규칙을 고치거나 AI를 재교육해야 합니다. 이렇게 이유를 알면 적재적소에 자원을 배치하고 시스템을 빠르게 개선할 수 있습니다. 실제로 이 기능을 빼면 비용이 확실히 올라갑니다.</p> <p contents-hash="e8881be95cc48dbd93448b9866b14cb8c5e9c95c2727057b36503a16afd2648c" dmcf-pid="ZpvkJODgcf" dmcf-ptype="general"><strong>Q3. 콘텐츠 검열 외에 다른 곳에도 쓸 수 있나요?</strong></p> <p contents-hash="4e204aa53d6e288330a4443c2cb262fe272a71cdf3db676b1f497b5621d29d88" dmcf-pid="5UTEiIwacV" dmcf-ptype="general">A. 연구팀은 금융 사기 탐지, 법규 준수 검토, 의료 진단 보조 등 실수 비용이 큰 모든 분야에 적용 가능하다고 밝혔습니다. AI가 확신 없을 때 사람에게 도움을 청하는 구조는 사람과 AI가 협업하는 모든 상황에서 유용합니다.</p> <p contents-hash="2aeabe9c5d66af5bf61a9cca2d0d6124713aefb47e40e38e3eb695277c353383" dmcf-pid="1uyDnCrNk2" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="c17e408c636dccad6a5df0b86904d750d290a2ec00dd5627ee476c6e41ff350b" dmcf-pid="t7WwLhmja9" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기