로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
[신년기획] ⑥"창문 빼고 모두 포기"… 청년의 집, 선택지가 없다
N
[IT뉴스]
중국이 키운 창신메모리…자본·인재 내세워 “타도 K반도체”
N
[IT뉴스]
앱 넘나드는 AI…애플 '개인화된 시리', 구글 AI로 구현되나
N
[IT뉴스]
[기자수첩] 국가대표 AI 재공모, 패자부활전 vs 패자낙인전
N
[IT뉴스]
해킹 후폭풍…LG유플러스 공공사업 '빨간불', ISMS-P 갱신 지연
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]대학 연구팀이 만든 AI, 채점 방식 바꿨더니 GPT-5 이겼다...의료 분야 세계 1등
온카뱅크관리자
조회:
20
2026-01-20 22:27:30
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Vrauo4Kpax"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="fmN7g89UaQ" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="79c256c496efb1f69271c66286420ca6a7b780cdb55803853faa479d5d263c75" dmcf-pid="4sjza62uNP" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221827718dhbf.jpg" data-org-width="640" dmcf-mid="KPotebu5Ae" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221827718dhbf.jpg" width="658"></p> </figure> <p contents-hash="7a144cbcc30a7f8338801eb0d111b62b45886a833e4fdbf890e5c68849911b4c" dmcf-pid="8OAqNPV7j6" dmcf-ptype="general">AI 챗봇이 얼마나 똑똑한지 정확하게 평가하는 것은 여전히 어려운 문제다. 특히 "좋은 에세이를 써줘" 같은 정답이 정해지지 않은 질문에 AI가 얼마나 잘 대답했는지 판단하기 어렵다. 해당 논문에 따르면, 중국 전기차 기업 리 오토(Li Auto Inc.)와 중국 홍콩 중문대학교(The Chinese University of Hong Kong, Shenzhen), 저장대학교(Zhejiang University), 싱가포르 난양공과대학교(Nanyang Technological University) 공동 연구팀이 이 문제를 해결할 새로운 방법을 내놨다. 연구팀이 만든 '루브릭허브(RubricHub)'라는 평가 자료를 사용해 훈련한 AI 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 모델 GPT-5(67.2점)를 제쳤다. </p> <p contents-hash="981524fe0b0d3096e763035d0fb82ca0a27622b6a4e771b6fd3ce5b2a522ecf0" dmcf-pid="6hEKcM8BN8" dmcf-ptype="general"><strong>기존 AI 평가 방식의 한계, 세밀한 기준 부재가 문제</strong></p> <p contents-hash="117d6b070883b789ff3e7f98505a87b5b332c6a85cb780ba81b5bf27d28010d7" dmcf-pid="PlD9kR6bA4" dmcf-ptype="general">현재 대규모 언어모델(LLM)의 평가는 두 가지 방식으로 나뉜다. 수학이나 코딩처럼 정답이 명확한 분야에서는 검증 가능한 보상을 활용한 강화학습(RLVR)이 효과적이지만, 실제 사용자 질문의 대부분은 정답이 정해지지 않은 개방형이다. 기존 평가 기준(rubric)은 사람의 전문성에 의존하거나 특정 분야에만 국한되어 확장성이 떨어진다. 더 큰 문제는 평가 기준이 너무 포괄적이고 모호해서 우수한 응답과 뛰어난 응답을 구별하지 못한다는 점이다. 예를 들어 "시를 잘 썼는가"라는 기준만으로는 어떤 시가 진정으로 훌륭한지 판단하기 어렵다. 연구팀은 이러한 조악한 기준이 AI 훈련에 '천장 효과(supervision ceiling effect)'를 만들어 모델 개선을 가로막는다고 지적했다.</p> <p contents-hash="902df2ddbd83edc44ed5508cb56efddad865d42b74945bc20fe7e1d411a2c88d" dmcf-pid="QSw2EePKaf" dmcf-ptype="general"><strong>GPT-5.1· 제미나이 3 프로 등 최신 AI 총동원해 평가 기준 만들었다 </strong></p> <p contents-hash="f0b323ebeb41c5ae299e35d99721dbacda44f36bf51e28fcb3b191cc9afa8b44" dmcf-pid="xvrVDdQ9AV" dmcf-ptype="general">루브릭허브의 핵심은 단계적으로 점점 더 까다로운 평가 기준을 만드는 방법이다.</p> <p contents-hash="e187da346e8722f2e9e8779cb34091d2d3aeef9c8b3b47d0b6838de68c9bade3" dmcf-pid="yPbIqHTsk2" dmcf-ptype="general">첫 번째 단계는 '원칙 기반 및 응답 기반 생성'이다. 질문만으로 기준을 만들면 너무 일반적이거나 실제 답변과 동떨어진 기준이 나올 수 있다. 연구팀은 실제 AI 응답을 참고하면서 일관성, 명확성, 평가 가능성 등의 메타 원칙을 적용해 구체적이고 관련성 높은 기준을 생성했다.</p> <p contents-hash="443fb6c9d31aad3c8f9ce3cdf1b28b647c3445bff7325c512eeaa2ce08494640" dmcf-pid="WQKCBXyOc9" dmcf-ptype="general">두 번째 단계는 '여러 AI 모델을 활용한다. 한 가지 AI만 사용하면 편향될 수 있어서 GPT-5.1, 제미나이 3 프로 같은 여러 최신 모델이 만든 기준을 합쳐서 균형을 맞췄다.</p> <p contents-hash="90221cf6d2d85fd90cb4cabaf4efb0c5bbb1dd062ae5bad1e07e5183642893c1" dmcf-pid="Yx9hbZWIaK" dmcf-ptype="general">세 번째이자 가장 중요한 단계는 '난이도 진화'다. 보통 수준의 기준은 합격과 불합격은 구별하지만, 우수한 답변과 최고의 답변을 구별하지 못한다. 예를 들어 시험에서 80점과 100점 모두 '합격'으로만 평가하면 둘의 차이를 알 수 없는 것과 같다. 연구팀은 최고 수준의 답변 두 개를 비교 분석해서 미묘한 차이를 찾아냈다. 그래서 "코드가 제대로 작동하나요?"라는 단순한 기준을 "특수한 경우에도 빠르고 효율적으로 작동하나요?"처럼 훨씬 까다롭게 바꿨다.</p> <figure class="figure_frm origin_fig" contents-hash="9d023328d4b6e5646c8896e4133e2e7a5e0b0b8a66f6ecf7c314cb4a531cb41d" dmcf-pid="GM2lK5YCcb" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221828958eioi.jpg" data-org-width="640" dmcf-mid="9eS6sLe4aR" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221828958eioi.jpg" width="658"></p> </figure> <p contents-hash="e383076bb16c60ed1e693adb01bf38f1254a204e5a8479bed82866e4f025a88d" dmcf-pid="HRVS91GhcB" dmcf-ptype="general"><strong>11만 개 질문에 평균 30개 기준… 최고 AI도 60점밖에 못 받아</strong></p> <p contents-hash="b2c0904b2ff5c0c9c03b8a43e12d943ee4e4d573790d507f8d41773403374e7f" dmcf-pid="Xefv2tHlNq" dmcf-ptype="general">루브릭허브는 약 11만 개의 질문과 그에 맞는 평가 기준으로 이루어져 있다. 의료(Medical), 과학(Science), 지시 따르기(Instruction Following), 작문(Writing), 대화(Chat) 등 5개 주요 분야를 아우른다. 의료와 과학 분야가 각각 27.1%로 가장 큰 비중을 차지하며, 지시 따르기 20.9%, 작문 15.9% 순이다. 특히 작문과 의료 같은 복잡한 분야에서는 질문 하나당 평균 30개 이상의 세밀한 평가 기준을 제공한다. 이는 기존 데이터셋과 차별화되는 점이다. 더 중요한 것은 이 기준들의 변별력이다. 뛰어난 AI 모델인 Qwen3-235B도 평균 0.6점(만점 1점 기준) 정도밖에 못 받았다. 이는 루브릭허브의 기준이 충분히 어렵고, AI가 개선될 여지가 많다는 뜻이다.</p> <figure class="figure_frm origin_fig" contents-hash="86c4c9da20d511d444b944ee0c197d32e1441b3d3bd9699b4b9df55d7f866166" dmcf-pid="Zd4TVFXScz" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221830194ubwu.jpg" data-org-width="639" dmcf-mid="27O8mnRfAM" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/20/ZDNetKorea/20260120221830194ubwu.jpg" width="658"></p> </figure> <p contents-hash="7b81402be0610b209bba8269b3bdf016fbd4be34ae864b50f8b48d1bf45aa2c9" dmcf-pid="5J8yf3ZvA7" dmcf-ptype="general"><strong>의료 분야 69.3점으로 GPT-5(67.2점) 제치고 세계 1등</strong></p> <p contents-hash="6a48252481b1506986059f3a95ce95afb27560fcaec6167b41f836e38aec50c8" dmcf-pid="1i6W405TNu" dmcf-ptype="general">연구팀은 루브릭허브가 실제로 효과가 있는지 확인하기 위해 2단계 훈련 방법을 사용했다.</p> <p contents-hash="3c93681aa7c31f658e0cef5fa62a208f5cc8b90a3c4c2d8d6a49c3e6a3cbd34f" dmcf-pid="tnPY8p1yAU" dmcf-ptype="general">1단계 'RuFT(Rubric-based Rejection Sampling Fine-Tuning)'에서는 평가 기준을 필터로 써서 좋은 답변만 골라냈다. 하나의 질문에 대해 여러 AI 모델이 여러 개 답변을 만들면, 그중에서 평가 점수가 일정 기준(0.6점) 이상인 최고 답변만 훈련 자료로 사용했다.</p> <p contents-hash="6b4713b00094b225181e1a7d175a61415ea8a02a07bc08afa919895a3935be5e" dmcf-pid="FOAqNPV7Ap" dmcf-ptype="general">2단계 'RuRL(Rubric-based Reinforcement Learning)'에서는 평가 기준 점수를 보상으로 활용해 AI를 더 발전시켰다. 각 평가 항목을 통과하면 가중치만큼 점수를 주고, 이 점수를 최대화하도록 AI를 학습시켰다.</p> <p contents-hash="c11433b3f289221b2f819f58e3aef1d26cae54b670893548e1fe4f07aee40c56" dmcf-pid="3IcBjQfza0" dmcf-ptype="general">이 방법을 Qwen3-14B 모델에 적용한 결과가 놀랍다. 의료 분야 HealthBench 테스트에서훈련 전 기본 상태(22.8점)에서 69.3점으로 46.5점 상승했고, GPT-5(67.2점)를&nbsp;넘어선 69.3점으로 세계 최고 성능을 달성했다. 대화 능력을 측정하는 Arena-Hard V2에서도 기본 모델이 5.2점에 불과했는데 74.4점으로 급등했다. </p> <p contents-hash="8d5e9e5a418de2b15030028ff87fd5091a0bcc34923b56d594abe50b06f5fa8c" dmcf-pid="0CkbAx4qj3" dmcf-ptype="general"><strong>사람 평가와 90% 일치, 대화 능력은 14배 상승</strong></p> <p contents-hash="a776ff507bba04340dd9a9bc57ae2f1aa96dc93c7b672382b82401dfa25bb8b0" dmcf-pid="phEKcM8BoF" dmcf-ptype="general">연구팀은 각 단계가 실제로 효과가 있는지 하나씩 확인했다. 기본 규칙을 적용하고 답변을 참고해서 기준을 만들자 의료 분야 AI 평가 벤치마크인 HealthBench 2.9점, LLMeval-Med에서 2.4점 올랐다. 여러 모델의 기준을 합치자 단일 모델 편향이 줄어들며 성능이 더 좋아졌다. 난이도를 높이는 3단계까지 완성하니 LLMeval-Med에서 79.5점까지 도달했다. 답변 후보를 1개에서 12개로 늘렸을 때도 훈련 데이터 품질이 63.45점에서 79.51점으로 향상돼 필터링 효과가 입증됐다. 또한 사람 평가자와 AI 채점 결과를 비교한 결과, 일정 규모(30B) 이상의 AI는 사람과 90% 이상 일치하는 판단을 내려 평가 기준의 신뢰성을 확인했다.</p> <p contents-hash="8c32215ac81b8731a74f42b7a192c527d7157f6849837cedfe56b0a7e89bdf72" dmcf-pid="UlD9kR6bNt" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) </strong></p> <p contents-hash="6c1c70019496a5ed80691f3ded058ded61ddb0374b86a7bc535f813892a8d6be" dmcf-pid="uSw2EePKk1" dmcf-ptype="general"><strong>Q1. 루브릭허브가 뭐고 왜 중요한가요?</strong></p> <p contents-hash="d5b43640ad43065e6b0eaf451e66c244b2b8ed00d037781cee7a47da0534c4bd" dmcf-pid="7vrVDdQ9g5" dmcf-ptype="general">A. 루브릭허브는 AI 답변의 품질을 평가하는 약 11만 개의 까다로운 기준을 모아놓은 자료다. 기존 방식은 "괜찮은 답변"과 "최고의 답변"을 구별하지 못했는데, 루브릭허브는 30개 이상의 구체적 기준으로 미묘한 차이까지 포착해서 AI를 더 똑똑하게 훈련시킬 수 있다. </p> <p contents-hash="0d335b0333d2e57fad242d315d9b34c967bf7bcf0e405abf891a7abb2dcc3f7f" dmcf-pid="zTmfwJx2kZ" dmcf-ptype="general"><strong>Q2. 이 방법으로 훈련한 AI 성능은 어느 정도인가요? </strong></p> <p contents-hash="95006c0cd4dda41f83b7527086006d28b71ef9373f97f792acc4325d05ed2bd5" dmcf-pid="qys4riMVAX" dmcf-ptype="general">A. 루브릭허브로 훈련한 Qwen3-14B 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 GPT-5(67.2점)를 이겼다. 대화 능력 테스트에서도 기본 모델 5.2점에서 74.4점으로 14배 이상 뛰어올라 효과가 확실히 입증됐다. </p> <p contents-hash="8780993c80570d06dbac922ce2b6ac20db33b6ab8070816d01eb27c9ff574a51" dmcf-pid="BWO8mnRfaH" dmcf-ptype="general"><strong>Q3. 일반 사용자에게 어떤 의미가 있나요?</strong></p> <p contents-hash="b3d5e991092b60214fd805dbd2d9e92781fba653b184b3f75f5e4a7295746895" dmcf-pid="bYI6sLe4jG" dmcf-ptype="general">A. 더 까다로운 기준으로 AI를 훈련하면 의료 상담이나 작문 도움처럼 정답이 없는 복잡한 질문에도 AI가 훨씬 신뢰할 만한 답변을 준다. 일상에서 AI를 더 안전하고 유용하게 쓸 수 있게 된다는 의미다.</p> <p contents-hash="4c477eb84361d5784a626f1a44ea394c795f04cf200f0b649fa69bf736b7b553" dmcf-pid="KGCPOod8gY" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="9b205733e53e2d967fc81e310410c5539e4c895a7d03574912c680f8d062c959" dmcf-pid="9HhQIgJ6gW" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기