로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
뉴욕 공항서 항공기-소방차 충돌…조종사 2명 사망 41명 부상…공항 폐쇄(종합)
N
[IT뉴스]
LG유플러스, 4월 13일부터 유심 무료 제공하는 이유
N
[연예뉴스]
설현, 뉴질랜드 갈매기도 가만 안 두는 미모…'황당' 근황
N
[연예뉴스]
박지현, '사랑을 처방해 드립니다' OST 세 번째 주자… '사는 게 다' 발매
N
[스포츠뉴스]
"역시 킹우민!" 김우민,자유형 1500m 14분54초38 우승... 올시즌 세계5위 기록! '시즌1위'日타부치와 亞게임 맞대결 관심↑[경영대표선발전]
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]문제풀이 넘어 실무능력 본다 … AI 발전따라 성능 평가도 진화
온카뱅크관리자
조회:
14
2026-03-23 17:07:34
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI 에이전트 시대 발맞춰 '벤치마크' 고도화<br>언어이해·추론력 측정 넘어<br>실제 업무서 수행 능력 평가<br>환각 분별 등 실무 테스트도<br>피지컬AI시대 안전이슈 부각<br>로봇 시뮬레이션 과제도 나와<br>모델 성능 객관적 비교 가능<br>채점 오류·조작 의혹은 한계</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QU0a1WztRo"> <figure class="figure_frm origin_fig" contents-hash="5ba8d9e0ea7e76adc41cb0bf75ec906a0ddba0feceb65f8dd305d8d5fff984d7" dmcf-pid="xupNtYqFML" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/23/mk/20260323170009132hafx.jpg" data-org-width="1000" dmcf-mid="PlI2rjvmig" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/23/mk/20260323170009132hafx.jpg" width="658"></p> </figure> <p contents-hash="0e3c81cbc54640d692bad88bf4977a94c4ff8aa99f5f22faaa63b5d9e7256154" dmcf-pid="ycj0oRDgMn" dmcf-ptype="general">'마찰이 없는 수평 레일 위 블록에 막대가 연결돼 있고, 막대의 반대쪽 끝에는 같은 질량의 물체가 달려 있다. 물체가 위에서 출발해 회전할 때 막대가 수평일 때의 장력과 질량이 아래에 있을 때의 장력 차이를 무게로 나눈 값은 얼마인가?'</p> <p contents-hash="65a553357c37261709e55ce9d7f34e6771554661aa52813f9a343ead00e40c6f" dmcf-pid="WkApgewaJi" dmcf-ptype="general">물리학 박사에게도 까다로운 이 문제는 인공지능(AI)이 치르는 시험 중 하나인 '인류의 마지막 시험(Humanity's Last Exam·HLE)'에 나오는 것이다. 사람이 특정 자격이나 능력을 인정받기 위해 시험을 치르듯 AI 모델들 역시 고난도 시험을 거쳐 탄생한다. 새로운 모델이 공개될 때마다 시험 점수가 꼬리표처럼 붙어 첫인상을 결정하기 때문에 AI 기업들은 자사 모델의 우수성을 입증하기 위해 평가 점수 올리기에 사활을 건다.</p> <p contents-hash="e157698b360562d566c8349b66dc89bf8683dbb413e9960a2f7374fb1168c131" dmcf-pid="YEcUadrNLJ" dmcf-ptype="general">AI가 치르는 시험을 '벤치마크'라고 부른다. 다양한 AI 모델 성능을 객관적으로 비교하고 검증하는 평가 체계다. 최근 급속도로 발전하는 기술에 발맞춰 벤치마크 역시 진화하고 있다. 기존에는 단순 상식 문제 중심이었다면 최근엔 물리학·고고학 등 전문 연구자 수준의 지식과 실제 고도화된 업무수행 능력을 요구하는 평가가 늘어나는 추세다.</p> <p contents-hash="9cb8e59a56bb3559d0a61dfd46ca3a7a4ed5c8657f7553a77aab712fb1fce5e0" dmcf-pid="GDkuNJmjRd" dmcf-ptype="general">벤치마크는 학계와 비영리기관을 비롯한 다양한 주체가 개발하는데 오픈소스 플랫폼 허깅페이스 등을 통해 누구나 접근할 수 있는 개방형이 있는 반면, 특정 연구기관만 접근할 수 있는 제한적 벤치마크도 존재한다.</p> <p contents-hash="38dccb270881788410cfb7267563369e6bbf01772c27d1db4ba2b84af6e3846f" dmcf-pid="HwE7jisAMe" dmcf-ptype="general">벤치마크 종류와 운영 주체가 다양한 만큼 결과 표기 방식도 달라 해석에 주의해야 한다. 일반적으로 결과는 보통 정답률(%)이나 종합점수 형태로 나뉜다. 정답이 명확한 시험에서 주로 정답률을 '%'로 표기한다. 가령 100문제 중 80문제를 맞혔을 때 80%로 표시하는 식이다. 반면 '점'으로 표기되는 점수 형태의 결과는 상대평가 또는 특정 공식으로 산출된 종합 평가 값을 뜻한다. 정답 개수가 아닌 여러 요소를 종합한 수치이기 때문에 결과를 읽을 때 기준을 명확히 할 필요가 있다.</p> <p contents-hash="a650c77287360368b938e63214ee19a4adcee1143e7bc06db3fa720faefe8f68" dmcf-pid="XrDzAnOcRR" dmcf-ptype="general">벤치마크 종류는 평가 목적에 따라 크게 △범용 능력 △도메인 특화 △목적 지향 등 세 가지다. '범용 능력' 벤치마크는 언어 이해, 지식 활용, 추론 능력 등을 폭넓게 측정하며 대표적으로 'MMLU'가 있다.</p> <p contents-hash="c36355f3f54460ec53b781e13149bd52bff96ad8b285df330aa2beac5e93a0cb" dmcf-pid="ZmwqcLIkeM" dmcf-ptype="general">앞서 제시한 초고난도 벤치마크인 'HLE' 역시 이 분류에 속한다. 수학·과학·인문학·고고학 등 다양한 분야에서 2500개 이상 전문가 수준 문제로 구성돼 있다. 구글 제미나이, 오픈AI GPT의 최신 모델 정답률도 30~40% 수준에 머물 정도로 난도가 매우 높아 어떤 모델이 HLE 벤치마크의 50%를 최초로 넘길지가 업계 최대 관심사다.</p> <p contents-hash="81dc0919245d7fa1141faf0f683c9b361b1e1ca1ee01e0c6e4c5707a9edc4adb" dmcf-pid="5YyQlrXSLx" dmcf-ptype="general">범용성 대신 수학·과학·코딩 같은 특정 전문 분야를 파고드는 '도메인 특화' 벤치마크 역시 활발히 쓰인다. 수학에선 'AIME'와 'MATH', 과학에선 'GPQA', 코딩에선 '휴먼이벌(HumanEval)'과 '라이브코드벤치(LiveCodeBench)'가 대표적이다.</p> <p contents-hash="682a580cb603cb44ccaa720c9039839cf9eeb021a636e03ec7f6acdc7e8cb6e9" dmcf-pid="1GWxSmZviQ" dmcf-ptype="general">AI가 실제 환경에서 얼마나 유용하게 작동하는지 측정하는 '목적 지향형' 벤치마크도 늘어나는 추세다. 예를 들어 허위정보와 환각 생성 여부를 보는 '트루스풀QA(TruthfulQA)', 사용자 지시 이행도를 측정하는 'IFEval', AI 에이전트의 문제해결력을 평가하는 '에이전트벤치(AgentBench)'가 이에 속한다.</p> <p contents-hash="b05b5a85db08205ea7d626bc4921390bf5384dc255c0a261d591018b7cefaf09" dmcf-pid="tHYMvs5TMP" dmcf-ptype="general">수많은 벤치마크 중 어떤 벤치마크가 더 중요한지는 기술 흐름에 따라 달라진다. 최근에는 실제 업무를 처리할 수 있는지 보는 에이전트 능력이 주목받으면서 관련 벤치마크가 뜨고 있다.</p> <p contents-hash="23a6cc74614e7ec44f17fa130847e538eac1b51fda36d2456c1c6c8ef5323a07" dmcf-pid="FXGRTO1yn6" dmcf-ptype="general">올해 들어 AI 모델 순위 분석기관 가운데 최고 권위를 가진 아티피셜애널리시스가 AI 지수를 개편했다. 지난 1월 '인텔리전스 인덱스 v4.0'을 공개하며 지수에 반영되는 벤치마크를 대거 바꾼 것이다. 기존의 추상적 문제해결 능력 중심에서 벗어나 업무수행 위주로 지표를 재구성한 것이 골자다.</p> <p contents-hash="799e90c1d1b9c7bb132cd14a460aae8a1e307b25596e4f95d947a7f8fb7c64c7" dmcf-pid="3ZHeyItWR8" dmcf-ptype="general">소프트웨어 형태를 넘어 현실세계와 상호작용하는 피지컬 AI 분야가 부상하면서 관련 평가 무대 역시 확장되고 있다. 기존에 로봇의 여러 조작 과제를 시뮬레이션 환경에서 시험하는 'RLBench' 등이 있었는데, 최근 더 확대된 형태로 발전하고 있다. 특히 로봇 안전성 이슈가 부각되면서 향후 로봇 안전까지 아우르는 평가 기준이 필요하다는 목소리가 나온다.</p> <p contents-hash="525a988c975092e3bfdfaf36b15e86a67747ef01af4ebc1897e5374111987f4f" dmcf-pid="05XdWCFYi4" dmcf-ptype="general">문제 종류나 난이도와 별개로 벤치마크 공정성 유지를 위한 '관리'는 늘 AI 업계가 풀어야 할 핵심 과제로 꼽힌다. 모델의 벤치마크 조작 의혹, 훈련 데이터 오염과 채점 오류 같은 문제가 지속적으로 발생하고 있기 때문이다. 특히 특정 벤치마크 문제에 맞춰 모델을 최적화하는 사례가 업계에서 흔히 발생하면서 지표 자체의 신뢰성에 대한 의문도 커지고 있다. 이로 인해 일각에서는 벤치마크 점수로 성능을 판단하는 것은 더 이상 유의미하지 않다는 '무용론'까지 제기되는 상황이다. </p> <p contents-hash="da9c58b2a87c9328a903583aa7afd4bc1c3a38c9f922dbc23d47016ebba4c02a" dmcf-pid="p1ZJYh3Gif" dmcf-ptype="general">실제로 지난해 메타의 '라마4'가 출시될 당시 벤치마크 조작 논란이 일었으며, 최근 오픈AI 역시 코딩 벤치마크인 'SWE-벤치 베리파이드(SWE-bench Verified)'의 훈련 데이터 유출과 오염을 지적하며 한층 엄격한 평가 체계를 갖춘 'SWE-벤치 프로(SWE-bench Pro)'를 사용할 것을 공개적으로 촉구한 바 있다.</p> <p contents-hash="3393717d59eae0cfe053d34ad706dc57e5d66158e5fe1446c4deea7c27622b12" dmcf-pid="Ut5iGl0HdV" dmcf-ptype="general">[안선제 기자]</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기