로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
“수천만원 위약금 부담에 폐업도 못했는데”...치킨집 사장 숨통 트이나
N
[]
'외압' 이종섭 특검 11시간 피의자 조사…"신중하려 이첩보류"(종합)
N
[IT뉴스]
SD건담 지 제네 이터널 "고봉밥 퍼주는데 참을 수 있냐?"
N
[연예뉴스]
전현무 “정승환, 오디션 참가자→심사위원…바들바들 떨었는데” (‘우리들의 발라드’)
N
[연예뉴스]
수지, 눈동자 점 뺐다 "은근 마음에 들었는데…"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]AI 벤치마크, 온전히 신뢰할 수 있을까
온카뱅크관리자
조회:
53
2025-04-16 20:17:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QW53BwIiOf"> <p contents-hash="f1f48be6d3c0ae05fee4a2bdee86bfff7609a50557b6cbc1368032162da929ef" dmcf-pid="xY10brCnIV" dmcf-ptype="general">[IT동아 김예지 기자] 인공지능(AI) 벤치마크는 특정 기준에 따라 다양한 AI 모델의 성능을 비교·평가하는 도구다. 개발자 및 사용자는 벤치마크로 측정된 AI 모델의 역량을 파악하고, 이를 토대로 활용 방안을 모색하거나 개선점을 찾을 수 있다.</p> <figure class="figure_frm origin_fig" contents-hash="ce8e641b47f74f2e1edf3cef390ac9380a3f408ef34c6bbcef39cb20a0a40b18" dmcf-pid="yRLNrbf5O2" dmcf-ptype="figure"> <p class="link_figure"><img alt="Humanity's Last Exam(HLE)은 광범위한 주제에 대한 학술 벤치마크다 / 출처=Humanity's Last Exam" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/16/itdonga/20250416200904455twix.jpg" data-org-width="1810" dmcf-mid="8e6MotUlO6" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/16/itdonga/20250416200904455twix.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> Humanity's Last Exam(HLE)은 광범위한 주제에 대한 학술 벤치마크다 / 출처=Humanity's Last Exam </figcaption> </figure> <p contents-hash="a0bf4be592cc6403235c1788911950e7cd254baa5ebd4dd6ea64eaa5686cca43" dmcf-pid="WdgAs98tE9" dmcf-ptype="general">일반적으로 AI 벤치마크는 ▲평가 대상 영역을 대표하는 선별된 ‘데이터셋’ ▲AI 모델이 해결해야 하는 ‘과제’ ▲성능을 평가하는 ‘지표’ ▲공정한 비교를 위한 표준화 절차로 구성된다. 벤치마크의 영역별 지표에는 번역, 언어 모델링, 질의응답, 코드 생성, 컴퓨터 비전, 효율성 및 시스템, 수학 등이 있다. </p> <h3 contents-hash="7129b60b737342c94b50f57986a891fb914b24cf9ac6c590b2f145f293fbcdd9" dmcf-pid="YJacO26FOK" dmcf-ptype="h3"><strong>AI 벤치마크, 계속 새롭게 등장하는 이유는? </strong></h3> <p contents-hash="d934e0570de6dfbf285af8570bbf6d8406e1102bce252d52c89242feee25c941" dmcf-pid="GiNkIVP3Ib" dmcf-ptype="general">주요 AI 벤치마크로는 언어 이해 능력을 종합적으로 평가하는 ▲MMLU-pro(다중 작업 언어 이해) ▲Humanity’s Last Exam(광범위한 주제에 대한 학술 벤치마크) ▲GLUE/SuperGLUE(일반 언어 이해) ▲Big-Bench(범용 능력) ▲HellaSwag(상식 추론 능력) 등이 있다. 또한 수학 능력 평가에는 ▲AIME 2024(미국 수학 경시대회) ▲MATH-500(수학 올림피아드 문제) 등이 활용되며, 코딩 능력 평가에는 ▲LiveCodeBench(고품질 코딩 문제) ▲SWE-Bench ▲HumanEval(오픈AI의 코딩 벤치마크) ▲ScicCode 등이 활용된다. </p> <p contents-hash="78a962f084b372093fd43a5a728f9b29e5cf046b0aeb3aeedb6bdeb6f83ccdb8" dmcf-pid="HnjECfQ0wB" dmcf-ptype="general">최근 AI 에이전트가 화두로 떠오르면서 에이전트의 자율적인 작업 수행 능력을 평가하는 벤치마크도 개발되고 있다. ▲DABStep ▲AgentBench ▲ToolBench ▲WebArena ▲Raga AI 프레임워크 ▲페이퍼벤치(오픈AI) 등이 대표적이다. 더불어 의료, 법률, 금융, 소프트웨어 공학 등 특정 분야의 성능 평가를 위한 벤치마크도 다양하다. 예컨대, 지난 13일 구글 연구팀이 발표한 대형언어모델(LLM) 문제 해결 능력 평가 벤치마크 ‘큐리(CURIE)’는 양자컴퓨팅 등 첨단 과학 분야에 특화됐다.</p> <figure class="figure_frm origin_fig" contents-hash="2a4c6345212b5ec756c01e45d51286fad377678737233c749f01c312c138c40b" dmcf-pid="XLADh4xpsq" dmcf-ptype="figure"> <p class="link_figure"><img alt="MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/16/itdonga/20250416200905795beed.jpg" data-org-width="1356" dmcf-mid="6kjECfQ0w8" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/16/itdonga/20250416200905795beed.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스 </figcaption> </figure> <p contents-hash="56c4e13812d73aa9b91123302cae7a92ea5a124886145effbd35db8b04b9a65d" dmcf-pid="Zocwl8MUOz" dmcf-ptype="general">그렇다면 다양한 벤치마크가 계속 새롭게 개발되는 이유는 무엇일까. 이는 사용자가 AI 모델에 기대하는 성능이 각기 다르기 때문이다. 결국 본인에게 맞는 모델을 찾으려면 그에 적합한 벤치마크가 필요하다. 서로 다른 목표를 가진 과제는 근본적으로 다른 지표와 측정 방식을 요구한다. </p> <p contents-hash="4d9fd8982709d7f791ac740243602f78a6bb8b9cb74db6bc14ac4c2d13302b7d" dmcf-pid="5gkrS6Rur7" dmcf-ptype="general">또 다른 이유는 기존의 벤치마크가 한계를 갖기 때문이다. AI 모델은 추론, 멀티모달 처리, 코딩 등 영역에서 지속적으로 발전하고 있다. 이로 인해 과거에는 어려웠던 과제들이 상대적으로 쉬워지면서 기존 벤치마크로는 최신 모델을 평가하는 데 불충분하다. 과거에 공개된 AI 벤치마크가 다른 버전이나 새로운 분야로 확장돼 나오는 것도 이러한 이유 때문이다. 예컨대, 머신러닝 성능을 평가하는 ‘MLPerf’는 생성 AI의 추론 효율성을 평가하기 위해 ‘MLPerf Inference v5.0’이라는 최신 벤치마크를 선보였다.</p> <p contents-hash="96b348a1a84a664c22cc77ef3383a7c289ad20694b5b557b672e4265db5d7682" dmcf-pid="1aEmvPe7Eu" dmcf-ptype="general">특히 AI 모델이 복잡한 추론 모델로 진화하는 과정에서 벤치마크 또한 큰 진전이 있었다. 추론 모델은 사고 과정에서 추가적인 컴퓨팅 자원을 소모해 응답 정확도를 높이는 방식으로, 수학과 코딩에 강점을 갖는다. 과거에는 모델 성능 향상을 위해 주로 스케일링 법칙에 기반한 방법이 사용됐지만, 추론 모델은 이와 다른 새로운 패러다임을 제시했다. 높은 수준의 지식과 추론 능력이 요구되는 AI 에이전트 벤치마크에서 추론 모델은 우수한 평가를 받는다.</p> <h3 contents-hash="3f26eee7855da3c5fa81fe3b8ca835d08db4362b5a672f6818b4d988a23f287e" dmcf-pid="tNDsTQdzEU" dmcf-ptype="h3"><strong>AI 벤치마크 결과, 100% 신뢰는 금물</strong></h3> <p contents-hash="68d93dec83a78e5706fb0c6bc626399a939712f66e1a91ca61d304981126262b" dmcf-pid="FjwOyxJqOp" dmcf-ptype="general">AI 성능을 평가할 때 벤치마크는 중요한 기준이 되지만, 그 결과를 해석할 때는 신중해야 한다. 기업은 원하는 AI 성능에 부합하는 벤치마크를 참조하되, 여러 벤치마크 결과를 종합적으로 비교해볼 필요가 있다. AI 벤치마크가 실제 환경과 동떨어진 결과를 보여줄 수 있기 때문이다. 또한 개발자가 특정 벤치마크에 유리하도록 알고리즘을 조정하는 사례가 발생하면서 벤치마크의 정확성에 대한 의문이 제기된 것도 한몫한다. 최근 메타는 ‘라마 4(Llama 4)’에 대한 성능 과장 의혹을 받은 바 있다. 일부 기업이 자사의 AI 모델 성능을 부각하기 위해 유리한 벤치마크 결과만을 선별적으로 공개하면서 지표 자체의 신뢰도를 스스로 떨어뜨렸다는 비판도 있다.</p> <figure class="figure_frm origin_fig" contents-hash="a4dd7b580e71065cffc22a6850bc4f1f97a2273087dbab0f8b974cc94eb4352c" dmcf-pid="3eojmK41I0" dmcf-ptype="figure"> <p class="link_figure"><img alt="김지수 올거나이즈코리아 팀장 / 출처=IT동아" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/16/itdonga/20250416200907135bcqh.jpg" data-org-width="1150" dmcf-mid="PIB2xyXDr4" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/16/itdonga/20250416200907135bcqh.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 김지수 올거나이즈코리아 팀장 / 출처=IT동아 </figcaption> </figure> <p contents-hash="df6563fceefe38230c44857ee62310b73e193a2bdb456e6416d3f6b59de7b570" dmcf-pid="0dgAs98tr3" dmcf-ptype="general">AI 모델의 벤치마크 결과는 실제 운영 환경에서의 데이터 또는 프롬프트 차이로 인해 달라질 수 있다. 지난 11일 산업교육연구소가 주최한 ‘딥시크 분석을 통한 AI 기술 개발을 위한 새로운 기회 세미나’에서 김지수 올거나이즈코리아 팀장은 “벤치마크는 실제 성능을 100% 대표할 수는 없다. 벤치마크에서 높은 점수를 받은 AI 모델도 실제 사용 시 부정확한 답변을 내놓을 수 있다”고 지적했다. 그러나 그는 “그럼에도 불구하고 이러한 벤치마크들이 계속 등장하는 이유는 넓은 범위에서 모델의 성능과 수준을 파악하기 용이하고, 사용자가 원하는 작업에 어떤 모델이 필요한지에 대한 가이드라인으로 충분히 활용할 수 있기 때문”이라고 덧붙였다.</p> <p contents-hash="eea3a25a8c515bd19165c7ffea91bcd496415d0fa45093923695a29d36dc77f9" dmcf-pid="pJacO26FwF" dmcf-ptype="general">따라서 기업은 벤치마크가 실제 환경을 얼마나 잘 반영하는지, 그리고 수행된 과제가 실제 비즈니스 상에서 결과를 반영하는지 등을 확인하는 것이 강조된다. 김지수 팀장은 “고객사들이 어떤 모델을 선택할 지 도움을 줄 때 벤치마크 결과를 바탕으로 정성적으로 평가를 해보도록 권장하며, 특정 업무에 사용할 AI 모델의 성능을 평가하기 위해 최소 50개 정도의 평가용 데이터셋(Evaluation Data)을 구축해 직접 평가해보라고 조언한다”고 말했다.</p> <p contents-hash="6b01032e1bbb8c8cd23e11efd7267719fa98edf7423a1786cb4f1fbe72686067" dmcf-pid="UiNkIVP3Dt" dmcf-ptype="general">이어 그는 “이렇게 하면 빠르게 변화하는 AI 모델을 신속하게 평가하는 데 유리하다. 요즘 추세를 보면 매달, 매주 새로운 모델이 출시되고 있으며, 모델은 이전 세대 모델을 능가하는 성능을 동일한 가격에 제공하는 경우가 많다. 기업들이 자사의 워크플로우에 새로운 AI 모델을 도입하려는 경우, 바로 적용되는지 테스트를 할 수 있어야 하기 때문에 이러한 데이터셋이 꼭 필요하다”고 설명했다.</p> <p contents-hash="16dccb473255d22cec04c729ad9788f262674743fc5ee2e64ed522150c8effba" dmcf-pid="unjECfQ0I1" dmcf-ptype="general">김지수 팀장은 “올거나이즈는 LLM뿐만 아니라 에이전트, 금융, 검색증강생성(RAG), 리더보드 등 다양한 파이프라인을 제공하고 있다. 모든 엣지 케이스를 포괄적으로 검증하기 위해 자체적으로 데이터셋을 구축해 모델 평가에 활용하고, 고객에게 적합한 모델을 개발 및 추천하기 위해 노력한다”고 말했다. 또한 “올거나이즈가 개발한 LLM 알파 모델은 동급 파라미터에서 경쟁력 있는 점수를 기록하고 있으며, 3B 모델은 오픈소스로 공개할 예정”이라고 덧붙였다. </p> <p contents-hash="e150a1ef512f62c317d31f10df99fd2d0f5b682fe05043aade4f7a52aca2e653" dmcf-pid="7LADh4xpO5" dmcf-ptype="general">AI 벤치마크는 초기 단순한 과제 수행 능력 측정에서 시작해 점차 복잡하고 다면적인 평가 방식으로 진화해왔다. 새로운 패러다임의 등장은 AI 기술의 빠른 발전 속도와 더불어 새로운 벤치마크가 지속적으로 개발되게 하는 주요 동력이다. 기술적인 벤치마크는 필수적이지만, AI 모델의 최종 척도는 실제 환경에서의 신뢰성과 유용성에 달렸다. 데이터 오염을 방지하고 벤치마크 신뢰도를 높여 추상적인 지표와 실질적인 가치 사이의 간극을 좁혀나가는 노력은 지속될 것으로 전망된다. 기업은 벤치마크를 적절히 참고하되 자사의 목표에 맞춰 효율적으로 활용하는 방안을 모색해야 한다.</p> <p contents-hash="0c6dd202f5fdd82b71d2de59ba62e5dda252dac26ffc349dbe374caaae9237b1" dmcf-pid="zocwl8MUrZ" dmcf-ptype="general">IT동아 김예지 기자 (yj@itdonga.com)</p> <p contents-hash="ab4648de686b659692469c86c3af2d3a02a722fca5f57cfeebb99d34dc0b96e0" dmcf-pid="qgkrS6RusX" dmcf-ptype="general">사용자 중심의 IT 저널 - IT동아 (<span>it.donga.com</span>)</p> </section> </div> <p class="" data-translation="true">Copyright © IT동아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기