로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
이 대통령 "평화가 경제발전의 토대…韓, 책임있는 AI활용·에너지 대전환 추진"
N
[IT뉴스]
[게임 사자후] 게임위, 국정감사 단골 지적기관 오명 언제까지 쓸까
N
[]
이 대통령 "새로운 대한민국, 국제사회 완전 복귀…당당히 선언"
N
[IT뉴스]
독일 이어 이번엔 일본이다… 한국 게임사 글로벌 도전 가속
N
[연예뉴스]
'모친상' 송승헌, 절절한 마지막 인사.."다시 만나면 엄마 품에 안기고파"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]AI, 한국 변호사시험 통과할 수 있을까...고난도 韓 벤치마크 등장
온카뱅크관리자
조회:
48
2025-07-17 14:57:32
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">대표적인 한국어 벤치마크 ‘KMMLU’ 심화판<br>KMMLU-Redux와 KMMLU-Pro 개발<br>14개의 국가 전문자격시험 문제 포함해<br>한국 변호사 시험, 앤스로픽이 유일하게 통과</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="XMU3o8c6hy"> <figure class="figure_frm origin_fig" contents-hash="d080ae01124b512613a4266df270adb7993998376e453aa671a8f506d085c862" dmcf-pid="ZRu0g6kPhT" dmcf-ptype="figure"> <p class="link_figure"><img alt="전문적인 한국어 지식을 평가하는 새로운 벤치마크 ‘KMMLU-Pro’에서 AI 모델들이 14개의 국가 전문 자격 시험을 통과했는지 보여주는 장표. 평균 점수는 오픈AI의 ‘o1’ 모델이 79.55%의 정확도로 가장 높았지만 앤스로픽의 ‘클로드 3.7 소넷’이 12개 시험을 통과하며 가장 고른 성능을 보였다. [출처 = arXiv 논문 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/17/mk/20250717145416607dtaj.png" data-org-width="700" dmcf-mid="HiHWQzJqTW" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/17/mk/20250717145416607dtaj.png" width="658"></p> <figcaption class="txt_caption default_figure"> 전문적인 한국어 지식을 평가하는 새로운 벤치마크 ‘KMMLU-Pro’에서 AI 모델들이 14개의 국가 전문 자격 시험을 통과했는지 보여주는 장표. 평균 점수는 오픈AI의 ‘o1’ 모델이 79.55%의 정확도로 가장 높았지만 앤스로픽의 ‘클로드 3.7 소넷’이 12개 시험을 통과하며 가장 고른 성능을 보였다. [출처 = arXiv 논문 캡처] </figcaption> </figure> <div contents-hash="6edaacd3e6d7a836abf4c443bcfcf4e71fad5a6004b86f128a24f0969aea58c9" dmcf-pid="5JqujxwMvv" dmcf-ptype="general"> 거대언어모델(LLM) 성능 테스트를 위한 벤치마크에서 한국 대표 벤치마크 중 하나로 꼽히는 ‘KMMLU’의 난이도를 높여 개선한 심화 벤치마크가 등장했다. </div> <p contents-hash="54e3bca855a7da5b50b26a8e6915d07ba3320f2b6608b75144cb65a11e4c5b2e" dmcf-pid="1iB7AMrRSS" dmcf-ptype="general">AI 모델이 변호사·의사 등 한국의 전문직 시험을 통과할 수 있는지 평가하는 것이 핵심이다. 평균 점수에서는 오픈AI 모델이 1위를 기록하고, 앤스로픽이 유일하게 변호사 시험을 통과하는 등 글로벌 빅테크 모델들의 성과가 두드러졌다.</p> <p contents-hash="7024978915d5825d41c6eae74abde5079c7bdba18173e541c461428eb4bae542" dmcf-pid="tnbzcRmell" dmcf-ptype="general">17일 AI 업계에 따르면 국내 오픈소스 언어모델 연구팀인 해례(HAERAE)와 LG AI연구원은 이달 새로운 벤치마크 ‘KMMLU-Redux’와 ‘KMMLU-Pro’를 소개하는 논문을 발표했다.</p> <p contents-hash="c7f2d9da60da5cd265ab31023ff1fe333231b5fc92a1e9c66305e81e653d2862" dmcf-pid="FLKqkesdvh" dmcf-ptype="general">두 개의 벤치마크는 해례가 앞서 개발한 KMMLU를 보완해 개발한 후속 벤치마크다.</p> <p contents-hash="48580f8111d3318070e2e75caa504563672572727b5da8f800b8ce96e8805826" dmcf-pid="3o9BEdOJvC" dmcf-ptype="general">기존 KMMLU는 문학, 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성되어 있다. 네이버, LG AI연구원, SKT, 카카오 등 AI 모델을 만드는 대부분의 국내 기업이 참조하는 핵심 지표 중 하나로 꼽힌다.</p> <p contents-hash="1aaaac34c4908208aede5cbafb80086304c2e5f347399f6f55cb2f24e80760d6" dmcf-pid="0g2bDJIiyI" dmcf-ptype="general">연구진은 “기존 벤치마크는 문제들이 이미 온라인에 공개되어 있는 등 신뢰성과 데이터 오염 측면에서 우려가 있었다”라며 벤치마크를 새롭게 개발하게 된 배경을 설명했다. 연구진에 따르면 KMMLU 테스트를 구성하는 데이터 중 7.66%가 정답 노출, 불완전한 질문 등의 오류를 포함하고 있었다.</p> <p contents-hash="e864f1877634bbbe84e3f6bd862f25bd3408f2596b167e487a1333cef188f21f" dmcf-pid="paVKwiCnSO" dmcf-ptype="general">KMMLU-Redux 벤치마크는 이러한 문제를 해결하기 위해 KMMLU의 문제를 재구성하고 정제하여 총 2587개의 문제로 구성됐다. 신뢰성 향상을 위해 한국의 국가 전문 자격 시험 문제들을 포함해 난이도를 높였다.</p> <div contents-hash="d559a3afca0bf2cdad39046d13675b5c88f16dd97fc63b3848c5a1ac1344f6b4" dmcf-pid="UNf9rnhLls" dmcf-ptype="general"> <div> <strong>평균 점수에선 오픈AI가 79.55% 정확도로 1위<br>앤스로픽 클로드는 14개 시험 중 12개 통과해</strong> </div>KMMLU-Pro는 변호사, 회계사, 의사 등 14개의 국가전문자격시험에 해당하는 문제들을 포괄해 총 2822개의 문제로 구성됐다. 연구진은 각 자격증의 공식 출처에서 직접 데이터를 수집해 데이터 품질을 높였다. </div> <p contents-hash="2b21f69f6f1338e28e8c3c38af35e88187947ec022c8dda4eb2aa3ffbffbc08e" dmcf-pid="uj42mLloWm" dmcf-ptype="general">KMMLU-Pro는 AI 모델이 한국 내 다양한 전문 분야에 필요한 시험에 통과할 수 있는지를 중점적으로 평가하는 것이 특징이다. 14개의 시험 중 AI 모델이 몇 개를 통과하는지를 측정한다.</p> <p contents-hash="9b9a4bfa370a3bcc8394b9a4e798dab9c5f42fe8cd6eb5e64ded22cf11da3430" dmcf-pid="7A8VsoSgCr" dmcf-ptype="general">논문에 따르면 새 벤치마크 KMMLU-Redux에서 가장 높은 점수를 기록한 것은 오픈AI의 추론형 모델 ‘o1’으로, 평균 79.55%의 정확도를 기록했다. 10개의 문제 중 8개의 문제에서 정답을 맞췄다는 의미다.</p> <p contents-hash="56f4f02c1d460d7b5b25ab5b9761eab94de0a6032cf5c4ac2cb37f7a93ef74be" dmcf-pid="zTNo5CphTw" dmcf-ptype="general">o1처럼 추론 능력을 갖춘 AI 모델들이 대부분 더 나은 성능을 보였다.</p> <p contents-hash="6e63967b7d57bb5cc7496d7675fc6d082dda8f9fc74e5616b0dc959a89a2dd7e" dmcf-pid="qyjg1hUlyD" dmcf-ptype="general">o1 모델에 이어 이어 앤스로픽의 클로드 3.7 소넷이 78.49%를 기록했으며 중국 딥시크의 R1 모델은 74.76%, 메타의 라마4 매버릭 17B 모델은 72.63%로 집계됐다. 한국 모델 중에서는 LG AI연구원의 추론 모델 엑사원 딥(Deep) 32B 모델이 55.20%의 정확도를 기록했다.</p> <p contents-hash="406fbd0285639ad8c8a4320dd027d03db91d95eefc897394da792761189aa32f" dmcf-pid="BWAatluSCE" dmcf-ptype="general">네이버와 카카오의 경우 오픈소스로 공유했던 경량 모델들의 점수만 공개됐는데, 두 모델 모두 30% 내외의 정확도를 보였다.</p> <p contents-hash="4f49ccab86ae4b0ce62c48389d4096326bb4206fcae3eb57d47a516f86ba3806" dmcf-pid="bYcNFS7vlk" dmcf-ptype="general">14개의 전문직 시험에서는 앤스로픽의 클로드 3.7 소넷이 12개의 시험을 통과하며 10개 시험을 통과한 오픈AI의 o1 모델을 앞섰다.</p> <p contents-hash="2621125e2a377fa13044e25fb9dd77e77d4a9d904221d19ca41a668f6da17cd2" dmcf-pid="KGkj3vzTTc" dmcf-ptype="general">많은 모델이 의학 분야 시험은 통과했지만, 법률 및 세무 영역에서는 고전했다. 한국 변호사시험을 통과한 모델은 클로드 3.7 소넷이 유일했다. 법률의 영역은 국가마다 차이가 큰 만큼, 국내 법률에 특화된 도메인 지식이 부족한 경우 통과가 쉽지 않은 것으로 풀이된다.</p> <p contents-hash="d458da929928bfc72921a0d4c26ddd6bfce74fa7c3a77aca70d6eb5e4d368251" dmcf-pid="9HEA0TqylA" dmcf-ptype="general">한편 연구진은 이번 벤치마크는 “텍스트 기반의 문제 및 객관식 문제로 한정되어 있어 한계가 존재한다”라고 밝혔다. 실제 시험은 이미지와 함께 주관식 답변 등이 필수적으로 포함되는 만큼, 벤치마크가 멀티모달과 주관식 문제를 포함할 수 있도록 확장해야 한다는 설명이다.</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기