로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
지수와 나란히 선 추사랑, 10cm 키 차이가 만든 '압도적 피지컬' [MD★스타]
N
[연예뉴스]
윤미라 “故 안성기, 무명 때 내 옷가방 들어줘‥착한 사람”(미라클)
N
[연예뉴스]
모모랜드, 신곡 '하얀 봄' 속 포근한 겨울 감성
N
[]
장동혁, 국회서 '쌍특검 단식' 사흘째…"아침에는 말도 잘 못해"
N
[연예뉴스]
하츠투하츠(H2H), ‘하쥬’의 어여쁜 공주님들 2월에 컴백해용❤️(출국)[뉴스엔TV]
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]AI 평가 기준 바뀐다 …'업무 대체'가 새 잣대
온카뱅크관리자
조회:
33
2026-01-08 17:27:38
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI 고도화에 기존 평가 한계<br>단순 계산 등 양적 지표 대신<br>사람 일 대체 능력이 핵심 기준<br>벤치마크 업계 투자 잇따라</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="WvJIyftWWZ"> <figure class="figure_frm origin_fig" contents-hash="082c6f9018fb82a10c3db085017366a94ba008665c081f0af49c91c5facea29e" dmcf-pid="YTiCW4FYlX" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/08/mk/20260108172703919zvwm.jpg" data-org-width="1000" dmcf-mid="yduegHway5" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/08/mk/20260108172703919zvwm.jpg" width="658"></p> </figure> <p contents-hash="d2d6beca7bd46ace796fbd9ac73ea0177c4dee8b97e045199b92932e3e6ab2ff" dmcf-pid="GynhY83GTH" dmcf-ptype="general">인공지능(AI) 모델 성능이 급격히 발전하면서 기존 잣대가 한계에 부딪혔다는 지적이 나오자 벤치마크 자체도 세대교체 국면에 들어섰다. 에이전트 시대에 걸맞게 추상적 문제 풀이보다 실제 업무 수행 정확도와 유용성이 새로운 평가의 핵심으로 부상했다.</p> <p contents-hash="7e448f898ce6f21cde1dcf30c7862937b83ca1b6679cba9656eebc71e6803487" dmcf-pid="HYoSHPpXyG" dmcf-ptype="general">대표적 AI 평가 기관 중 하나인 아티피셜애널리시스는 지난 6일(현지시간) AI 지수를 전면 개편한다고 밝혔다. 국내 기업들도 성능 비교 지표로 자주 인용해온 이 기관은 이번에 '인텔리전스 인덱스 v4.0'을 공개하며 평가 철학 자체를 바꿨다. 새 지수는 에이전트, 코딩, 과학적 추론, 일반지식 등 4개 영역을 동일 비중으로 반영하고 총 10개의 세부 평가 항목으로 구성됐다.</p> <p contents-hash="7574e3a1d6499d1519b825302aba20bce8c9f7b911fd83741cf0e3f92e52d4b0" dmcf-pid="XGgvXQUZSY" dmcf-ptype="general">가장 큰 변화는 사람이 실제로 돈을 받고 수행하는 업무를 AI가 대신 해낼 수 있는지를 묻는 항목들이 새롭게 포함됐다는 점이다. 핵심 지표로 추가된 'GDPval-AA'는 44개 직종, 9개 주요 산업에서 경제적 가치가 있는 실제 작업 수행 능력을 평가한다. 문서·슬라이드·스프레드시트·멀티미디어 콘텐츠 등 생성 결과물에 대한 평가가 대표적인 방식이다. 이와 함께 50명 이상의 물리학 연구자가 개발에 참여한 'CritPT'가 도입돼 AI가 진정한 과학적 추론에 얼마나 근접했는지를 평가한다. 또 42개 경제 관련 주제, 약 6000문항으로 구성된 'AA-옴니사이언스'를 통해 지식 정확도와 환각 발생 여부를 동시에 검증한다.</p> <p contents-hash="ec45f55cbd88533a56ce4553e8eb1e0c7c8cdf22f1ac784ba08a27525fa47c8d" dmcf-pid="ZHaTZxu5hW" dmcf-ptype="general">반면 많은 AI 기업이 오랫동안 인용해온 'MMLU-Pro' 'AIME 2025' '라이브코드벤치' 등 기존 핵심 벤치마크는 삭제됐다. 이들은 객관식 지식·수학·코딩 등 단일 역량 중심의 정형 평가라는 점이 한계로 지목됐다.</p> <p contents-hash="c2ae84f23ed6b4bd85fa648f882c89c749b1a644826888a942cafafa478ea665" dmcf-pid="5XNy5M71vy" dmcf-ptype="general">이번 개편에는 선두 모델들의 성능이 크게 높아진 상황에서 "기존 벤치마크가 기업의 AI 도입 의사결정에 실질적 도움이 되지 않는다"는 업계 지적이 반영됐다. 실제로 기존 v3.0에서 최고 점수가 70점대였던 것과 달리 v4.0에서는 최고 모델들조차 약 50점을 기록했다. 난도를 재조정해 향후 성능 향상을 가늠할 여유 공간을 확보했다는 평가가 나온다.</p> <p contents-hash="4707931b4efbb2058903fbb12866343671131ddea24e10db2d1bc7b7d0e23734" dmcf-pid="1ZjW1RztyT" dmcf-ptype="general">새 기준에 따른 종합 순위에서는 오픈AI의 GPT-5.2가 1위를 차지했고 앤스로픽의 클로드 오푸스 4.5, 구글의 제미나이 3 프로가 뒤를 이었다.</p> <p contents-hash="f105f6a3530e44d3bdf30e149a410cbd9a339101439538734b165e64cbabe309" dmcf-pid="t5AYteqFvv" dmcf-ptype="general">벤치마크의 대장으로 꼽히는 아티피셜애널리시스가 평가 체계를 전면 손질하면서 다른 평가 기관들 역시 벤치마크 재편을 이어갈 가능성이 제기된다. 실제로 벤치마크 업체들은 주요 AI 기업들의 높은 관심과 지원을 받으며 영향력을 키우고 있다.</p> <p contents-hash="82956919d9c46d5790e9d4d85d1551caa25705e45381d93eeb03f4bc136bd0af" dmcf-pid="F1cGFdB3lS" dmcf-ptype="general">7일 로이터통신에 따르면 또 다른 대표적 평가 플랫폼인 LM아레나는 최근 1억5000만달러 규모의 자금 조달을 통해 기업가치가 17억달러로 세 배 가까이 뛰었다. LM아레나는 익명 크라우드소싱 방식으로 AI 모델을 비교·평가하는 웹 기반 플랫폼이다. 회사는 확보한 자금을 플랫폼 운영 고도화와 기술팀 확장, 연구 역량 강화에 투입한다는 계획이다. </p> <p contents-hash="dce34386318ff67fbdaad2c7c8daf03232eecdf89aa3fa0e264242541234ede5" dmcf-pid="3tkH3Jb0Wl" dmcf-ptype="general">[안선제 기자]</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기