로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
'동상이몽2' 김영광 "아내에 천 눈에 반해…만난 지 24시간 안에 프러포즈"
N
[연예뉴스]
[스브스夜] '동상이몽2' 김영광♥ 김은지, 와이프 카드 쓰는 남편에 "남편 덕에 의사 될 수 있었다" 감사
N
[연예뉴스]
김영광, 백지훈·이근호 피부과 시술비 대신 냈다 "와카 있어" (동상이몽2)
N
[연예뉴스]
김학래子 김동영, 방송서 소개팅한 김예은과 이별 "부모님께 말 못해"
N
[연예뉴스]
'보이즈플래닛2' 생방송 파이널 데뷔조는?
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]‘그록3에 이어 라마4 성능 과장 논란’…말 많고 탈 많은 AI 벤치마크
온카뱅크관리자
조회:
59
2025-04-13 12:57:27
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI 성능 평가 조작 논란 이어져<br>유리한 기준만 공개…현실성 부족 지적도<br>“통일된 기준은 사실상 어려워”</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="zOQSglWAhP"> <figure class="figure_frm origin_fig" contents-hash="f323d8de7b1c9241dcb97c63cb1e0bd78e1f8582224c783b4138c23044320edc" dmcf-pid="qIxvaSYcy6" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/13/mk/20250413125105666ikii.jpg" data-org-width="700" dmcf-mid="795e7RnbvQ" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/13/mk/20250413125105666ikii.jpg" width="658"></p> </figure> <div contents-hash="60c20a904ed78102ce62a222ab1217d0d529e80c4ccb3d35d0f59b1e8c48f80f" dmcf-pid="BCMTNvGkT8" dmcf-ptype="general"> 최근 생성형 인공지능(AI) 모델의 성능을 가늠하는 지표인 ‘벤치마크’를 둘러싼 논란이 거세지고 있다. 메타, xAI 주요 AI 기업들이 잇따라 벤치마크 조작 의혹에 휘말리며 평가 기준의 공정성을 둘러싼 논쟁이 업계 전반으로 확산되고 있지만, 다양한 평가 지표가 적용되는 근본적인 특성 상 단기간에 논란이 줄기는 쉽지 않을 전망이다. </div> <p contents-hash="c40c2a59c4d074e11a72e6fb11d338c4db027d02d967b811e4e94a0d76c3aca5" dmcf-pid="bhRyjTHEy4" dmcf-ptype="general">12일 정보기술(IT) 업계에 따르면 최근 메타는 최신 AI 모델 ‘라마 4’가 ‘맞춤형 벤치마크’ 버전을 따로 내놓고 실사용자에겐 ‘기본’ 버전만 제공했다는 조작 논란에 휩싸였다.</p> <p contents-hash="de8b06043bafca00d5bc46f021943868047f69856c869278f35146ff079f6f80" dmcf-pid="KleWAyXDlf" dmcf-ptype="general">메타는 라마 4가 벤치마크 테스트 플랫폼인 LM 아레나에서 2위에 오르며 우수한 성능을 입증했다 주장했지만, 실제로 개발자에게 배포된 버전은 해당 테스트에 사용된 모델과 다르다는 논란이 제기됐다. 일부 개발자들은 “LM 아레나에 게시된 매버릭과 실제 사용 가능한 버전 간에 극명한 차이가 있다”고 주장했다.</p> <p contents-hash="6e0ce25022512ac687589f0da4ae05f938bd39b2a373f91257bf365f7b83a806" dmcf-pid="9SdYcWZwSV" dmcf-ptype="general">이에 대해 메타 생성 AI 총괄인 아마드 알 달레는 X(엑스)를 통해 “테스트 셋에서 (LLM을) 훈련시켰다는 주장도 접했는데, 이는 사실이 아니며 메타는 그렇게도 하지 않을 것”이라고 해명했다.</p> <p contents-hash="dc0e3a0f13bb1a0feb42e21f7c0d828f4c6ff2f27591f4409640bbbc628d0a00" dmcf-pid="2BhVZ26FS2" dmcf-ptype="general">벤치마크 조작 논란은 메타뿐만이 아니라 AI 업계 전반에서 반복적으로 제기되고 있다. 경쟁사 견제 차원에서도 지속적으로 제기되는 모양새다.</p> <p contents-hash="cf082aa061625a19f4146b69433bedf3eb396662354ebcf8dfafda7383403134" dmcf-pid="Vblf5VP3v9" dmcf-ptype="general">일론 머스크의 AI 스타트업 xAI의 최신 모델 ‘그록 3’에 대한 논란도 대표적인 예다. xAI는 수학 경시대회 문제를 기반으로 한 ‘AIME 2025’ 벤치마크에서 그록3가 최고 성능을 기록했다고 주장했지만, 오픈AI 측은 xAI가 일부 핵심 지표(cons@64)를 누락해 조작됐다고 문제를 제기했다. 이에 대해 xAI는 “오픈AI 역시 과거에 비슷한 방식으로 데이터를 발표한 바 있다”고 강하게 반발했다.</p> <p contents-hash="ba6b6c9a75046d4239858bf048e0a218058fbd120fc1a8bffa4d4b6084066fcb" dmcf-pid="fKS41fQ0vK" dmcf-ptype="general">이처럼 새로운 AI 모델이 공개될 때마다 벤치마크 결과를 둘러싼 의혹이 반복되는 근본적인 이유는, 평가 방식의 일관성이 부재하기 때문이다. 벤치마크 개수 자체가 매우 많고, 기업들은 자사 모델이 상대적으로 우수한 결과를 낼 수 있는 특정 지표를 선택해 홍보하는 경향이 있다.</p> <p contents-hash="5d4d238b969ea3648e1ab4444c316fe60c872f3036f181773fa386cbd78ee561" dmcf-pid="49v8t4xpWb" dmcf-ptype="general">또한 일부 벤치마크는 현실과 동떨어진 평가 항목으로 구성돼 있다는 지적도 나온다. 수학 문제 풀이, 코딩 등 특수 목적의 테스트가 많은데, 이는 실제 사용자들이 AI를 활용하는 일반적인 상황과는 거리가 있다는 것이다. 특히 최근에는 고도화된 ‘추론 능력’을 앞세운 모델 간 경쟁이 치열해지며, 이러한 벤치마크 중심 마케팅이 더욱 심화되는 양상이다.</p> <p contents-hash="cb6111ad8f9030e7de88fcf473b95209b428fdbaad1ff5a930f55c2324019c9a" dmcf-pid="82T6F8MUvB" dmcf-ptype="general">이에 따라 AI 업계 선두를 달리는 오픈AI는 최근 “기존 벤치마크가 더 이상 현실을 제대로 반영하지 못한다”고 지적하며 산업별 맞춤형 AI 평가 기준을 자체적으로 마련하고 있다고 밝혔다. 오픈AI는 “산업 전반에서 AI 도입이 가속화되고 있는 만큼, AI의 실제 영향력을 더 잘 파악하고 개선할 수 있는 평가 기준이 필요하다”고 배경을 설명했다.</p> <p contents-hash="117ea4bb234eeebd3febb81c83668974ecdcaf19b541c8594b6804f3a7ee050f" dmcf-pid="6VyP36RuTq" dmcf-ptype="general">하지만 이에 대해 오픈AI와 같은 AI 개발사가 직접 벤치마크 기준을 만드는 것이 자칫 공정성을 훼손할 수 있다는 우려도 제기되고 있는 만큼, 논쟁이 단기간에 줄어들긴 쉽지 않을 전망이다.</p> <p contents-hash="d43395cbf17e9e0b182f18660949929100efcc7304a53d65caf4cad00dfae910" dmcf-pid="PfWQ0Pe7hz" dmcf-ptype="general">이재성 중앙대 AI학과 교수는 “각 기업이 자사 모델에 적합한 방식으로 성능을 측정하고 있기 때문에 하나의 통일된 기준을 세우는 것은 현실적으로 어렵다”며 “각 AI 모델마다 강점이 다르므로 벤치마크를 일률적으로 정의하는 것은 오히려 기술 발전에 불리하게 작용할 수 있다”고 설명했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기