로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
선예 “캐나다서 세 딸 자연주의 출산” 6월 아들 낳는 남보라에 출산 조언(편스토랑)
N
[연예뉴스]
이규형 황금 인맥, 조승우와 쌀국수 모임-조인성 미담까지(전현무계획3)[어제TV]
N
[연예뉴스]
조부상 이주승 근황 “코르티스 주훈 닮았다고” 아이돌 패션 도전(나혼산)
N
[연예뉴스]
이영지 “되팔이 업자들 다 처리할 것” MZ 대통령식 공연 홍보(쓰담쓰담)[결정적장면]
N
[연예뉴스]
선예 “태어나자마자 할머니 손에 맡겨져, 처음엔 결혼 반대했었다”(편스토랑)
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]'돈 내면 성능평가 1위?'…'벤치마크 무용론'에 자금논란까지
온카뱅크관리자
조회:
90
2025-05-08 06:27:28
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">평가맞춤 사전훈련·강력한 테스트버전 등 점수 부풀리기 '꼼수'<br>"벤치마크기관 관례적 보조금 등 마케팅 도구 전락" 비판</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="0wYr4l3IGN"> <figure class="figure_frm origin_fig" contents-hash="a4c5de2946f9564dd6c50266a99ab28388601fbe74078e95f30f725c32d52448" dmcf-pid="prGm8S0CHa" dmcf-ptype="figure"> <p class="link_figure"><img alt="다니엘 엘(Daniel L)이라는 인물이 올린 라마 4의 진실:벤치마크, 논란, AI의 미래에 미치는 영향(링크드인 게시글 갈무리)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062007836cuaf.jpg" data-org-width="753" dmcf-mid="FernpAva1A" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062007836cuaf.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 다니엘 엘(Daniel L)이라는 인물이 올린 라마 4의 진실:벤치마크, 논란, AI의 미래에 미치는 영향(링크드인 게시글 갈무리) </figcaption> </figure> <p contents-hash="bd6fb4ac1da82f959bbb94c3eb02dd375729cdaf5c1f5325ec639fb9c042c74f" dmcf-pid="UmHs6vphHg" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 오픈AI·메타·xAI 등 빅테크 기업들이 자사 인공지능(AI) 모델 성능을 강조하고자 벤치마크 점수를 부풀리고 있다는 의혹이 커지고 있다.</p> <p contents-hash="a0a74909e8ed836c856ed233123bbe832f36ad6ce5c3f5e2194e95b9fac575e7" dmcf-pid="usXOPTUlZo" dmcf-ptype="general">일론 머스크 xAI CEO가 공개한 AI 모델 '그록3'에 이어 메타 '라마 4' 시리즈도 맞춤 사전 훈련 및 공개 버전과 다른 테스트 버전 적용 문제에 휩싸이며 벤치마크 지표가 믿을 만한 것인지 의문이 제기되고 있다.</p> <p contents-hash="2e65750026af0e92835374928d71bd3089a635a506e3e8b8333b1c4fbe4320eb" dmcf-pid="75K1AuQ0tL" dmcf-ptype="general">8일 IT업계와 외신에 따르면 메타는 지난달 라마4 시리즈를 발표하며 '챗봇 아레나(Chatbot Arena) 벤치마크'에서 'GPT-4o'와 '제미나이 2.0 프로'를 능가했다고 언급했다.</p> <p contents-hash="61e8ad5b22b06a247e6deaed5a62d70fd757fdb9b08ec87b0122bb8c1acce9a6" dmcf-pid="z19tc7xpHn" dmcf-ptype="general">그러나 출시 직후 메타가 공개한 모델과 벤치마크 테스트 적용 모델 간 품질(성능) 차이가 있다는 의혹이 제기됐다.</p> <p contents-hash="cd70887ec0a3d8dd5a74e31e89523a6f9444cf0232f2b203b530787dcf102cce" dmcf-pid="qt2FkzMUYi" dmcf-ptype="general">코히어(캐나다 AI 스타트업)·프린스턴 대학교·하버드 대학교 등 연구진이 발표한 논문에 따르면 메타는 올해 1~3월 챗봇 아레나에서 라마4의 27개 변형 버전을 비공개로 테스트하고 해당 피드백을 기반으로 제품 출시 일정을 앞당겼다.</p> <p contents-hash="d38c8c1ba3e3a7c3a4920bf97f1a1c1392bb1448e0152195f73552eb416bae74" dmcf-pid="BFV3EqRuGJ" dmcf-ptype="general">메타 측은 "테스트 세트에 맞춘 학습은 없었다"고 처음엔 전면 부인했지만 의혹이 확산하자 "정식 모델을 벤치마크에 사용하지 않았다"고 시인했다.</p> <figure class="figure_frm origin_fig" contents-hash="1f405cc39257bb47e47ae6e48bcd034ff0f3d0000bb3823d1e551c3401af36c1" dmcf-pid="b3f0DBe7Hd" dmcf-ptype="figure"> <p class="link_figure"><img alt="일론 머스크 xAI CEO 그록3 공개" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062009301xlcd.jpg" data-org-width="670" dmcf-mid="3BP7s2nb5j" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062009301xlcd.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 일론 머스크 xAI CEO 그록3 공개 </figcaption> </figure> <p contents-hash="50baa8ad43c0f3eaa89d0e0d56e9831f66777179ca1f49e1165290ea66786cb7" dmcf-pid="K04pwbdzXe" dmcf-ptype="general">머스크 CEO도 그록3 발표 생방송에서 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만, xAI는 이를 뒷받침할 기술보고서 등을 공개하지 않았다.</p> <p contents-hash="4d4724a1d8c1572b7e15279e32ba13b3a4ef88014834ce07d02d18610737ace5" dmcf-pid="9p8UrKJq5R" dmcf-ptype="general">오픈AI도 예외가 아니다. 지난해 12월 o3 모델을 공개하며 FrontierMath 벤치마크에서 25% 이상 문제를 해결했다고 발표했지만, 검증 결과 실제 성능은 10% 수준에 그쳤다. 오픈AI 역시 "내부 테스트에 더 강력한 미공개 버전을 사용했다"고 시인했다.</p> <p contents-hash="f18b92329d9a772f925078f2f1bbc230d91b72b2fce177869d42cc9938c04715" dmcf-pid="2U6um9iB5M" dmcf-ptype="general">해당 사례들은 벤치마크 조건에 맞춰 훈련한 테스트 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'이 커지는 배경이다.</p> <p contents-hash="52f77f7840b648dbb82eaa438cbba14aa69aa6a3ba5c13b1eb1c82bcac5454b7" dmcf-pid="VuP7s2nb1x" dmcf-ptype="general">미국 스탠퍼드대 인간중심AI연구소(HAI)는 올해 2월 보고서에서 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"고 비판했다.</p> <p contents-hash="ff25c78ee06aee155f55d514c114ef9df560e5ba281d75a7f130499862e5641d" dmcf-pid="f7QzOVLK1Q" dmcf-ptype="general">벤치마크 기관의 자금 출처 문제도 떠올랐다. 오픈AI·메타·구글 등 실리콘밸리 기업들이 벤치마크 기관에 관례적으로 보조금을 지원하고 있어 평가 결과에 영향을 미칠 수 있다는 우려다.</p> <p contents-hash="21056a6fdae6a7f9d451157bfc05eb668269f4f83eea225aa48f9371f5aae3a1" dmcf-pid="4zxqIfo9XP" dmcf-ptype="general">올해 1월 AI 수학 벤치마크를 개발하는 비영리 단체 Epoch AI가 오픈AI로부터 자금 지원을 받았다는 사실이 뒤늦게 드러나 논란이 됐다. 인간 선호도 평가(챗봇 아레나 등)로 유명한 LMSYS가 일부 AI 기업과 결탁해 더 높은 점수를 얻도록 지원했다는 폭로도 나왔다.</p> <p contents-hash="8434267e9d85a4893e40b8ae111bbda24dd36c6e3a51622acb77a2e3dd220b25" dmcf-pid="8Zb5jUP3Z6" dmcf-ptype="general">유럽연합 공동연구센터는 "기업 간 투자자 유치 경쟁이 치열해지면서 설계된 벤치마크 수치를 과도하게 강조하고 있다"며 "현재 AI 성능 평가 방식은 마케팅 도구에 가깝다"고 일갈했다.</p> <p contents-hash="de53ae1ea02f81ed4df7aa38fda1ae8bbf23408593337bce0c4a0f78e5b5f3a5" dmcf-pid="65K1AuQ0H8" dmcf-ptype="general">ideaed@news1.kr</p> <p contents-hash="638a26654e4439a51385b8568620c0eec7e54a08326cee64479255ba042f6db7" dmcf-pid="P19tc7xp54" dmcf-ptype="general"><strong><용어설명></strong></p> <p contents-hash="c50568f08f4fb51275e991fa436dbff95c42796523f09d5b5bb036cb09399ecd" dmcf-pid="Qt2FkzMUtf" dmcf-ptype="general">■ LMSYS LMSYS는 대규모언어모델(LLM)과 시스템을 개발하는 비영리 연구 조직으로 AI 모델의 개방성·접근성·확장성 확대를 목표로 다양한 프로젝트를 수행하고 있다. LMSYS는 챗봇 아레나(Chatbot Arena) 플랫폼을 통해 사용자들이 블라인드 상태로 두 개의 AI 모델 응답을 비교해 더 나은 답변을 투표하는 방식으로 성능 평가(인간 선호도 평가)를 지원한다.</p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기