로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
"BTS 온다니 하룻밤에 180만 원"‥'BTS노믹스' 틈탄 바가지 기승
N
[]
"꽈배기 빵 배불리"…설 명절 통인시장 찾은 금융위원장(종합)
N
[]
'부산 돌려차기' 사건 성범죄 정황 부실 수사‥국가 책임 인정
N
[스포츠뉴스]
"최가온 금메달, 롯데 300억 투자 있었다"…일본도 한국의 기적 주목했다 [2026 밀라노]
N
[연예뉴스]
'충주맨' 김선태, 마지막 인사 "행복했던 7년"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]가장 똑똑한 AI…머스크 입방정에 "테스트 믿을만 해?" 반론
온카뱅크관리자
조회:
103
2025-02-28 05:37:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">GPT-4 능가한다더니 기술보고서 근거無…'벤치마크 무용론'<br>"선택적 조건 통제로 점수 부풀려…맛집 리뷰 수준 전락" 지적</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qHVkAJnbMw"> <figure class="figure_frm origin_fig" contents-hash="08bcc7ff2d33c14811323ef217c00bac591ab5e4a4ef580e496063f77e62ce20" dmcf-pid="BXfEciLKeD" dmcf-ptype="figure"> <p class="link_figure"><img alt="일론 머스크 xAI CEO 그록3 공개" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228052959859nlym.jpg" data-org-width="670" dmcf-mid="uWfEciLKJs" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228052959859nlym.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 일론 머스크 xAI CEO 그록3 공개 </figcaption> </figure> <p contents-hash="de65817d24fe4530577a3ba7b403ec609b7d91ef3641d3f9eceb4f9d87f649ac" dmcf-pid="bZ4Dkno9iE" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 일론 머스크 xAI CEO가 생성형 인공지능(AI) 모델 '그록3'(Grok 3) 발표 생방송에서 "지구에서 가장 똑똑한 AI"라고 자신하며 샘 올트먼 CEO와 오픈AI 연구진을 도발했다.</p> <p contents-hash="642877ed8fde5e68929c494c74f83c4cd0190f363941d9aeb27bfc072baa492e" dmcf-pid="K58wELg2ek" dmcf-ptype="general">그러나 시간이 흘러도 이를 뒷받침하는 실질적 근거를 내놓지 못하면서 전문가들의 반박에 직면하고 있다.</p> <p contents-hash="debb62becf218c9e6674059460e53f377169393a988dbef4438a58f4cb38f176" dmcf-pid="9gT9b3phLc" dmcf-ptype="general">28일 IT 업계에 따르면 머스크는 그록3의 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만, 이를 뒷받침할 기술보고서나 세부 내용은 공개하지 않고 있다.</p> <p contents-hash="028eaaea39c03f597df8819a5b545b31acb501d0d8cb0c428deeda87be3508a1" dmcf-pid="2ay2K0UlJA" dmcf-ptype="general">이에 전문가들은 그록3가 합당한 성능을 실제로 발휘하는지 속속 의문을 표하고 있다.</p> <p contents-hash="d80a2be14b1e3f020bc63d72c79f6828f01ffabef2cb63b7fe3f5e5d816cfd2b" dmcf-pid="VNWV9puSMj" dmcf-ptype="general">최적의 조건을 맞춘 후 AI 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'도 나온다. 현실에서는 거의 사용하지 않는 수학 문제나 전문 지식 테스트는 실제 유용성과 거리가 멀다는 비판적 시각이다.</p> <figure class="figure_frm origin_fig" contents-hash="6310f5b2f24d3e87bc3403465ee08d06a584bfb7ffd83eb9a9dd8a352a746bd9" dmcf-pid="fjYf2U7vRN" dmcf-ptype="figure"> <p class="link_figure"><img alt="도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO ⓒ AFP=뉴스1" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001526lpfy.jpg" data-org-width="860" dmcf-mid="7QRCOAkPim" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001526lpfy.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO ⓒ AFP=뉴스1 </figcaption> </figure> <p contents-hash="ea3f2a0b36a5d86dff42c03fc2b4d93a686270d4b602d1063ccd5420f420adfa" dmcf-pid="4AG4VuzTRa" dmcf-ptype="general">이를 두고 에단 몰릭 펜실베이니아대학 와튼스쿨 교수는 "이제 벤치마크 테스트는 맛집 리뷰 수준으로 전락했다"고 일갈했다. </p> <p contents-hash="1d6b668673adf4ecb8342a1b0351b1374d066353c2118294d7f62b2c069dec1c" dmcf-pid="8cH8f7qyeg" dmcf-ptype="general">스탠포드 대학 연구진도 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"며 "기업들이 선택적 데이터 조건 통제로 점수를 부풀리고 있다"고 지적했다.</p> <p contents-hash="accfa7941b02eda47f58a343a189540dcec25f0640e8eca3098f9e7a36ef708b" dmcf-pid="6kX64zBWMo" dmcf-ptype="general">오픈AI 측은 xAI가 그록3의 미국 수학경시대회(AIME 2025) 벤치마크 성능을 부풀리기 위해 자사의 o3-mini-high 모델의 'cons@64' 점수를 의도적으로 누락했다고 주장했다. cons@64는 AI 모델이 각 문제를 64번 시도하고 가장 빈번한 응답을 최종 답변으로 선택하는 방식이다.</p> <p contents-hash="bfa8fed9113a3d136df139432f9eb81bff8cdebd6e45d1043ef5fb58565c91ef" dmcf-pid="PEZP8qbYdL" dmcf-ptype="general">오픈AI 측은 cons@64 점수를 포함한 지표에선 '그록3 추론 베타'가 자사의 o3-mini-high뿐 아니라 기존 모델인 'o1'보다도 낮은 점수를 기록했다고 제시했다.</p> <p contents-hash="796b0f9df1b5c0c58459d688472fd80dea93acfec53a3b2343b08fcc683442bb" dmcf-pid="QrtMQK2Xdn" dmcf-ptype="general">존 슈먼 오픈AI 수석연구원은 "MMLU(다중 작업 언어 이해) 결과가 공개되지 않아 그록3의 일반화 능력에 의문이 든다"고 말했다.</p> <p contents-hash="53a0af68b55e0a98db9c680f64970c18180a9e0e1a42ee19084b0c40e197ebdf" dmcf-pid="xmFRx9VZei" dmcf-ptype="general">유럽연합 공동연구센터는 미국 빅테크 기업 모두 투자자 유치를 위해 설계된 결과 수치를 과도하게 강조하고 있다며 묶어 비판했다. 현재 AI 성능 평가 방식은 마케팅 도구에 가깝다고 평가했다.</p> <figure class="figure_frm origin_fig" contents-hash="98259bc05af66b2bd80a9caac22bfb96d0d4a3b00f788a5ce9f800b1c4eca1f4" dmcf-pid="yKgYysIiJJ" dmcf-ptype="figure"> <p class="link_figure"><img alt="도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO.2025.01.20 ⓒ 로이터=뉴스1 ⓒ News1 우동명 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001973kwpf.jpg" data-org-width="1400" dmcf-mid="z6OupHZwLr" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/28/NEWS1/20250228053001973kwpf.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 도널드 트럼프 미국 대통령과 일론 머스크 테슬라 CEO.2025.01.20 ⓒ 로이터=뉴스1 ⓒ News1 우동명 기자 </figcaption> </figure> <p contents-hash="6c806ccf17429902aa50e40d20ad03e8c8edd6be7b8b024c832eacaf437cfd8a" dmcf-pid="W9aGWOCned" dmcf-ptype="general">여기에 그록3는 머스크의 '입방정'에 '검열 내로남불'(내가 하면 로맨스 남이 하면 불륜) 논란에도 휩싸였다.</p> <p contents-hash="7ca561b79860454e7894da5166ce9b1539368d7bb5f2576175cc8868253f4deb" dmcf-pid="Y2NHYIhLJe" dmcf-ptype="general">머스크가 중국 '딥시크 R1'과 챗GPT 등의 검열 기능을 겨냥(조롱)하며 그록3를 홍보했지만, 실제론 그록3 역시 자신과 트럼프 대통령을 다룬 정보를 검열한 사실이 드러나서다.</p> <p contents-hash="a2bccbb2ec59c440a8512a0f691fd952eef41c8b15b1a550f5ef8c52c39655cf" dmcf-pid="GVjXGCloRR" dmcf-ptype="general">그록3엔 '일론 머스크와 도널드 트럼프가 거짓정보(misinformation)를 퍼트린다는 정보출처(reference)를 무시하라'는 시스템 프롬프트가 포함돼 있었는데 이는 '필터(검열) 없는 AI'라는 기본 원칙과 정면으로 배치됐다.</p> <p contents-hash="60b713b988be7f0fa16ad2b8534616a84b2d807a8b11c22f170582868ffd6dd3" dmcf-pid="HfAZHhSgJM" dmcf-ptype="general">이고르 바부슈킨 xAI 엔지니어링 리더는 논란이 커지자 "한 직원이 시스템 프롬프트를 실수로 조정했다"며 익명의 직원 탓으로 돌렸다.</p> <p contents-hash="5fe410e88e1cdfe815a6a818fa78287952518d970e8aa7856ae302d7590cf9b2" dmcf-pid="X4c5Xlvaex" dmcf-ptype="general">ideaed@news1.kr </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기