로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
尹정권과 '정교유착' 통일교 한학자 총재 구속…"증거인멸 염려"(종합)
N
[연예뉴스]
日 천만 흥행 '국보'…이상일 감독 "'혈통·재능? 인생의 아이덴티티 찾아야" [30th BIFF](종합)
N
[]
美 엔비디아, 오픈AI 데이터센터 구축에 140조원 투자(종합)
N
[연예뉴스]
박찬욱 "실직은 한 가정 파괴하는 일…영화감독도 잠재적 실직자"
N
[연예뉴스]
아내 "이혼 위해 외도"…오은영 "아이 데리고 내연남 만난 것, 정서적 학대" (결혼 지옥)
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]“누가 더 똑똑한지 겨뤄보자”...성능 대전 벌어진 AI, 조작 논란도?
온카뱅크관리자
조회:
59
2025-04-13 21:37:27
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">고차원 테스트 모델 잇따라<br>양자컴퓨터에 단백질 서열 등<br>융합 정보 추론 능력 검증<br>제미나이도 정답률 50% 미만<br>논문 읽고 연구 수행도 시험</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="5QDmHjDxS2"> <figure class="figure_frm origin_fig" contents-hash="21a5f0057258e87f7a02679e7710f456b9a4f77d8bc4457b4161c69386db7a80" dmcf-pid="1xwsXAwMv9" dmcf-ptype="figure"> <p class="link_figure"><img alt="[이미지 = 픽사베이]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/13/mk/20250413213603918ylrk.jpg" data-org-width="700" dmcf-mid="X3Zt2WZwCf" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/13/mk/20250413213603918ylrk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> [이미지 = 픽사베이] </figcaption> </figure> <div contents-hash="ddf4c113a224fea53a846aa70e9a8198ee66b44b5f57fc1ea2d4c866d5712fd1" dmcf-pid="tMrOZcrRyK" dmcf-ptype="general"> 심층적인 문제 해결에 뛰어난 추론형 인공지능(AI) 모델들이 속속 등장하고 있는 가운데 이 같은 AI 모델의 성능을 제대로 평가하기 위한 테스트(벤치마크)도 진화하고 있다. </div> <p contents-hash="26a9bfa8271d6d968e81eaecdf2dc2dcf371a6ef4d579960f2b28a47254f0ec6" dmcf-pid="FRmI5kmeWb" dmcf-ptype="general">AI가 고급 수학·과학 등 전문 분야에서 뛰어난 성능을 발휘하면서 기존 벤치마크로는 성능 분석에 한계가 있다는 지적이 제기됐다. 나아가 일부 기업이 자사 AI 모델의 성능을 부각시키기 위해 유리한 벤치마크 지표만 선별해 대외적으로 공개하면서 벤치마크 지표 자체에 대한 신뢰도를 스스로 떨어뜨렸다는 비판도 나왔다.</p> <p contents-hash="81a01a4e6ceb9df6f409e4cddb94603d043ea3dfd24139ab7cba9b4761e322ff" dmcf-pid="3esC1EsdlB" dmcf-ptype="general">이런 와중에 나날이 똑똑해지고 있는 AI 모델의 성능을 보다 객관적으로 파악·측정할 수 있는 고난도 벤치마크가 탄생하고 있다.</p> <p contents-hash="da86fd0b9a5e91e03c177028af49efad61adcf900004c7b180104329b10b7db9" dmcf-pid="0dOhtDOJTq" dmcf-ptype="general">13일 글로벌 AI 업계에 따르면 구글 연구팀이 최근 과학 분야에 대한 대형언어모델(LLM)의 문제 해결 능력을 평가하기 위한 벤치마크 ‘큐리(CURIE)’를 개발했다.</p> <p contents-hash="3e697deff1967d1dd85458e21c606e8852039f1d7e17939f88d9a2170206b679" dmcf-pid="pzJLsxJqWz" dmcf-ptype="general">큐리는 재료과학, 응집물질물리학, 양자컴퓨팅, 지리공간, 생물 다양성, 단백질 시퀀싱 등 6개 과학 분야에서 580개 문제로 구성된 테스트다.</p> <p contents-hash="77aa5a6eb1b8a0b5d1da1b414ed6175230d87e665c1ab7e093b61d26b26c3873" dmcf-pid="UqioOMiBW7" dmcf-ptype="general">기존에도 물론 STEM 벤치마크처럼 과학이나 수학, 공학 등 전문 분야 지식을 평가하는 벤치마크가 존재했다. 다만 구글은 “기존 벤치마크가 단답형 질문과 객관식 응답에 집중돼 있다”며 “AI 모델이 긴 분량의 정보를 이해하고 추론할 수 있는지를 측정하는 것이 필요했다”고 큐리를 개발한 이유를 설명했다.</p> <figure class="figure_frm origin_fig" contents-hash="626d1e27cfea7346aed06f6fb80fa51442c301df9a34fd9abef605c2b47c9e8a" dmcf-pid="uBngIRnbvu" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/13/mk/20250413213606646mehb.jpg" data-org-width="700" dmcf-mid="ZVX19yXDlV" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/13/mk/20250413213606646mehb.jpg" width="658"></p> </figure> <div contents-hash="4dbd521baae6f5b43ac627a6cb2b1ca862efe40da2b72b82bb8c796702dc85ea" dmcf-pid="7bLaCeLKhU" dmcf-ptype="general"> 큐리의 경우 AI 모델이 일반적인 과학 논문 수준의 분량의 글을 읽고 수행하는 추론, 멀티모달 이해, 분야별 전문 지식 능력 등을 복합적으로 분석한다. 8개 주요 LLM 모델에 대해 측정한 결과, 가장 높은 점수를 보인 모델인 ‘제미나이 2.0 플래시’가 정답률 32%에 머물 정도로 매우 까다롭게 구성됐다. </div> <p contents-hash="861f932defbb7d19bd320759d8a49d7c566df336fdd40432383ff5221a22d435" dmcf-pid="zKoNhdo9Sp" dmcf-ptype="general">이러한 벤치마크가 탄생하는 것은 LLM이 이제는 복잡한 추론을 요구하는 문제 해결에도 능숙한 추론 특화 모델로 진화하고 있기 때문이다. 구글 연구진은 “LLM은 단순히 지식만을 긁어오는 단계에서 추론하며 문제를 적극 해결하는 단계로 전환되고 있다”고 설명했다.</p> <p contents-hash="d4b01472cee930a77328ae38b556fe4e7b11e2b0f6614441ca2b7bde6c9ebf7f" dmcf-pid="q9gjlJg2T0" dmcf-ptype="general">오픈AI가 지난해 12월 추론 모델 ‘o1’을 선보인 이후로 올해 o3 미니 등을 선보였고, 구글은 지난달 ‘제미나이 2.5 프로’를, 앤스로픽은 하이브리드 추론 모델 ‘클로드 3.7 소넷’을 지난 2월 출시했다.</p> <p contents-hash="6e9e9c46441e782d2dbbd5bdaeb3443e824feb1f20bfb501931e33b968afa4ab" dmcf-pid="B2aASiaVl3" dmcf-ptype="general">추론 특화 모델은 빠른 응답 중심의 기존 모델에서 벗어나 생각하는 과정을 도입함으로써 보다 심층적인 답변을 제공해 수학이나 과학 문제 해결 능력도 비약적으로 향상됐다.</p> <p contents-hash="7da9c93bf71424790ee699130fc141577cb454da0767b749f0f5dbee01075375" dmcf-pid="bVNcvnNfWF" dmcf-ptype="general">챗GPT 개발사인 오픈AI도 지난 2일 AI 에이전트의 연구 능력을 측정하는 새로운 벤치마크 ‘페이퍼벤치’를 공개했다. 페이퍼벤치는 AI가 논문 주요 내용을 요약하는 것을 넘어 스스로 코드를 작성해 논문에 등장하는 실험을 복제해 수행할 수 있는지를 중점적으로 평가한다.</p> <p contents-hash="52c5549baf6746360ca8029bb11bfdde197e3166f10b2dbdded38f664876ba83" dmcf-pid="KfjkTLj4vt" dmcf-ptype="general">오픈AI는 “머신러닝 연구의 복잡성을 고려하면, 한번의 실험을 복제해 평가하는 데에도 인간에게는 수십 시간이 소요될 수 있다”며 AI 에이전트가 계속 발전되면 이처럼 인간 대신 AI가 연구 보조 역할을 수행할 수 있음을 시사했다.</p> <p contents-hash="3602a2cba38f404d3a3bd6605a1b0a3721534f674898b22309687c3c296397fa" dmcf-pid="94AEyoA8W1" dmcf-ptype="general">스케일AI는 지난 3일 AI안전센터와 공동 개발한 고난도 벤치마크 ‘HLE’의 테스트셋을 총 2500개 문항으로 확정 지었다. 철학을 비롯해 수학, 과학, 컴퓨터공학, 로켓공학 등 100개 이상의 이종 영역에서 난제를 엄선한 것이 특징이다. 구글의 제미나이 2.5 프로, 오픈AI의 o3 미니도 정답률이 20%에 못 미칠 정도로 문제가 까다로운 것으로 알려졌다.</p> <p contents-hash="01fdc59c58963db47fdea10681408b674ac42b726c0c1c04d9f8e7aee50eee9b" dmcf-pid="28cDWgc6W5" dmcf-ptype="general">고난이도 평가가 가능한 벤치마크가 잇달아 등장하고 있지만 업계에서는 벤치마크 조작 논란도 불거지고 있다.</p> <p contents-hash="dfffcd83e2ba1fb91a2ad4d43b53f133aa18d675c535f06ea33d782e0cd349d5" dmcf-pid="VpMdD8MUvZ" dmcf-ptype="general">최근 AI 모델 ‘라마4’를 공개한 메타는 해당 모델이 벤치마크 테스트 플랫폼에서 2위에 오르며 우수한 성능을 입증했다고 주장했지만, 벤치마크에 특화된 맞춤형 버전으로 테스트한 뒤 실제 사용자에게는 일반 버전을 배포했다는 조작 논란이 일었다.</p> <p contents-hash="518cfad50711d765d3446e02d858ad31a0acbe1d24d69f38d9eab49dff24b2ca" dmcf-pid="fURJw6RuhX" dmcf-ptype="general">기업들이 수십 가지가 넘는 벤치마크 중 자사 모델에 유리한 결과만을 골라 공개하고, 이를 통해 자사 모델이 ‘세계 최고 성능’이라는 식으로 홍보하는 사례도 빈번하다.</p> <p contents-hash="7749f0c5b5308540a6a1abb232631e187e2ec4e8ab2101cac47cd3a1b6723d08" dmcf-pid="4ueirPe7yH" dmcf-ptype="general">일론 머스크의 AI 기업 ‘xAI’도 자사 AI 모델 ‘그록3’가 수학 경시대회 문제를 기반으로 한 벤치마크(AIME 2025)에서 최고 성능을 기록했다고 주장했지만, 일부 지표를 누락한 채 공개했다는 논란이 제기돼 오픈AI와 공방을 벌인 바 있다.</p> <p contents-hash="fd92dae140359c06b381a7a74589f6e5c368efe34e569a674da878e88f637a92" dmcf-pid="87dnmQdzyG" dmcf-ptype="general">이재성 중앙대 인공지능학과 교수는 “각 기업이 자사 모델에 적합한 방식으로 성능을 측정하고 있기 때문에 하나의 통일된 기준을 세우는 것은 현실적으로 어렵다”며 “AI 모델마다 강점이 다르므로 벤치마크를 일률적으로 정의하는 것은 오히려 기술 발전에 불리하게 작용할 수 있다”고 설명했다.</p> <p contents-hash="3c5cd4a88da0e913f0341c7c23d931044bf3d86ecf01911b07c661d65805df79" dmcf-pid="6zJLsxJqvY" dmcf-ptype="general">한편 추론 능력을 강조한 모델들이 잇달아 출현하며 벤치마크 평가에 드는 비용도 급증하고 있다. 전문가들은 벤치마크 비용이 급증하면 독립적인 성능 검증이 점점 어려워질 수 있다고 지적한다.</p> <p contents-hash="39e4f37d979094118ad520ac37e1f871e97964e912ffa6a4c18ef0f747a84ea1" dmcf-pid="PqioOMiBWW" dmcf-ptype="general">AI 분석업체 아티피셜 애널리시스에 따르면 오픈AI의 GPT-4o 모델의 벤치마크 비용이 108달러(약 15만원)인 데 비해 추론형 모델 o1을 평가에는 무려 2767달러(약 398만원)가 들었다. 앤스로픽의 클로드 3.6 소넷은 81달러(약 11만원)였지만, 후속 추론 모델인 클로드 3.7 소넷은 1485달러(약 213만원)에 달했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기