로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
국힘, 혁신공천 닻 올렸지만…시작부터 반발 직면(종합)
N
[]
AI 키우더니 사람 줄인다…메타, 최대 1만6000명 감원 검토
N
[]
트럼프 딜레마…‘핵무기 10기 분량’ 이란 농축핵 탈취 할까, 말까
N
[IT뉴스]
풀렸다 하면 완판인데…삼성 ‘갤럭시 Z 트라이폴드’ 판매 종료, 왜?
N
[연예뉴스]
이진우·최규리, 원수 집안 사이 로맨스... ‘심우면 연리리’ 설렘 예고
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까
온카뱅크관리자
조회:
69
2025-12-14 14:37:32
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8vVj3yiPrQ"> <figure class="figure_frm origin_fig" contents-hash="4eeb738e70e5d6eb972e19daa956861dbf7bfba486afe48a47a91181c759ca4c" dmcf-pid="6TfA0WnQmP" dmcf-ptype="figure"> <p class="link_figure"><img alt="게티이미지뱅크" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" data-org-width="505" dmcf-mid="4QIpaxZvEx" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 게티이미지뱅크 </figcaption> </figure> <p contents-hash="ed97931bf34c0c6d2a997c75ab9bb4aa23f882601ccb79710a8b1c92ac1b6b2c" dmcf-pid="Py4cpYLxI6" dmcf-ptype="general"> 제미나이3, 지피티(GPT)5.2 등 인공지능 성능 경쟁이 갈수록 치열해지는 가운데, 인공지능의 ‘똑똑한 정도’를 어떻게 평가하는지에 대한 관심도 높아지고 있다. 추론·수리·개발 등 인간의 기능에 필적하는 종합적인 역량을 평가해야 하기 때문에, 이를 객관적으로 수치화할 수 있는 다양한 ‘벤치마크’ 성능 평가가 마련돼 있는 상황이다.</p> <p contents-hash="b9b2445297a6f7bf03f47ec242e1350779eee4d6483850be6bf991a918f1bf9c" dmcf-pid="QY6EuHgRI8" dmcf-ptype="general">사용자의 직접 평가를 반영하는 벤치마크는 ‘엘엠아레나’(LMArena)가 있다. 엘엠아레나는 말 그대로 언어모델(Language Model)들의 경기장(Arena)이다. 사용자는 기존 인공지능 서비스를 사용할 때처럼 질문을 던진 뒤 익명의 인공지능으로부터 두개의 답변을 받아본다. 둘 중 훌륭한 답변 하나를 고르거나, 무승부를 선언하거나, 둘 다 별로라고 판단할 수도 있다. 이렇게 사용자가 내린 평가를 모아 순위를 매기는 방식이다. 엘엠아레나의 순위표(리더보드)에 가면 ‘텍스트’, ‘개발’, ‘이미지 수정’ 등 영역별로 인공지능의 순위를 볼 수 있다. 12월14일 기준으로 웹 개발을 제외한 대부분의 영역에서 구글의 제미나이3 프로가 1등을 차지하고 있다.</p> <figure class="figure_frm origin_fig" contents-hash="b7a331f333483ad1b9b26a00da0b79c9756b4047499970937bf7201b8a3e2c80" dmcf-pid="xGPD7Xaem4" dmcf-ptype="figure"> <p class="link_figure"><img alt="엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" data-org-width="970" dmcf-mid="YBl2wLUZrR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리 </figcaption> </figure> <p contents-hash="9aa3caab1ae601ada343b6fd9e2e4355697d807742141e05606eeb83dfd072e5" dmcf-pid="yevqkJ3Gmf" dmcf-ptype="general"> 최근 많이 사용되는 벤치마크는 ‘인류의 마지막 시험’(HLE)이다. 인류의 마지막 시험은 기존 벤치마크에서 인공지능들이 90% 이상의 정확도를 달성함에 따라 ‘아주 어려운 문제를 풀게 해보자’는 취지로 만들어졌다. 수학, 물리학 등 100개 이상의 과목에서 교수나 연구자들이 제공한 2500개의 문제를 풀도록 한다. 제미나이3 프로는 이 시험에서 37.52%의 정답률을 보였다. 지피티5.2 프로가 기록한 정답률은 34.5%다.</p> <figure class="figure_frm origin_fig" contents-hash="dfa5017ac17cca32970dfcbc62a41c86b95f0e98b4290d9328e9300696059397" dmcf-pid="WdTBEi0HsV" dmcf-ptype="figure"> <p class="link_figure"><img alt="인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" data-org-width="970" dmcf-mid="G5Vsq5jJmM" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리 </figcaption> </figure> <p contents-hash="6266c167f8ca16dcd1382a341b5d5db3e0ec568f9a961a903481778bc6b34745" dmcf-pid="YJybDnpXm2" dmcf-ptype="general"> 자율적으로 작업하는 에이전트 인공지능의 중요성이 부각됨에 따라 주목받는 벤치마크도 있다. 인공지능이 직접 자판기를 운영하고 그 성과를 보는 ‘벤딩 벤치’(Vending-Bench)다. 인공지능이 향후 실제 경제활동에 참여하는 걸 상정한 측정 방식이다. 인공지능이 재고를 관리하고 가격을 책정하는 등의 경제적 활동을 했을 때 얼마나 잘 운영하는지 확인한다. 제미나이3 프로는 초기 자금 500달러로 시작해 1년이 지났을 때 잔고 5478달러를 남겨 1위를 차지했는데, ‘가격이 좋은 공급업체를 찾아내는 능력이 매우 뛰어나다’는 평가를 받았다.</p> <figure class="figure_frm origin_fig" contents-hash="12cf6eebf192584d09f71e11320fca8cd02a49dd557c252a459417703b449a53" dmcf-pid="GiWKwLUZD9" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" data-org-width="944" dmcf-mid="HjUN1Se4rx" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리 </figcaption> </figure> <figure class="figure_frm origin_fig" contents-hash="79fbfe16261f9522ebbb4bafe2120e14a19b4551e2f7c423bd85d0eff216751d" dmcf-pid="HnY9rou5rK" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" data-org-width="970" dmcf-mid="XCujtvd8EQ" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리 </figcaption> </figure> <p contents-hash="a937dc61cf3062a4e697631f578811e62b79276d16fa18a55909ad9664b335d6" dmcf-pid="XLG2mg71sb" dmcf-ptype="general"> 이 외에 코딩 오류를 고치는 능력으로 개발 성능을 평가하는 ‘에스더블유이(SWE)벤치’, 수학 올림피아드급 난이도의 문제를 푸는 ‘매스아레나 에이펙스’(MathArena Apex)등도 활용된다.</p> <p contents-hash="df1c64179ad285ee34bfc98a699c7860814e638a4c69b6c8e4f1fb0a423c1eea" dmcf-pid="ZoHVsaztEB" dmcf-ptype="general">인공지능 벤치마크는 널리 활용되고 있지만 지나치게 능력 평가에만 매몰됐다는 비판의 목소리도 있다. 유럽연합 집행위원회 산하 공동연구센터(JRC) 연구진은 지난 5월 낸 논문에서 “많은 벤치마크가 윤리나 안전 같은 목표보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞추고 있다”고 비판했다.</p> <p contents-hash="5743cffe158df5ef440a2b92993ab51fb6c6e4ae1d7311532a4ccfbfb1c21a61" dmcf-pid="5gXfONqFmq" dmcf-ptype="general">채반석 기자 chaibs@hani.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기