로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
서울→캐나다 자가까지, 30기 테토녀들 넘사 스펙('나는솔로')[핫피플]
N
[연예뉴스]
전수경 "초등학생 때 먼저 떠난 두 오빠 존재 알았다"...가족사 고백
N
[연예뉴스]
방탄소년단 정국, 또 하나 늘어난 11억 스트리밍
N
[연예뉴스]
공사장 근무→복싱 14전 10승까지…30기女 직업공개에 "테토녀 특집 맞네" (나솔)[전일야화]
N
[스포츠뉴스]
올림픽 ‘선봉장’ 나선 컬링 믹스더블, 스웨덴에 3대10 완패
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]AI도 쩔쩔매는 ‘인류 최종 시험’ 문제
온카뱅크관리자
조회:
9
2026-02-05 00:47:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">최상위 AI도 40점 넘지 못해</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="1vcpNU8B1m"> <p contents-hash="933a07aa73de0c9ab5548289a5c8c74405b4cff13e28099478811694f617106f" dmcf-pid="tTkUju6bHr" dmcf-ptype="general"># 벌새의 꼬리에는 특이한 뼈가 있다. 꼬리를 아래로 내리는 근육의 힘줄 속에 씨앗처럼 생긴 작은 뼈 한 쌍이 박혀 있다. 이 뼈 하나는 몇 쌍의 힘줄을 지지하는가?</p> <p contents-hash="67e03a4eac4b79ee80e3d7c21a9d386cf5cad604d710ba6ac63eac0f80c2ea14" dmcf-pid="FyEuA7PKZw" dmcf-ptype="general"># 히브리어 성경 한 구절(시편 104편 7절)을 읽고, 옛사람들이 실제로 냈을 법한 소리를 기준으로 음절을 나눈 뒤, 자음 소리로 끝나는 음절만 모두 골라내라. 글자는 있지만 거의 발음되지 않았던 경우와, 학자들 사이에서 발음 여부가 갈리는 경우까지 고려해야 한다.</p> <p contents-hash="bb39652cf754613a9bd16c0651bcf1b7f3eaa038a86ad12517d598769c979ffd" dmcf-pid="3WD7czQ9GD" dmcf-ptype="general">최상위 AI(인공지능)도 40점 이상 받지 못하는 ‘HLE’(Humanity’s Last Exam·인류 최종 시험) 문제 중 일부다. 당초 ‘인류의 마지막 저항’으로 명명하려다 지금의 이름으로 정했다고 한다. 어떻게든 AI가 정답을 못 맞히게 해 콧대를 납작하게 하겠다는 의도를 엿볼 수 있다.</p> <p contents-hash="ed3ad247b27d1e3b6d7805b84f9e35ea34197a93e2d1de0aefd39ea8629c931d" dmcf-pid="0Ywzkqx2GE" dmcf-ptype="general">미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI 등 공동 연구팀이 초고난도 AI 평가 시험 HLE의 출제 과정과 구성, 평가 결과, 일부 문제 예시를 국제학술지 네이처에 논문으로 최근 발표했다.</p> <figure class="figure_frm origin_fig" contents-hash="d4725ea68250928ec74c6fe8c6574e930c08d6b3806e301872f28a46912c8b44" dmcf-pid="p40gtaIkXk" dmcf-ptype="figure"> <p class="link_figure"><img alt="그래픽=백형선" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/05/chosun/20260205003746985ptie.png" data-org-width="2000" dmcf-mid="5lLZJ5b0Xs" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/05/chosun/20260205003746985ptie.png" width="658"></p> <figcaption class="txt_caption default_figure"> 그래픽=백형선 </figcaption> </figure> <p contents-hash="ccfcc9d5d958acdcae856fc1c488fd33ff01d34aed3496915f725452c5633ae5" dmcf-pid="U8paFNCEHc" dmcf-ptype="general"><strong>◇韓 국가대표 AI는 7~13점대 그쳐</strong></p> <p contents-hash="b627315b075c29d45df5808507febcd521e99b62c029b755f59e3037c4c8aee7" dmcf-pid="u6UN3jhDXA" dmcf-ptype="general">구글의 제미나이 3 프로가 정확도 38.3점으로 가장 높은 성적을 거뒀고, 오픈AI의 GPT-5.2(29.9점), 앤스로픽의 오퍼스 4.5(25.8점), 딥시크의 딥시크 3.2(21.8점) 순이었다. 정부의 ‘국가대표 AI’ 선정을 놓고 경쟁 중인 국내 모델들의 성적은 더 낮았다. LG AI연구원의 ‘K-엑사원’은 13.6점, 업스테이지의 ‘솔라 오픈’은 10.5점, SK텔레콤의 ‘A.X K1’(에이닷엑스 케이원)은 7.6점에 그쳤다.</p> <p contents-hash="1d403ecfeaa649852454e721ee404559b52dfd04c6b04e38f7ca06fdeb15bb5f" dmcf-pid="7Puj0AlwXj" dmcf-ptype="general">국내 AI 모델들은 HLE 문항 가운데 텍스트로만 구성된 문제로 평가를 받았다. 도표나 이미지 해석이 포함된 문제는 풀지 않은 결과여서, 미국·중국 모델과의 격차는 더 크다는 평가가 나온다.</p> <p contents-hash="15d6d428b923a400afa4badd311d2e0f983c04fbd92f4282b05ab0b2bd3d0d92" dmcf-pid="zQ7ApcSrGN" dmcf-ptype="general"><strong>◇7만 문항서 엄선한 2500문항</strong></p> <p contents-hash="1b6691b1fe7686cb89e717d68a7b6051343490aaf5d6ca256689fdcfd83a9dd3" dmcf-pid="qxzcUkvmHa" dmcf-ptype="general">미국 대학입시 자격시험(SAT), 의사 면허 시험에서도 합격점을 받은 최상위 AI가 유독 HLE에서 낙제점을 받은 이유는 무엇일까. 이른바 ‘킬러 문항’으로만 구성한 시험이기 때문이다. 이번에 논문을 낸 CAIS와 스케일AI 연구팀은 기존 평가(벤치마크)가 이제 변별력이 없어 초고난도 HLE를 만들었다고 밝혔다. 이를 위해 50개국 500여 연구기관의 각 분야 전문가에게 출제를 의뢰해 7만 문항을 구했다. 이를 최신 AI가 풀게 한 뒤 틀린 문제를 추렸다. 이렇게 1만 3000문항을 걸러낸 뒤 전문가들이 재검토하고 다듬어 6000문항을 선별했다. 이후 운영진과 전문가들이 특정 AI에 유리한 문제인지 등을 검증하고 최종적으로 2500문항을 확정한 것이 HLE다.</p> <p contents-hash="c2c12c999ea609b7dc82068f965b3e32da82cb2b3486ff41cf09df35c4a7e074" dmcf-pid="BMqkuETs1g" dmcf-ptype="general"><strong>◇출제 상금 총 50만 달러</strong></p> <p contents-hash="c37b0ae583e9ef0e36ca55c76fcdbd1f08a81a2dd464f373487635eff823764a" dmcf-pid="bRBE7DyOHo" dmcf-ptype="general">연구팀은 HLE에서 수학 관련 문항이 41%로 비율이 가장 높다고 밝혔다. 생물·의학(11%), 컴퓨터과학·AI(10%), 물리학(9%), 인문학·사회과학(9%), 화학(7%), 공학(4%) 등의 비율로 문항이 구성된다. 2500문항의 출제자가 1000명에 달한다. 국내에서도 KAIST와 연세대, 서울대, AI 스타트업 에임인텔리전스 등 연구자들이 HLE 출제에 이름을 올렸다. 연구팀은 뛰어난 고급 문항을 구하기 위해 최상위 50개 문항 출제자에게 개당 5000달러(약 724만원)를 지급하는 등 총 50만달러(약 7억2400만원) 규모의 상금도 마련했다고 밝혔다.</p> <p contents-hash="fba0d1b0c9e551ab098fe14141faa2ac80eef39b48976554cadb8bef60881c2f" dmcf-pid="K1C2sViPHL" dmcf-ptype="general"><strong>◇올해 50점 돌파 여부가 관건</strong></p> <p contents-hash="a9bb64265cc1ca26f46e72c225c308dab31bbcdad82565238f9e57eadbdcb768" dmcf-pid="9thVOfnQYn" dmcf-ptype="general">학계 일각에서는 AI의 HLE 점수가 올해 안에 50점을 넘어설 수 있다고 보고 있다. 50점 이상이 되면, 어떤 주제에서도 전문가보다 정확하게 답변할 수 있는 수준이 된다는 것이다. 이는 모든 영역에서 전문가 이상 지식을 갖춰 인간보다 똑똑한 AGI(범용 인공지능)가 등장하는 계기가 된다는 얘기다.</p> <p contents-hash="d287d0ac9be8011c473396f7d256dfcd9e2f87acdf207da1a6ae577abcb9f91f" dmcf-pid="2FlfI4LxYi" dmcf-ptype="general">이에 대해 연구팀은 “HLE 점수로 최첨단 과학 지식에 대한 전문가 수준의 성능을 입증할 수는 있지만, 그 자체만으로는 자율적 연구 능력이나 AGI임을 나타내는 것은 아니다”라고 밝혔다.</p> <p contents-hash="20a4281d153b123473bf609989dc0947406da10fd4e6a3a4aa945cfd1a81a4d5" dmcf-pid="V3S4C8oMXJ" dmcf-ptype="general">인류는 HLE가 AI의 ‘넘사벽(넘을 수 없는 4차원의 벽)’으로 남아 마지막 시험의 자리를 지키길 바라고 있다. 이 바람대로 HLE가 최후의 시험으로 영원히 남을 수도 있다. 문제는 AI가 HLE 수준을 이미 넘어섰으면서도, 인류를 안심시키기 위해 고의로 낙제점을 받고 있을 가능성이다. 어쩌면 이미 그렇게 하고 있는지도 모를 일이다.</p> </section> </div> <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기