로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
“이래서 내란재판부 절실” 최민희, 김건희 판결에 발끈
N
[]
연금은 그대로인데, 건강보험료는 왜 올랐을까
N
[IT뉴스]
넥슨 ‘메이플 키우기’, 확률 논란 속 ‘전액 환불’…사태 조기 진화 성공하나
N
[IT뉴스]
네오펙트 ‘뇌졸중 FMA 예측 AI’ 개발 성공… 정부 범부처 R&D 3년 결실
N
[연예뉴스]
류승룡, 서경덕 교수와 목소리 높였다.."韓 유공자 주거지원 절실"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]AI도 고개 떨군 '인류 마지막 시험' 한국인은 무슨 문제 냈을까
온카뱅크관리자
조회:
4
2026-01-29 06:27:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="24Eh9fu5Gh"> <figure class="figure_frm origin_fig" contents-hash="7fda5cba1657ba2856e514c33e63a53b4f9c9928ed9af4de67d1b8771edc0bef" dmcf-pid="V4Eh9fu5YC" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI (인공지능) (PG) [장현경 제작] 일러스트" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651178potg.jpg" data-org-width="1024" dmcf-mid="B1Eh9fu5XT" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651178potg.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> AI (인공지능) (PG) [장현경 제작] 일러스트 </figcaption> </figure> <p contents-hash="72ed1555f5abb2e8cda311c5fe6c57818cfd02e4655fac2b406d74a8e0a3227b" dmcf-pid="f8Dl2471HI" dmcf-ptype="general">(서울=연합뉴스) 조승한 기자 = 전 세계 최신 인공지능(AI)들이 인류가 만든 각종 시험을 비웃듯 손쉽게 통과하는 가운데 이들 모델조차 고개를 떨군 초고난도 벤치마크(AI 성능 비교 시험) '인류의 마지막 시험'(Humanity's Last Exam, HLE)이 29일 국제학술지 '네이처'에 공개됐다.</p> <p contents-hash="e871b47ed76b9e326799cb62fc5cec4f1e8ed25f3f8728efd6a99db931b70896" dmcf-pid="46wSV8ztHO" dmcf-ptype="general">전 세계 전문가들이 모여 다양한 학문 분야 2천500문항으로 만든 AI 학술 시험으로 한국 연구자들도 문제 출제에 참여한 것으로 나타났다.</p> <p contents-hash="22cf0e20ec7f226f52692b4a98ad546deff09abb7a859f1b44096df5a213802c" dmcf-pid="8Prvf6qF1s" dmcf-ptype="general">HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 공개했는데, 약 1년만에 공식 논문으로 출시됐다.</p> <p contents-hash="dcab9af848faa51f6d7d3024ad43e6de82aa60ff172cedb1d818b14eab141e65" dmcf-pid="6QmT4PB31m" dmcf-ptype="general">HLE는 수학, 물리학, 화학, 생물학, 공학, 컴퓨터과학, 인문학 등 100여 개 세부 학문 분야를 총망라하며, 일부 문항은 글과 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 구성됐다.</p> <p contents-hash="8746a54f955ba87a13cb0412626924dbee37eafb2f839d3a33803e628d38899f" dmcf-pid="Pxsy8Qb0Xr" dmcf-ptype="general">AI가 빠르게 성장하며 각종 벤치마크에서 90점 이상 높은 점수를 받는 등 무력화하자 인류의 마지막 보루 격인 시험을 만들기 위해 마련된 프로젝트로, 50개국 500여 기관 교수와 연구자 약 1천여명이 출제에 참여했다.</p> <p contents-hash="4bb2a4da791bdb8a9ef4d6e2e3c70a45bf3be64e72131d723143fbdd598f3474" dmcf-pid="QMOW6xKpGw" dmcf-ptype="general">각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선해 추려졌으며, 이들 문제에 대해 분야별 전문가가 점수를 매겨 높은 점수를 얻은 문제만 최후의 문제로 남았다.</p> <figure class="figure_frm origin_fig" contents-hash="7774ff9135843b0baa39333c1ddbbe5644a8b6de5f91709e07edf9ba0ab2b9e0" dmcf-pid="xVcIb2pX5D" dmcf-ptype="figure"> <p class="link_figure"><img alt="HLE에 포함된 로마 비문 번역 문제 [HLE 홈페이지 캡처. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651341huat.jpg" data-org-width="1200" dmcf-mid="biv5ei8B1v" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651341huat.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> HLE에 포함된 로마 비문 번역 문제 [HLE 홈페이지 캡처. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="81a9b8269b4b2f7cfa07d6ad4845aa8c0cc8d7e93ec8f2bb58bd112a22740e97" dmcf-pid="yIuVrOjJXE" dmcf-ptype="general">수학 문제가 41%로 가장 많으며 묘비에서 발견된 로마 비문 일부를 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지 등 분야별 전문성을 요구하는 문제가 다수 출제됐다.</p> <p contents-hash="832a4e21aa0d8c90750e9326d20eba28f4dd437eddedde9d771366f23e1c7c01" dmcf-pid="WC7fmIAiGk" dmcf-ptype="general">이렇게 인류가 심혈을 기울여 만든 문제에 AI들도 아직 맥을 못 추고 있다.</p> <p contents-hash="7ae8fa0b4485dd14fc52d9483d9f76dd3f9056810cc61b414d3c211e89cfeb96" dmcf-pid="Yhz4sCcnHc" dmcf-ptype="general">AI안전센터가 공개한 데이터에 따르면 구글 제미나이 3 프로가 정확도 38.3점(%)으로 가장 높은 성적을 거뒀으며 오픈AI의 GPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 딥시크 3.2가 21.8점을 기록했다.</p> <p contents-hash="276337c363381a76ca823cf0621fbb7ccf99a1c94a401590472221f96da75524" dmcf-pid="Glq8OhkL1A" dmcf-ptype="general">정부의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들도 아직은 낮은 점수를 기록하고 있다.</p> <p contents-hash="e923b464ef3fe5c121ec7805306f258b6723b55f9c6ff20b10a856708b792e72" dmcf-pid="HSB6IlEo1j" dmcf-ptype="general">HLE 문제 중 텍스트만 추린 평가에서 LG AI연구원의 'K-엑사원'(EXAONE)은 13.6점을 기록했으며 업스테이지의 '솔라 오픈'은 10.5점, SK텔레콤의 '에이닷엑스 케이원'(A.X K1)은 7.6점을 받았다.</p> <figure class="figure_frm origin_fig" contents-hash="74f644e7d03738944d4436f796d01aee47ab32325a536e7af7471c3bf34e756f" dmcf-pid="XvbPCSDgXN" dmcf-ptype="figure"> <p class="link_figure"><img alt="주요 AI의 HLE 벤치마크 점수 [CAIS 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651522nihi.jpg" data-org-width="1034" dmcf-mid="KX0KErgRHS" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651522nihi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 주요 AI의 HLE 벤치마크 점수 [CAIS 제공. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="7131939b2042efffb6eccdfc425454a889d06cf1545e40c5ff0128cd60c2067a" dmcf-pid="ZTKQhvwata" dmcf-ptype="general">국내 기관 소속으로는 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 교수를 비롯해 KAIST, 한국기술교육대 등에서 6명이 논문에 이름을 올렸다.</p> <p contents-hash="1827c11364a287f8cc6c6bde032dedf003a5aa30ac22b58fa379cd0121c2d496" dmcf-pid="5y9xlTrNZg" dmcf-ptype="general">박 CTO는 "스케일AI 지인에게 소개받아 회사에서 3명이 함께 문제 출제에 참여했다"며 "이산수학 문제를 출제했는데, 복잡한 계산이 필요해 소수점이 많이 나오는 답을 가진 질문이고, 모델이 풀이는 비슷하게 하지만 답에서 숫자 차이가 나게 되는 문제"라고 설명했다.</p> <p contents-hash="358b201c635c8bd73e12a8242fc619dacae4d5222af5a08f390d38bd9d79f959" dmcf-pid="1zLEp7ZvGo" dmcf-ptype="general">해외기관 소속 한국인들도 일부 포함돼 있지만 첨단 AI 연구 경쟁에 참여하고 있다는 한국의 위상과 비교하면 참여 숫자가 많은 편은 아니란 해석도 나온다.</p> <p contents-hash="15a7a8e5040a95d63cf8e9c99f30b403e2e11bfb3ecbb000f4eab0aceb456c50" dmcf-pid="tqoDUz5TGL" dmcf-ptype="general">박 CTO는 "한국에 홍보가 잘 안된 것도 있고, 국내에서 이 정도 규모 프로젝트가 있다면 사람들이 재미있게 참여할 것 같다"며 "상금도 걸려 있고, 중요한 일에 실제로 기여하며 논문에도 이름이 들어가는 만큼 의미가 있다"고 말했다.</p> <p contents-hash="dcb0a5dfa9f84162496c748342e92ce70b05278ba1adb4be4a2c535ba0e83712" dmcf-pid="FBgwuq1yGn" dmcf-ptype="general">다만 이번 논문에서 연구진은 HLE의 의미를 과도하게 해석하는 데는 선을 그었다.</p> <p contents-hash="0e45da583aedd278048b73bdb7538d9bc8fea03f01f3a495bec33feec209acba" dmcf-pid="3bar7BtWYi" dmcf-ptype="general">HLE에서 높은 점수를 기록해도 이는 학술 문제에 대한 전문지식과 추론 능력이 높아졌음을 의미할 뿐 인간처럼 새로운 연구를 주도하거나 범용 인공지능(AGI)까지 도달했다는 것은 아니란 걸 명확히 한 것이다.</p> <p contents-hash="a53cb54bebd3e40dfe3c26677a33eb3da93ad1f41c09217f26e32886d9b3ea09" dmcf-pid="0KNmzbFYYJ" dmcf-ptype="general">박 CTO는 "HLE가 인류의 마지막 벤치마크일 거라고는 생각하지 않고, 정말 범용적인 AGI를 시험하는 벤치마크는 없다고 생각한다"며 "아직 재미있는 벤치마크가 아직 많이 비어 있는 것 같다"고 말했다.</p> <p contents-hash="651d3a3d8981558043aa33c47e20a0816a92860a2818771c1158e6de0d477608" dmcf-pid="p9jsqK3Gtd" dmcf-ptype="general">에임인텔리전스도 한국 인공지능안전연구소(AISI)와 AI의 안전 의사결정을 평가하는 벤치마크 '심판의 날'(The Judgement Day)를 개발하고 있다.</p> <p contents-hash="06b00b3c9cac3b0351fc53bd114b1d7fa8233b6182f5f52cab0d0c417b4c51a7" dmcf-pid="U2AOB90H1e" dmcf-ptype="general">구글 딥마인드, 엔비디아, 옥스퍼드대 등과 협력하고 있으며 안전 시나리오를 모집하고 있다.</p> <p contents-hash="91d06833c3067fadd0b4fa5aca10a55bcd4840b72e65d42d145a9f8021734ea7" dmcf-pid="uVcIb2pXZR" dmcf-ptype="general">박 CTO는 "최근 피지컬 AI가 이슈인데 AI가 실제 탑재됐을 때 안전성을 평가하는 벤치마크는 아직 없다"며 "AI 무인기가 시민에게 미사일을 쏜다든지 하는 하면 안 되는 행동을 하게끔 공격하는 시나리오와 모델이 해야만 하는 액션을 하지 못하게 공격하는 시나리오 등을 모을 예정"이라고 말했다.</p> <figure class="figure_frm origin_fig" contents-hash="3c8f4dedc3a0c83e5f632ade656f56562859be7be545ff59db0e6c26130ce7be" dmcf-pid="7fkCKVUZXM" dmcf-ptype="figure"> <p class="link_figure"><img alt="심판의 날 벤치마크 [에임인텔리전스 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651695vqzr.jpg" data-org-width="800" dmcf-mid="9NOW6xKpGl" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/yonhap/20260129062651695vqzr.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 심판의 날 벤치마크 [에임인텔리전스 제공. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="6fa7813b14a898a465016887cfcabd91746f16aef9380f654370ecd8710be8f2" dmcf-pid="zaY3ngx25x" dmcf-ptype="general">shjo@yna.co.kr</p> <p contents-hash="a3778509cfab220628e6df793f795a7307e282c50d8aafa68a64a4eb92da4e76" dmcf-pid="BjHpoNRfHP" dmcf-ptype="general">▶제보는 카톡 okjebo</p> </section> </div> <p class="" data-translation="true">Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기