로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
이란 의회의장, 트럼프 압박에 "시간 끌수록 대가 커질 것"(종합)
N
[]
부산 북갑 보선 후보들, 방송사 TV 토론 참여 두고 신경전(종합)
N
[연예뉴스]
방탄소년단, 멕시코시티서 15만 관객과 호흡…스타디움 안팎이 들썩였다
N
[연예뉴스]
‘유재석 캠프’ 메인포스터·예고편 공개
N
[IT뉴스]
국내 통신사 ‘첫’ AI 소프트웨어 수출 쾌거…홍범식 “글로벌 사업 발판”
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다
온카뱅크관리자
조회:
12
2026-05-12 08:17:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="31fLeenQlO"> <p contents-hash="13df70bee8aaac184063dcb90ade313ec5671b8f8b671d485b890ae61272dd65" dmcf-pid="0F8gJJoMCs" dmcf-ptype="general">세계에서 가장 뛰어난 AI 9종을 시험대에 올렸다. 점수는 전부 0점이었다. </p> <div contents-hash="996df26a837fdf1a1d83fb0257de8e1a602fd9dde8271342efb7ffc061f1e673" dmcf-pid="p36aiigRCm" dmcf-ptype="general"> 2026년 5월, 메타 FAIR(기초 AI 연구소)·스탠퍼드대·하버드대 공동 연구팀이 '프로그램벤치(ProgramBench)' 벤치마크 논문을 공개했다. 연구팀은 FFmpeg(동영상 처리), SQLite(데이터베이스), PHP 인터프리터 등 실제 현장에서 쓰이는 핵심 프로그램 200종을 과제로 선정했다. 단, 소스코드는 주지 않았다. AI에게 주어진 것은 실행 파일과 사용 설명서뿐이었다. 이 정보만으로 원본과 동일하게 작동하는 코드를 처음부터 다시 짜내라는 과제였다. <div> </div> </div> <figure class="figure_frm origin_fig" contents-hash="d1d32c62a1d3b14aa575f2d068d1c329a94b1d10fab7db3b8fa5a4908394f388" dmcf-pid="U0PNnnaevr" dmcf-ptype="figure"> <p class="link_figure"><img alt="완전 해결율 0%. 가장 성적이 좋은 모델조차 6개 과제에서만 테스트의 95%를 통과했다. (출처=arxiv.org)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/12/552816-OGTrtXj/20260512080918061munl.png" data-org-width="1024" dmcf-mid="t5pWllyOSC" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/12/552816-OGTrtXj/20260512080918061munl.png" width="658"></p> <figcaption class="txt_caption default_figure"> 완전 해결율 0%. 가장 성적이 좋은 모델조차 6개 과제에서만 테스트의 95%를 통과했다. (출처=arxiv.org) </figcaption> </figure> <div contents-hash="5fdd1d2feb1dca99ddfb573cfa90e89df6d34be84236474e6cb5b20dc09c6d80" dmcf-pid="upQjLLNdhw" dmcf-ptype="general"> <div> </div> </div> <p contents-hash="f469dc7d7cea424f27955e8b15b2e15702e4ecc7f02267c2f0b45f3ba58f05b6" dmcf-pid="7UxAoojJyD" dmcf-ptype="general">클로드 오퍼스 4.7, GPT-5.4, 제미나이 3.1 프로 등 현존 최고 수준의 언어 모델 9종을 투입했다. 연구팀은 총 24만 8853개의 동작 테스트로 AI들의 코드를 검증했다. 결과는 예상 밖이었다. 단 한 개의 모델도 200개 과제 중 하나를 완전히 풀어내지 못했다. 완전 해결율 0%. 가장 성적이 좋은 모델조차 200개 중 6개 과제에서만 테스트의 95%를 통과하는 수준에 그쳤다. </p> <p contents-hash="8ee38a949e6f68c3c786f0d95c3e66fae64d508f41ecc21d95a0e2c354da2ccb" dmcf-pid="zuMcggAiSE" dmcf-ptype="general">AI가 개발자를 대체할 것이라는 전망이 쏟아지는 시대다. 깃허브 코파일럿, 커서, 클로드 코드 등 AI 코딩 보조 도구 시장은 수조 원 규모로 성장했다. 기업들은 AI가 코드를 대신 짜주므로 개발 인력을 줄여도 된다고 판단하기 시작했다. </p> <p contents-hash="6e5673ae246d7a41811910e1971d98c2df3af694dc06465b80b8317c075f3da9" dmcf-pid="q7Rkaacnyk" dmcf-ptype="general">프로그램벤치의 결과는 그 기대에 찬물을 끼얹는다. 논문 저자들은 AI가 생성한 코드베이스가 단일 파일 구조(모놀리식)로 쏠려 있으며 인간이 작성한 코드와 구조적으로 크게 다르다고 밝혔다. AI는 소규모·단기 코드 생성에는 능하지만, 대형 소프트웨어가 요구하는 장기적 아키텍처 설계와 모듈 간 조율에는 근본적인 한계를 드러낸다는 분석이다. 연구팀은 현재의 AI 에이전트가 블랙박스 명세만 주어진 복잡한 실세계 소프트웨어를 합성하지 못한다고 결론 내렸다. </p> <p contents-hash="d0f794e5140b0ae9e8e2c2fee26109db38c17e1ebfeb20cc3ca09b2de6960aa8" dmcf-pid="BbirccwaWc" dmcf-ptype="general">이 결론은 사실 낯설지 않다. AI 분야 최고 권위자가 이미 같은 방향을 가리킨 바 있기 때문이다. </p> <div contents-hash="c5c1a6e8aa570ea362146685826f8416a6f028cd1dafbbd8c9c3a391e341814b" dmcf-pid="bKnmkkrNvA" dmcf-ptype="general"> 강화학습(RL)의 창시자이자 2024년 ACM A.M. 튜링상 수상자인 리처드 서튼 앨버타대 교수는 팟캐스터이자 저널리스트 드와르케시 파텔과의 팟캐스트 인터뷰에서 단호하게 말했다. "LLM은 막다른 길(dead end)이다." 튜링상은 컴퓨터과학 분야 노벨상으로 불리는 최고 권위의 상이다. <div> </div> </div> <figure class="figure_frm origin_fig" contents-hash="415684601a77835269cc9ba374255a0d500ef9efe4667ca043f4d0d1893a0aba" dmcf-pid="K9LsEEmjlj" dmcf-ptype="figure"> <p class="link_figure"><img alt="팟캐스트 인터뷰에서 발언중인 리처드 서튼 교수(오른쪽)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/12/552816-OGTrtXj/20260512080919600tdom.png" data-org-width="1024" dmcf-mid="FelFXXtWvI" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/12/552816-OGTrtXj/20260512080919600tdom.png" width="658"></p> <figcaption class="txt_caption default_figure"> 팟캐스트 인터뷰에서 발언중인 리처드 서튼 교수(오른쪽) </figcaption> </figure> <div contents-hash="b581c661cc47e3537bb00137e9dd13f4945b93fbc443a0e9175236f796b41ba2" dmcf-pid="92oODDsASN" dmcf-ptype="general"> <div> </div> </div> <p contents-hash="f0c3f15d0a9b6cce9619d98f4e39924178848c390108ec88e4f0eef777681316" dmcf-pid="2VgIwwOcCa" dmcf-ptype="general">서튼 교수와 그의 박사 지도교수 앤드류 바르토 매사추세츠대 명예교수는 수십 년간 RL의 이론적·알고리즘적 토대를 닦은 공로로 2025년 3월 수상자로 선정됐다. TD 학습(시간차 학습), 정책 경사법 등 현재 AI 학습에 광범위하게 쓰이는 핵심 기법이 이들의 손에서 나왔다. </p> <p contents-hash="5b571fb1726247302e47183a9c10c028f932d863c3facc77560974721ca00a78" dmcf-pid="VfaCrrIkSg" dmcf-ptype="general">서튼 교수는 LLM의 한계를 세 갈래로 짚는다. </p> <p contents-hash="efdaae1357ddfd984003c1a9dad6ff0a5cf9f46e320fbe2fcaba53ae5c3f2854" dmcf-pid="f4NhmmCElo" dmcf-ptype="general">첫째, LLM은 '모방 기계'다. 서튼은 "LLM은 인간이 어떻게 소통하는지를 흉내 내도록 훈련되어 있다"면서 "인간이 말할 법한 내용을 예측할 뿐, 행동의 실제 결과를 예측하거나 현실 세계와 상호작용하지 않는다"고 설명했다. 방대한 텍스트에서 다음 단어를 예측하는 것이 LLM의 본질인데, 그것이 곧 세계에 대한 이해는 아니라는 것이다. </p> <p contents-hash="8787e69d1bf305873221dcb045e3b7d5218127f948246f9e29489d38d03a6625" dmcf-pid="48jlsshDWL" dmcf-ptype="general">둘째, 실질적인 목표가 없다. 그는 "진정한 지능은 세계에서 목표를 달성하는 것이지, 내부 지표를 최적화하는 것이 아니다"라고 말했다. 다음 토큰을 맞히는 작업은 외부 세계를 바꾸지 않는다. 반면 강화학습 에이전트는 환경과 직접 상호작용하고, 그 결과로 보상을 받으며 행동 전략을 개선한다. 서튼에게 LLM의 목표 함수는 지능의 핵심인 '세계 개입'과 무관하다. </p> <p contents-hash="60f8999c0569f08807bc55dd3efa336be8856238442018cd09fefe95fbe8358e" dmcf-pid="86ASOOlwln" dmcf-ptype="general">셋째, 현장 학습이 불가능하다. "LLM은 현장에서 배우는 능력이 없다. 아무리 크게 키워도 새로운 아키텍처가 나오지 않으면 이 한계를 돌파할 수 없다"는 것이 그의 주장이다. 인간은 사회에 나가 일하며 계속 배운다. LLM은 대규모 사전 훈련 이후 세계에 대한 학습이 사실상 멈춘다. </p> <p contents-hash="9a12f9ff6a37c1633c17293463b7d97895f16eec5aeef3057562d34b357163bf" dmcf-pid="6IFVBB2uSi" dmcf-ptype="general">서튼 교수의 이런 시각은 하루아침에 나온 것이 아니다. 2019년 그가 쓴 짧은 에세이 '쓴 교훈(The Bitter Lesson)'은 AI 연구계에 회자되는 고전이 됐다. </p> <p contents-hash="27951147d3bf1667cbcc3bf850feebd2835838f8a1325c0e8570c64c379450ce" dmcf-pid="PC3fbbV7hJ" dmcf-ptype="general">"70년간의 AI 연구에서 얻을 수 있는 가장 큰 교훈은, 컴퓨팅 파워를 활용하는 범용 방법이 결국 가장 효과적이라는 것이다." 그는 딥블루가 체스 세계 챔피언을 꺾은 사례, 음성 인식에서 통계 모델이 언어학 지식을 압도한 사례 등을 들며 인간이 설계한 지식보다 계산(연산)이 항상 이긴다고 역설했다. </p> <p contents-hash="7ed66b9d11ee1d0ef6a947ec5e2ff76382435fd1eeb094f3d93d3abcd8be98b6" dmcf-pid="Qh04KKfzvd" dmcf-ptype="general">역설적으로 이 에세이는 LLM의 성공을 예고하는 글로도 읽혔다. 하지만 서튼 자신은 LLM이 그 끝이 아니라 중간 단계라고 본다. '쓴 교훈'의 진정한 수혜자는 텍스트를 외운 LLM이 아니라, 세계와 상호작용하며 경험을 쌓는 RL 시스템이라는 것이다. </p> <p contents-hash="7cc8478bb139494b999a17f5c7d57bf0f41b631cd2e061535cd1ea23051db995" dmcf-pid="xlp8994qle" dmcf-ptype="general">서튼 교수가 제시하는 대안적 패러다임의 가장 선명한 사례는 구글 딥마인드의 알파제로다. </p> <p contents-hash="659855aa670a786a8efe446e8840b11da386501405931c36e615cbed00e57199" dmcf-pid="y8jlsshDvR" dmcf-ptype="general">알파고는 수백만 건의 인간 기보를 학습해 바둑 세계 챔피언을 이겼다. 알파제로는 달랐다. 바둑 규칙만 입력받은 알파제로는 자기 자신과 대국하며 스스로 배웠다. 체스는 4시간, 장기는 2시간 만에 기존 챔피언 AI를 제쳤고, 바둑도 30시간 만에 이세돌을 꺾은 알파고를 앞질렀다. 인간 데이터 없이 순수한 경험으로 초인적 능력에 도달한 것이다 </p> <p contents-hash="d9b96c0d151b1d15c81a11e2853c9d41e4916f96a9df19a7d3980e1bd76a611d" dmcf-pid="W6ASOOlwTM" dmcf-ptype="general">2025년 4월, 서튼 교수는 딥마인드의 수석 연구원 데이비드 실버와 함께 논문 '경험의 시대에 오신 것을 환영합니다'를 발표했다. 이 논문은 MIT 프레스에서 출판 예정인 공저 도서의 일부다. 두 사람은 "수학, 코딩, 과학 등 핵심 분야에서 인간 생성 데이터로부터 얻을 수 있는 지식은 한계에 빠르게 다가가고 있다"며 AI가 나아가야 할 새로운 경로를 제시했다. </p> <p contents-hash="69004ef574f177bd78cd236e433625eb171166a4f5cf0e221bb044fbf92e30ab" dmcf-pid="YPcvIISrWx" dmcf-ptype="general">그들이 그리는 '경험의 시대' 에이전트는 네 기둥 위에 선다. 평생 지속되는 경험의 흐름, 감각-운동 행동, 환경에서 직접 얻는 보상, 인간과 다른 독자적 추론 방식. 이 에이전트는 인류의 기록을 암송하는 것이 아니라, 세계와 부딪히며 스스로를 개선한다. </p> <p contents-hash="0e02d67fe40493f9f25455531c249fa2e41eb304531b086436c2af60d9884393" dmcf-pid="GQkTCCvmvQ" dmcf-ptype="general">LLM 진영도 이 논쟁에서 자유롭지 않다. 더 많은 데이터, 더 큰 모델, 더 많은 연산으로 성능이 향상된다는 스케일링 법칙(Scaling Law)이 한계에 다가서고 있다는 신호가 곳곳에서 감지된다. </p> <p contents-hash="8cb140e0f2d48146d2f28e784033f8424c7aa88abf9d18645e445f0b48e0b609" dmcf-pid="HxEyhhTsCP" dmcf-ptype="general">AI 전문 매체 플랫포머는 "AI 기업들이 스케일링의 벽에 부딪혔다"고 보도했다. 일부 연구자들은 현재 추세대로라면 공개된 고품질 텍스트 데이터가 2028년경 소진될 것으로 추정한다. 오픈AI 공동 창업자 일리야 수츠케버는 "2010년대는 스케일링의 시대였다면, 지금은 다시 경이로움과 발견의 시대로 돌아왔다"고 말했다. 빅테크도 사전 훈련 스케일링 대신 추론 시 연산과 합성 데이터를 활용하는 방향으로 전략을 전환하고 있다. </p> <p contents-hash="52a112e98eea47a952711b793090c792e90791ecf34b8dbd9503b7576a767e8a" dmcf-pid="XerGvvYCl6" dmcf-ptype="general">물론 서튼의 주장에 반론도 있다. LLM을 단순 '모방 기계'로 치부하는 것은 과도한 단순화라는 시각이다. 실제로 최근 LLM은 도구 사용, 멀티스텝 추론, 에이전트 프레임워크와의 결합을 통해 점점 더 복잡한 작업을 수행하고 있다. RL 방법론을 LLM에 접목한 RLHF(인간 피드백 기반 강화학습), o3·딥시크 R1 등 추론 특화 모델도 서튼이 지적하는 한계를 부분적으로 극복하려는 시도로 해석된다. </p> <p contents-hash="90adc54029e0b1c701282688d7f68c95b719908a810fb1ba7169639aef3b6be6" dmcf-pid="ZdmHTTGhW8" dmcf-ptype="general">프로그램벤치의 결과는 이 시도들이 아직 벽을 허물지 못했음을 보여준다. 아무리 정교한 에이전트 프레임워크를 갖춰도, 설계 수준의 추론이 요구되는 실세계 소프트웨어 앞에서 현재의 AI는 한계를 드러낸다. </p> <p contents-hash="3b1deb3fb77ee614f88831af3c48e59923a693e2eb2b51510694b9b266a389c6" dmcf-pid="5JsXyyHll4" dmcf-ptype="general">챗GPT가 세상에 등장한 지 3년 반이 지났다. 우리는 LLM이 인류가 쓴 방대한 텍스트를 놀랍도록 정교하게 재현할 수 있다는 것을 알게 됐다. 그것은 실용적이고, 유용하고, 때로는 경이롭다. 그러나 서튼 교수의 질문은 남는다. "세계와 상호작용해 스스로 배우는 것"과 "인류의 기록을 정교하게 재현하는 것"은 같은가. </p> <p contents-hash="4f2dc3a541f33065767b7e0304956a19542849e0f5604f0d8f9e33f926d22850" dmcf-pid="1iOZWWXSvf" dmcf-ptype="general">프로그램벤치는 그 질문에 수치로 답했다. FFmpeg도, SQLite도, PHP 인터프리터도 지금의 AI는 만들내지 못했다. 모놀리식 단일 파일로 흉내를 냈을 뿐이다. </p> <p contents-hash="ba9814832c07b425b8018e174717654e4f93f5d236cb41c598ac5260c673b361" dmcf-pid="tnI5YYZvSV" dmcf-ptype="general">AI의 다음 도약이 어디서 올지, 그 방향을 둘러싼 논쟁은 이제 학계를 넘어 산업과 정책의 영역으로 번지고 있다. 분명한 것은 하나다. 지금은 LLM의 전성기이자, 동시에 그 한계를 직시하기 시작한 시대다. </p> <p contents-hash="b0f932b2d4bb0cdbbdb4e00af86f385b3fba073a4838fe89ca9d6df0a3d40f73" dmcf-pid="FLC1GG5Tv2" dmcf-ptype="general">저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지</p> </section> </div>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기