로그인
토토사이트
신규사이트
업체홍보/구인
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노
토토
홀덤
구인
구직
총판
제작업체홍보
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
정현호 퇴진, '사업지원실' 출범…'이재용 체제' 전면화 선언
N
[IT뉴스]
‘자체 IP 비중 확대’ 카카오게임즈, 핵심사업 ‘게임’ 집중…글로벌 경쟁력 강화
N
[연예뉴스]
33년차 강력계 형사 "사비로 회 사서 탐문"
N
[연예뉴스]
서울 성동구, SM엔터와 3년째 ‘벽화’로 지역 노후 시설 새 단장
N
[연예뉴스]
전소미, 고발까지 당했다…'적십자 로고 무단 사용' 논란 또 반복 [MD이슈]
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]AI 언어 이해력, 1위는 폴란드어…한국어 22위, 왜?
온카뱅크관리자
조회:
17
2025-11-07 14:47:30
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Xk3xjQZvgu"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="ZE0MAx5TNU" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="508a645ec9e8bb908246f42314b57c45128af98e7d9e9c03ef958c49deae0db9" dmcf-pid="5DpRcM1yjp" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/07/ZDNetKorea/20251107144614627lnaz.jpg" data-org-width="640" dmcf-mid="Y9jYuWLxgq" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/07/ZDNetKorea/20251107144614627lnaz.jpg" width="658"></p> </figure> <p contents-hash="afb3412a10a7586d21bb14a54e9544347858f298b88d117c5dbc4b38a7b685ca" dmcf-pid="1wUekRtWj0" dmcf-ptype="general">메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.</p> <p contents-hash="3244d0e09918500c5eb025872558bf5752c5a50bcac8deab1935204cedf4cf45" dmcf-pid="trudEeFYj3" dmcf-ptype="general"><strong>한국어 성능 22위... 폴란드어는 1위</strong></p> <p contents-hash="98becc24b973e87570b007a8bc92d75aaea30004f2ed7fa17afb6ab601aaa615" dmcf-pid="Fm7JDd3GgF" dmcf-ptype="general">연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.</p> <figure class="figure_frm origin_fig" contents-hash="ad0fd23fb43ede5dca4f31e097c05028753ab136a4dfa819363d330fe40dc411" dmcf-pid="3sziwJ0Hkt" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/07/ZDNetKorea/20251107144615872llko.jpg" data-org-width="640" dmcf-mid="Hy0MAx5TN7" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/07/ZDNetKorea/20251107144615872llko.jpg" width="658"></p> </figure> <p contents-hash="26c840b8f5cedb3b7c1bddd5d1cf8d228057ed771449e5e678ad8458e84becbd" dmcf-pid="0OqnripXc1" dmcf-ptype="general"><strong>맥락 8K→128K로 늘면 언어 격차 3배 확대</strong></p> <p contents-hash="e581769629167f6f712c72aacd7c0cb3e8a10c97142be9c22de2fa90c73e06a2" dmcf-pid="pIBLmnUZj5" dmcf-ptype="general">맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.</p> <p contents-hash="6eb2da2469958c4d5fe1e1ca563baecafdbd54cf61e60c6437913fda27a9114d" dmcf-pid="Um7JDd3GaZ" dmcf-ptype="general"><strong>한국어 지시문 사용하면 성능 20% 하락</strong></p> <p contents-hash="5fc9ef311dbdb33dbfffec48726c6b691715613c88c5fae3a3c340458b79d334" dmcf-pid="usziwJ0HjX" dmcf-ptype="general">연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.</p> <p contents-hash="111dc211b4ba69f318986d5fbfc6754dea7d0808b7507b5032564673e74d7538" dmcf-pid="7OqnripXkH" dmcf-ptype="general"><strong>'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락</strong></p> <p contents-hash="059ef0f43bd52fe1418901205110af49d3376141898e6f5b3ec6f9e413f3f1f4" dmcf-pid="zIBLmnUZoG" dmcf-ptype="general">연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.</p> <p contents-hash="f5963b63fa1b72d83812efd3352f374ce9e658ee380c3e28e34dc20e82676e41" dmcf-pid="qCbosLu5kY" dmcf-ptype="general"><strong>단어 빈도 집계는 모든 모델이 실패</strong></p> <p contents-hash="890fa85ae534077ca17e91b99ea4e2393d97d8ecbb737d9a74bd756382fcaa4b" dmcf-pid="BhKgOo71NW" dmcf-ptype="general">단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.</p> <p contents-hash="d7ba8ba2deda372fd2240c569017dfa56517eb3545d02eb08d40be98320f99c9" dmcf-pid="bl9aIgztcy" dmcf-ptype="general"><strong>다국어 AI의 한계</strong></p> <p contents-hash="6746925f7003f6670a7d9bc1ae6d51d0d505ae56475c508429c90d89a3e93588" dmcf-pid="KS2NCaqFjT" dmcf-ptype="general">이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.</p> <p contents-hash="9b3b68434c7d34a11a79169f18f090a729fc8df4b9570f1547503fc2486fd532" dmcf-pid="9vVjhNB3Av" dmcf-ptype="general"><strong>FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="35af276c89f80d214755b0debd12fe769690df20fcbf190ef0f31c7f1bf7eac7" dmcf-pid="2TfAljb0oS" dmcf-ptype="general"><strong>Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?</strong></p> <p contents-hash="7fa90bac12012c9e6e9c1a3434a709aadeb9192a37ea8d021e84f24f727ac428" dmcf-pid="Vy4cSAKpol" dmcf-ptype="general">A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.</p> <p contents-hash="148cae4d9efb232483114445a2716982cd076459a98b3011eec5480bd95e3ba3" dmcf-pid="fW8kvc9UAh" dmcf-ptype="general"><strong>Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?</strong></p> <p contents-hash="70105614a5bf78ee2a9fbb7006316b82fff455dd837203c5bba2987779c86bd6" dmcf-pid="4Y6ETk2ukC" dmcf-ptype="general">A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.</p> <p contents-hash="1971915e16e578d826fafbbc1301963ed4d12b3cd140c3c32e7b4db8e1f8c0a1" dmcf-pid="8GPDyEV7kI" dmcf-ptype="general"><strong>Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?</strong></p> <p contents-hash="ebb92132f0ca1209a62bb7b859704508bb54fe6feab7de9cee0971228adf2888" dmcf-pid="6HQwWDfzaO" dmcf-ptype="general">A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.</p> <p contents-hash="c1208b8a15fc8e9f86886eda3ff50f8c0de4ce2988b7ac8f1fea7892feda51e2" dmcf-pid="PbcHzGgRAs" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e90d65b1a4b5729c3cf47a8c630d9883590070da2381932568885e144a315df9" dmcf-pid="QKkXqHaecm" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기