로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
국힘, 공천 '컷오프' 후폭풍 이어져…오늘 서울시장 경선 룰 발표
N
[]
주호영·이진숙 공천 컷오프… 국힘 대구시장 예비경선 6명 압축
N
[IT뉴스]
[르포] "게임이 도시를 점령했다"…광저우 TFT 축제 현장
N
[연예뉴스]
‘멈추지 않고 SWIM’…BTS가 아미에게 건넨 진심 [오!쎈 PIC]
N
[]
이스라엘, 레바논 남부 교량 공습..."지상 침공의 서곡"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상
온카뱅크관리자
조회:
70
2025-12-01 16:47:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QfkFtXTsai"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="x4E3FZyOoJ" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="f17d417da08281ed9c5596d6c86a929ebddae55ebb3739ea5842ec449b309fe7" dmcf-pid="yhzagix2cd" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/01/ZDNetKorea/20251201163840357jfxu.jpg" data-org-width="640" dmcf-mid="PyyfVbUZgn" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/01/ZDNetKorea/20251201163840357jfxu.jpg" width="658"></p> </figure> <p contents-hash="bd43da01c9fd9d7db74cc7239e437a035e5f5ac64cc7c73213ba0f4732bdfdbe" dmcf-pid="WlqNanMVke" dmcf-ptype="general">중국 알리바바의 Qwen 팀이 AI 언어모델의 오래된 문제를 해결하는 간단한 방법을 찾아냈다. 마치 문지기처럼 작동하는 '게이트'라는 장치를 AI 내부에 추가했더니, 성능이 크게 좋아지고 학습도 안정적으로 이뤄졌다. 특히 AI가 대화나 글의 첫 부분만 과도하게 집중하는 '어텐션 싱크'라는 고질적 문제가 완전히 사라졌다. 해당 논문에 따르면, 연구팀은 150억 개 파라미터 규모의 모델과 17억 개 규모의 모델에서 30가지 이상의 실험을 진행했고, 3조 5,000억 개의 단어 데이터로 검증했다.</p> <p contents-hash="4d1d9631e5384d6adf413b8d2fa00d6ecf508ea9fac998870851f19bf93165e8" dmcf-pid="YSBjNLRfNR" dmcf-ptype="general"><strong>문지기 역할 하는 '게이트' 추가했더니 AI 성능 껑충 뛰었다</strong></p> <p contents-hash="5ec9552076c110ff0cea316ea4180ed9f1aa963ed2ec963c61ed72e9a0511b5c" dmcf-pid="GvbAjoe4AM" dmcf-ptype="general">연구팀은 AI가 정보를 처리하는 핵심 부분인 '어텐션 레이어' 5곳에 게이트를 설치하는 실험을 했다. 게이트는 일종의 필터나 문지기 역할을 한다. 중요한 정보는 통과시키고 불필요한 정보는 걸러내는 식이다. 실험 결과, '스케일드 닷 프로덕트 어텐션' 출력 직후에 게이트를 달았을 때 효과가 가장 좋았다.</p> <p contents-hash="582a9b0c22d35f66ee74b0c37c8724e48cadc8d50b0307a7e21687de7c4477b5" dmcf-pid="HTKcAgd8Ax" dmcf-ptype="general">150억 개 파라미터 모델에 게이트를 추가하자 AI가 다음에 올 단어를 더 정확하게 예측하게 됐고, 대학 수준의 지식을 묻는 시험에서도 더 많은 문제를 맞혔다. 예를 들어 100문제 중 59문제를 맞히던 AI가 게이트를 단 후에는 61문제를 맞히는 수준으로 개선된 것이다. 수학 문제 풀이나 일반 상식 질문 등 다양한 영역에서 일관되게 성능이 좋아졌다.</p> <p contents-hash="67bf8f7dcc1c137faf0d5d242ec341e6978cf3fb472cf6f88d86a5e08c5f311e" dmcf-pid="Xy9kcaJ6AQ" dmcf-ptype="general">게이트를 어떻게 다느냐도 중요했다. AI는 하나의 정보를 여러 개의 '주의 헤드'로 동시에 처리하는데, 이는 마치 여러 사람이 같은 글을 각자 다른 관점에서 읽는 것과 비슷하다. 각 헤드마다 독립적인 게이트를 달아줬더니 효과가 좋았다. 추가된 부품의 양은 전체 모델 크기에 비하면 아주 적었지만, 성능 향상은 확실했다.</p> <p contents-hash="dde3c4d169a6bf4a3e38c3ebe408875c2b1146a71a24ad60cc701ba99a2e2c32" dmcf-pid="ZlqNanMVAP" dmcf-ptype="general">반대로 여러 헤드가 하나의 게이트를 함께 쓰게 하면 효과가 떨어졌다. 이는 각 헤드가 서로 다른 역할을 하기 때문에 각자의 문지기가 필요하다는 뜻이다. 또한 게이트가 정보를 곱하는 방식으로 조절할 때가 더하는 방식보다 나았고, 시그모이드라는 특정 계산 방법을 썼을 때 가장 좋은 결과가 나왔다.</p> <p contents-hash="55865e7c0dfd2f03bdd1e575ccec5e9c5217fee317c41c1888efa5f3597a14c0" dmcf-pid="5SBjNLRfo6" dmcf-ptype="general"><strong>AI 학습 중 발생하는 '멘붕' 현상 거의 사라져</strong></p> <p contents-hash="6f107a62dc24ffbadf99a29a157a3ab24049bb8fe1d6e21c2985bec4c056d0ea" dmcf-pid="1vbAjoe4g8" dmcf-ptype="general">게이트를 추가하자 AI의 성능만 좋아진 게 아니라 학습 과정 자체도 훨씬 안정적으로 바뀌었다. 17억 개 파라미터 모델을 3조 개의 단어로 학습시키는 실험에서 이 차이가 확연히 드러났다. 게이트가 있는 모델은 학습 중에 '손실 스파이크'라는 문제가 거의 발생하지 않았다. 손실 스파이크는 AI가 순조롭게 학습하다가 갑자기 성능이 확 떨어지는 현상이다. 마치 학생이 공부를 잘하다가 갑자기 멘붕에 빠져서 이전에 알던 것까지 까먹는 것과 비슷하다. 이런 돌발 상황이 줄어들자 연구자들은 AI를 더 빠르게 학습시킬 수 있는 공격적인 설정을 사용할 수 있게 됐다.</p> <p contents-hash="693715e10be0d25e456f9a2c7df604be121876cb042bd50f9e51d0ce49fcdf3e" dmcf-pid="tTKcAgd8k4" dmcf-ptype="general">48개 층을 쌓은 17억 파라미터 모델에서 실험했을 때 그 차이는 더욱 분명했다. 기존 모델은 학습 속도를 높이면 중간에 완전히 망가져 버렸다. 반면 게이트를 단 모델은 똑같이 빠른 속도로 학습시켜도 끝까지 안정적으로 학습을 마쳤다.</p> <p contents-hash="6f9657c89dd765772a88b4a9e08a4f88c182a15e60d276cb222991c235f4b224" dmcf-pid="Fy9kcaJ6jf" dmcf-ptype="general">연구팀은 비교를 위해 '샌드위치 정규화'라는 다른 안정화 방법도 시험해 봤다. 이 방법을 쓰면 기존 모델도 간신히 학습을 마칠 수는 있었다. 하지만 최종 성능 개선은 거의 없었다. 게이트를 쓴 모델만이 빠른 학습 속도와 좋은 성능을 동시에 달성했다.</p> <p contents-hash="7f04b150c2084936cbb5678d2798904d1e20627fbd136b25090d0add86378524" dmcf-pid="3W2EkNiPAV" dmcf-ptype="general">게이트의 이런 효과는 한두 가지 조건에서만 나타난 게 아니었다. 층을 28개 쌓았을 때와 48개 쌓았을 때, 4,000억 개 단어로 학습시켰을 때와 3조 5,000억 개 단어로 학습시켰을 때, 다양한 학습 설정값을 사용했을 때 등 여러 상황에서 게이트는 일관되게 도움이 됐다. 이는 게이트가 특정 조건에서만 잘 작동하는 게 아니라 범용적으로 효과가 있다는 의미다.</p> <p contents-hash="95844bfdb7751ac6f8192e53f8c0cbfbe6f4772cfba0027f690c69d6f3a71544" dmcf-pid="0YVDEjnQo2" dmcf-ptype="general"><strong>게이트가 효과적인 두 가지 이유</strong></p> <p contents-hash="7eddee42724c3dfc49409e216e179037adf835d4f7cc6b6ccd4450b13625e30c" dmcf-pid="pGfwDALxo9" dmcf-ptype="general">연구팀은 왜 간단한 게이트 하나를 추가하는 것만으로 이렇게 큰 효과가 나타나는지 분석했다. 그 결과 두 가지 핵심 원리를 찾아냈다.</p> <p contents-hash="2ffc1f6c622b64ad497ad4285dcd5174cf7e1c6be370ee0f267da2ad988418ad" dmcf-pid="UH4rwcoMgK" dmcf-ptype="general">첫 번째는 정보 변환 과정에 '단계'를 추가했기 때문이다. AI 내부를 보면 밸류 변환과 출력 변환이라는 두 단계가 연속으로 일어난다. 문제는 이 두 단계가 모두 선형 변환이라서 수학적으로 하나로 합쳐질 수 있다는 점이다. 합쳐지면 AI의 표현 능력이 제한된다. 게이트를 두 단계 사이에 끼워 넣으면 비선형 요소가 추가되면서 두 단계가 완전히 분리된다. 이렇게 되면 AI가 더 복잡한 패턴을 학습할 수 있게 된다. 실제로 게이트 대신 '정규화'라는 다른 비선형 기법을 써봤을 때도 비슷한 효과가 나타났다. 이는 두 변환 단계 사이에 비선형 요소를 넣는 것 자체가 중요하다는 사실을 확인해준다.</p> <p contents-hash="eafa0a6e963081c8bfe673c9747be95a632395774264e8b8d49993beda71a3c7" dmcf-pid="uX8mrkgRgb" dmcf-ptype="general">두 번째는 '선택적 차단'을 했기 때문이다. 효과가 좋은 게이트들을 분석해 보니 대부분의 정보를 차단하고 정말 중요한 것만 통과시키는 특징이 있었다. 가장 성능이 좋았던 게이트는 평균적으로 11.6%의 정보만 통과시키고 나머지 88.4%는 차단했다. 반대로 여러 헤드가 하나의 게이트를 공유하게 만들었더니 개방도가 27.1%로 올라갔고, 성능도 떨어졌다. 즉, 더 많이 차단할수록 오히려 성능이 좋아진 것이다. 이는 불필요한 정보를 과감하게 걸러내는 게 중요하다는 뜻이다.</p> <p contents-hash="c63b0427864be599467430429ef9f6c91cc47e308f272f0253977404775528e9" dmcf-pid="7Z6smEaecB" dmcf-ptype="general">더 흥미로운 점은 이 차단이 고정된 게 아니라 '상황에 따라 달라진다'는 것이다. AI가 지금 처리하고 있는 질문에 따라 어떤 과거 정보를 통과시킬지 막을지를 매번 다르게 결정한다. 같은 정보라도 질문에 따라 필요할 수도, 불필요할 수도 있기 때문이다.</p> <p contents-hash="edfbe8f273fb2c5eefa447121866e36c34f4333c7281838e84074b69efc083f9" dmcf-pid="z5POsDNdNq" dmcf-ptype="general"><strong>'첫 단어 집착증' 거의 사라지고 긴 컨텍스트 성능 크게 향상</strong></p> <p contents-hash="de3db6775776e2a211948063ae43992f25ff27060db5c0579bd21b3a8a6888a2" dmcf-pid="q1QIOwjJcz" dmcf-ptype="general">게이트의 가장 주목할 만한 효과는 '어텐션 싱크'를 대폭 줄인 것이다. 어텐션 싱크는 AI가 글이나 대화의 첫 부분, 특히 맨 첫 단어에 과도하게 집중하는 현상이다. 기존 모델은 주의력의 절반 가까이를 첫 단어에 쏟았고, 심한 경우 주의력 대부분이 첫 단어에만 쏠렸다. 이는 학생이 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같다. 하지만 게이트를 단 모델은 첫 단어에 쏟는 주의력이 극소량으로 줄어들었다.</p> <p contents-hash="0e747f69ef54c00ea99067f95fb9b9ea1fa8a38266d2ff5727b59225834eac5b" dmcf-pid="BtxCIrAiN7" dmcf-ptype="general">게이트는 또한 'AI 내부 값 폭증'이라는 문제도 해결했다. 이는 AI 내부에서 처리하는 숫자들이 비정상적으로 커지는 현상이다. 기존 모델은 초반 층에서 이런 큰 값들이 발생했고, 이 값들이 이후 과정 전체에 계속 영향을 미쳤다. 게이트를 단 모델은 이런 값 폭증 현상이 대폭 줄어들었다. 흥미롭게도 밸류 레이어에만 게이트를 달면 값 폭증은 줄지만 첫 단어 집착증은 여전했다. 이는 값 폭증이 반드시 첫 단어 집중을 일으키는 건 아님을 보여준다.</p> <p contents-hash="0c0e1129073d413b839e3711e92e85978fcff55dedb1906360dbf3468a6ef4ea" dmcf-pid="bFMhCmcnou" dmcf-ptype="general">첫 단어 집착증이 줄어들자 긴 글 이해 능력도 크게 좋아졌다. 연구팀은 AI가 한 번에 처리할 수 있는 글 길이를 기존보다 네 배 늘리는 실험을 했다. 기존 학습 길이 범위에서는 게이트 모델이 기존 모델보다 약간 나은 수준이었다. 하지만 그 범위를 넘어 두 배, 네 배로 늘어나자 차이가 극명해졌다. 가장 긴 글 길이에서 게이트 모델은 기존 모델보다 거의 두 배 좋은 성능을 보였다.</p> <p contents-hash="8a26ef4f8177e4ccfaba4c4260501a22e3cbd31277c8c62a759be615df29b69a" dmcf-pid="KeCBqU1ycU" dmcf-ptype="general"><strong>FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="1dca1429e981835cd7c8cac0fe707b1bd0ad54503c604bb045d805eb3a0077ef" dmcf-pid="9dhbButWjp" dmcf-ptype="general"><strong>Q. 게이트 어텐션이 뭔가요?</strong></p> <p contents-hash="930599916ecea3f110a832e789e6e75666c3dfdd0287b465eeecb1b11c91ad33" dmcf-pid="2JlKb7FYo0" dmcf-ptype="general">A. AI가 정보를 처리할 때 중간에 문지기 역할을 하는 장치를 추가한 기술입니다. 중요한 정보는 통과시키고 불필요한 정보는 차단해서 AI가 더 똑똑해지고 안정적으로 학습할 수 있게 만듭니다.</p> <p contents-hash="857074defbc5d8e5e7031b342cdcc1257bcc71fd8b5d979af546b10cf8724fac" dmcf-pid="ViS9Kz3Ga3" dmcf-ptype="general"><strong>Q. 어텐션 싱크가 뭐길래 문제인가요?</strong></p> <p contents-hash="8e622a4beea692ffe3a7fcf8cdca42d0f87e5ec2b1492e8a7334481be1d42baa" dmcf-pid="fnv29q0HNF" dmcf-ptype="general">A. AI가 글이나 대화의 첫 부분만 과도하게 집중하는 현상입니다. 마치 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같아서, 긴 글을 이해하는 능력이 떨어집니다. 게이트를 추가하면 이 문제가 사라집니다.</p> <p contents-hash="c3a9f5dec105425921999abec39c0d8274a7c213b8ff0d08dcfbf6a8206d7917" dmcf-pid="4LTV2BpXgt" dmcf-ptype="general"><strong>Q. 이 기술을 실제로 어떻게 쓰나요?</strong></p> <p contents-hash="4725012a0f269677153d6de5f2b8b88589ed1d7067809ee52ffd444630042cb2" dmcf-pid="8oyfVbUZj1" dmcf-ptype="general">A. AI 내부의 정보 처리 단계 중간에 간단한 게이트만 추가하면 됩니다. 알리바바 팀이 코드를 공개할 예정이고, 추가 비용도 거의 들지 않아서 누구나 쉽게 적용할 수 있습니다.</p> <p contents-hash="d172a6396852979fd10cd9694f0074100a457061a560afd1b37a48979d70373b" dmcf-pid="6gW4fKu5c5" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e9cd55779aab452f4dc53670ecbf43a9ca65858796a9e357e6a49a795b2bbece" dmcf-pid="PaY84971aZ" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기