【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스][테크다이브] KV캐시 병목, ICMS가 대안으로…가속·확장에 초점

온카뱅크관리자

2026-04-05 08:07:31

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">[메모리 월 대응] ② 패스트 SSD 넘어 저장장치 가속까지…CXL도 불붙었다</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="fpBoI0mjvU">
          <figure class="figure_frm origin_fig" contents-hash="ce5e2d6cb0d69d77e5159215c735d4db10cb06e3b6de0ecd5a177f28dea3d984" dmcf-pid="4UbgCpsAlp" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080012369icxu.png" data-org-width="640" dmcf-mid="HAPwG9yOhd" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080012369icxu.png" width="658"></p>
          </figure>
          <p contents-hash="8a03642b9680c19bc7262ec07ad872b96aee40ba56e34a1f144eff511ce07511" dmcf-pid="8uKahUOcW0" dmcf-ptype="general">[디지털데일리 고성현기자] 지난 &lt;테크다이브&gt;의 핵심은 구글이 제시한 터보퀀트(TurboQuant) 알고리즘이 고대역폭메모리(HBM)에서 발생하는 병목을 데이터 압축으로 해소할 수 있다는 것이었습니다. 이 기술이 적용되면 현재 AI 인프라의 고질점인 비용 절감과 성능 효율성을 끌어올릴 수 있다는 점에 의의가 있었죠. 다만 해당 내용이 아직 제한된 환경 내를 검증한 논문 단계인 터라 당장 상용화될 지는 불확실합니다.</p>
          <p contents-hash="2e066919e57c94cbcfce291234e7d01893f16ec3856e5eb48f3cdae2ab21e0c7" dmcf-pid="679NluIkT3" dmcf-ptype="general">반면 비교적 빠르게 찾아오는 대안 역시 있습니다. 바로 젠슨 황 엔비디아 최고경영자(CEO)가 1월 초 'CES 2026'에서 제시한 ICMS(Inference Context Memory Storage) 구조입니다. 기존에는 HBM에서 처리해왔던 키값캐시(KV Cache)를 새로운 메모리 계층화 방식으로 극복하겠다는 게 주된 포인트입니다.</p>
          <p contents-hash="4298fdc7b43a7383a0b2b4c27dbed90288949feff5a188e402244d11e07e35fb" dmcf-pid="Pz2jS7CETF" dmcf-ptype="general">우선 KV캐시에 대해 다시 한번 알아볼까요. 인공지능(AI) 챗봇이 사용자의 연속적인 요청(Query)을 이해하고 처리하려면 이전 대화의 흐름을 반영해야 합니다. 한 주제에 대해 대화를 나누다가 갑자기 엉뚱한 주제의 답변을 내놓지 않으려면 앞선 질문과 답변을 참고할 필요가 있겠죠.</p>
          <p contents-hash="9564018bb4c5d99e3c1cc43206facd7885a70ad4ddf6a1f6ce7ca21ad83e3c4f" dmcf-pid="QqVAvzhDWt" dmcf-ptype="general">이를 위해 AI 모델은 각 단어(토큰)를 처리하는 과정에서 생성된 키(Key)와 값(Value) 정보를 일정 시간 저장해두고 다시 참조하는데요. 이렇게 저장된 키과 값의 데이터 묶음을 'KV캐시'라고 부릅니다. 데이터센터에서는 생성된 KV캐시를 같은 요청 내에서 재사용해 지연시간과 비용을 줄이는 것에 초점을 두고 있습니다. 즉 사용자가 질문하는 유사한 내용을 단기적으로 기억해 보다 빠르게 처리하기 위한 용도로 생성된다는 의미입니다.</p>
          <p contents-hash="3523774bdb91da82319743f69ef906acbf4ab5f353b192944f9d98749162168c" dmcf-pid="xArFfj9Uv1" dmcf-ptype="general">문제는 생성되는 KV캐시가 급증한다는 점입니다. AI모델은 이전 토큰의 정보를 계속 쌓아가며 사용자 요청을 처리하는 구조입니다. 이 과정에서 사용자 질문이 길어지거나 대화가 여러 차례 이어지면 처리해야 할 토큰 수가 빠르게 증가합니다. 자연스럽게 여기에 저장될 키, 값 데이터도 크게 늘어나겠죠. 또 AI모델도 긴 문맥을 처리할 수 있도록 고도화되고 있어 KV캐시의 크기는 이전보다 훨씬 빠른 속도로 불어나고 있는 추세입니다.</p>
          <p contents-hash="b92c8d1e42117a42801e61a2197f616d3d53f005a21be153a9d7fdf05634e704" dmcf-pid="yUbgCpsAT5" dmcf-ptype="general">이렇게 생성된 KV캐시는 빠른 참조를 위해 연산을 담당하는 GPU와 붙어 있는 HBM에 저장되는데요. HBM은 본질적으로 GPU로의 고속 데이터 이동을 위해 저장용량을 희생하고 대역폭(Bandwidth)을 크게 확장한 메모리입니다. 급증하는 KV캐시를 감당할 만큼 용량이 충분하지 않죠. 거기다 KV캐시가 늘면 늘어날수록 연산에 필요한 저장공간이 줄어 데이터 병목이 발생하는 상황이 벌어지게 되는 거죠.</p>
          <p contents-hash="1184172ca13221092a09d8d431d5a3b3ffc4066d3b88fd9f7261fdec1049cef9" dmcf-pid="WuKahUOcWZ" dmcf-ptype="general">따라서 데이터센터들은 이러한 데이터 병목 문제 해결을 위해 메모리를 계층화하는 방식을 주로 쓰고 있는데요. HBM뿐 아니라 시스템메모리인 D램이나 솔리드스테이트드라이브(SSD)같은 저장장치 영역으로 KV캐시를 분산해 대응한다는 의미입니다. 자주 쓰이는 데이터(Hot KV Cache)는 GPU, 즉 HBM에 그대로 두고 비교적 사용 빈도가 낮은 데이터는 각각 웜(Warm), 콜드(Cold)로 분류해 저장하는 식이죠.</p>
          <div contents-hash="4b6613d035734c6797b2899799f9ae93300d8bdd43398ef5fc22e6f50a2f2510" dmcf-pid="Y79NluIklX" dmcf-ptype="general">
           다만 이 방식 역시도 계층이 HBM-&gt;D램-&gt;SSD 순으로 내려갈 시 데이터 이동 속도가 느려진다는 한계가 명확했습니다. 비교적 속도가 빠른 D램은 여전히 용량 제한이 있고, SSD는 수십~수백마이크로초(㎲)의 지연시간(Latency)이 있어 수십, 수백나노초(㎲) 수준인 HBM이나 D램과 비교하기 어려울 정도로 느립니다. 또 기존 SSD와 같은 저장장치가 매우 짧은 주기로 반복적으로 생성되는 KV캐시를 관리하기에는 부적합해 지연시간 변동성이 크다는 점도 한계로 꼽힙니다.
          </div>
          <figure class="figure_frm origin_fig" contents-hash="c4b9d1b7a5e31c50365700bc682ef3df62b1a314009700499cafc139a4c48528" dmcf-pid="Gz2jS7CElH" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080013651ioou.jpg" data-org-width="640" dmcf-mid="Xrm34A2uye" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080013651ioou.jpg" width="658"></p>
          </figure>
          <p contents-hash="f44a6d3e33db3d74ea6b7d4b1afab63ff337e6a5f280196152238196802f0f8a" dmcf-pid="HqVAvzhDyG" dmcf-ptype="general">엔비디아가 제시한 ICMS는 메모리 계층화 방식을 보다 고도화한 개념입니다. GPU 랙 안에 있는 메모리나 저장장치를 쓰는 게 아니라, 아예 KV캐시만 관리하는 전용 계층을 만들겠다는 구상이죠.</p>
          <p contents-hash="0d45762a8754f32c32c2942af0372357afff56b7cb5b83a02d0e4500d24c6b98" dmcf-pid="XBfcTqlwlY" dmcf-ptype="general">ICMS는 GPU와 저장장치 사이에 위치해 고속 네트워크와 데이터처리장치(DPU) '블루필드'를 기반으로 동작합니다. 기존처럼 CPU를 거쳐 데이터를 이동시키는 게 아니라 DPU가 직접 데이터 흐름을 제어해 시스템 지원을 위한 대기시간(Overhead)을 단축시킬 수 있습니다. 또 기존 HBM-D램-SSD 구성처럼 아래 계층에서 데이터를 올리는 구조가 아니라, 요청 패턴을 기반으로 데이터를 미리 배치하거나 여러 GPU가 함께 사용할 수 있도록 공유하는 형태로 운영됩니다.</p>
          <p contents-hash="cd9861c02e68c7370e7f5d5fffc0ab5aefe03ecf9b6763e872490c4121ad87fb" dmcf-pid="Zb4kyBSrWW" dmcf-ptype="general">쉽게 말하면 KV캐시를 전담하는 랙이 실시간으로 효율적인 데이터(KV캐시)를 전달해 발생할 수 있는 병목을 줄인다는 뜻입니다. 이를 활용하면 특정 GPU에 KV캐시가 과도하게 쏠리는 현상도 완화할 수 있고, 비슷한 문맥을 반복 계산해 KV캐시를 급증시키던 비효율적 운용도 최소화할 수 있겠죠.</p>
          <p contents-hash="4029843a12d13b8c1c6805778f1b1e448807e487738b1833fe79c3fa48a73a75" dmcf-pid="5K8EWbvmSy" dmcf-ptype="general">물론 이러한 ICMS 구조가 새로운 메모리 병목 해결의 대안이 되더라도 실제로 이를 얼마나 효율적으로 관리하느냐는 별개의 문제입니다. 결국 ICMS에 탑재되는 저장장치가 SSD면 네트워크 통신과 상대적으로 불리한 레이턴시라는 물리적 한계를 극복하긴 어렵겠죠. 다른 한편으로는 계속해서 급증하는 KV캐시를 계속해 저장하면서 요청에 맞는 데이터를 선별하고 전달하는 부담도 커질 수 있습니다.</p>
          <p contents-hash="a81450aabff4cd93ac792ecf15e5c368bfa544b86c1a371095fe046d3d35c9a6" dmcf-pid="196DYKTshT" dmcf-ptype="general">레이턴시 극복을 위해 제시되는 해결책으로는 컴퓨트익스프레스링크(CXL) 기술이 거론됩니다. SSD보다 빠르지만 용량 한계가 있는 D램의 난제를 CXL로 해결해 보다 빠르게 KV캐시의 저장과 이동이 가능합니다. 이를 ICMS에 적용해 활용할 수 있다면 안정적인 KV캐시 관리는 물론 용량, 속도의 한계도 해소할 수 있겠죠.</p>
          <div contents-hash="51f3256243f042c80a66417831f74ef95864348a1309c0a052f53766bf5985ba" dmcf-pid="t2PwG9yOhv" dmcf-ptype="general">
           뿐만 아니라 기존의 시스템메모리 영역에서도 CXL 모듈로 용량을 확장해 웜 KV캐시 동작을 효율화하거나 유연성을 넓히는 등 장기적인 컴퓨팅 구조 개편의 토대로도 활용될 여지가 있습니다.
          </div>
          <figure class="figure_frm origin_fig" contents-hash="a19f888d500941bf40e6b45cfe19627669806f1f20444c20cdd7a4eba6869aa7" dmcf-pid="FVQrH2WIlS" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080014961kxev.jpg" data-org-width="640" dmcf-mid="VPD12ab0Cu" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080014961kxev.jpg" width="658"></p>
          </figure>
          <p contents-hash="782b4fdb10822ee5655232913b0ecae95afe995bf6980c209dc3db60986af075" dmcf-pid="3UbgCpsATl" dmcf-ptype="general">KV캐시 이동과 선별 등 자체 효율을 높이는 방식으로는 ICMS 저장장치 가속기 채택 구조가 언급되고 있습니다. ICMS 내 저장장치에서 미리 필요한 KV캐시를 선별하고, 이를 DPU가 효율적으로 GPU에 배치·이동시키는 식입니다.</p>
          <p contents-hash="f614fc23221e08487426f8f5ff032c470a7a7af06b8e76383b4c0b652ca321b8" dmcf-pid="0uKahUOcvh" dmcf-ptype="general">국내에서는 벡터 데이터베이스(DB) 기반 가속기를 설계하는 디노티시아가 이를 추진하고 있습니다. ICMS에 맞는 벡터DB처리장치(VDPU)를 저장장치에 추가해 더욱 효과적으로 KV캐시를 운용하겠다는 목표입니다.</p>
          <p contents-hash="190589c1a5c983a61ed50731f9b3053c2e303c62427e1c530c96567c38a67216" dmcf-pid="p79NluIkTC" dmcf-ptype="general">디노티시아가 고려하는 방식은 VDPU를 통한 KV캐시 동적 압축 및 검색(Retrieval)입니다. ICMS로 보내진 KV캐시 상태를 모니터링하고 중요도에 따라 유지하거나 압축·축소·제거해 효율적으로 관리하겠다는 뜻이죠.</p>
          <p contents-hash="069f680ad8554d4c51409faf11b0c9ef7901a210e51e8dde60cbdc92d1ce4839" dmcf-pid="Uz2jS7CEhI" dmcf-ptype="general">이렇게 되면 실시간 요청에 따라 생성되는 KV캐시를 유연하게 관리할 수 있고, 사용자 요청의 문맥을 파악해 어떤 KV캐시가 필요한지를 선별할 수도 있습니다. 이렇게 되면 VDPU가 ICMS를 효율적으로 운용하기 위한 일종의 엔진 역할을 할 수도 있겠죠.</p>
          <p contents-hash="2857b36187f56c2e578a5f12f875551378b39db8dd2fedda771aa350e575f92e" dmcf-pid="uqVAvzhDyO" dmcf-ptype="general">GPU 영역 내 KV캐시 용량 한계를 극복하기 위한 기술은 구글의 터보퀀트, 엔비디아의 ICMS뿐 아니라 다양한 영역에서도 수없이 만들어지고 있습니다. 특히 AI 추론의 실시간성과 변동성을 안정적으로 유지하기 위한 하드웨어, 소프트웨어 스택 간 결합을 요구하는 방식도 많이 연구되고 있죠. 현재 확대되기 위한 AI 인프라 투자가 우리나라뿐 아니라 전세계 경제를 지탱할 핵심이 되고 있는 만큼 다양한 기술이 상용화돼 새로운 혁신을 가져오기를 기대해봅니다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p>

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

놀이터홍보 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기