로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[스포츠뉴스]
'피겨 국대' 이해인, 기부형 팬미팅 성료…“팬과 함께 나눈 따뜻한 시간”
N
[연예뉴스]
황인엽 ‘인간X구미호’ 전지현과 적대적 웬수가 따로 없다
N
[연예뉴스]
‘1등들’ 첫 하차자 발생
N
[연예뉴스]
"사회적 이슈 겹쳤다"…억 단위 상금 건 '쇼미더머니' CP "휴지기가 크게 도움 돼" [인터뷰]
N
[연예뉴스]
'1등들' 첫 하차자 발생… 가수들 "이건 너무 잔인해"
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스][테크다이브] KV캐시 병목, ICMS가 대안으로…가속·확장에 초점
온카뱅크관리자
조회:
9
2026-04-05 08:07:31
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">[메모리 월 대응] ② 패스트 SSD 넘어 저장장치 가속까지…CXL도 불붙었다</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="fpBoI0mjvU"> <figure class="figure_frm origin_fig" contents-hash="ce5e2d6cb0d69d77e5159215c735d4db10cb06e3b6de0ecd5a177f28dea3d984" dmcf-pid="4UbgCpsAlp" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080012369icxu.png" data-org-width="640" dmcf-mid="HAPwG9yOhd" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080012369icxu.png" width="658"></p> </figure> <p contents-hash="8a03642b9680c19bc7262ec07ad872b96aee40ba56e34a1f144eff511ce07511" dmcf-pid="8uKahUOcW0" dmcf-ptype="general">[디지털데일리 고성현기자] 지난 <테크다이브>의 핵심은 구글이 제시한 터보퀀트(TurboQuant) 알고리즘이 고대역폭메모리(HBM)에서 발생하는 병목을 데이터 압축으로 해소할 수 있다는 것이었습니다. 이 기술이 적용되면 현재 AI 인프라의 고질점인 비용 절감과 성능 효율성을 끌어올릴 수 있다는 점에 의의가 있었죠. 다만 해당 내용이 아직 제한된 환경 내를 검증한 논문 단계인 터라 당장 상용화될 지는 불확실합니다.</p> <p contents-hash="2e066919e57c94cbcfce291234e7d01893f16ec3856e5eb48f3cdae2ab21e0c7" dmcf-pid="679NluIkT3" dmcf-ptype="general">반면 비교적 빠르게 찾아오는 대안 역시 있습니다. 바로 젠슨 황 엔비디아 최고경영자(CEO)가 1월 초 'CES 2026'에서 제시한 ICMS(Inference Context Memory Storage) 구조입니다. 기존에는 HBM에서 처리해왔던 키값캐시(KV Cache)를 새로운 메모리 계층화 방식으로 극복하겠다는 게 주된 포인트입니다.</p> <p contents-hash="4298fdc7b43a7383a0b2b4c27dbed90288949feff5a188e402244d11e07e35fb" dmcf-pid="Pz2jS7CETF" dmcf-ptype="general">우선 KV캐시에 대해 다시 한번 알아볼까요. 인공지능(AI) 챗봇이 사용자의 연속적인 요청(Query)을 이해하고 처리하려면 이전 대화의 흐름을 반영해야 합니다. 한 주제에 대해 대화를 나누다가 갑자기 엉뚱한 주제의 답변을 내놓지 않으려면 앞선 질문과 답변을 참고할 필요가 있겠죠.</p> <p contents-hash="9564018bb4c5d99e3c1cc43206facd7885a70ad4ddf6a1f6ce7ca21ad83e3c4f" dmcf-pid="QqVAvzhDWt" dmcf-ptype="general">이를 위해 AI 모델은 각 단어(토큰)를 처리하는 과정에서 생성된 키(Key)와 값(Value) 정보를 일정 시간 저장해두고 다시 참조하는데요. 이렇게 저장된 키과 값의 데이터 묶음을 'KV캐시'라고 부릅니다. 데이터센터에서는 생성된 KV캐시를 같은 요청 내에서 재사용해 지연시간과 비용을 줄이는 것에 초점을 두고 있습니다. 즉 사용자가 질문하는 유사한 내용을 단기적으로 기억해 보다 빠르게 처리하기 위한 용도로 생성된다는 의미입니다.</p> <p contents-hash="3523774bdb91da82319743f69ef906acbf4ab5f353b192944f9d98749162168c" dmcf-pid="xArFfj9Uv1" dmcf-ptype="general">문제는 생성되는 KV캐시가 급증한다는 점입니다. AI모델은 이전 토큰의 정보를 계속 쌓아가며 사용자 요청을 처리하는 구조입니다. 이 과정에서 사용자 질문이 길어지거나 대화가 여러 차례 이어지면 처리해야 할 토큰 수가 빠르게 증가합니다. 자연스럽게 여기에 저장될 키, 값 데이터도 크게 늘어나겠죠. 또 AI모델도 긴 문맥을 처리할 수 있도록 고도화되고 있어 KV캐시의 크기는 이전보다 훨씬 빠른 속도로 불어나고 있는 추세입니다.</p> <p contents-hash="b92c8d1e42117a42801e61a2197f616d3d53f005a21be153a9d7fdf05634e704" dmcf-pid="yUbgCpsAT5" dmcf-ptype="general">이렇게 생성된 KV캐시는 빠른 참조를 위해 연산을 담당하는 GPU와 붙어 있는 HBM에 저장되는데요. HBM은 본질적으로 GPU로의 고속 데이터 이동을 위해 저장용량을 희생하고 대역폭(Bandwidth)을 크게 확장한 메모리입니다. 급증하는 KV캐시를 감당할 만큼 용량이 충분하지 않죠. 거기다 KV캐시가 늘면 늘어날수록 연산에 필요한 저장공간이 줄어 데이터 병목이 발생하는 상황이 벌어지게 되는 거죠.</p> <p contents-hash="1184172ca13221092a09d8d431d5a3b3ffc4066d3b88fd9f7261fdec1049cef9" dmcf-pid="WuKahUOcWZ" dmcf-ptype="general">따라서 데이터센터들은 이러한 데이터 병목 문제 해결을 위해 메모리를 계층화하는 방식을 주로 쓰고 있는데요. HBM뿐 아니라 시스템메모리인 D램이나 솔리드스테이트드라이브(SSD)같은 저장장치 영역으로 KV캐시를 분산해 대응한다는 의미입니다. 자주 쓰이는 데이터(Hot KV Cache)는 GPU, 즉 HBM에 그대로 두고 비교적 사용 빈도가 낮은 데이터는 각각 웜(Warm), 콜드(Cold)로 분류해 저장하는 식이죠.</p> <div contents-hash="4b6613d035734c6797b2899799f9ae93300d8bdd43398ef5fc22e6f50a2f2510" dmcf-pid="Y79NluIklX" dmcf-ptype="general"> 다만 이 방식 역시도 계층이 HBM->D램->SSD 순으로 내려갈 시 데이터 이동 속도가 느려진다는 한계가 명확했습니다. 비교적 속도가 빠른 D램은 여전히 용량 제한이 있고, SSD는 수십~수백마이크로초(㎲)의 지연시간(Latency)이 있어 수십, 수백나노초(㎲) 수준인 HBM이나 D램과 비교하기 어려울 정도로 느립니다. 또 기존 SSD와 같은 저장장치가 매우 짧은 주기로 반복적으로 생성되는 KV캐시를 관리하기에는 부적합해 지연시간 변동성이 크다는 점도 한계로 꼽힙니다. </div> <figure class="figure_frm origin_fig" contents-hash="c4b9d1b7a5e31c50365700bc682ef3df62b1a314009700499cafc139a4c48528" dmcf-pid="Gz2jS7CElH" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080013651ioou.jpg" data-org-width="640" dmcf-mid="Xrm34A2uye" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080013651ioou.jpg" width="658"></p> </figure> <p contents-hash="f44a6d3e33db3d74ea6b7d4b1afab63ff337e6a5f280196152238196802f0f8a" dmcf-pid="HqVAvzhDyG" dmcf-ptype="general">엔비디아가 제시한 ICMS는 메모리 계층화 방식을 보다 고도화한 개념입니다. GPU 랙 안에 있는 메모리나 저장장치를 쓰는 게 아니라, 아예 KV캐시만 관리하는 전용 계층을 만들겠다는 구상이죠.</p> <p contents-hash="0d45762a8754f32c32c2942af0372357afff56b7cb5b83a02d0e4500d24c6b98" dmcf-pid="XBfcTqlwlY" dmcf-ptype="general">ICMS는 GPU와 저장장치 사이에 위치해 고속 네트워크와 데이터처리장치(DPU) '블루필드'를 기반으로 동작합니다. 기존처럼 CPU를 거쳐 데이터를 이동시키는 게 아니라 DPU가 직접 데이터 흐름을 제어해 시스템 지원을 위한 대기시간(Overhead)을 단축시킬 수 있습니다. 또 기존 HBM-D램-SSD 구성처럼 아래 계층에서 데이터를 올리는 구조가 아니라, 요청 패턴을 기반으로 데이터를 미리 배치하거나 여러 GPU가 함께 사용할 수 있도록 공유하는 형태로 운영됩니다.</p> <p contents-hash="cd9861c02e68c7370e7f5d5fffc0ab5aefe03ecf9b6763e872490c4121ad87fb" dmcf-pid="Zb4kyBSrWW" dmcf-ptype="general">쉽게 말하면 KV캐시를 전담하는 랙이 실시간으로 효율적인 데이터(KV캐시)를 전달해 발생할 수 있는 병목을 줄인다는 뜻입니다. 이를 활용하면 특정 GPU에 KV캐시가 과도하게 쏠리는 현상도 완화할 수 있고, 비슷한 문맥을 반복 계산해 KV캐시를 급증시키던 비효율적 운용도 최소화할 수 있겠죠.</p> <p contents-hash="4029843a12d13b8c1c6805778f1b1e448807e487738b1833fe79c3fa48a73a75" dmcf-pid="5K8EWbvmSy" dmcf-ptype="general">물론 이러한 ICMS 구조가 새로운 메모리 병목 해결의 대안이 되더라도 실제로 이를 얼마나 효율적으로 관리하느냐는 별개의 문제입니다. 결국 ICMS에 탑재되는 저장장치가 SSD면 네트워크 통신과 상대적으로 불리한 레이턴시라는 물리적 한계를 극복하긴 어렵겠죠. 다른 한편으로는 계속해서 급증하는 KV캐시를 계속해 저장하면서 요청에 맞는 데이터를 선별하고 전달하는 부담도 커질 수 있습니다.</p> <p contents-hash="a81450aabff4cd93ac792ecf15e5c368bfa544b86c1a371095fe046d3d35c9a6" dmcf-pid="196DYKTshT" dmcf-ptype="general">레이턴시 극복을 위해 제시되는 해결책으로는 컴퓨트익스프레스링크(CXL) 기술이 거론됩니다. SSD보다 빠르지만 용량 한계가 있는 D램의 난제를 CXL로 해결해 보다 빠르게 KV캐시의 저장과 이동이 가능합니다. 이를 ICMS에 적용해 활용할 수 있다면 안정적인 KV캐시 관리는 물론 용량, 속도의 한계도 해소할 수 있겠죠.</p> <div contents-hash="51f3256243f042c80a66417831f74ef95864348a1309c0a052f53766bf5985ba" dmcf-pid="t2PwG9yOhv" dmcf-ptype="general"> 뿐만 아니라 기존의 시스템메모리 영역에서도 CXL 모듈로 용량을 확장해 웜 KV캐시 동작을 효율화하거나 유연성을 넓히는 등 장기적인 컴퓨팅 구조 개편의 토대로도 활용될 여지가 있습니다. </div> <figure class="figure_frm origin_fig" contents-hash="a19f888d500941bf40e6b45cfe19627669806f1f20444c20cdd7a4eba6869aa7" dmcf-pid="FVQrH2WIlS" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080014961kxev.jpg" data-org-width="640" dmcf-mid="VPD12ab0Cu" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/05/552796-pzfp7fF/20260405080014961kxev.jpg" width="658"></p> </figure> <p contents-hash="782b4fdb10822ee5655232913b0ecae95afe995bf6980c209dc3db60986af075" dmcf-pid="3UbgCpsATl" dmcf-ptype="general">KV캐시 이동과 선별 등 자체 효율을 높이는 방식으로는 ICMS 저장장치 가속기 채택 구조가 언급되고 있습니다. ICMS 내 저장장치에서 미리 필요한 KV캐시를 선별하고, 이를 DPU가 효율적으로 GPU에 배치·이동시키는 식입니다.</p> <p contents-hash="f614fc23221e08487426f8f5ff032c470a7a7af06b8e76383b4c0b652ca321b8" dmcf-pid="0uKahUOcvh" dmcf-ptype="general">국내에서는 벡터 데이터베이스(DB) 기반 가속기를 설계하는 디노티시아가 이를 추진하고 있습니다. ICMS에 맞는 벡터DB처리장치(VDPU)를 저장장치에 추가해 더욱 효과적으로 KV캐시를 운용하겠다는 목표입니다.</p> <p contents-hash="190589c1a5c983a61ed50731f9b3053c2e303c62427e1c530c96567c38a67216" dmcf-pid="p79NluIkTC" dmcf-ptype="general">디노티시아가 고려하는 방식은 VDPU를 통한 KV캐시 동적 압축 및 검색(Retrieval)입니다. ICMS로 보내진 KV캐시 상태를 모니터링하고 중요도에 따라 유지하거나 압축·축소·제거해 효율적으로 관리하겠다는 뜻이죠.</p> <p contents-hash="069f680ad8554d4c51409faf11b0c9ef7901a210e51e8dde60cbdc92d1ce4839" dmcf-pid="Uz2jS7CEhI" dmcf-ptype="general">이렇게 되면 실시간 요청에 따라 생성되는 KV캐시를 유연하게 관리할 수 있고, 사용자 요청의 문맥을 파악해 어떤 KV캐시가 필요한지를 선별할 수도 있습니다. 이렇게 되면 VDPU가 ICMS를 효율적으로 운용하기 위한 일종의 엔진 역할을 할 수도 있겠죠.</p> <p contents-hash="2857b36187f56c2e578a5f12f875551378b39db8dd2fedda771aa350e575f92e" dmcf-pid="uqVAvzhDyO" dmcf-ptype="general">GPU 영역 내 KV캐시 용량 한계를 극복하기 위한 기술은 구글의 터보퀀트, 엔비디아의 ICMS뿐 아니라 다양한 영역에서도 수없이 만들어지고 있습니다. 특히 AI 추론의 실시간성과 변동성을 안정적으로 유지하기 위한 하드웨어, 소프트웨어 스택 간 결합을 요구하는 방식도 많이 연구되고 있죠. 현재 확대되기 위한 AI 인프라 투자가 우리나라뿐 아니라 전세계 경제를 지탱할 핵심이 되고 있는 만큼 다양한 기술이 상용화돼 새로운 혁신을 가져오기를 기대해봅니다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기