로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
건산연 "수도권 집값 연 4.5% 상승…전셋값은 5% 뛴다"(종합)
N
[]
“테러로 의식 잃었다”던 정이한…음료 투척범은 지인이었다
N
[]
코스피 사상 첫 9000선 돌파…“1만피 시대 눈앞”
N
[]
금요일까지 무더위 지속…수도권·경북내륙 체감 최고 33도 이상
N
[]
코스피 사상 처음 9천 돌파…2.3% 상승해 9,063 마감
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]래블업 "인텔 '아크 프로 B70', RTX 프로 4000 대비 추론 처리량 높아"
온카뱅크관리자
조회:
10
2026-06-18 16:17:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">LLM 2종으로 벤치마크 수행..."동시 요청 처리량 최대 2.2배"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="7wHyW99UcS"> <p contents-hash="9b2d8b72718c2d96be7e0169a057c1a940f9efa26b95e91a444d3104e3ff1f5d" dmcf-pid="zrXWY22ukl" dmcf-ptype="general">(지디넷코리아=권봉석 기자)AI 시장의 중심이 모델 학습에서 추론과 에이전틱 AI 서비스 운영으로 이동하면서 GPU 내장 메모리 용량의 중요성이 커지고 있다. 거대언어모델(LLM)에서 길게 이어지는 대화의 맥락을 처리하고 여러 이용자를 동시에 처리하려면 대용량 메모리가 중요하다.</p> <p contents-hash="81a6e4a125ba4881f815354815e358a6069689132610eb9cc796091681d0af7d" dmcf-pid="qghsOppXch" dmcf-ptype="general"><span>특히 </span><span>에이전틱 AI는 장시간 대화 맥락을 유지하고 여러 작업을 병렬 처리해야 하는 만큼 GPU 메모리 사용량이 급격히 </span><span>증가한다.</span></p> <p contents-hash="00d4ad7a74fe0de18d0745afe6030dbe68c0171daa7a22cd5bb40fd8bec24f00" dmcf-pid="BalOIUUZcC" dmcf-ptype="general"><span>이 과정에서 이전 추론 결과를 저장하는 'KV 캐시(Key-Value Cache)'가 중요한 역할을 한다. KV 캐시가 충분하지 않으면 기존 KV 캐시 데이터를 제거하거나 재배치해야 하며 이 과정에서 처리량이 감소하거나 응답 지연이 발생할 수 있다.</span></p> <figure class="figure_frm origin_fig" contents-hash="149e4a91f4824a0508aa475132dc3e33f2ef11dfda77532d05114bbb25cc14c7" dmcf-pid="bNSICuu5AI" dmcf-ptype="figure"> <p class="link_figure"><img alt="인텔의 이기종 연산 기반 에이전틱 AI 시연. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618160959643vyse.jpg" data-org-width="640" dmcf-mid="8RfBbggRaq" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618160959643vyse.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인텔의 이기종 연산 기반 에이전틱 AI 시연. (사진=지디넷코리아) </figcaption> </figure> <p contents-hash="02aba26f38ec5f65e048f5e79d8433dec596ddf27473a88212f05b9b89a748df" dmcf-pid="KjvCh771aO" dmcf-ptype="general">반대로 KV 캐시를 담을 메모리 용량이 충분하면 더 많은 사용자 요청과 긴 컨텍스트를 동시에 처리할 수 있다.</p> <p contents-hash="97dc6d08360992ce093e70e3ab37f7dbbd742284cf5db8ef08781907f88e59f7" dmcf-pid="9AThlzztas" dmcf-ptype="general"><strong>래블업, '백엔드.AI'에서 LLM 2종 대상 벤치마크 수행</strong></p> <p contents-hash="b53d0b0dbc9b778a3765fdb6372bfcf71b2c0ff2afc7ba589930aba1dc8b722a" dmcf-pid="2cylSqqFNm" dmcf-ptype="general">국내 AI 플랫폼 기업인 래블업은 최근 엔터프라이즈 AI 인프라 운영 플랫폼 '백엔드.AI'에서 인텔 아크 프로 B70과 엔비디아 RTX 프로 4000 블랙웰을 대상으로 한 LLM 벤치마크 결과를 공개했다.(인텔 제온 w9-3475X, 우분투 25.10 환경)</p> <figure class="figure_frm origin_fig" contents-hash="210a793b214fa6b76771312f06ed92bac954dc8de5738845641b2b52241c6632" dmcf-pid="VkWSvBB3gr" dmcf-ptype="figure"> <p class="link_figure"><img alt="인텔 아크 프로 B70 GPU. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161000953jibg.jpg" data-org-width="640" dmcf-mid="64ALoTTscz" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161000953jibg.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인텔 아크 프로 B70 GPU. (사진=지디넷코리아) </figcaption> </figure> <p contents-hash="2eefd1a7baf11c6b08964910eb73e15e17312451450db66070e2ec4cd67f64f7" dmcf-pid="fEYvTbb0Aw" dmcf-ptype="general">인텔 아크 프로 B70은 지난 3월 말 출시된 워크스테이션용 GPU로 AI 추론 수요를 겨냥했다. Xe2 코어 32개와 32GB 메모리 기반으로 대용량 AI 모델을 분할 없이 구동할 수 있다는 점이 차별화 포인트다.</p> <p contents-hash="65ae7667a1784cdb66a1ff9635bf3cba9e416cc51d013508106698f329395e05" dmcf-pid="4DGTyKKpaD" dmcf-ptype="general">연산 성능은 최대 367 INT8 TOPS(초당 1조 회 연산) 수준이며 GDDR6 32GB 메모리를 탑재해 중소규모 기업과 개발자가 대형 언어모델(LLM)을 로컬 환경에서 직접 구동할 수 있게 했다.</p> <figure class="figure_frm origin_fig" contents-hash="1940da33bebc76df14683e2e539ec90748c7c66736da9d63e70ef459c9cd9d9c" dmcf-pid="8wHyW99UNE" dmcf-ptype="figure"> <p class="link_figure"><img alt="워크스테이션/서버용 엔비디아 RTX 프로 4000 블랙웰. (사진=엔비디아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161002230prjz.png" data-org-width="640" dmcf-mid="PP7sOppXa7" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161002230prjz.png" width="658"></p> <figcaption class="txt_caption default_figure"> 워크스테이션/서버용 엔비디아 RTX 프로 4000 블랙웰. (사진=엔비디아) </figcaption> </figure> <p contents-hash="418d514cfd759d28678e78817b4381e777701510cf72fbfa44c30cc29ce6323c" dmcf-pid="6rXWY22uak" dmcf-ptype="general">비교 대상이 된 RTX 프로 4000 블랙웰은 쿠다 코어 8960개, ECC GDDR7 24GB 메모리를 탑재했고 메모리 대역폭은 672GB/s 수준이다.</p> <p contents-hash="0d1216a16723317af1d164f36f65d660548ea0718f8953b9e4b9b24811aef768" dmcf-pid="PmZYGVV7Nc" dmcf-ptype="general"><strong>Qwen3 8B 모델에서 동시 요청시 초당 처리량 향상</strong></p> <p contents-hash="c98a032f37413a1d80a849d2e13b7b8d54564d2b6a7fd1cab9be2c89767e62d1" dmcf-pid="Qs5GHffzoA" dmcf-ptype="general">현재 기업들이 활용하는 7B~30B급 오픈소스 LLM은 추론 과정에서 상당한 KV 캐시 공간을 요구하기 때문에 24GB와 32GB 메모리의 차이가 실제 처리량 격차로 이어질 수 있다.</p> <p contents-hash="39de589869f6fa349f6da51126c65b004deb1582717bb7aa01fe483e4ef4c979" dmcf-pid="xO1HX44qgj" dmcf-ptype="general">래블업이 Qwen3 8B 모델을 기반으로 수행한 8K 컨텍스트 테스트에서 아크 프로 B70은 동시 요청 수가 늘어나도 초당 처리량이 꾸준히 높아졌다.</p> <figure class="figure_frm origin_fig" contents-hash="71c76c7453491d2f19897954c259c490f8cd6cdcdbe648bfaaf6c281e0b44419" dmcf-pid="yHb7znnQcN" dmcf-ptype="figure"> <p class="link_figure"><img alt="Qwen3 8B 모델에서 두 GPU 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161003455mkdj.png" data-org-width="639" dmcf-mid="xb0DwttWoU" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161003455mkdj.png" width="658"></p> <figcaption class="txt_caption default_figure"> Qwen3 8B 모델에서 두 GPU 처리량 비교. (자료=래블업) </figcaption> </figure> <p contents-hash="8b31519f39814b635d48c204c59ea15b5597b9965d5a7b573bb1c4263e94fd9b" dmcf-pid="WXKzqLLxAa" dmcf-ptype="general">반면 RTX 프로 4000 블랙웰은 동시 요청 수가 16개 수준에 도달하자 메모리 부족 현상으로 처리량이 급감했다. 이 테스트에서 아크 프로 B70은 엔비디아 GPU 대비 최대 2.24배 높은 처리량을 기록했다.</p> <p contents-hash="e705f826dcaa7c76c7a7c8c31d6b52e02223b1fa4d3ff9cdc14265a825c050cd" dmcf-pid="YZ9qBooMkg" dmcf-ptype="general">컨텍스트 길이를 32K까지 늘린 환경에서는 격차가 더욱 커졌고 특정 구간에서는 아크 프로 B70이 최대 4배 이상 높은 처리량을 보였다. 이는 AI 에이전트 시대에 GPU 연산 성능 못지않게 메모리 용량이 중요해지고 있음을 시사한다.</p> <p contents-hash="8433f72a513a87e0670cc9f350cd52e6530c3b718b5396df8c029f8e50cb0bf1" dmcf-pid="G52BbggRco" dmcf-ptype="general"><strong>GPT-OSS 20B에서도 RTX 프로 4000 대비 처리량 25% 우위</strong></p> <p contents-hash="d63ffd7fc0de660d45b7715a47a5ef4a71715e8eb25a4a8ac12dc620feeb7a46" dmcf-pid="H1VbKaaekL" dmcf-ptype="general">GPT-OSS 20B 모델을 이용한 테스트에서도 비슷한 경향이 확인됐다. 아크 프로 B70은 동시 요청 수가 증가해도 안정적으로 성능을 유지했으며 32개 동시 요청 환경에서 RTX 프로 4000 블랙웰 대비 25% 처리량이 높았다.</p> <figure class="figure_frm origin_fig" contents-hash="a2accf27f68a653814657a7a175991394ca27a97b4b642e687413c90e5ebb050" dmcf-pid="XtfK9NNdAn" dmcf-ptype="figure"> <p class="link_figure"><img alt="GPT-OSS 20B 모델 구동시 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161004736mheb.png" data-org-width="640" dmcf-mid="pg9SvBB3ky" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161004736mheb.png" width="658"></p> <figcaption class="txt_caption default_figure"> GPT-OSS 20B 모델 구동시 처리량 비교. (자료=래블업) </figcaption> </figure> <p contents-hash="14014cecc5ca433740354283cdb9f636b80a981c0ddbdec87ff625b660f2fdf0" dmcf-pid="ZF492jjJgi" dmcf-ptype="general">래블업은 실제 벤치마크에서 아크 프로 B70의 KV 캐시 활용 가능 용량이 RTX 프로 4000 블랙웰 대비 평균 2배 수준으로 나타났다고 설명했다.</p> <figure class="figure_frm origin_fig" contents-hash="cca22416294344cd196935b09b3ac67ffca40bb25baf0bf7e0a7d9d508ddccb9" dmcf-pid="5382VAAijJ" dmcf-ptype="figure"> <p class="link_figure"><img alt="KV 캐시 용량에 따른 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161005977lbnv.png" data-org-width="638" dmcf-mid="UaM6PwwaNT" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161005977lbnv.png" width="658"></p> <figcaption class="txt_caption default_figure"> KV 캐시 용량에 따른 처리량 비교. (자료=래블업) </figcaption> </figure> <p contents-hash="b1a074d166e8d188016b94eb87125ce8dc05f78054bbd0b7ad3312d59cd3c753" dmcf-pid="106Vfccngd" dmcf-ptype="general">래블업 관계자는 "이에 따라 모델 가중치를 적재한 이후에도 더 많은 메모리 여유 공간을 확보할 수 있다"고 설명했다.</p> <p contents-hash="6b7d906ecc953aba0c906af0cb938f1932d70f87243d3935d0f07ec6b26f17a2" dmcf-pid="tpPf4kkLke" dmcf-ptype="general">이어 "처리량과 가격을 함께 고려한 비용 효율 분석에서도 아크 프로 B70이 더 나은 결과를 보였고 AI 서비스 운영에 중요한 토큰당 비용 기준으로는 최대 8배 이상의 효율 향상이 가능하다"고 분석했다.</p> <p contents-hash="6d32eb4d23277a57a4f198000cc4bf6f5057c43cb371347ddcaa50922a728d64" dmcf-pid="FUQ48EEokR" dmcf-ptype="general"><strong>AI 에이전트 등장에 GPU 메모리 용량 중요성 ↑</strong></p> <p contents-hash="7096a5aba67f6bda4268eeea4291fa5b2199fa8987a9e3b76cce1ef4df09d3b5" dmcf-pid="3ux86DDgNM" dmcf-ptype="general">래블업은 "장비와 솔루션 도입 시 토큰 처리 비용은 주요 검토 항목 중 하나이며 처리량과 GPU 가격에 따라 결정된다. 정가 기준 아크 프로 B70은 1099달러(약 149만원), RTX 프로 4000 블랙웰은 2199달러(약 297만원)로 벤치마크 결과를 반영하면 두 제품 간 비용 효율 격차는 더욱 커진다"고 설명했다.</p> <p contents-hash="39543633e48fa90d7f00ff51581f9903af089032756572fb8377b06e2dd6e01e" dmcf-pid="07M6Pwwakx" dmcf-ptype="general">다만 이번 결과는 특정 모델과 특정 추론 환경에서 측정된 것으로, AI 학습 성능이나 모든 워크로드에서 동일한 우위를 의미하지는 않는다.</p> <figure class="figure_frm origin_fig" contents-hash="83491b2d918f475320ec6ed28b12dbbedc6bdf5222ca2ac0c28903664d55cfb7" dmcf-pid="pzRPQrrNAQ" dmcf-ptype="figure"> <p class="link_figure"><img alt="쿠다-X 라이브러리를 활용한 산업계 워크로드 가속 사례 중 일부. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161006201mfbu.jpg" data-org-width="640" dmcf-mid="ucWSvBB3av" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161006201mfbu.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 쿠다-X 라이브러리를 활용한 산업계 워크로드 가속 사례 중 일부. (사진=지디넷코리아) </figcaption> </figure> <p contents-hash="13b64d8c1d150776e2c9cd6809fa55a21c3551232a1310500c46d287d5da950b" dmcf-pid="UGBu7iiPcP" dmcf-ptype="general">또 AI 생태계 전반에서는 여전히 엔비디아의 영향력이 압도적이다. 쿠다(CUDA)를 중심으로 구축된 개발 환경과 풍부한 소프트웨어 지원은 AMD나 인텔 등 경쟁사가 단시간에 따라잡기 힘들다.</p> <p contents-hash="95e03ec1fc0e4bf39a8b12956cf599af5c35ae92aab49057c05566f13877a7f1" dmcf-pid="uHb7znnQc6" dmcf-ptype="general">그러나 오픈소스 기반 인텔 AI 프레임워크인 '오픈비노'를 비롯해 vLLM, llama.cpp 등 주요 AI 프레임워크가 인텔 GPU 지원을 확대하고 있다.</p> <p contents-hash="71e3e8d272138bb505da2685cdcc1f79efa2bfffe8f605484885943d8bc645df" dmcf-pid="7XKzqLLxN8" dmcf-ptype="general">업계에서는 아크 프로 B70이 AI 추론 시장을 겨냥한 실용적인 대안으로 자리잡을 가능성이 높다고 보고 있다. AI 에이전트가 확산될 수록 연산 성능뿐 아니라 메모리 용량과 비용 효율이 중요해지고 있기 때문이다.</p> <p contents-hash="c6fcf23a4d78d347b8d27a36fe0cb090fb7d19050dcb2b80a9d7e1c6bc0ae357" dmcf-pid="zZ9qBooMN4" dmcf-ptype="general">권봉석 기자(bskwon@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기