【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]래블업 "인텔 '아크 프로 B70', RTX 프로 4000 대비 추론 처리량 높아"

온카뱅크관리자

2026-06-18 16:17:29

<div id="layerTranslateNotice" style="display:none;"></div> LLM 2종으로 벤치마크 수행..."동시 요청 처리량 최대 2.2배" 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="7wHyW99UcS">
 (지디넷코리아=권봉석 기자)AI 시장의 중심이 모델 학습에서 추론과 에이전틱 AI 서비스 운영으로 이동하면서 GPU 내장 메모리 용량의 중요성이 커지고 있다. 거대언어모델(LLM)에서 길게 이어지는 대화의 맥락을 처리하고 여러 이용자를 동시에 처리하려면 대용량 메모리가 중요하다.
 특히 에이전틱 AI는 장시간 대화 맥락을 유지하고 여러 작업을 병렬 처리해야 하는 만큼 GPU 메모리 사용량이 급격히 증가한다.
 이 과정에서 이전 추론 결과를 저장하는 'KV 캐시(Key-Value Cache)'가 중요한 역할을 한다. KV 캐시가 충분하지 않으면 기존 KV 캐시 데이터를 제거하거나 재배치해야 하며 이 과정에서 처리량이 감소하거나 응답 지연이 발생할 수 있다.
 <figure class="figure_frm origin_fig" contents-hash="149e4a91f4824a0508aa475132dc3e33f2ef11dfda77532d05114bbb25cc14c7" dmcf-pid="bNSICuu5AI" dmcf-ptype="figure">
 <img alt="인텔의 이기종 연산 기반 에이전틱 AI 시연. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618160959643vyse.jpg" data-org-width="640" dmcf-mid="8RfBbggRaq" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618160959643vyse.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 인텔의 이기종 연산 기반 에이전틱 AI 시연. (사진=지디넷코리아)
 </figcaption>
 </figure>
 반대로 KV 캐시를 담을 메모리 용량이 충분하면 더 많은 사용자 요청과 긴 컨텍스트를 동시에 처리할 수 있다.
 래블업, '백엔드.AI'에서 LLM 2종 대상 벤치마크 수행
 국내 AI 플랫폼 기업인 래블업은 최근 엔터프라이즈 AI 인프라 운영 플랫폼 '백엔드.AI'에서 인텔 아크 프로 B70과 엔비디아 RTX 프로 4000 블랙웰을 대상으로 한 LLM 벤치마크 결과를 공개했다.(인텔 제온 w9-3475X, 우분투 25.10 환경)
 <figure class="figure_frm origin_fig" contents-hash="210a793b214fa6b76771312f06ed92bac954dc8de5738845641b2b52241c6632" dmcf-pid="VkWSvBB3gr" dmcf-ptype="figure">
 <img alt="인텔 아크 프로 B70 GPU. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161000953jibg.jpg" data-org-width="640" dmcf-mid="64ALoTTscz" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161000953jibg.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 인텔 아크 프로 B70 GPU. (사진=지디넷코리아)
 </figcaption>
 </figure>
 인텔 아크 프로 B70은 지난 3월 말 출시된 워크스테이션용 GPU로 AI 추론 수요를 겨냥했다. Xe2 코어 32개와 32GB 메모리 기반으로 대용량 AI 모델을 분할 없이 구동할 수 있다는 점이 차별화 포인트다.
 연산 성능은 최대 367 INT8 TOPS(초당 1조 회 연산) 수준이며 GDDR6 32GB 메모리를 탑재해 중소규모 기업과 개발자가 대형 언어모델(LLM)을 로컬 환경에서 직접 구동할 수 있게 했다.
 <figure class="figure_frm origin_fig" contents-hash="1940da33bebc76df14683e2e539ec90748c7c66736da9d63e70ef459c9cd9d9c" dmcf-pid="8wHyW99UNE" dmcf-ptype="figure">
 <img alt="워크스테이션/서버용 엔비디아 RTX 프로 4000 블랙웰. (사진=엔비디아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161002230prjz.png" data-org-width="640" dmcf-mid="PP7sOppXa7" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161002230prjz.png" width="658">
 <figcaption class="txt_caption default_figure">
 워크스테이션/서버용 엔비디아 RTX 프로 4000 블랙웰. (사진=엔비디아)
 </figcaption>
 </figure>
 비교 대상이 된 RTX 프로 4000 블랙웰은 쿠다 코어 8960개, ECC GDDR7 24GB 메모리를 탑재했고 메모리 대역폭은 672GB/s 수준이다.
 Qwen3 8B 모델에서 동시 요청시 초당 처리량 향상
 현재 기업들이 활용하는 7B~30B급 오픈소스 LLM은 추론 과정에서 상당한 KV 캐시 공간을 요구하기 때문에 24GB와 32GB 메모리의 차이가 실제 처리량 격차로 이어질 수 있다.
 래블업이 Qwen3 8B 모델을 기반으로 수행한 8K 컨텍스트 테스트에서 아크 프로 B70은 동시 요청 수가 늘어나도 초당 처리량이 꾸준히 높아졌다.
 <figure class="figure_frm origin_fig" contents-hash="71c76c7453491d2f19897954c259c490f8cd6cdcdbe648bfaaf6c281e0b44419" dmcf-pid="yHb7znnQcN" dmcf-ptype="figure">
 <img alt="Qwen3 8B 모델에서 두 GPU 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161003455mkdj.png" data-org-width="639" dmcf-mid="xb0DwttWoU" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161003455mkdj.png" width="658">
 <figcaption class="txt_caption default_figure">
 Qwen3 8B 모델에서 두 GPU 처리량 비교. (자료=래블업)
 </figcaption>
 </figure>
 반면 RTX 프로 4000 블랙웰은 동시 요청 수가 16개 수준에 도달하자 메모리 부족 현상으로 처리량이 급감했다. 이 테스트에서 아크 프로 B70은 엔비디아 GPU 대비 최대 2.24배 높은 처리량을 기록했다.
 컨텍스트 길이를 32K까지 늘린 환경에서는 격차가 더욱 커졌고 특정 구간에서는 아크 프로 B70이 최대 4배 이상 높은 처리량을 보였다. 이는 AI 에이전트 시대에 GPU 연산 성능 못지않게 메모리 용량이 중요해지고 있음을 시사한다.
 GPT-OSS 20B에서도 RTX 프로 4000 대비 처리량 25% 우위
 GPT-OSS 20B 모델을 이용한 테스트에서도 비슷한 경향이 확인됐다. 아크 프로 B70은 동시 요청 수가 증가해도 안정적으로 성능을 유지했으며 32개 동시 요청 환경에서 RTX 프로 4000 블랙웰 대비 25% 처리량이 높았다.
 <figure class="figure_frm origin_fig" contents-hash="a2accf27f68a653814657a7a175991394ca27a97b4b642e687413c90e5ebb050" dmcf-pid="XtfK9NNdAn" dmcf-ptype="figure">
 <img alt="GPT-OSS 20B 모델 구동시 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161004736mheb.png" data-org-width="640" dmcf-mid="pg9SvBB3ky" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161004736mheb.png" width="658">
 <figcaption class="txt_caption default_figure">
 GPT-OSS 20B 모델 구동시 처리량 비교. (자료=래블업)
 </figcaption>
 </figure>
 래블업은 실제 벤치마크에서 아크 프로 B70의 KV 캐시 활용 가능 용량이 RTX 프로 4000 블랙웰 대비 평균 2배 수준으로 나타났다고 설명했다.
 <figure class="figure_frm origin_fig" contents-hash="cca22416294344cd196935b09b3ac67ffca40bb25baf0bf7e0a7d9d508ddccb9" dmcf-pid="5382VAAijJ" dmcf-ptype="figure">
 <img alt="KV 캐시 용량에 따른 처리량 비교. (자료=래블업)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161005977lbnv.png" data-org-width="638" dmcf-mid="UaM6PwwaNT" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161005977lbnv.png" width="658">
 <figcaption class="txt_caption default_figure">
 KV 캐시 용량에 따른 처리량 비교. (자료=래블업)
 </figcaption>
 </figure>
 래블업 관계자는 "이에 따라 모델 가중치를 적재한 이후에도 더 많은 메모리 여유 공간을 확보할 수 있다"고 설명했다.
 이어 "처리량과 가격을 함께 고려한 비용 효율 분석에서도 아크 프로 B70이 더 나은 결과를 보였고 AI 서비스 운영에 중요한 토큰당 비용 기준으로는 최대 8배 이상의 효율 향상이 가능하다"고 분석했다.
 AI 에이전트 등장에 GPU 메모리 용량 중요성 ↑
 래블업은 "장비와 솔루션 도입 시 토큰 처리 비용은 주요 검토 항목 중 하나이며 처리량과 GPU 가격에 따라 결정된다. 정가 기준 아크 프로 B70은 1099달러(약 149만원), RTX 프로 4000 블랙웰은 2199달러(약 297만원)로 벤치마크 결과를 반영하면 두 제품 간 비용 효율 격차는 더욱 커진다"고 설명했다.
 다만 이번 결과는 특정 모델과 특정 추론 환경에서 측정된 것으로, AI 학습 성능이나 모든 워크로드에서 동일한 우위를 의미하지는 않는다.
 <figure class="figure_frm origin_fig" contents-hash="83491b2d918f475320ec6ed28b12dbbedc6bdf5222ca2ac0c28903664d55cfb7" dmcf-pid="pzRPQrrNAQ" dmcf-ptype="figure">
 <img alt="쿠다-X 라이브러리를 활용한 산업계 워크로드 가속 사례 중 일부. (사진=지디넷코리아)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161006201mfbu.jpg" data-org-width="640" dmcf-mid="ucWSvBB3av" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/ZDNetKorea/20260618161006201mfbu.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 쿠다-X 라이브러리를 활용한 산업계 워크로드 가속 사례 중 일부. (사진=지디넷코리아)
 </figcaption>
 </figure>
 또 AI 생태계 전반에서는 여전히 엔비디아의 영향력이 압도적이다. 쿠다(CUDA)를 중심으로 구축된 개발 환경과 풍부한 소프트웨어 지원은 AMD나 인텔 등 경쟁사가 단시간에 따라잡기 힘들다.
 그러나 오픈소스 기반 인텔 AI 프레임워크인 '오픈비노'를 비롯해 vLLM, llama.cpp 등 주요 AI 프레임워크가 인텔 GPU 지원을 확대하고 있다.
 업계에서는 아크 프로 B70이 AI 추론 시장을 겨냥한 실용적인 대안으로 자리잡을 가능성이 높다고 보고 있다. AI 에이전트가 확산될 수록 연산 성능뿐 아니라 메모리 용량과 비용 효율이 중요해지고 있기 때문이다.
 권봉석 기자(bskwon@zdnet.co.kr)
 </section> 
 </div> 
 Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

놀이터홍보 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기