【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스][AI 토큰 청구서②] "사람보다 더 쓰는 에이전트"… SW업계, 토큰 폭탄에 해결책 고심

온카뱅크관리자

2026-07-02 06:07:28

<div id="layerTranslateNotice" style="display:none;"></div> 질문 하나에 호출 수십번, 비용 수배 급증… 사후 집계론 통제 불능 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="XRGTaMOcvJ">
 생성형 AI는 국내 SW기업의 개발 방식뿐 아니라 원가 구조와 인재 기준까지 바꾸고 있다. &lt;디지털데일리&gt;는 국내 주요 SW기업 답변을 바탕으로 AI 토큰 지출 규모, 비용 효율화, R&amp;D 투자 판단, 채용 트렌드의 변화를 짚었다. 이번 기획을 통해 ‘AI를 쓰는 기업’과 ‘AI를 운영하는 기업’의 격차가 어디서 벌어질지 진단해본다. &lt;편집자&gt;
 <figure class="figure_frm origin_fig" contents-hash="88daf234342f2029af60522c9583c35c6860d60426683a5a3ce63ae37cbe9d5a" dmcf-pid="5dXWjeCETe" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202607/02/552796-pzfp7fF/20260702060057873iyey.png" data-org-width="640" dmcf-mid="Hh82HC71Ci" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202607/02/552796-pzfp7fF/20260702060057873iyey.png" width="658">
 </figure>
 [디지털데일리 박재현기자] 국내 소프트웨어(SW) 기업들의 인공지능(AI) 비용 절감 전략이 고도화되고 있다. 초기의 프롬프트 경량화나 캐싱 수준에 머물렀던 대응은 이제 LLM 게이트웨이 통합, 온프레미스 전환, 멀티 모델 포트폴리오 구성으로 진화하고 있다.
 비용 폭증을 유발한 핵심 원인은 AI 에이전트의 확산이다. 사람이 직접 질문을 입력하고 단발성 답변을 받는 기존 방식과 달리 AI 에이전트는 특정 과업을 완수하기 위해 스스로 여러 차례 모델을 호출하고 다양한 도구를 실행한다.
 이 과정에서 중간 결과물이 다시 입력 값으로 활용되다 보니 동일한 업무를 처리하더라도 토큰 소모량이 사람이 쓸 때보다 최소 수배에서 수십배까지 급증하게 된다.
 에이전트를 본격 도입한 기업들은 수억원대의 상시 인프라 비용 부담에 직면했다. 국내 한 기업의 경우 올해부터 전사 업무에 AI 에이전트를 적용하며 월평균 약 2500억 토큰을 소비하고 있는 것으로 조사됐다. 비용으로 환산하면 매달 2억에서 3억원 수준의 지출이 발생하고 있다.
 사후에 토큰 사용량을 집계하는 방식만으로는 에이전트발 비용을 제어하기 어렵다. AI 에이전트는 사람이 개입하지 않고 스스로 자동 호출을 일으키는 구조이기 때문이다.
 한 보안업체 대표는 "어느날 갑자기 토큰 비용이 치솟아 원인을 찾아보니 특정 코드가 무한 루프형식으로 개발을 반복하는 바람에 AI가 사용하지 않아도 될 토큰을 사용한다는 것을 잡아낸 적이 있다"며 "이 역시 토큰 사용량과 개발 코드를 모니터링 할 수 있는 체계를 만들어놨기 때문에 가능했던 것"이라고 전했다.
 이에 따라 업계의 절감 기법도 입력을 줄이는 단계에서 호출 자체를 통제하는 단계로, 그리고 다시 모델 자체를 옮기는 단계로 상향되고 있다. 다만 단계가 올라갈수록 절감 폭과 구축 난이도는 함께 커진다.
 ◆ 입력 줄이기에서 호출 통제로…게이트웨이로 모이는 관리
 프롬프트 경량화와 캐싱은 토큰 비용 절감을 위한 가장 일차적인 출발점으로 꼽힌다. 실제로 국내 SW 기업인 위세아이텍은 불필요하게 긴 입력과 반복 호출을 줄이고 유사 요청에 캐싱을 적용해 중복 사용을 걷어내는 방식을 취하고 있으며, 네이버클라우드는 용도에 맞는 최적화 모델을 운영해 토큰 효율을 높이고 있다.
 또 다른 기업 역시 캐싱을 비용 절감과 응답 속도 개선이 동시에 이뤄지는 영역으로 보고 우선순위 높은 과제로 관리 중이다.
 다만 이 방식은 사람이 직접 입력하는 프롬프트를 다듬는 데 초점이 맞춰져 있어, 에이전트가 자동으로 입력과 호출을 만들어내는 구간에서는 잡아낼 수 있는 토큰이 제한적이다.
 기업들은 비용 통제의 핵심 해법으로 'LLM 게이트웨이'를 구축하고 있다. 사내에서 발생하는 모든 외부 LLM 호출을 단일 지점으로 집중시키면 어떤 부서가 어떤 모델을 얼마나 쓰는지 실시간으로 모니터링하고 제어할 수 있기 때문이다.
 사람이 누르지 않아도 에이전트가 알아서 수십 차례 호출을 생성하는 구조에서는 이 게이트웨이가 사실상 유일한 통제 지점이 된다.
 여기에 모델 라우팅 기술을 접목하면 작업의 난이도에 따라 고성능 모델과 경량 모델을 자동으로 배정하고, 특정 모델에 장애가 발생했을 때 대안 모델로 연결하는 폴백(Fallback) 구조까지 안정적으로 구현할 수 있다.
 한글과컴퓨터와 엔디에스는 게이트웨이를 선제적으로 도입해 운용하는 대표 사례다. 한컴은 자체적으로 라우팅과 폴백 체계를 통합 운영하며 고비용 상용 모델의 호출 빈도를 낮추는 동시에 서비스의 연속성을 확보했다. 엔디에스는 오픈소스 프레임워크인 라이트LLM(LiteLLM)을 기반으로 게이트웨이를 구축해 모니터링, 캐싱, 토큰 제어 기능을 원스톱으로 관리하는 인프라를 조성 중이다.
 클라우드 시대에 API 게이트웨이가 표준 인프라로 자리 잡았던 것처럼 LLM 게이트웨이도 AI 운영의 기본 레이어로 안착하는 흐름이다.
 ◆ 모델을 옮기고 나눈다…온프레미스와 포트폴리오 전략
 외부 호출 통제를 넘어 초기 투자비가 들더라도 인프라 자체를 사내로 이관하는 온프레미스 전환도 대안으로 부각되고 있다.
 하드웨어 도입 등 대규모 초기 비용이 수반되지만, 에이전트 확산으로 토큰 호출량이 임계점을 넘어서면 종량제 API 비용보다 온프레미스 총소유비용(TCO)이 더 낮아진다는 계산에서다. 사내 소스코드나 민감 데이터가 외부 API를 경유하는 구조 자체를 원천 차단해 데이터 주권을 확보하려는 목적도 맞물려 있다.
 마키나락스는 오픈소스 모델을 자체 온프레미스 vLLM 인프라와 연계해 폐쇄망 내부에서 구동되는 코드 어시스턴트 체계를 완성했다. S2W 역시 대용량 연산 작업은 사내 구축된 자체 GPU 서버에서 처리하고 도메인 특화 경량 모델을 병행 매칭해 외부 의존도를 줄이고 있으며, 한컴 또한 종량제 API 비용 부담을 낮추기 위해 오픈웨이트 모델의 사내 셀프호스팅 방안을 검토 중이다.
 오픈소스 모델은 전면 대체재가 아닌 포트폴리오의 보완재로 편입되는 추세다. 크라우드웍스는 고난도 추론이 필요한 핵심 구간에는 아마존 베드록(Amazon Bedrock) 등 상용 모델을 쓰고, 정형화된 반복 작업에는 미니 모델을 조합하는 멀티 모델 전략을 취하고 있다.
 또 다른 기업 역시 정형화된 반복 작업은 경량·오픈소스 모델로 처리하고 고난도 추론에만 상위 모델을 배치해 토큰을 관리하고 있다. AI 에이전트가 호출을 무수히 반복하는 단순 처리 구간에 단가가 낮은 경량 모델을 배정하면, 호출 건당 단가 차이가 호출량만큼 곱해져 전체 비용 절감 효과가 빠르게 누적되기 때문이다.
 모델 변형을 넘어 입력 단의 데이터 구조를 바꿔 토큰 소모를 줄이는 기술도 구체화되고 있다. 인프라 단에서의 비용 최적화와 병행해, 특정 도메인에 맞춰 문맥을 의미 단위로 쪼개어 토큰 효율을 극대화하는 방식이다.
 사이냅소프트는 세레나 MCP(Serena MCP)와 LSP 기술을 도입해 소스코드를 단순 텍스트가 아닌 심볼 단위로 분할 처리하는 방식을 택했다. 코드의 문맥을 의미 단위로 다뤄 불필요한 토큰 낭비를 막는 이 방식은 자체 테스트 결과 오픈소스 프레임워크 기준으로 약 20% 수준의 토큰 절감 효과를 확인하는 성과로 이어졌다.
 생성형 AI 시대의 비용 최적화는 결국 아키텍처 설계 역량 싸움이다. 단순 반복 요청은 캐싱으로 걷어내고 민감 데이터 처리는 온프레미스로 격리하며 고비용 구간은 라우팅을 통해 경량 모델로 대체하는 종합 포트폴리오 구성이 핵심이다.
 과거 클라우드 확산기와 함께 인프라 비용 최적화를 전담하는 핀옵스(FinOps)가 기업의 표준 운영 체계로 정착했듯이, AI 에이전트 중심의 현재 환경에서는 효율적인 LLM 운영 아키처를 구축하고 제어하는 능력이 SW 기업의 영속성을 가르는 척도가 될 전망이다.
 </section> 
 </div> 
 Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

놀이터홍보 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기