로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
미·이란 도하 간접협상 종료…호르무즈·동결자산 논의(종합)
N
[IT뉴스]
소리 키워주는 AI 기능도 유료화…메타 글래스 시끌[모닝폰]
N
[IT뉴스]
구글 맹추격에도 격차 벌린 네이버…'AI 검색' 전면 배치 "통했다"
N
[스포츠뉴스]
미국 대학체조 강자 클로이 조 "태극 마크 달고 LA 올림픽 도전"
N
[]
“작년에 1.5만명 잘랐는데 또”...MS, 5000명 추가 감원
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스][AI 토큰 청구서②] "사람보다 더 쓰는 에이전트"… SW업계, 토큰 폭탄에 해결책 고심
온카뱅크관리자
조회:
4
2026-07-02 06:07:28
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">질문 하나에 호출 수십번, 비용 수배 급증… 사후 집계론 통제 불능</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="XRGTaMOcvJ"> <p contents-hash="f30d4d93b54e5c5e033f97c9e49327fe59b3064e8e01e39ce1d66635b0a75e0d" dmcf-pid="ZeHyNRIkTd" dmcf-ptype="general"><strong>생성형 AI는 국내 SW기업의 개발 방식뿐 아니라 원가 구조와 인재 기준까지 바꾸고 있다. <디지털데일리>는 국내 주요 SW기업 답변을 바탕으로 AI 토큰 지출 규모, 비용 효율화, R&D 투자 판단, 채용 트렌드의 변화를 짚었다. 이번 기획을 통해 ‘AI를 쓰는 기업’과 ‘AI를 운영하는 기업’의 격차가 어디서 벌어질지 진단해본다. <편집자></strong></p> <figure class="figure_frm origin_fig" contents-hash="88daf234342f2029af60522c9583c35c6860d60426683a5a3ce63ae37cbe9d5a" dmcf-pid="5dXWjeCETe" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202607/02/552796-pzfp7fF/20260702060057873iyey.png" data-org-width="640" dmcf-mid="Hh82HC71Ci" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202607/02/552796-pzfp7fF/20260702060057873iyey.png" width="658"></p> </figure> <p contents-hash="1fbc0e81d6a9804b2349b841bca14faedd06ff3ec0cf4a3e35a8bf08358ae76d" dmcf-pid="1JZYAdhDyR" dmcf-ptype="general">[디지털데일리 박재현기자] 국내 소프트웨어(SW) 기업들의 인공지능(AI) 비용 절감 전략이 고도화되고 있다. 초기의 프롬프트 경량화나 캐싱 수준에 머물렀던 대응은 이제 LLM 게이트웨이 통합, 온프레미스 전환, 멀티 모델 포트폴리오 구성으로 진화하고 있다.</p> <p contents-hash="9d9f234305037dd4e417659061cd66ae21d35e13979110bcae359889a0fbe92b" dmcf-pid="ti5GcJlwhM" dmcf-ptype="general">비용 폭증을 유발한 핵심 원인은 AI 에이전트의 확산이다. 사람이 직접 질문을 입력하고 단발성 답변을 받는 기존 방식과 달리 AI 에이전트는 특정 과업을 완수하기 위해 스스로 여러 차례 모델을 호출하고 다양한 도구를 실행한다.</p> <p contents-hash="e4e8c69bd232ea960d23735ba37580d792de51ad2120f074d44d6773d3a7a21f" dmcf-pid="F6vCi8Dgvx" dmcf-ptype="general">이 과정에서 중간 결과물이 다시 입력 값으로 활용되다 보니 동일한 업무를 처리하더라도 토큰 소모량이 사람이 쓸 때보다 최소 수배에서 수십배까지 급증하게 된다.</p> <p contents-hash="d790de09386a022c3080465d9da50296527cfabdc31f0c8f7783966737bdb9e5" dmcf-pid="3PThn6waCQ" dmcf-ptype="general">에이전트를 본격 도입한 기업들은 수억원대의 상시 인프라 비용 부담에 직면했다. 국내 한 기업의 경우 올해부터 전사 업무에 AI 에이전트를 적용하며 월평균 약 2500억 토큰을 소비하고 있는 것으로 조사됐다. 비용으로 환산하면 매달 2억에서 3억원 수준의 지출이 발생하고 있다.</p> <p contents-hash="bdb184770a15447eed4d5471440fe18cb3bb2ee1f2a4cb92c4f0f448a7d2c792" dmcf-pid="0QylLPrNSP" dmcf-ptype="general">사후에 토큰 사용량을 집계하는 방식만으로는 에이전트발 비용을 제어하기 어렵다. AI 에이전트는 사람이 개입하지 않고 스스로 자동 호출을 일으키는 구조이기 때문이다.</p> <p contents-hash="3ef879e2f2bdb2f08476e6285c87685647c9cd301d174ea779d15bfb3a47c93a" dmcf-pid="pxWSoQmjv6" dmcf-ptype="general">한 보안업체 대표는 "어느날 갑자기 토큰 비용이 치솟아 원인을 찾아보니 특정 코드가 무한 루프형식으로 개발을 반복하는 바람에 AI가 사용하지 않아도 될 토큰을 사용한다는 것을 잡아낸 적이 있다"며 "이 역시 토큰 사용량과 개발 코드를 모니터링 할 수 있는 체계를 만들어놨기 때문에 가능했던 것"이라고 전했다.</p> <p contents-hash="09f1cb0d38070cda7b0a2d70618a4b37b0b5ac7707a81ac2198ee1675f9180eb" dmcf-pid="UMYvgxsAl8" dmcf-ptype="general">이에 따라 업계의 절감 기법도 입력을 줄이는 단계에서 호출 자체를 통제하는 단계로, 그리고 다시 모델 자체를 옮기는 단계로 상향되고 있다. 다만 단계가 올라갈수록 절감 폭과 구축 난이도는 함께 커진다.</p> <p contents-hash="f855ad360a6c1e20fc8381bc27c8e189be8fa14d7f30559a24ca7f6363f1de50" dmcf-pid="uRGTaMOch4" dmcf-ptype="general"><strong>◆ 입력 줄이기에서 호출 통제로…게이트웨이로 모이는 관리</strong></p> <p contents-hash="58a1fd00317a44b207b2e5e9a0ad3ddc9d93551e43b5aa90cf765f332ada1cfe" dmcf-pid="7eHyNRIklf" dmcf-ptype="general">프롬프트 경량화와 캐싱은 토큰 비용 절감을 위한 가장 일차적인 출발점으로 꼽힌다. 실제로 국내 SW 기업인 위세아이텍은 불필요하게 긴 입력과 반복 호출을 줄이고 유사 요청에 캐싱을 적용해 중복 사용을 걷어내는 방식을 취하고 있으며, 네이버클라우드는 용도에 맞는 최적화 모델을 운영해 토큰 효율을 높이고 있다.</p> <p contents-hash="150e5b410f248072e5b7b86ea0460f8277911a97b3193ae298161d85d37da3ea" dmcf-pid="zdXWjeCESV" dmcf-ptype="general">또 다른 기업 역시 캐싱을 비용 절감과 응답 속도 개선이 동시에 이뤄지는 영역으로 보고 우선순위 높은 과제로 관리 중이다.</p> <p contents-hash="50d9743b089b2d2b67033bf27ef1d91c76bce7006674bf2a7c91c52f40c101bf" dmcf-pid="qJZYAdhDh2" dmcf-ptype="general">다만 이 방식은 사람이 직접 입력하는 프롬프트를 다듬는 데 초점이 맞춰져 있어, 에이전트가 자동으로 입력과 호출을 만들어내는 구간에서는 잡아낼 수 있는 토큰이 제한적이다.</p> <p contents-hash="26d842578fb2bc530005d2cfc1bb100b8deb5918301d54f7e45da43dafe9d406" dmcf-pid="Bqwc8zLxT9" dmcf-ptype="general">기업들은 비용 통제의 핵심 해법으로 'LLM 게이트웨이'를 구축하고 있다. 사내에서 발생하는 모든 외부 LLM 호출을 단일 지점으로 집중시키면 어떤 부서가 어떤 모델을 얼마나 쓰는지 실시간으로 모니터링하고 제어할 수 있기 때문이다.</p> <p contents-hash="55d97c7f5e86a4d71651191b65d8cbf37e373aed872a3051cb7f132a4a714f9e" dmcf-pid="bBrk6qoMyK" dmcf-ptype="general">사람이 누르지 않아도 에이전트가 알아서 수십 차례 호출을 생성하는 구조에서는 이 게이트웨이가 사실상 유일한 통제 지점이 된다.</p> <p contents-hash="82555bedc9dfeeac2ecc23c2cca2d086e369b7db77e2cd798564047a0827f45d" dmcf-pid="KbmEPBgRTb" dmcf-ptype="general">여기에 모델 라우팅 기술을 접목하면 작업의 난이도에 따라 고성능 모델과 경량 모델을 자동으로 배정하고, 특정 모델에 장애가 발생했을 때 대안 모델로 연결하는 폴백(Fallback) 구조까지 안정적으로 구현할 수 있다.</p> <p contents-hash="57ee1264c9ad84121968c129621dfaf99cd9545f0d46ada38b82a0f3ac04bda8" dmcf-pid="9KsDQbaeSB" dmcf-ptype="general">한글과컴퓨터와 엔디에스는 게이트웨이를 선제적으로 도입해 운용하는 대표 사례다. 한컴은 자체적으로 라우팅과 폴백 체계를 통합 운영하며 고비용 상용 모델의 호출 빈도를 낮추는 동시에 서비스의 연속성을 확보했다. 엔디에스는 오픈소스 프레임워크인 라이트LLM(LiteLLM)을 기반으로 게이트웨이를 구축해 모니터링, 캐싱, 토큰 제어 기능을 원스톱으로 관리하는 인프라를 조성 중이다.</p> <p contents-hash="c1ce046b0ae60a224e7ca1c656d6a0438306d47c76d42f787cb1a58708fba413" dmcf-pid="29OwxKNdTq" dmcf-ptype="general">클라우드 시대에 API 게이트웨이가 표준 인프라로 자리 잡았던 것처럼 LLM 게이트웨이도 AI 운영의 기본 레이어로 안착하는 흐름이다.</p> <p contents-hash="ee0b2b93da23a4b27fb162ad71ff519773ca2fa6c5c502e439a476ff9dc94b7c" dmcf-pid="V2IrM9jJTz" dmcf-ptype="general"><strong>◆ 모델을 옮기고 나눈다…온프레미스와 포트폴리오 전략</strong></p> <p contents-hash="152283b9cc01206ddbd0c2d5761adb3d3ca023d2ab0c3bf0c2eba61aaccd136c" dmcf-pid="fVCmR2Aiv7" dmcf-ptype="general">외부 호출 통제를 넘어 초기 투자비가 들더라도 인프라 자체를 사내로 이관하는 온프레미스 전환도 대안으로 부각되고 있다.</p> <p contents-hash="0d9e677e5b0cdf4b16b6de1f981261cdf746474595146bdf4307cd909797baee" dmcf-pid="4fhseVcnlu" dmcf-ptype="general">하드웨어 도입 등 대규모 초기 비용이 수반되지만, 에이전트 확산으로 토큰 호출량이 임계점을 넘어서면 종량제 API 비용보다 온프레미스 총소유비용(TCO)이 더 낮아진다는 계산에서다. 사내 소스코드나 민감 데이터가 외부 API를 경유하는 구조 자체를 원천 차단해 데이터 주권을 확보하려는 목적도 맞물려 있다.</p> <p contents-hash="b93a54e3b940bf4d790b86e890ff3dd5199a344b7c859dd39e39eeee4f5d98e0" dmcf-pid="84lOdfkLWU" dmcf-ptype="general">마키나락스는 오픈소스 모델을 자체 온프레미스 vLLM 인프라와 연계해 폐쇄망 내부에서 구동되는 코드 어시스턴트 체계를 완성했다. S2W 역시 대용량 연산 작업은 사내 구축된 자체 GPU 서버에서 처리하고 도메인 특화 경량 모델을 병행 매칭해 외부 의존도를 줄이고 있으며, 한컴 또한 종량제 API 비용 부담을 낮추기 위해 오픈웨이트 모델의 사내 셀프호스팅 방안을 검토 중이다.</p> <p contents-hash="a2bd3b5bb799f8db58b6bdaa95a488242acec5e80d371d8f2638ed71c74e836c" dmcf-pid="6l6VXhzthp" dmcf-ptype="general">오픈소스 모델은 전면 대체재가 아닌 포트폴리오의 보완재로 편입되는 추세다. 크라우드웍스는 고난도 추론이 필요한 핵심 구간에는 아마존 베드록(Amazon Bedrock) 등 상용 모델을 쓰고, 정형화된 반복 작업에는 미니 모델을 조합하는 멀티 모델 전략을 취하고 있다.</p> <p contents-hash="5648289411c9e0dcb6c6acd4e8b88ba21dd6ef0c7d0df74397bb3c9fd6d338d5" dmcf-pid="PSPfZlqFv0" dmcf-ptype="general">또 다른 기업 역시 정형화된 반복 작업은 경량·오픈소스 모델로 처리하고 고난도 추론에만 상위 모델을 배치해 토큰을 관리하고 있다. AI 에이전트가 호출을 무수히 반복하는 단순 처리 구간에 단가가 낮은 경량 모델을 배정하면, 호출 건당 단가 차이가 호출량만큼 곱해져 전체 비용 절감 효과가 빠르게 누적되기 때문이다.</p> <p contents-hash="6d0863d2d57dd3dfe1279701abf2c8462843cd4ba13624cfef980aa67ce99754" dmcf-pid="QvQ45SB3l3" dmcf-ptype="general">모델 변형을 넘어 입력 단의 데이터 구조를 바꿔 토큰 소모를 줄이는 기술도 구체화되고 있다. 인프라 단에서의 비용 최적화와 병행해, 특정 도메인에 맞춰 문맥을 의미 단위로 쪼개어 토큰 효율을 극대화하는 방식이다.</p> <p contents-hash="61b1c9f0f04ff52d53bc0b5056d4f8c2c60bf5ff97553a412401d8a7574a937f" dmcf-pid="xTx81vb0TF" dmcf-ptype="general">사이냅소프트는 세레나 MCP(Serena MCP)와 LSP 기술을 도입해 소스코드를 단순 텍스트가 아닌 심볼 단위로 분할 처리하는 방식을 택했다. 코드의 문맥을 의미 단위로 다뤄 불필요한 토큰 낭비를 막는 이 방식은 자체 테스트 결과 오픈소스 프레임워크 기준으로 약 20% 수준의 토큰 절감 효과를 확인하는 성과로 이어졌다.</p> <p contents-hash="605a848310a710239947e36de5051e22c63de72d8a9f8de9ea4040a7eb081839" dmcf-pid="yQylLPrNlt" dmcf-ptype="general">생성형 AI 시대의 비용 최적화는 결국 아키텍처 설계 역량 싸움이다. 단순 반복 요청은 캐싱으로 걷어내고 민감 데이터 처리는 온프레미스로 격리하며 고비용 구간은 라우팅을 통해 경량 모델로 대체하는 종합 포트폴리오 구성이 핵심이다.</p> <p contents-hash="3d9018a52418c3dde1ed83e04cc6ee37975bb436db84892ba15d6d4a7b552fdc" dmcf-pid="WxWSoQmjl1" dmcf-ptype="general">과거 클라우드 확산기와 함께 인프라 비용 최적화를 전담하는 핀옵스(FinOps)가 기업의 표준 운영 체계로 정착했듯이, AI 에이전트 중심의 현재 환경에서는 효율적인 LLM 운영 아키처를 구축하고 제어하는 능력이 SW 기업의 영속성을 가르는 척도가 될 전망이다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기