로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[]
트럼프 "유럽, 러 에너지 구매 즉시 멈춰야…UN 역할 못 해"(종합)
N
[]
브라질 룰라 "반민주 세력이 제도 억압"…美트럼프 겨냥 비판도(종합)
N
[]
잠시 뒤 UN 기조 연설‥"민주 대한민국 복귀"
N
[연예뉴스]
브아걸 가인 생일파티, 조권 등장에 우결 레전드 '아담커플' 소환
N
[스포츠뉴스]
사상 첫 한국인 IPC 위원장 나올까…2025 서울 IPC 정기총회, 22일 개막→27일 위원장 선거
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]딥시크 돌풍 비결은…"더 큰 AI보다는 더 오래 생각하는 AI"
온카뱅크관리자
조회:
54
2025-04-17 10:07:33
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="BQkLW37vgi"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="baSrp26FkJ" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="3de305420dd9bacff3c456cfb4738a2789e1b2ac0ccc625bd151f3fdbba62e3f" dmcf-pid="KNvmUVP3Ad" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/17/ZDNetKorea/20250417100358581shuj.jpg" data-org-width="640" dmcf-mid="zIg2khyjcL" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/17/ZDNetKorea/20250417100358581shuj.jpg" width="658"></p> </figure> <p contents-hash="591ce254aee57bc2982ca78abd2c003698ed0dbfe28a7be996daf33342b07bc7" dmcf-pid="9jTsufQ0je" dmcf-ptype="general"><strong>27배 더 작은 AI가 더 많이 '생각'하면 대형 모델을 이긴다: 추론 시간 확장성의 원리</strong></p> <p contents-hash="30f588fbc049402bf860771e512affe7b017b0dcb97461ab4daa736fef9ca2fd" dmcf-pid="2AyO74xpjR" dmcf-ptype="general">대규모 언어 모델(LLM, Large Language Model)의 후속 훈련 과정에서 강화학습(RL, Reinforcement Learning)이 널리 사용되고 있다. 특히 딥시크(DeepSeek-AI)나 오픈AI(OpenAI) 같은 기업들은 대규모 언어 모델의 성능 향상을 위해 강화학습을 적극적으로 활용하고 있다. 이러한 강화학습의 핵심 구성 요소인 보상 모델링(Reward Modeling)은 언어 모델의 응답에 대한 정확한 보상 신호를 생성하는 역할을 한다. DeepSeek-AI와 칭화대학교의 공동 연구에 따르면, 추론 시간 동안 고품질의 보상 신호를 생성하는 것이 언어 모델의 성능을 크게 향상시킬 수 있다는 사실이 밝혀졌다.</p> <p contents-hash="e46cae2b330918a6611dfd98c8d82f4237f5eadf6d602f9660a267e729b432c9" dmcf-pid="VcWIz8MUoM" dmcf-ptype="general">그러나 현재 대부분의 고품질 보상 신호는 수학 문제나 코딩 작업과 같이 명확한 정답이 있는 한정된 도메인에서만 효과적으로 생성되고 있다. 일반적인 영역에서는 보상 생성이 더 복잡하고 다양한 기준이 필요하며, 명시적인 참조나 정답이 없는 경우가 많아 어려움이 따른다. 따라서 보다 일반적인 영역에서도 효과적인 보상 모델링 방법이 필요하다.</p> <p contents-hash="39fb6ad1247ce8d7758c1879865cb04af57df2f78ea6bde004dd8d7b95fed4da" dmcf-pid="fkYCq6Rucx" dmcf-ptype="general">이번 연구에서는 일반화된 보상 모델링(Generalist Reward Modeling)을 위한 추론 시간 확장성(Inference-Time Scalability)을 개선하는 방법을 조사했다. 추론 시간 확장성이란 더 많은 추론 연산을 사용함으로써 보상 신호의 품질을 향상시키는 능력을 의미한다. 연구진들은 언어 표현만으로 단일, 쌍, 다중 응답의 평가를 통합할 수 있는 포인트와이즈 생성 보상 모델링(Pointwise Generative Reward Modeling) 접근법을 채택했다.</p> <figure class="figure_frm origin_fig" contents-hash="3650e8fd36c53f18670bcf3fac9a23aec77c5da4bb488861af4663eb06c9db89" dmcf-pid="4EGhBPe7NQ" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/17/ZDNetKorea/20250417100359943xtyg.jpg" data-org-width="640" dmcf-mid="qHsA5z9Hcn" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/17/ZDNetKorea/20250417100359943xtyg.jpg" width="658"></p> </figure> <p contents-hash="3d2294dda0dde052aba8adfb163210026582bd3ac0609a5a2ee16d589fa1592e" dmcf-pid="8DHlbQdzNP" dmcf-ptype="general"><strong>"AI에게 원칙을 가르치자": 자기 원칙 비평 튜닝으로 90.4%의 정확도 달성</strong></p> <p contents-hash="bdd784921cfde06ded562dbec51ae993dff22b1f735a0e340762d871c1e93e3f" dmcf-pid="6wXSKxJqa6" dmcf-ptype="general">연구진은 보상 모델의 확장성을 개선하기 위해 '자기 원칙 비평 튜닝'(SPCT, Self-Principled Critique Tuning)이라는 새로운 학습 방법을 제안했다. SPCT는 온라인 강화학습을 통해 생성 보상 모델(GRM)에서 확장 가능한 보상 생성 행동을 촉진하여 원칙을 적응적으로 생성하고 비평을 정확하게 수행한다. SPCT는 두 단계로 구성된다. 첫 번째는 거부 미세 조정(Rejective Fine-Tuning) 단계로, 보상 모델이 다양한 입력 유형에 대해 올바른 형식의 원칙과 비평을 생성하도록 적응시킨다. 두 번째는 규칙 기반 온라인 강화학습 단계로, 보상 모델이 입력 쿼리와 응답에 따라 적응적으로 원칙과 비평을 생성하는 방법을 학습한다.</p> <p contents-hash="22c2f5499f30822a1da02ef2813b647cf3e4515b7b08ce034b2ab925dda7edd6" dmcf-pid="PrZv9MiBg8" dmcf-ptype="general">이러한 방법론을 통해 DeepSeek-GRM이라는 보상 모델을 개발했다. 추론 시간 확장성을 위해 병렬 샘플링을 사용하여 계산 사용량을 확장하고, 메타 보상 모델(Meta RM)을 도입하여 투표 과정을 안내함으로써 확장 성능을 향상시켰다.</p> <p contents-hash="6d0b88e254929227c771848f7abedc2407fcbd73c789315d634da2ec7ecea012" dmcf-pid="Qm5T2Rnbo4" dmcf-ptype="general"><strong>병렬 샘플링의 마법: 8개 샘플만으로 최고 성능 구현</strong></p> <p contents-hash="e805b6cb97ce78d9e8c186b57eed71135fd4a3b0f028e4c0e961bbb6ba27861d" dmcf-pid="xs1yVeLKcf" dmcf-ptype="general">DeepSeek-GRM은 병렬 샘플링을 통해 다양한 원칙과 비평을 생성하고, 이를 바탕으로 최종 보상을 투표한다. 더 큰 규모의 샘플링을 통해 DeepSeek-GRM은 더 높은 다양성을 가진 원칙에 기반하여 더 정확한 판단을 내리고, 더 세밀한 보상을 출력할 수 있게 된다. 메타 보상 모델(Meta RM)은 투표 과정을 안내하기 위해 훈련된 포인트와이즈 스칼라 보상 모델이다. 이 모델은 DeepSeek-GRM이 생성한 원칙과 비평의 정확성을 확인하고, 이진 교차 엔트로피 손실(Binary Cross-Entropy Loss)로 훈련된다. 메타 보상 모델은 각 샘플의 메타 보상을 출력하고, 최종 결과는 상위 메타 보상을 가진 샘플들의 투표로 결정된다.</p> <p contents-hash="5f8c232a932393999db4be8c54cfc9a4ae502d26c251db6662f3e5f268fa851b" dmcf-pid="y9LxIG1mAV" dmcf-ptype="general">연구팀은 경험적 실험을 통해 SPCT가 생성 보상 모델(GRM)의 품질과 확장성을 크게 향상시키고, 다양한 보상 모델링 벤치마크에서 기존 방법과 모델을 능가하는 성능을 보여준다는 것을 확인했다. 이는 심각한 편향 없이 도메인 일반화 능력을 보여주는 것이다.</p> <p contents-hash="67b12072031e9a5c886b6d6ae0b23881cf977b9ab43f112baef0ce249902e8c4" dmcf-pid="Wvu5xgc6c2" dmcf-ptype="general"><strong>대형 모델보다 효과적인 대안: 32샘플 투표로 671B 모델과 동등한 성능 구현</strong></p> <p contents-hash="a12832d2b6a5bf80f997d677a5cff4b053e22d4b6a115b4f735b02449813bc06" dmcf-pid="YT71MakPc9" dmcf-ptype="general">연구진은 추가적으로 DeepSeek-GRM-27B의 추론 시간 및 훈련 시간 확장 성능을 조사했다. 다양한 크기의 언어 모델에 SPCT 훈련 일정을 적용한 결과, 추론 시간 확장이 훈련 시간에서의 모델 크기 확장보다 더 효과적일 수 있다는 것을 발견했다. 실험 결과에 따르면, DeepSeek-GRM-27B의 32개 샘플을 이용한 직접 투표는 671B 파라미터 크기의 모델과 비슷한 성능을 달성할 수 있었고, 메타 보상 모델이 안내하는 투표는 8개 샘플만으로도 최상의 결과를 달성했다. 이는 모델 크기를 확장하는 것보다 추론 시간을 확장하는 것이 DeepSeek-GRM-27B에서 더 효과적임을 보여준다.</p> <p contents-hash="d11ab8ed9da11166f73b198316e65dcf9652efc875aae96b30ecb230adfd9767" dmcf-pid="GyztRNEQoK" dmcf-ptype="general">더불어 연구팀은 DeepSeek-R1에 대한 테스트도 수행했는데, 그 성능이 236B 모델보다도 낮다는 것을 발견했다. 이는 추론 작업에 대한 긴 체인 오브 소트(Chain-of-Thoughts)를 확장하는 것이 일반화된 보상 모델의 성능을 크게 향상시키지 못한다는 것을 시사한다.</p> <p contents-hash="4c3f6754d3af18d244b42488e38a4b9f844e1c71dffa07529793d85d6aec1ecc" dmcf-pid="HWqFejDxjb" dmcf-ptype="general"><strong>미래의 보상 모델: 도구 통합과 프로세스 개선으로 효율성 극대화</strong></p> <p contents-hash="89e1ec4fd6e7491f74ff749607baedc3489769da51516b6c8bfff23677a12994" dmcf-pid="XYB3dAwMoB" dmcf-ptype="general">SPCT는 생성 보상 모델(GRM)의 성능과 추론 시간 확장성을 크게 향상시키고 일반 도메인에서 스칼라 및 세미 스칼라 보상 모델을 능가하지만, 몇 가지 한계점이 있다. 생성 보상 모델의 효율성은 동일한 규모의 스칼라 보상 모델보다 상당히 뒤처지며, 이는 온라인 강화학습 파이프라인에서의 대규모 사용을 저해한다. 또한 검증 가능한 작업과 같은 특정 도메인에서는 DeepSeek-GRM이 여전히 스칼라 모델보다 뒤쳐진다. 스칼라 보상 모델은 추론 쿼리와 응답의 숨겨진 특징을 포착할 수 있지만, 생성 보상 모델은 응답을 철저히 검토하기 위해 더 강력한 추론 능력이 필요하기 때문이다.</p> <p contents-hash="da9907b84045bbe8d8e4d733adb2cb5779d74b9863903277999f5bda8fa8c80a" dmcf-pid="ZGb0JcrRAq" dmcf-ptype="general">향후 연구 방향으로는 보상 모델에 도구를 통합하거나, 원칙과 비평 생성을 별도의 단계로 분해하는 방법, 그리고 LLM 오프라인 평가에 DeepSeek-GRM을 활용하는 방법 등이 제시되었다. 또한 DeepSeek-GRM은 긴 체인 오브 소트 추론을 통해 혜택을 받을 수 있지만, 이는 효율성에 더 영향을 미칠 수 있어 향후 연구에서 검토해야 할 부분이다.</p> <p contents-hash="3c0d7df42faee7dff9299bf5155af584d84af9e55eae47c6e2769efc5ce457a7" dmcf-pid="5HKpikmeAz" dmcf-ptype="general"><strong>FAQ</strong></p> <p contents-hash="85f43c142b725d8146df40a814b1bf08ac76ec7795c9ca51e4545a61dd2b6570" dmcf-pid="1X9UnEsdj7" dmcf-ptype="general"><strong>Q: 일반화된 보상 모델링이란 무엇이며 왜 중요한가요?</strong></p> <p contents-hash="66c01e79794d6c81cf326ae4c84c2fdb40a7ec1807ff3212002b2886146ef505" dmcf-pid="tZ2uLDOJcu" dmcf-ptype="general">A: 일반화된 보상 모델링은 다양한 도메인에서 언어 모델의 응답에 대한 정확한 보상 신호를 생성하는 기술입니다. 이는 명확한 정답이 없는 일반적인 영역에서도 언어 모델의 성능을 향상시키기 위해 중요합니다. 기존의 보상 모델은 수학이나 코딩 같은 정해진 영역에서만 효과적이었지만, 일반화된 보상 모델링을 통해 더 넓은 응용 분야에서 언어 모델의 성능을 개선할 수 있습니다.</p> <p contents-hash="b10e6bad21af9416105bda3c876b4fd4d6db0276add09170f4776f87564c43fd" dmcf-pid="F5V7owIioU" dmcf-ptype="general"><strong>Q: 자기 원칙 비평 튜닝(SPCT)은 어떻게 작동하나요?</strong></p> <p contents-hash="9ee4a50938169629d37ff8a6a2d5c4f656dcae6a406904674bac493ae856372e" dmcf-pid="31fzgrCnNp" dmcf-ptype="general">A: SPCT는 두 단계로 작동합니다. 첫째, 거부 미세 조정 단계에서는 보상 모델이 다양한 입력 유형에 대해 올바른 형식의 원칙과 비평을 생성하도록 적응시킵니다. 둘째, 규칙 기반 온라인 강화학습 단계에서는 모델이 입력 쿼리와 응답에 따라 적응적으로 원칙과 비평을 생성하는 방법을 학습합니다. 이를 통해 모델은 다양한 도메인에서 보다 정확하고 유연한 보상을 생성할 수 있게 됩니다.</p> <p contents-hash="afbd88a859d282516738b17958641b5d81e1d75bbb28953681ae79db08f52288" dmcf-pid="0t4qamhLj0" dmcf-ptype="general"><strong>Q: 추론 시간 확장성이 모델 크기 확장보다 왜 효과적인가요?</strong></p> <p contents-hash="332e5212a15672e7fba831353e048d895b632128f6769a92c9edf37bc71a2338" dmcf-pid="pF8BNslok3" dmcf-ptype="general">A: 추론 시간 확장성은 모델 크기를 증가시키지 않고도 더 많은 계산 자원을 활용하여 성능을 향상시키는 방법입니다. 연구 결과에 따르면, 27B 파라미터 크기의 DeepSeek-GRM 모델에 32개의 병렬 샘플링을 적용하면 671B 파라미터 크기의 모델과 비슷한 성능을 달성할 수 있었습니다. 이는 모델 크기를 늘리는 대신 추론 시간에 더 많은 자원을 투입하는 것이 비용 효율적이고 실용적인 성능 향상 방법임을 보여줍니다.</p> <p contents-hash="61c57e6fd293e6e683df35f6a6bc62d14c710475dbf5da35d04c80c435cb0a30" dmcf-pid="U0PKAIvakF" dmcf-ptype="general"><span arial="Arial," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' quotsystem-uiquot='"system-ui",' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>■ 이 기사는 AI 전문 매체 ‘</span><span>AI 매터스</span><span arial="Arial," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' quotsystem-uiquot='"system-ui",' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>’와 제휴를 통해 제공됩니</span><span arial="Arial," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' quotsystem-uiquot='"system-ui",' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ </span><span>기사 원문 바로가기</span><span arial="Arial," neuequot='Neue",' next="Next" nova="Nova" quotavenir='"Avenir' quothelvetica='"Helvetica' quotproxima='"Proxima' quotsegoe='"Segoe' quotsystem-uiquot='"system-ui",' roboto="Roboto," rubik="Rubik," sans-serifquot='sans-serif;"' system-ui="system-ui," uiquot='UI",' w01quot='W01",'>)</span></p> <p contents-hash="bd178a0f805bb85f482a2a19cbab09403eb053448211512567f29b2cccd8355b" dmcf-pid="upQ9cCTNct" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기