로그인
보증업체
신규사이트
스포츠분석
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
업체홍보/구인
뉴스
후기내역공유
커뮤니티
포토
포인트
보증카지노
보증토토
카지노
토토
홀덤
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[IT뉴스]
“저녁에 뭐 먹을까?” 질문하다 중독된다… ‘AI 정신병’ 어떻게 커지나
N
[IT뉴스]
AI로 정신건강 예측 시도 많지만... 임상 적용은 시기상조
N
[연예뉴스]
"한강 불꽃 축제 직관 가능"…김준호♥김지민 용산 신혼집, '감탄 또 감탄'
N
[연예뉴스]
추성훈, 상의 탈의 후 목걸이 자랑…"지드래곤 고마워"
N
[스포츠뉴스]
[제48기 SG배 한국일보 명인전]신진서 9단, 행운의 승리와 함께 명인전 승자 결승 진출!
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
제휴문의 텔레그램 @dognus11
목록
글쓰기
[IT뉴스]“잠깐, 이 방식이 낫겠어요” 中 AI ‘딥시크’ 스스로 생각하며 배운다
온카뱅크관리자
조회:
10
2025-09-19 03:07:29
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">딥시크 훈련 방식 네이처에 공개<br>인간 지도없이 스스로 ‘강화 학습’<br>자기 검증하며 고차원 추론 진화</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="ZJKxLmrRpE"> <figure class="figure_frm origin_fig" contents-hash="0ab16ff95d23b80564209db067dd7814d76d1b1fb4943e9d51dc83d576909761" dmcf-pid="5i9Mosmezk" dmcf-ptype="figure"> <p class="link_figure"><img alt="중국 대형언어모델(LLM) 개발사 딥시크 로고. 사진 출처 딥시크 홈페이지" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/19/donga/20250919030526419malr.png" data-org-width="680" dmcf-mid="XI2RgOsdpD" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/19/donga/20250919030526419malr.png" width="658"></p> <figcaption class="txt_caption default_figure"> 중국 대형언어모델(LLM) 개발사 딥시크 로고. 사진 출처 딥시크 홈페이지 </figcaption> </figure> <div contents-hash="fc829c6581a9c069b036ccc51d0cd1f86af4238bb7698b9005f54d0fbda4c5a9" dmcf-pid="1n2RgOsd7c" dmcf-ptype="general"> 저비용·고효율 대형언어모델(LLM)을 구현해 올해 초 전 세계를 놀라게 한 중국의 인공지능(AI) 모델 ‘딥시크-R1’의 훈련 방식이 공개됐다. 딥시크는 사람이 만든 학습 샘플 없이 순수 강화 학습(reinforcement learning)만으로 추론 능력을 향상시킨 것으로 나타났다. 인간의 개입을 크게 줄이면서도 복잡한 문제 해결 능력을 강화했다는 점에서 주목된다. </div> <p contents-hash="c515599439620fc8690d6ea1be3e5bd2ff5f6eb26fc0df1de489bb99a17d1c4c" dmcf-pid="tLVeaIOJ7A" dmcf-ptype="general">량원펑 연구원을 포함한 딥시크-AI 연구팀은 딥시크의 구체적인 훈련 방식을 국제학술지 ‘네이처’에 17일(현지 시간) 처음으로 자세히 기술했다. 사실 AI가 사람처럼 문제를 단계적으로 사고하는 능력을 학습시키는 것은 오랫동안 난제였다. 수학이나 코딩 같은 복잡한 문제를 풀 때 AI 모델이 중간 과정을 스스로 만들어 내기 어렵기 때문이다. 사람이 ‘단계별로 생각하라’는 지시를 내리거나 사람이 작성한 추론 예시 데이터를 제공해야 했다. 방대한 계산 자원과 인력 투입이 필요한 방식이다.</p> <p contents-hash="c0955ceac45aca46a08bed4629cda0ae3285842753545a3433f15a94b626fe27" dmcf-pid="FofdNCIi7j" dmcf-ptype="general">딥시크-R1은 이 과정을 바꿨다. 연구진은 모델에 단순히 정답 여부만을 기준으로 보상을 주는 강화 학습 방식을 적용했다. 마치 아이가 게임을 하면서 시행착오를 통해 점수를 얻는 방법을 터득하듯 모델은 수학 문제나 코딩 문제를 풀 때 정답을 맞히면 보상을 받고 틀리면 감점을 받는 구조 속에서 스스로 문제 해결 과정을 발전시켰다. 그 결과 별도의 인간 예시가 없어도 모델이 스스로 추론 단계를 만들어 내는 능력이 나타났다.</p> <p contents-hash="6475304e8298d07fd91d53e14d99c7abde8874142f50b28162530efb755e77ae" dmcf-pid="3g4JjhCnFN" dmcf-ptype="general">실험 결과 딥시크-R1은 미국 중고교 및 수학경시대회 수준 문제로 구성된 대표 AI 평가 시험에서 79.8%의 정확도를 기록했다. 국제 코딩 대회 문제나 생물 물리 화학 등 대학원 수준의 과학 문제에서도 우수한 성적을 보였다.</p> <p contents-hash="eeac04613d9aab523f546a15e7a763848f894602b66ceda41e321de76a9df8f6" dmcf-pid="0SjOyp0C7a" dmcf-ptype="general">단순히 정답을 맞히는 데 그치지 않고 문제 해결 과정에서 자기 점검(self-reflection)과 검증, 전략 변경 같은 고차원적 추론 패턴을 스스로 학습하기도 했다. 강화 학습을 통해 모델이 인간 사고 방식과는 다른 독자적인 추론 행동을 만들었다는 점에서 주목된다.</p> <p contents-hash="1d40af047dc8cd4163ee6842412a7dd126bf79b56e49d268d1498fe338e5f4de" dmcf-pid="pvAIWUphug" dmcf-ptype="general">예를 들어 스스로 답안을 검토하며 “잠깐, 여기서 새로운 접근을 떠올렸다”는 식의 중간 표시를 삽입하기도 했다. 연구팀은 “시행착오를 거치며 보상을 극대화하려는 과정에서 자연스럽게 나타난 현상”이라고 설명했다.</p> <p contents-hash="5dc51ce4ae8075700bd7a3a7b758ce34139a8f6ecb3773d13d824e84551b8aed" dmcf-pid="UTcCYuUlpo" dmcf-ptype="general">이 과정에서 일부 한계도 드러났다. 중국어와 영어를 섞어 쓰거나 추론 과정을 지나치게 길게 늘여 1만 단어 이상으로 이어가는 경우가 나타났다. 또 강화 학습은 수학, 프로그래밍 등 정답이 명확히 검증 가능한 문제에는 효과적이지만 정답이 모호하거나 주관적인 문제에는 적용하기 어렵다는 점도 확인됐다.</p> <p contents-hash="4715cafb8abb495ed7690b776dc770c6c6ff016343337da162b508ce6ba74821" dmcf-pid="uykhG7uSzL" dmcf-ptype="general">이 같은 문제를 해결하기 위해 연구팀은 강화 학습과 감독 학습을 번갈아 적용하는 다단계 훈련 방식을 도입했다. 강화 학습으로 모델의 추론력을 키우되 사람이 만든 데이터를 일정 부분 제공해 응답이 지나치게 복잡해지지 않도록 균형을 맞춘 것이다. 그 결과 수학과 코딩뿐만 아니라 사실 확인 문제와 일반 언어 이해에서도 최첨단 수준의 성능을 달성했다.</p> <p contents-hash="b42d8f6710550e1a1bacc0fa2052861971f0a6b991720e94a5c617688405d8ec" dmcf-pid="7WElHz7vUn" dmcf-ptype="general">딥시크는 현재 중국어와 영어에 최적화됐다. 입력 문구(프롬프트)에 민감하게 반응한다는 한계가 있다. 연구팀은 향후 보상 체계를 정교하게 설계해 모델이 더욱 신뢰할 수 있는 추론 과정을 거치도록 개선하겠다고 밝혔다.</p> <p contents-hash="59a8e51b041bb52e1e380bb8e824480ff5b12b58ba9292c000a36540808ed425" dmcf-pid="zYDSXqzTzi" dmcf-ptype="general">박정연 동아사이언스 기자 hesse@donga.com </p> </section> </div> <p class="" data-translation="true">Copyright © 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기