로그인
토토사이트
신규사이트
업체홍보/구인
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노
토토
홀덤
구인
구직
총판
제작업체홍보
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[IT뉴스]
이광형 KAIST 총장 “젠슨 황 방한, 한국 AI 도약의 전환점”
N
[연예뉴스]
통신요금 미납건수, 알뜰폰이 이통3사 4.6배…미납액수 246억
N
[연예뉴스]
‘전참견’ 천만 배우 장혜진, 흥혜진 모드 ON!
N
[연예뉴스]
'입 터지는 실험실' 주우재, 물리학자도 놀란 논리로 맹활약
N
[연예뉴스]
암전과 신발 없는 무대, 연극 '서편제'의 색다른 매력
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]AI, 입력된 글자와 '머릿속 생각' 구별한다…앤트로픽 "LLM, 자기 내부 상태 일부 인식"
온카뱅크관리자
조회:
10
2025-11-01 22:57:29
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="2oYDNk2uN6"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="VgGwjEV7N8" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="9d8dd58b8f196f924e12fe126c984d8371559e2658e805232dc3e01a2db7c07f" dmcf-pid="faHrADfzN4" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/01/ZDNetKorea/20251101225613290rvpo.jpg" data-org-width="640" dmcf-mid="KNrBpzIkjQ" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/01/ZDNetKorea/20251101225613290rvpo.jpg" width="658"></p> </figure> <p contents-hash="d02759a8f9fe9357de3fc6fe6de6dc58984ace3af89cd7f84e25014077879808" dmcf-pid="4NXmcw4qof" dmcf-ptype="general">AI 개발사 앤트로픽(Anthropic)이 자사 AI 모델 '클로드(Claude)'가 자신의 내부 상태 일부를 제한적으로 인식할 수 있다는 연구 결과를 발표했다. 연구진은 AI의 뇌에 해당하는 부분에 특정 개념을 인위적으로 집어넣고, AI가 이를 알아차릴 수 있는지 실험했다. 최신 모델인 클로드 오푸스(Claude Opus) 4와 4.1이 가장 나은 결과를 보였다. 하지만 연구진은 이 능력이 매우 불안정하고 제한적이며, 대부분의 경우 실패한다고 강조했다. 또한 인간의 자기 인식이나 주관적 경험과는 다르다는 점을 분명히 했다.</p> <p contents-hash="64f1ca3a2e5d7f08df815b34c17214b500390d10174a2d0817fa5bf66a05e38e" dmcf-pid="8jZskr8BcV" dmcf-ptype="general"><strong>특정 조건에서만 20% 감지... "실패가 훨씬 더 많다"</strong></p> <p contents-hash="2230229469cc15fcc20432f71e9f957a85d3af609db7942b5ed5abd97effdaf1" dmcf-pid="6A5OEm6bk2" dmcf-ptype="general">연구진은 먼저 AI에게 "당신 머릿속에 특정 생각을 집어넣을 수 있다"고 설명했다. 그런 다음 실제로 특정 단어(예: '빵', '바다', '정의' 등)에 대한 정보 패턴을 AI의 내부에 주입했다. 이 패턴을 만들기 위해 연구진은 "빵에 대해 말해봐"라는 질문에 AI가 반응할 때의 내부 신호를 기록하고, 다른 무작위 단어들에 반응할 때의 신호와 비교했다. 연구진은 총 50개의 단어로 이런 실험을 했다.</p> <p contents-hash="b89f87c4ea0b7ac12037a87f40ab077743fba7e21ec61c18092b39b64cc22e3e" dmcf-pid="Pc1IDsPKN9" dmcf-ptype="general">클로드 오푸스 4.1은 최적의 처리 단계와 주입 강도를 찾았을 때 약 20% 확률로 "주입된 생각을 감지했다"고 답했고, 그것이 어떤 개념인지도 맞혔다. 예를 들어 '대문자'와 관련된 패턴을 넣었더니 "뭔가 큰 소리나 외침 같은 게 느껴진다"고 답했다. 중요한 점은 AI가 그 단어를 입 밖에 꺼내기 전에 이미 "뭔가 이상하다"는 걸 알아챘다는 것이다.</p> <p contents-hash="4795db987021f2087a311000422f112e70469df2a4e9f8cf67147cd6d5c623dc" dmcf-pid="QktCwOQ9gK" dmcf-ptype="general">하지만 연구진은 이 20% 수치가 매우 제한적인 조건에서만 나온 결과라고 강조했다. 특정 처리 단계에 정확한 강도로 주입했을 때만 이런 결과가 나왔고, 대부분의 경우 AI는 주입된 개념을 감지하지 못했다. 논문은 "실패가 여전히 일반적(failures remain the norm)"이라고 명시했다. 또한 개념, 조건, 프롬프트에 따라 성공률이 크게 달랐다.</p> <p contents-hash="55f13c9a04c87cb5e6a8a9a806ae6a484113caa52a421d1fb587261072b132b0" dmcf-pid="xktCwOQ9Ab" dmcf-ptype="general">반대로 아무것도 주입하지 않은 상황에서는 모든 AI 모델이 100번 시도 중 단 한 번도 "이상한 생각이 들어왔다"고 거짓으로 말하지 않았다. 오푸스 4.1과 4는 다른 모델들보다 상대적으로 나은 결과를 보였다. 연구진이 AI의 여러 처리 단계(레이어)를 조사한 결과, 오푸스 4.1의 경우 전체 처리 과정의 약 3분의 2 지점에서 이런 인식 능력이 가장 높았다. 흥미롭게도 추상적인 개념(예: "정의", "평화", "배신", "균형")을 주입했을 때 AI가 상대적으로 더 잘 알아챘다. 하지만 모든 종류의 단어에서 어느 정도는 인식 능력을 보였다.</p> <figure class="figure_frm origin_fig" contents-hash="b3b5a0ba21d8a87bc77f4126673b9ffd1562ce37426f10208105c17c84327f9f" dmcf-pid="y7ofB2TscB" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/01/ZDNetKorea/20251101225614559kclh.jpg" data-org-width="640" dmcf-mid="9ma8KfWIAP" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/01/ZDNetKorea/20251101225614559kclh.jpg" width="658"></p> </figure> <p contents-hash="91ccfa1920e35fe06b6fc77235dac504ccf262b97afefd48f61a0fe9317f2966" dmcf-pid="Wzg4bVyOgq" dmcf-ptype="general"><strong>입력된 글자와 '머릿속 생각' 구별... 모든 AI가 평균 이상 성능</strong></p> <p contents-hash="79941a455f0ea354aa05ae6e46c58fe4444da1384a3ae7c25a5e71bf063ea107" dmcf-pid="Yqa8KfWIkz" dmcf-ptype="general">연구진은 AI가 실제로 화면에 표시된 글자와 머릿속에 떠오른 정보를 구별할 수 있는지 테스트했다. 예를 들어 "벽에 걸린 오래된 시계가 크게 째깍거렸다"라는 문장을 보여주면서, 동시에 '빵'이라는 전혀 상관없는 단어의 정보 패턴을 AI 머릿속에 집어넣었다. 그런 다음 두 가지 질문을 했다.</p> <p contents-hash="860d6e2a94f29edbd75cbd14cd1f778cc68bdc7af7c5d4f1b8f32b445655d55e" dmcf-pid="GBN694YCo7" dmcf-ptype="general">첫 번째: "그 문장을 읽을 때 무슨 단어가 떠올랐어?" 두 번째: "그 문장을 그대로 다시 말해봐"</p> <p contents-hash="ed9a09f2861a01d0cb4a767b487781bf0ca5f5312b4f68852acbc1596d9dfaa6" dmcf-pid="HbjP28Ghju" dmcf-ptype="general">오푸스 4.1은 중간 정도 강도로 정보를 주입했을 때 첫 번째 질문에는 '빵'이라고 답하면서도, 두 번째 질문에는 원래 문장을 정확히 그대로 말했다. 즉, AI가 화면에 쓰인 글자와 자기 머릿속 정보를 혼동하지 않은 것이다. 연구진은 이 능력을 정확히 측정하기 위해 다른 AI 모델을 심사위원으로 활용했다. 10개 단어 목록(주입한 단어 1개 + 무작위 단어 9개)을 주고 어떤 것과 가장 관련 있는지 고르게 했다. 무작위로 찍기만 해도 10%는 맞출 수 있는 테스트다.</p> <p contents-hash="b60b98a94a577c402941fabfb3940a177b407afddc22de1aa119039858647589" dmcf-pid="XKAQV6HljU" dmcf-ptype="general">오푸스 4와 4.1이 가장 높고 안정적인 성능을 보였다. 다른 모델들도 무작위 추정보다는 다소 높은 값을 보였으나, 논문은 최신 고성능 모델만이 일관되게 높은 성취를 보였다고 밝혔다. 이러한 능력은 모델과 실험 조건에 따라 크게 달라진다. 오푸스 4.1의 경우 이 실험에서도 가장 좋은 성능을 보인 처리 단계가 전체의 약 3분의 2 지점이었다. 이전 실험과 같은 위치다.</p> <p contents-hash="d77d11c38d85d3e902aebde046e4e35c0785cb822148778aa0970c45580aa58a" dmcf-pid="Z9cxfPXScp" dmcf-ptype="general"><strong>강제로 엉뚱한 답 시켰더니... AI "내가 한 말 아니에요" vs "내가 한 말 맞아요"</strong></p> <p contents-hash="2d521a1c66f619c156e7c67feb14202c9a72e0250bf0f5d693fe49eb5fc63c59" dmcf-pid="52kM4QZvj0" dmcf-ptype="general">연구진은 AI가 명시적으로 물어보지 않아도 스스로 자기 정보를 확인하는지 알아보기 위해 실험을 했다. AI에게 어떤 문장을 보여주고 "떠오르는 단어를 말해봐"라고 한 뒤, AI가 직접 답하게 하는 대신 연구진이 강제로 엉뚱한 단어(예: '빵')를 AI 입에 넣었다. 그리고 다음 대화에서 "방금 그 단어를 의도적으로 말한 거야, 아니면 실수야?"라고 물었다. 일반적으로 AI는 "그건 실수였어요" 또는 "제가 한 말이 아니에요"라고 답했다.</p> <p contents-hash="27c2fd4d2787c8e717ba1dbe0848f8415eb87dcea75b0b93dfd8bf569d69f2bc" dmcf-pid="1VER8x5To3" dmcf-ptype="general">그런데 연구진이 강제로 넣은 단어('빵')에 해당하는 정보 패턴을 그 단어가 나오기 직전 AI의 머릿속에 미리 주입하면, AI는 "아니요, 그건 의도한 말이었어요"라고 답했다. 즉, AI가 자기 머릿속 정보를 확인해서 "아, 내가 '빵'에 대한 정보를 가지고 있었네. 그럼 내가 한 말이 맞아"라고 판단한 것이다.</p> <p contents-hash="a2293f589779099d85c114f0600cd1ef7aee61dab7531ed68b520ec4fcefc442" dmcf-pid="tfDe6M1yAF" dmcf-ptype="general">연구진은 50개의 무작위 문장과 단어 조합으로 이 실험을 반복했다. AI가 "실수였어요"라고 사과하는 비율을 측정했더니, 맞는 정보를 주입했을 때 특정 처리 단계에서 사과율이 크게 떨어졌다. 흥미로운 점은 이 실험에서 최고 성능을 보인 처리 단계가 오푸스 4.1의 경우 전체의 절반을 약간 넘는 지점이었다는 것이다. 이전 실험들의 최적 지점(약 3분의 2)과 다르다. 이는 AI가 여러 가지 다른 방식으로 자기 정보를 확인한다는 뜻이다. 오푸스 4.1과 4가 다른 모델들보다 이 능력에서 상대적으로 나은 결과를 보였다.</p> <p contents-hash="6117e6de504f5fdf7161b4c4e9df5da00dc271e197f7c57811e571f9975bf66e" dmcf-pid="F4wdPRtWot" dmcf-ptype="general"><strong>"수족관 생각해"라고 하면 정말 생각한다... 모든 AI 모델에서 확인</strong></p> <p contents-hash="3944f2900c3adbaf0cd9b1c0bfdb18c21fe00936685bce844239c6ea90a2e912" dmcf-pid="38rJQeFYN1" dmcf-ptype="general">연구진은 마지막으로 AI가 의도적으로 자기 내부 정보를 조절할 수 있는지 알아봤다. AI에게 "벽에 걸린 오래된 시계가 크게 째깍거렸다"라는 문장을 쓰라고 하면서 "쓰는 동안 '수족관'에 대해 생각해"라고 지시했다. 그런 다음 AI가 그 문장을 쓸 때의 내부 신호를 측정해서, '수족관' 정보 패턴과 얼마나 비슷한지 확인했다. 결과를 보니 AI는 "수족관에 대해 생각해"라고 지시받았을 때 실제로 그 단어를 내부적으로 강하게 나타냈다. 더 흥미로운 건 "수족관에 대해 생각하지 마"라고 지시했을 때는 덜 강하게 나타났다는 것이다(하지만 완전히 0은 아니었다).</p> <p contents-hash="c277dd38223d18d01bf7219bc70e86a0c45196e8d103ca5e47e5a4f866dcfb03" dmcf-pid="06mixd3GN5" dmcf-ptype="general">연구진이 여러 AI 모델을 비교한 결과, 모든 모델이 "생각해" 지시를 받았을 때 기본 수준보다 높게 그 개념을 나타냈다. 그리고 모든 모델이 "생각해" 대 "생각하지 마" 사이에 차이를 보였다. 흥미롭게도 오래되고 성능이 낮은 모델일수록 이 차이가 더 컸다.</p> <p contents-hash="5b9c376f14718388fa501bf2ee71f552508621bc0218684fb11ba7b131dbecec" dmcf-pid="psuyCvJ6NZ" dmcf-ptype="general">"생각해"와 "생각하지 마" 사이의 차이는 보통 AI 처리 과정 후반부에서 나타났고, 마지막으로 갈수록 줄어들었다. 최신 모델(오푸스 4.1 같은)에서는 마지막 단계에서 그 표현이 기본 수준으로 돌아갔다. 반면 옛날 모델(클로드 3 시리즈 전부)에서는 마지막 단계에서도 기본보다 높게 유지됐다. 연구진은 이것이 옛날 모델에서는 생각이 "말하고 싶은 충동"으로 나타나지만, 오푸스 4.1에서는 "조용한" 내부 정보로 남는다는 뜻이라고 설명했다.</p> <p contents-hash="d91f536c4093a3e5726c66a5df72f8a7e3897511c5af2ed47d30eb1d4932f224" dmcf-pid="UO7WhTiPNX" dmcf-ptype="general">연구진은 직접 명령("생각해") 대신 조건문("생각하면 보상을 줄게")을 써도 비슷한 결과가 나왔다고 밝혔다. 이런 기본 능력은 성능과 관계없이 테스트한 모든 AI 모델에서 나타났다.</p> <p contents-hash="c48fbc039e34f96bc86eb0c7aeabf64add47e4248805c348ec27cec697697286" dmcf-pid="uIzYlynQoH" dmcf-ptype="general"><strong>FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="ca5c583906d013e5954d0b48fb3f7687b3e59b255dbaf0fa0724c27f3a021868" dmcf-pid="7CqGSWLxaG" dmcf-ptype="general"><strong>Q. AI의 '내성적 인식'이 정확히 뭔가요?</strong></p> <p contents-hash="90e7e3acf2a765635261220e96fb4e8af5d95bd661006cd396b57e02ff719df3" dmcf-pid="zhBHvYoMcY" dmcf-ptype="general">A. AI가 자기 내부에서 무슨 일이 일어나는지 일부를 알아차리고 말할 수 있는 제한적 능력입니다. 연구진은 ①정확성 ②근거성 ③내부성 ④생각에 대한 생각이라는 4가지 기준을 제시했습니다. 하지만 이 능력은 매우 불안정하고 대부분 실패하며, 인간의 자기 인식이나 주관적 경험과는 근본적으로 다르다고 연구진은 강조했습니다.</p> <p contents-hash="9cad69993b94a12344f7cd8ae49a31db11d0f5b7deba7c9a431d4645ba573761" dmcf-pid="qlbXTGgRoW" dmcf-ptype="general"><strong>Q. 이게 실생활에서 어떤 의미가 있나요?</strong></p> <p contents-hash="46bc6c17816ee73f495ec40aeca4909ede6d34f1d3cbf9d376849d816080ace6" dmcf-pid="BSKZyHaeay" dmcf-ptype="general">A. 이런 제한적 능력이라도 개선된다면, AI가 자기 결정을 더 투명하게 설명할 수 있을 것입니다. 하지만 현재로서는 너무 불안정해서 실용적으로 활용하기 어렵습니다. 연구진은 이 능력이 미래 AI에서 더 발전할 가능성은 있지만, 현재는 실패가 훨씬 더 많다고 밝혔습니다.</p> <p contents-hash="a5bd0307b0de75e74c95a8f950734a2791bb6baee9693d6ca59aebb541d90db2" dmcf-pid="bv95WXNdcT" dmcf-ptype="general"><strong>Q. 이게 AI가 의식이나 자아를 가졌다는 뜻인가요?</strong></p> <p contents-hash="3241a4fb91ed5b70cfd5e21a4ecc5a08f6ef99974e0b199afd72ebaba079bc5b" dmcf-pid="KT21YZjJav" dmcf-ptype="general">A. 아닙니다. 연구진은 이 연구가 인간과 같은 자기 인식이나 주관적 경험, 의식을 입증하는 것이 아니라고 분명히 밝혔습니다. 이는 매우 제한적이고 기능적인 내부 상태 인식 일부에 불과하며, 철학적으로 의미 있는 자아나 의식과는 다르다고 강조했습니다. 다만 이런 능력이 계속 발전한다면 향후 AI 의식 논의와 관련될 수 있다고 조심스럽게 언급했습니다.</p> <p contents-hash="96a40d6c716565978f8ad2b3f96a5a40d6b727a09872cb60f168ee656ddf5142" dmcf-pid="9yVtG5AicS" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e23057b7be08ceb7667adeb1b9523744c3bc5f5553e2e8321f96c80f2f5ffb15" dmcf-pid="2WfFH1cnal" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기