로그인
토토사이트
신규사이트
업체홍보/구인
먹튀사이트/제보
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노
토토
홀덤
구인
구직
총판
제작업체홍보
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
윤남기♥이다은, 15개월 아들 성장·발육 걱정 “왜 이렇게 안 걷는 걸까요?”(남다리맥)
N
[연예뉴스]
'짱구' 금지→'귀칼'도 시들…中, 일본 영화 '상영 중단' 공식화
N
[연예뉴스]
'매니저 배신' 성시경, '헬쑥해진 모습' 깜짝 등장…심경 밝힐까
N
[IT뉴스]
현대모비스 “MS 코파일럿 도입해 업무혁신...AI 실력이 개인역량인 시대”
N
[IT뉴스]
메모리 수급난에 파운드리도 차질… 中 SMIC, 최대 가동률에도 성장세 ‘주춤’
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]'의학 드라마'로 AI 실력 측정했더니...희귀질환 진단 정확도 38% 그쳐
온카뱅크관리자
조회:
3
2025-11-18 14:07:29
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="GBzB1Pb0k0"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="HbqbtQKpo3" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="af1215c6eb409a25db2278913650244c06ca7c1f2ce4632b88b49f90a646f501" dmcf-pid="XKBKFx9UoF" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118140652632tfof.jpg" data-org-width="640" dmcf-mid="2cZ1SqtWgV" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118140652632tfof.jpg" width="658"></p> </figure> <p contents-hash="7439dbd93b083b7a5be165f0a3a426e9142558cd5dec7c4e39dc26ff88f4761b" dmcf-pid="Z9b93M2ugt" dmcf-ptype="general">펜실베이니아 주립대학교 연구팀이 발표한 논문에 따르면, 의학 드라마 '하우스(House M.D.)'를 활용해 대형 언어모델(LLM)의 희귀질환 진단 능력을 평가한 결과, 최신 AI 모델도 정확도가 40%에 미치지 못하는 것으로 나타났다. 이번 연구는 AI가 의료 현장에서 실제로 활용되기까지 아직 상당한 과제가 남아있음을 보여준다.</p> <p contents-hash="dbdf3d3acbbff0308104257f46bd93d8aa19321058bbfb31cfea4ea4559c0f45" dmcf-pid="52K20RV7a1" dmcf-ptype="general"><strong>의학 드라마가 AI 평가 기준이 된 이유</strong></p> <p contents-hash="b006d96cd17f50638bf82065d964e4e11ecea7182bbc5926925bacac20af4fef" dmcf-pid="1V9VpefzN5" dmcf-ptype="general">연구팀은 176개의 증상-진단 쌍으로 구성된 새로운 데이터셋을 구축했다. 이 데이터는 의학 드라마 '하우스'의 전체 8개 시즌 176개 에피소드에서 추출한 것으로, 환자의 증상 설명과 최종 진단명을 짝지어 구성했다. '하우스'를 선택한 이유는 명확하다. 이 드라마는 의학 교육과정에 성공적으로 통합되어 희귀질환 인식을 가르치는 데 활용되고 있다. 또한, 보건의료 전공 학생의 49.6%가 정기적으로 의학 드라마를 시청하며, '하우스'가 가장 인기 있는 프로그램 중 하나로 나타났다. 이러한 프로그램들은 생명윤리 및 전문직 실무 문제를 효과적으로 가르치는 것으로 확인됐다.</p> <p contents-hash="0195675427f437e31a59eef3ffb4ba92cf3dcd80d4bd080c88e8ba842bc8a95f" dmcf-pid="tDkDnSwaaZ" dmcf-ptype="general">'하우스'는 의학 교육에서 거의 다루지 않는 희귀질환을 자주 다룬다. 또한 드라마적 요소에도 불구하고 제작진은 의료 컨설턴트를 고용해 임상 정확성을 확보하며, 실제 진료를 반영하는 일관된 진단 프레임워크를 따른다. 실제 환자 데이터와 달리 '하우스' 콘텐츠는 공개적으로 접근 가능해 윤리적 제약 없이 재현 가능한 연구를 가능하게 한다.</p> <p contents-hash="555117dd081c7aa1a24ae401a67d09b0cd3b9df93a103f7683805d80bccd974a" dmcf-pid="FwEwLvrNcX" dmcf-ptype="general"><strong>GPT-4o 미니 16%, 제미나이 2.5 프로 38%...2.3배 성능 격차</strong></p> <p contents-hash="b5376e878a96b9dbfb939baf39d4ff4f35c4141d1ff05c6b4192af9f0e7707be" dmcf-pid="3rDroTmjoH" dmcf-ptype="general">연구팀은 GPT-4o 미니, GPT-5 미니, 제미나이 2.5 플래시, 제미나이 2.5 프로 등 4개의 최신 LLM을 평가했다. 이 선택은 다양한 모델 계열과 성능 수준을 포괄하여 여러 아키텍처와 학습 방법에 걸친 진단 추론을 평가할 수 있게 했다. 평가 방식은 각 모델에 환자의 인구통계 정보, 시간에 따른 증상 진행, 관련 병력, 초기 진단 검사 결과를 포함한 구조화된 의료 사례 형식의 프롬프트를 제공하고 단일 주요 진단을 요청하는 방식이었다. 모델은 결정론적 출력을 보장하기 위해 온도를 0.0으로 설정하고, 최대 토큰 길이는 1500으로 설정했다.</p> <p contents-hash="40c99f1d85b056f5cc2857736bdfa8e99cc443cdd013a79ab55afdb21a90a2be" dmcf-pid="0mwmgysAgG" dmcf-ptype="general">결과는 모델별로 큰 차이를 보였다. 가장 낮은 성능을 기록한 GPT-4o 미니는 176개 케이스 중 29개만 정확히 진단해 16.48%의 정확도를 보였다. 반면 최고 성능을 기록한 제미나이 2.5 프로는 68개를 맞춰 38.64%의 정확도를 달성했다. GPT-5 미니는 65개 정답으로 36.93%, 제미나이 2.5 플래시는 58개 정답으로 32.95%의 성적을 거뒀다. 최고 성능과 최저 성능 사이에는 2.3배의 차이가 발생했다.</p> <p contents-hash="427edff44acb495b83b72db70fd2ea4983a9ff183a023f47bcff02649eba86bd" dmcf-pid="psrsaWOcNY" dmcf-ptype="general">성능은 모델뿐 아니라 시즌별로도 차이를 보였다. 제미나이 2.5 프로 기준으로 시즌 1에서는 23개 에피소드 중 13개를 맞춰 56.52%의 정확도를 보인 반면, 시즌 5에서는 24개 중 5개만 맞춰 20.83%로 가장 낮은 성적을 기록했다. 시즌 8은 21개 중 11개를 맞춰 52.38%의 정확도를 보였다. 연구팀은 이러한 변동이 시리즈 전반에 걸쳐 진단 복잡성이 다양하며, 후반 시즌이 더 어려운 희귀질환 사례를 다룰 가능성을 시사한다고 분석했다. 그러나 시즌 8의 비교적 강한 성능은 시간적 진행만으로는 정확도 차이를 완전히 설명할 수 없으며, 사례별 진단 복잡성이 주요 요인으로 보인다고 밝혔다.</p> <p contents-hash="b6921c2820c12cd93dabcc231e3be2ce1e3be500a0cdaba3e87d606f24debb40" dmcf-pid="UOmONYIkNW" dmcf-ptype="general"><strong>흔한 질병은 잘 맞추지만 희귀질환과 다계통 질환엔 어려움</strong></p> <p contents-hash="8e216b87a6eae8d64f48361b9883eab092961452ce4d21c7ee4d5348b7948153" dmcf-pid="uIsIjGCEgy" dmcf-ptype="general">모든 모델은 뚜렷한 증상을 보이는 일반적인 질환에서 더 나은 성능을 보였다. 수막염, 심근경색, 폐색전증 등은 상대적으로 잘 진단했다. 반면 모든 모델은 신경낭미충증, 에르드하임-체스터병 같은 희귀질환에서 어려움을 겪었다. 전신홍반루푸스, 사르코이드증 같은 다계통 자가면역질환도 진단이 어려웠다. 또한 노출 이력과 임상 증상을 통합해야 하는 독성학적 사례에서도 낮은 성능을 보였다.</p> <p contents-hash="e2a165632a34197e93bc3682a63571a11fdfa4e9fe53e247ea6017df5bde6c94" dmcf-pid="7COCAHhDjT" dmcf-ptype="general">연구팀은 모델 간 성능 격차가 아키텍처 차이와 학습 방식이 진단 추론 능력에 상당한 영향을 미친다는 것을 보여준다고 설명했다. GPT-5 미니와 제미나이 2.5 프로의 우수한 성능은 향상된 추론 능력을 갖춘 신세대 모델이 이전 버전 대비 의미 있는 개선을 보이지만, 여전히 상당한 한계가 남아있음을 나타낸다.</p> <p contents-hash="b835803169d0f86f4e8fe9d9ff1b36622790dd175656c621f71268c5efe79673" dmcf-pid="zhIhcXlwNv" dmcf-ptype="general"><strong>"40% 정확도, 낮아 보이지만 의미 있는 진전"</strong></p> <p contents-hash="073c76fe4aacc1e74b4d66377b2cf1f367f089649d8b2631f440e6424ec13421" dmcf-pid="qlClkZSraS" dmcf-ptype="general">연구팀은 GPT-4o 미니의 16.48%에서 제미나이 2.5 프로의 38.64%로 향상된 결과가 임상적으로 유용한 AI 진단 시스템을 향한 의미 있는 진전을 보여준다고 강조했다. 절대 정확도 수준은 개선의 여지가 있지만, 결과를 맥락화하는 것이 중요하다고 설명했다.</p> <p contents-hash="d22bdfed1b3595d830a6facf4aca8d811046e8b0654c239dc4bc8e47f33e38ce" dmcf-pid="BShSE5vmcl" dmcf-ptype="general">연구팀은 "이번 벤치마크는 전문 의사들조차 어려워하는 진단적으로 도전적인 사례만을 다루며, 일반적인 의료 AI 벤치마크보다 상당히 어려운 평가 과제"라고 밝혔다. 이처럼 예외적으로 어려운 사례의 거의 40%를 정확히 진단할 수 있다는 것은 의미 있는 의료 추론 능력을 보여주며, 향후 도메인 특화 파인튜닝, 의학 지식베이스와의 통합, 하이브리드 추론 접근법을 통한 개선을 위한 견고한 기반을 구축한다고 평가했다.</p> <p contents-hash="0c6e63107868761b6baef1c52d4edc0daff4e8b414af3dec1c3cf78f00654fc4" dmcf-pid="bvlvD1Tsoh" dmcf-ptype="general">연구팀은 또한 한계점도 명확히 했다. 허구적 서사에서 비롯된 잠재적 편향, 전문 의료 검증 부족, 오류의 임상적 중요성을 포착하지 못하는 이진 정확도 지표 등이 있다. 특히 모델들이 확신에 찬 잘못된 설명을 자주 제공했으며, 이는 전문 훈련과 검증 없이 임상 배치할 경우 우려를 제기한다고 밝혔다.</p> <p contents-hash="966e869ac62002d14e42148bf3184160ed8e1be6c1006804a9ef644edd6aef0a" dmcf-pid="KTSTwtyOAC" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="997794df1d4f39f78c5cc71d429fea8833e55f77aec9c20947d4a01414890f4c" dmcf-pid="9yvyrFWIAI" dmcf-ptype="general"><strong>Q1. AI가 의사를 대체할 수 있나요?</strong></p> <p contents-hash="95bdcea6e0f781975df056163f47d1a78ce5145b6aa12185ccc06f8e0d6b2b84" dmcf-pid="2COCAHhDkO" dmcf-ptype="general">A: 아직은 어렵습니다. 이번 연구에서 최고 성능의 AI도 희귀질환 진단 정확도가 38.64%에 그쳤습니다. AI는 의사의 진단을 보조하는 도구로 활용하는 것이 현실적이며, 특히 복잡한 희귀질환이나 다계통 질환의 경우 전문의의 판단이 필수적입니다.</p> <p contents-hash="88b1785862147df041ff37c15106ca35fefe1564d0940594a2e2e3144ecdd374" dmcf-pid="VhIhcXlwAs" dmcf-ptype="general"><strong>Q2. 왜 의학 드라마로 AI를 평가했나요?</strong></p> <p contents-hash="2403c0513f3b1819d1235cd29fa464a69da7bea6ab79b850f40aa424a27cc0e9" dmcf-pid="flClkZSrkm" dmcf-ptype="general">A: 의학 드라마 '하우스'는 실제 의학교육 현장에서 희귀질환 교육 자료로 활용되며, 의료 전문가의 검증을 받은 콘텐츠입니다. 실제 환자 데이터는 개인정보 보호 문제로 활용이 어려운 반면, 드라마는 공개적으로 접근 가능하면서도 임상적으로 의미 있는 사례를 제공합니다.</p> <p contents-hash="4282225bdbd074945c1ebb4e4d9c0e9abb15607e1188dec096263150405f4859" dmcf-pid="4ShSE5vmAr" dmcf-ptype="general"><strong>Q3. AI가 잘 진단하는 질병과 어려워하는 질병은 무엇인가요?</strong></p> <p contents-hash="13cd56731e8915c8461dbdb1cbbab66aaf8876c0b4a259ca28ee2eb0adf0782d" dmcf-pid="8vlvD1Tskw" dmcf-ptype="general">A: 수막염, 심근경색, 폐색전증처럼 뚜렷한 증상을 보이는 일반적인 질환은 비교적 잘 진단합니다. 반면 신경낭미충증 같은 희귀질환, 전신홍반루푸스 같은 다계통 자가면역질환, 독성물질 노출 사례 등에서는 모든 AI 모델이 어려움을 겪었습니다.</p> <p contents-hash="9bb975e26863f5f190fe4446d6e2bde0d2c50843649e7d30057eb965d28ee46f" dmcf-pid="6TSTwtyOkD" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="cc9da43b8362c5199f154145be2ac6f75eb265a800c5dbd80379bbb0ea5b26d5" dmcf-pid="PyvyrFWIaE" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기