로그인
토토사이트
먹튀사이트/제보
업체홍보/구인
신규사이트
지식/노하우
놀이터홍보
판매의뢰
스포츠분석
뉴스
후기내역공유
커뮤니티
포토
포인트
보증업체
카지노 먹튀
토토 먹튀
먹튀제보
구인
구직
총판
제작업체홍보
카지노
토토
홀덤
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
토토 홍보
카지노 홍보
홀덤 홍보
꽁머니홍보
신규가입머니
제작판매
제작의뢰
게임
축구
야구
농구
배구
하키
미식축구
스포츠뉴스
연예뉴스
IT뉴스
카지노 후기
토토 후기
홀덤 후기
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
투견부부 아내 “6년간 5000만원 빚”…김구라 “돌아버려” 격분 (X의 사생활)
N
[연예뉴스]
박나래→키 여파 직격…나혼산, 5년 만에 역대 최저 시청률 4.4% 기록 ('나혼산')
N
[IT뉴스]
[인터뷰] 베트남-한국 AI 시너지: FPT가 이끄는 'AI-퍼스트' 미래 전략
N
[IT뉴스]
[단독] 박윤영호 KT, 광역본부 없앤다···6년 만에 해체
N
[연예뉴스]
'투견부부' 이혼 사유, 김구라와 똑같았다…"처음엔 10억으로 시작, 진짜 돌아버려" ('X의 사생활')
N
커뮤니티
더보기
[유머★이슈]
바란 은퇴보다 더 소름돋는점
[유머★이슈]
오늘 국군의날 예행연습에 최초 공개된 장비들
[유머★이슈]
손흥민이 한국 병역 시스템에 영향 끼친 것.
[유머★이슈]
시댁의 속터지는 스무고개식 대화법
[유머★이슈]
엄마. 나 여자 임신시켜버렸어
목록
글쓰기
[IT뉴스]"AI가 CCTV 속 폭력 포착"...제미나이, ‘주먹 드는 순간’ 95% 정확도로 잡는다
온카뱅크관리자
조회:
70
2025-11-18 20:07:30
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="xmmihefza6"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="yLLVjK0Hc8" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="0a66614eb87ecaca3ed0f6e210c41d945ef812e4c9d9878ef0b12de3172a0c05" dmcf-pid="WoofA9pXk4" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200540083kbib.jpg" data-org-width="640" dmcf-mid="6LMybSwacx" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200540083kbib.jpg" width="658"></p> </figure> <p contents-hash="41e61088144d65a7969869cc020817374caa36d16c5fde66ec2c5b2e539f8cb7" dmcf-pid="Ygg4c2UZAf" dmcf-ptype="general">멀티모달 AI 영상 분석 솔루션 기업 PIA-SPACE가 구글의 인공지능 '제미나이'를 활용해 CCTV에서 폭력 상황을 실시간으로 찾아내는 기술을 개발했다. 해당 연구 논문에 따르면, 정확도는 95.25%에 달한다. 기존 방식이 5~30초 길이의 영상을 통째로 학습했다면, 이 기술은 폭력이 실제로 일어나는 짧은 순간만 집중적으로 학습해 정확도를 크게 높였다. 영상을 1~2초 단위로 잘게 쪼개 분석하는 것이다.</p> <p contents-hash="10ba7d76b427be1327711e1b75c502925fda4e09da0845adc8dd429bb5961b99" dmcf-pid="Gaa8kVu5NV" dmcf-ptype="general"><strong>0초 영상 대신 1~2초로 잘게 쪼개 학습... "순간 포착"이 핵심</strong></p> <p contents-hash="16f7d050e036c9b4f66196dec3dcb2bbc83e91f902a1514834a59097c8b91f03" dmcf-pid="HNN6Ef71g2" dmcf-ptype="general">기존의 CCTV 폭력 감지 AI는 5~30초 길이의 영상을 학습 자료로 사용했다. 하지만 실제 폭력 행위는 그중 1~2초 정도의 짧은 순간에만 일어난다. 긴 영상에서 중요한 장면을 골라내는 방식으로는 순간적인 폭력 행위를 제대로 포착하기 어려웠다. 또한 계산량이 많아 실시간으로 작동하기에도 부적합했다.</p> <p contents-hash="38e3e50011a771f39c1f5a495ed63dac5b1852a5b4c1dd006a4f9cbe33f69ddc" dmcf-pid="XjjPD4ztA9" dmcf-ptype="general">연구진이 개발한 '짧은 윈도우 슬라이딩 러닝' 방식은 이런 문제를 해결했다. 긴 영상을 1~2초 단위의 짧은 영상으로 잘라낸 뒤, 영상마다 구글의 제미나이가 자동으로 설명을 붙인다. 예를 들어 "사람들이 서로 밀치는 장면" 또는 "주먹을 들어 올리는 행동" 같은 문장으로 표현하는 식이다. 이렇게 만들어진 설명은 크게 '폭력'과 '비폭력'으로 나뉘고, 다시 '주먹질', '발차기', '밀기', '쫓기' 등으로 세분화된다.</p> <p contents-hash="4565ceb00e022d2a05190194a27dfb09b196bb175e8d55a7d06834852781cd59" dmcf-pid="ZAAQw8qFaK" dmcf-ptype="general">제미나이가 자동으로 만든 설명은 3명의 전문가가 40시간씩, 총 120시간 동안 검토해 오류를 바로잡는다. 이 과정을 거쳐 정확도 높은 학습 자료가 완성된다. 이 방식은 기존의 긴 영상 중심 학습에서 벗어나 실시간 감시에 적합한 새로운 방법을 제시한다.</p> <figure class="figure_frm origin_fig" contents-hash="e5da6636d67484fae5a686a1a17be543cda90060d7611f0dfb03e2148f2cd2c9" dmcf-pid="5ccxr6B3gb" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200541353iwex.jpg" data-org-width="640" dmcf-mid="Pn2s3wgRjQ" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200541353iwex.jpg" width="658"></p> </figure> <p contents-hash="181cb0fe0e4fb70b65704b106c2ce92a8911159fc79af288ab6edd36cbc4ec78" dmcf-pid="1kkMmPb0jB" dmcf-ptype="general"><strong>영상의 모든 장면 활용해 정보 손실 막는다... 비전-언어 AI 모델 사용</strong></p> <p contents-hash="67efc655c23368fe70df92a13b70206cfc7acb69cca5b114472833098d97c1b5" dmcf-pid="tEERsQKpAq" dmcf-ptype="general">기존 방식은 긴 영상에서 일정 간격으로 몇 장면만 뽑아 학습했다. 이 과정에서 중요한 정보가 빠질 수 있었다. 반면 이 연구는 1~2초의 짧은 영상 안에 있는 모든 장면을 학습에 사용한다. 덕분에 시간의 흐름에 따른 정보를 빠짐없이 담아낼 수 있다.</p> <p contents-hash="5d7fbb2bc064c4b0b24fc1544120867efa79e2e3a81fcf2d9de841238dcde362" dmcf-pid="FDDeOx9Uaz" dmcf-ptype="general">학습에는 InternVL3라는 AI 모델을 사용했다. 이 모델은 영상과 글을 함께 이해하는 '비전-언어 모델'이다. 영상을 분석하는 부분과 글을 이해하는 부분이 따로 있고, 이 둘을 연결해 영상 속 행동의 의미까지 파악한다. 12~15장의 화면을 입력받아 제미나이가 만든 설명과 함께 학습하기 때문에, 단순히 화면만 보는 게 아니라 그 행동이 무엇을 뜻하는지도 배운다.</p> <p contents-hash="43d695cfc1a4c5b0e5e900f90973f318d47d85d0fe25033342d8ee6f47ab9b50" dmcf-pid="3wwdIM2ug7" dmcf-ptype="general">실제 CCTV에서 사용할 때는 15장의 화면 단위로 계속 입력 받아 실시간으로 폭력 여부를 판단한다. 이런 구조 덕분에 찰나의 순간에 벌어지는 폭력 상황도 놓치지 않고 잡아낼 수 있다.</p> <p contents-hash="586f9eff03ba9083bd941dae8b2d4453bd820afbd3314c1d648331835a2b7e6f" dmcf-pid="0rrJCRV7ku" dmcf-ptype="general"><strong>실제 CCTV 영상 데이터로 테스트... 기존 최고 기술 넘어섰다</strong></p> <p contents-hash="1530b0ca77971f50a2c84b2effb87b31a5bb0bc0cdc3a54b2094eb077baa2dcd" dmcf-pid="pllNWox2NU" dmcf-ptype="general">연구진은 실제 CCTV 환경에서 촬영된 폭력·비폭력 영상 2,000개로 구성된 'RWF-2000' 데이터로 실험했다. 그 결과 95.25%의 정확도를 기록했다. 이는 2025년에 나온 기존 최고 기술인 'MSTFDet'의 95.20%를 근소하게 앞선 수치다. 특히 복잡한 구조 없이 짧은 영상 학습만으로 최고 수준의 성능을 냈다는 점에서, 시간의 흐름을 포착하는 방식이 효과적임을 증명했다.</p> <p contents-hash="5ddd0e232255298bceed26feeec5f56737e921a61fa4ecfff10597efb3a9c45a" dmcf-pid="USSjYgMVap" dmcf-ptype="general">2023~2024년에 발표된 다른 폭력 감지 기술들과 비교해도 우수했다. CUE-Net(94.00%), Violence 4D(94.67%), Structured Keypoint Pooling(93.40%) 등을 모두 앞질렀다. 복잡한 방법보다 짧은 시간 단위를 세밀하게 학습하는 게 더 좋은 결과를 낸다는 것을 보여준다.</p> <figure class="figure_frm origin_fig" contents-hash="364218c33d958d52cb64b5c6daa1ef45cef74391143f58f9977942208009ba66" dmcf-pid="uvvAGaRfa0" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200542653mlqy.jpg" data-org-width="640" dmcf-mid="Q0WEZAJ6oP" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/18/ZDNetKorea/20251118200542653mlqy.jpg" width="658"></p> </figure> <p contents-hash="cc4fd508a01cc51f7f3ef91a3379e1bd245ccc0d9a837449d7fa86b3c9c3ce9c" dmcf-pid="7TTcHNe4o3" dmcf-ptype="general"><strong>영상 길이 줄였더니 정확도 27.5%p 껑충... 데이터 구성 방식이 성능 좌우</strong></p> <p contents-hash="b06eee5d3ed63bf4a58bac78db24082ddc949d5660cf5878b4588e0c45968292" dmcf-pid="zyykXjd8jF" dmcf-ptype="general">연구진은 여러 종류의 데이터로 추가 실험을 진행했다. 가장 눈에 띄는 결과는 'UCF-Crime' 데이터를 사용한 실험이었다. 이 데이터는 원래 수 분 길이의 긴 영상으로 구성돼 있다. 이를 그대로 학습에 사용하자 정확도가 55.75%에 불과했다. 하지만 같은 데이터를 1~2초 단위로 잘라 자동 라벨링한 뒤 학습하니 83.25%로 27.5%포인트나 높아졌다.</p> <p contents-hash="b7a27b8e9007e599fb37d0be55e56fc172ee2aadea331bc4ee68ff094202540d" dmcf-pid="qWWEZAJ6Nt" dmcf-ptype="general">여러 출처의 짧은 영상 데이터를 함께 사용한 실험에서는 95.25%로 가장 높은 정확도를 기록했다. AI Hub CCTV 데이터(실내외 감시 상황 영상), SCVD 데이터(보행자·군중·이상 상황 영상), RWF-2000 등을 결합한 결과다. 서로 다른 종류의 짧은 영상 데이터를 섞을수록 성능이 좋아진다는 사실을 확인했다.</p> <p contents-hash="c15ddeceb254eba5c237c7d6d9f04b3a787e33e360733669cd5af4baeea651af" dmcf-pid="BYYD5ciPA1" dmcf-ptype="general"><strong>영상 AI의 새로운 방향과 풀어야 할 과제</strong></p> <p contents-hash="7fae039edab0659fd40d2411f642de574c3d2757cd15b77a6546681e93580d1e" dmcf-pid="bGGw1knQc5" dmcf-ptype="general">이 연구는 '데이터를 어떻게 나누느냐'가 AI 성능을 크게 좌우한다는 사실을 보여준다. 같은 UCF-Crime 데이터를 긴 영상 그대로 쓸 때와 짧게 자른 뒤 쓸 때 정확도가 27.5%포인트나 차이 났다. 단순히 데이터를 많이 모으거나 복잡한 모델을 만드는 것보다, 데이터를 어떤 단위로 구성하느냐가 더 중요할 수 있다는 뜻이다. 영상 AI 연구에서 화면 추출 방식, 영상 길이, 시간 단위 설정 등을 다시 살펴봐야 한다는 시사점을 준다.</p> <p contents-hash="00723d52525eed1648cd3864e46c81b2c9eb616e636cb87969cd586506f34684" dmcf-pid="KHHrtELxgZ" dmcf-ptype="general">또한, 실시간 감시 시스템이 발전할수록 안전과 사생활 보호 사이의 균형 문제가 중요하기 때문에 기술 상용화에는 주의가 필요해 보인다. 95% 이상의 정확도로 폭력을 실시간 감지한다는 것은 기술적으로 진보지만, 감시 범위가 무분별하게 넓어질 우려도 있다. 연구진은 향후 "공포, 절도, 자살 시도" 등 더 복잡한 상황으로 기술을 확장할 계획이라고 밝혔다. 기술 발전과 함께 명확한 사용 기준과 투명한 운영 방식을 마련해야 할 것이다.</p> <p contents-hash="1289584c9ac3381fb9d827f268a43f9f4edbc73ebb7b0bfb91095293ea3cba5a" dmcf-pid="9XXmFDoMkX" dmcf-ptype="general">마지막으로, 이 연구는 과학기술정보통신부와 정보통신산업진흥원(NIPA)의 2025년 지역 디지털 기초체력 지원사업으로 진행됐다. '비전-언어 모델 기반 자동 이상 감지 실시간 영상 분석 AI 솔루션'의 고도화와 해외 진출이 목표다. 생성형 AI 시대에 특정 분야에서 독자적인 방법과 경쟁력을 확보할 수 있는 가능성을 보여준다.</p> <p contents-hash="d61ce2861fea5266652454d2659777351ef2fd0e6ca91c3d271e310fa4e9584a" dmcf-pid="2ZZs3wgRjH" dmcf-ptype="general"><strong>FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="2f2de40fa1fcea95a0f96c01ddf41beada9b427510383d7dfafec22a3ff91f0c" dmcf-pid="V55O0raekG" dmcf-ptype="general"><strong>Q1. 짧은 윈도우 슬라이딩 러닝이란 무엇인가요?</strong></p> <p contents-hash="ad6db85df3d32903e475102234356c70e60e1218d84f729ee7d1358079577967" dmcf-pid="f11IpmNdkY" dmcf-ptype="general">A. 긴 영상을 1~2초씩 잘라서 학습하는 방법입니다. 기존에는 긴 영상에서 몇 장면만 골라 학습했다면, 이 방법은 짧게 자른 영상의 모든 장면을 빠짐없이 학습합니다. 덕분에 순식간에 벌어지는 폭력 행위를 더 정확하게 찾아낼 수 있습니다.</p> <p contents-hash="321496bb4f1c6cd8d54e8408e640fb66897525b98a79a5109529122f5bf1e3fa" dmcf-pid="4ttCUsjJgW" dmcf-ptype="general"><strong>Q2. 제미나이는 어떻게 영상에 설명을 붙이나요?</strong></p> <p contents-hash="f9e7baf5f52585b1ec4506f8d69ad0e906437a9cfae8ff7ed6d7c1ae81aaf5aa" dmcf-pid="8FFhuOAicy" dmcf-ptype="general">A. 구글의 제미나이가 1~2초 길이 영상을 보고 "주먹을 들어 올리는 행동"처럼 문장으로 설명합니다. 이렇게 만든 설명을 '폭력'과 '비폭력'으로 먼저 나누고, 다시 '주먹질', '발차기' 등으로 세분화합니다. 사람이 최종 검토해서 틀린 부분을 고칩니다.</p> <p contents-hash="84d1ef770b4b5127acbfb3285bb8ed87c9a7db6e038550984dd37cbec2228f4d" dmcf-pid="6CCgTnPKoT" dmcf-ptype="general"><strong>Q3. 실제 CCTV에서는 어떻게 작동하나요?</strong></p> <p contents-hash="95cc13640fbee13ee49d1b23aebaa463683419afdeca40421f1c5f7b22ed34bd" dmcf-pid="PhhayLQ9kv" dmcf-ptype="general">A. CCTV 영상을 15장의 화면 단위로 계속 받아들이면서 실시간으로 폭력 여부를 판단합니다. 1~2초 안에 일어나는 폭력 행위를 빠르고 정확하게 포착할 수 있어 실시간 감시 시스템에 효과적입니다.</p> <p contents-hash="96a40d6c716565978f8ad2b3f96a5a40d6b727a09872cb60f168ee656ddf5142" dmcf-pid="QllNWox2aS" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e23057b7be08ceb7667adeb1b9523744c3bc5f5553e2e8321f96c80f2f5ffb15" dmcf-pid="xSSjYgMVal" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
놀이터홍보
더보기
[홀덤 홍보]
텍사스홀덤 핸드 순위- 홀카드의 가치
[홀덤 홍보]
텍사스홀덤 핸드 순위 - 프리플랍(Pre-Flop) 핸드 랭킹
[토토 홍보]
미니게임개발제작 전문업체 포유소프트를 추천드립니다.
[토토 홍보]
2023년 일본 만화 판매량 순위 공개
[토토 홍보]
무료만화 사이트 보는곳 3가지 추천
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기