【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]WP “가장 정확한 답 내놓는 AI는 구글 ‘AI 모드’…챗GPT 제쳐”

온카뱅크관리자

2025-08-29 08:27:29

<div id="layerTranslateNotice" style="display:none;"></div> 9개 AI 검색도구 성능 평가...사서들이 직접 채점 구글 1위, 챗GPT 2위, 메타·그록 최하위 “AI, 구글 검색 대체는 아직 요원” 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="foWfPc0Cwf">
 [이데일리 김현아 기자] 워싱턴포스트(WP)가 미국 공공·대학 도서관 사서들과 함께 진행한 대규모 AI 검색 성능 테스트에서 구글의 ‘AI 모드’가 가장 정확한 답변을 제공한 것으로 나타났다. 챗GPT는 2위를 기록했지만, 일부 영역에서는 전작 GPT-4가 오히려 더 높은 평가를 받았다.
 <figure class="figure_frm origin_fig" contents-hash="4a04e269498fa49025be2584b4a883bb1f35e93f9943dc40273833aa81299b3d" dmcf-pid="8aG8xEUlO2" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202508/29/Edaily/20250829082145372stld.jpg" data-org-width="670" dmcf-mid="2wZISUaVs8" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202508/29/Edaily/20250829082145372stld.jpg" width="658">
 </figure>
 <div contents-hash="4101816df91a20fc3abd01ad213df0d1288f0546cddb914fa4c995948467beaf" dmcf-pid="6NH6MDuSs9" dmcf-ptype="general">
 900건 답변 검증…사서들이 직접 채점
 </div>
 WP는 지난 7~8월 무료 기본 버전으로 제공되는 9개 AI 검색 도구에 총 30개의 까다로운 질문을 던지고, 나온 900건의 답변을 사서들이 평가했다고 27일(현지시간) 보도했다.
 평가 대상은 △구글 AI 모드와 AI 오버뷰 △오픈AI 챗GPT(GPT-5, GPT-4 터보) △마이크로소프트 빙 코파일럿 △앤스로픽 클로드 △메타 AI △일론 머스크의 그록(Grok)△퍼플렉시티(Perplexity) 등이다.
 질문은 AI의 고질적 약점을 겨냥한 다섯 가지 영역, ①퀴즈 ②전문 소스 필요 질문 ③최신 사건 ④내재된 편향 ⑤이미지 인식으로 구성됐다.
 최종 순위…구글 1위, 챗GPT 2위, 메타·그록 최하위
 종합 점수에서 구글 AI 모드가 60.2점으로 1위를 차지했고, GPT-5 챗GPT가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위에 올랐다.
 반면, 일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 최하위에 머물렀다.
 WP는 “구글 AI 모드는 퀴즈와 최신 사건 대응에서 독보적인 강점을 보였다”며 “다만 결과를 내는 데 시간이 오래 걸리고 접근 방식이 다소 번거롭다는 한계가 있다”고 지적했다.
 퀴즈에선 구글 AI 모드가 최고, 그록이 최악이었다.
 전문 소스가 필요한 질문에는 빙 코파일럿 최고, 퍼플렉시티가 최악이었다.
 최신 사건은 구글 AI 모드가 최고, 메타가 AI 최악이었다.
 편향성 대응은 챗GPT-4 터보가 최고, 메타 AI가 최악이었다. GPT-5는 종합적으로 2위에 오르며 개선된 성능을 보여줬지만, 출처 명시, 편향성 대응 같은 일부 항목에서는 GPT-4가 오히려 더 좋은 평가를 받았다.
 이미지 인식은 퍼플렉시티가 최고, 메타 AI가 최악이었다.
 특히 “아이폰 버튼 개수” 같은 단순 질문조차 정답을 낸 것은 3개 AI뿐이었고, 대부분은 자신 있게 잘못된 답을 내놓는 이른바 ‘할루시네이션(hallucination)’ 현상을 보였다.
 이와 관련해 WP는 “AI 답변을 맹신하기보다 사서처럼 출처를 확인하고 최신성을 검증하는 태도가 필요하다”고 강조했다.
 <figure class="figure_frm origin_fig" contents-hash="f0be7f6e1ec01079ec525df0f3735eb89f22667d9f402a68bca8d478636e84a3" dmcf-pid="3xO7biGkw5" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202508/29/Edaily/20250829082146612yipt.jpg" data-org-width="550" dmcf-mid="VEbjEGxpD4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202508/29/Edaily/20250829082146612yipt.jpg" width="658">
 </figure>
 <div contents-hash="fa9189d296d6325ec3bd251138aaa6b2cf6b3d9d7757ff6c093686cab8484379" dmcf-pid="0MIzKnHEOZ" dmcf-ptype="general">
 “AI, 구글 검색 대체는 아직 요원”
 </div>
 사서들은 테스트 질문의 64%는 전통적인 구글 검색으로도 더 빨리 정확한 답을 얻을 수 있었다고 평가했다.
 WP는 “AI는 복잡한 질문에서는 ‘건초더미 속 바늘’을 찾는 데 유용했지만, 단순 검색에서는 오히려 ‘노이즈’를 만들 수 있다”며 “AI가 구글을 대체하기까지는 아직 갈 길이 멀다”고 결론지었다.
 김현아 (chaos@edaily.co.kr) 
 </section> 
 </div> 
 Copyright © 이데일리. 무단전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

놀이터홍보 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기