한국 블로그
Google에 대한 다양한 소식을 확인해 보세요!
데이터를 활용한 웹스팸 차단
수요일, 7월 09, 2008
날짜: 2008년 7월 10일 목요일
작성자: 소프트웨어 엔지니어 매트 커츠
안녕하세요?
현재 구글 웹스팸 업무를 총괄하고 있는 소프트웨어 엔지니어 매트 커츠입니다. 저는 여러분들께 최대한 관련성이 높고 유익한 검색결과를 전달하는 책임을 맡고 있습니다. 혹시 웹스팸을 처음 들어보신 분들을 위해 간단히 설명 드리면, 웹스팸은 웹사이트가 교묘하게 페이지랭크에서 높은 순위를 차지하거나 또 다른 방법으로
검색엔진 품질 가이드
를 위반하였을 때 검색결과로 나타나는 스팸 정보를 의미합니다. 아래 검색결과 링크를 클릭해보면 웹스팸이 무엇인지 알 수 있습니다.
이런 페이지는 검색 의도와는 무관한 내용으로 사용자에게 불편을 줍니다. 위의 예에서 볼 수 있듯이 웹스팸은 연관된 내용 없이 부적절한 링크를 제공하기 때문에 사용자들에게 전혀 도움이 되지 않는 정보를 제공합니다. 여러분이 이러한 검색결과에 노출되지 않도록 하기위해 저희는 부단히 노력하고 있습니다. 구글 검색결과에 있는 링크를 클릭했는데 위와 같은 페이지로 연결된다면 사용자가 받는 스트레스는 이만 저만이 아닐 것입니다.
최근에는 사용자들이 이처럼 노골적인 웹스팸을 접하게 되는 경우가 많이 줄었습니다. 하지만 구글이 인기있기 전부터 또 효과적인 스팸 방지 기능을 개발하기 이전부터 웹스팸은 매우 심각한 문제였습니다. 자신의 이름을 검색했는데 성인 사이트가 나오면 조금 불쾌하고 성가신 일로 그칠 수 있습니다. 하지만 대다수의 경우 검색결과에서 관련성이 매우 중요하기 때문에 웹스팸 문제는 굉장히 심각합니다. 예로 들어
전립선암
에 관한 검색을 했는데 링크된 페이지들이 스팸으로 가득차 있다면 유용한 도구로서의 검색엔진의 가치는 크게 떨어지게 됩니다.
구글이 웹스펨을 차단하기 위해 사용하는 방법 중 하나는 검색 로그와 관련된 데이터를 활용해 연관성이 높은 정확한 검색 결과를 전달하는 것입니다. IP주소나 쿠키 정보와 같은 로그 데이터로 인덱스의 크기, 커버리지, 결과의 최신성, 스팸 등과 같은 검색품질의 다양한 측면을 파악할 수 있는 측정지표를 만들 수 있습니다.
구글은 새로운 측정지표를 개발할 때마다 반드시 기존 검색어와 결과를 이용해 로그 데이터를 검토하고 새로운 스팸 지표를 산출합니다. 검색 로그를 통해 과거로 돌아가 구글이 몇 개월 전 검색어에 대해 얼마나 적절한 검색결과를 제공했는지 확인해보는 것입니다. 새로운 유형의 스팸을 더욱 정확하게 측정하는 지표가 개발되면 앞으로 있을 웹스팸 검출 성공 사례를 추적하는 동시에 로그 데이터를 이용해 몇 개월 전 혹은 몇 년 전에 존재한 웹스팸 처리방법을 확인할 수 있습니다.
이처럼 사용자의 IP주소와 쿠키 정보는 웹스팸 방지를 위해 매우 중요한 정보라고 할 수 있습니다. 합법적인 사용자에 의한 검색인지 혹은 검색봇(bot)이나 기타 부정한 방법에 의한 검색인지를 가려낼 수 있기 때문입니다. 예를 들어 검색봇이 구글에 같은 검색어를 반복적으로 보낸다면 우리는 이 검색어들을 폐기한 뒤 사용자들이 접하는 스팸의 양을 측정합니다. 이러한 로그 데이터, IP 주소, 쿠키와 같은 모든 정보는 여러분의 검색 결과를 더욱 정확하고 관련성 있게 만들어 줍니다.
웹스팸은 완전히 해결된 문제가 아닙니다. 구글은 작년에도 중국 도메인 인덱스에 다량의 웹스팸이 들어 있는 것을 발견했습니다. 일부 스패머들이 저렴한 .cn 도메인을 대량으로 구매한 뒤 잘못된 철자와 포르노 관련 문구로 도메인을 가득 채운 것입니다. 관심이 높은 사용자들은 블로그를 통해 관련 내용을 접해보셨겠지만, 일반 사용자들은 이런 사실 조차 알지 못했을 것입니다. 대다수의 사용자들이 잘못된 검색 결과를 인식하지 못한 데는 이유가 있습니다. 구글이 .cn 관련 스팸을 찾아낸 뒤 이에 신속하게 대응할 수 있는 엔지니어링 프로젝트를 수립했기 때문입니다. 이같은 문제를 파악하기 위한 기초 정보인 로그 데이터가 없었다면, 더욱 많은 구글 사용자들이 웹스팸 공격을 당했을지도 모릅니다.
가장 이상적인 것은 대부분의 사용자들이 구글에 웹스팸 팀이 있다는 사실 조차 인식하지 못하는 것입니다. 우리가 맡은 업무를 잘 수행한다면 사용자 여러분이 간혹 낮은 수준의 검색 결과를 얻는다 하더라도 적어도 교묘하게 다른 URL로 유도하는 리다이렉트나 원치 않는 성인 사이트, 횡설수설하는 기타 웹스팸들과 마주치는 경우는 생기지 않을 것입니다. 결론적으로 로그 데이터는 사용자의 검색 경험 품질이 낮아지지 않도록 구글이 한발 앞서 새로운 스팸 트렌드를 발견하고 이에 대응할 수 있게 해줍니다. 앞으로도 사용자들을 위한 이러한 노력은 계속 될 것입니다.
댓글 없음 :
댓글 쓰기
태그
"웹마스터를 위한 검색 이야기"
[YTN 라디오]구글 인기 검색어
+1
2009 대한민국 검색대회
2015 Google HackFair
개인정보 보호정책
개인정보 취급 방침
갤럭시 넥서스
검색+
검색결과 삭제
검색어 성격별 스마트 검색
검색어 연속 추가 + 버튼
검색의 미래
검색품질
게임
광복절
구글
구글 가족 안전 센터
구글 개발자 핵페어
구글 개발자 행사
구글 검색 이야기
구글 검색 챌린지
구글 검색 통계
구글 검색통계 (Insights for search)
구글 계정 보안
구글 과학 경시 대회(Google Science Fair)
구글 광고 이야기
구글 나우(Google Now)
구글 나이트 (Google Night)
구글 나이트 시즌 2
구글 뉴스
구글 대시보드
구글 도서 검색
구글 도움말
구글 드라이브(Google Drive)
구글 디자인
구글 리더
구글 모바일
구글 문서도구
구글 문화
구글 문화연구원
구글 번역
구글 브레인
구글 비영리단체 프로그램
구글 사이언스 페어(Google Science Fair)
구글 사이트
구글 사이트 도구
구글 세상보기(Google Currents)
구글 소셜검색(Google social search)
구글 아니타 보그 추모 장학금 제도
구글 아트 프로젝트
구글 애드몹(AdMob)
구글 애드센스(AdSense)
구글 애드워즈
구글 앱스 (Google Apps)
구글 오픈소스 라운드테이블
구글 음성검색
구글 이벤트
구글 이스터에그(Easter egg)
구글 인기 검색어
구글 인턴
구글 자이트가이스트(Zeitgeist)
구글 저작권
구글 제품 포럼
구글 지도
구글 창업가 지원팀
구글 채용
구글 캘린더
구글 코드잼 (Google Code Jam)
구글 크롬(Chrome)
구글 크롬(Chrome) OS
구글 토픽검색
구글 트렌드
구글 플러스
구글 플레이
구글 플레이 무비 서비스
구글 플레이 북 서비스
구글 플루 트랜드
구글 필기 검색
구글 한국 블로그
구글 PhD 펠로우십 프로그램
구글 TV
구글검색으로 할 수 있는 100가지
구글과 다양성
구글과 함께하는 모바일 세상
구글러 이야기
구글서브(Google Serve)
구글어스
구글의 개방성
구글의 기부철학
구글의 사회공헌
구글의 정책
구글이 바라본 미래 시리즈 (Google at 10)
구글지도
구글플러스
구글플레이
구글플레이 인사이드 BIFF
글로벌 K-스타트업
기념 로고
기념로고
날씨 레이어
내 계정
넥서스
넥서스7
넥서스플레이어
놀(Knol)
대중교통 내비게이션
더 나은 웹 (betterweb.or.kr)
데이터 센터
두들 이야기
라마단
런던 하계 게임
마케팅 캠페인
만우절
모바일 광고
무인자동차
밴쿠버 동계 이벤트
버추얼 포토워크 코리아
보안
부산국제영화제
블로거 칼럼
블로그 토픽 서비스
비영리단체
비즈니스 포토(Business Photo)
빅텐트 (big tent)
빈트 서프
사진 여행
서평
소프트웨어 업데이트
쇼팽 국제 피아노 콩쿠르
순간 페이지(Instant Pages)
스타트업 채용
스트리트 뷰
아이구글(iGoogle)
악성코드
안드로이드 개발자 랩
안드로이드 마시멜로
안드로이드 마켓 (Android Market)
안드로이드 웨어
안드로이드 M
안드로이드(Android)
안전한 인터넷의 날
알아두면 좋은 정보(Good to Know)
애드센스(AdSense)
애플리케이션
엄마를 위한 캠퍼스
에너지 효율을 위한 5단계
여성의 날
오픈소셜 (OpenSocial)
원박스
웹 브라우저
웹개방성
웹마스터 지식
웹마스터를 위한 검색 이야기
위치 기반 서비스
유튜브
유튜브 뮤직데이 (YouTube Music Day)
유튜브 생중계
유튜브 스페이스 랩
유튜브 심포니 오케스트라(YTSO)
유튜브 어워즈
유튜브 이야기
유튜브 저작권
음성검색
이미지 검색
이집트
이태영박사
인사이드 서치(Inside Search)
인터넷 개방성 포럼
인포그래픽
장학생
접근성
제스처 검색(Gesture Search)
주민등록번호 노출 경고 시스템
지메일
지메일(Gmail)
지식 그래프
지역정보
채용정보
축구응원
취업
캠퍼스 서울
컨슈머 바로미터
케네디 우주 센터
코리아 고 글로벌
코펜하겐 기후 정상 회의
크롬 실험(Chrome Experiment)
크롬 앱 (Chrome Apps)
크롬캐스트(Chromecast)
테크숩코리아
텍스트 큐브(textcube)
통신사 요금 결제
투명성 보고서(Transparency Report)
포스트마스터(Postmaster)
표현의 자유
한글날
한글박물관
행아웃
행아웃 온에어
호우재난정보
A-Pop
Android Marshmallow
Android Wear
Blogger
BOLD
brasil2014
Campus for Moms
Campus Seoul
CEO의 편지
DevArt
Doodle
Enterprise
GDG
Global Impact Awards
google
Google Crisis Response
Google Cultural Institute
Google Developers Hackathon Korea
Google Finance
Google for Entrepreneurs
Google for Entrepreneurs Exchange 2015
Google for Nonprofits
Google Geo
Google I/O (구글 개발자 컨퍼런스)
Google I/O (구글 개발자 회의)
Google Impact Challenge
Google Keep
Google Localization
Google PhD Fellowship Program
Google Play
Google Translate
Google Trends
Google.org
Grow Beyond
HackFair
Hello World!
HTML5
Innovation Heroes
iOS 지원
K-스타트업
K-Pop
Kstartup
Musicking on the Web
MWC
Nexus
Nexus 5X
Nexus 6P
Openness
RRN leak message
SSL 암호화 검색
Start@Startups
Summer of Code
Women Techmakers
YouTube
��$Google I/O (구글 개발자 회의)�
블로그 목록
2015
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2011
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2010
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2009
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2008
12월
11월
10월
9월
8월
7월
웹의 규모는 얼마나 될까요?
구글 데스크톱으로 내 컴퓨터에 있는 문서 한번에 찾기!
여러분의 소중한 개인정보 지메일(Gmail)로 지키세요.
구글 검색 시스템의 핵심 기술
구글 검색순위에 담긴 철학
더욱 향상된 구글 그룹스를 소개합니다.
데이터를 활용한 웹스팸 차단
외부 메일을 지메일(Gmail)로 가져오는 방법
6월
5월
4월
3월
2월
1월
2007
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2006
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2005
12월
11월
10월
9월
8월
7월
Feed
Follow @googlekorea
구글 제품 포럼
을 방문하여 여러분의 의견을 공유해 주세요.
댓글 없음 :
댓글 쓰기