한국 블로그
Google에 대한 다양한 소식을 확인해 보세요!
웹의 규모는 얼마나 될까요?
목요일, 7월 31, 2008
날짜: 2008년 8월 1일 금요일
웹의 규모가 거대하다는 것은 이미 오래 전부터 알고 있는 사실입니다. 1998년 구글의 첫 인덱스에는 무려 26만 개의 페이지가 포함되어 있었고, 2000년이 되자 페이지수는 10억을 넘어섰습니다. 지난 8년간 엄청난 규모의 콘텐츠가 생겨났습니다. 최근에는 구글의 검색 엔지니어들 조차 웹의 규모를 보고 놀라움을 감추지 못했습니다– 이는 새로운 콘텐츠를 찾기 위한 구글의 웹 링크 처리 시스템이 새로운 이정표를 세웠을 당시였습니다: 한번에 고유 URL을 1조 개 이상 처리할 수 있게 된 것입니다!
그렇다면 구글은 그 많은 페이지를 어떻게 찾아낼까요? 우선 잘 연결된 일련의 초기 페이에서 출발하여 각 페이지에 있는 링크를 따라 새로운 페이지를 찾아 갑니다. 이 새로운 페이지에 있는 다른 링크를 통해 또 다른 페이지로 연결되고, 이를 통해 결과적으로 방대한 링크 리스트가 탄생하게 됩니다. 사실 1조 개 이상의 개별 링크를 찾아냈지만 페이지들 전부가 고유의 웹 페이지로 연결되지는 않았습니다. 많은 경우에는 동일한 내용의 콘텐츠를 담고 있는 복수의 URL이나 자동으로 복사된 복제 URL들을 담고 있습니다. 중복된 페이지를 정확하게 제거한 뒤에도 여전히 1조개 이상의 고유 URL이 남아 있었으며, 지금도 개별 웹 페이지의 수는 날마다 수십억 개씩 증가하고 있습니다.
그렇다면 웹상에 존재하는 고유 페이지의 수는 정확히 얼마나 될까요? 저희도 정확히 모릅니다. 모든 페이지를 살펴볼 시간도 없지요! :-) 엄밀히 말해서 현존하는 페이지의 수는 무한대입니다– 예를 들어 웹 캘린더에 “다음 날”이란 링크가 있으면 이 링크를 계속 따라가면서 매번 “새로운” 페이지를 발견할 수 있습니다. 그러나 이러한 방법은 사용자들에게 어떠한 혜택도 주지 않기 때문에 채택하지 않고 있습니다. 그러나 이 같은 예는 웹의 규모가 어떻게 정의하느냐에 따라 달라질 수 있다는 것과 이에 대한 정확한 답도 없다는 사실을 보여줍니다.
구글은 1조개의 페이지를 각각 인덱스하지 않습니다– 이들 페이지 중 대다수가 유사하거나 위에서 말한 캘린더의 예처럼 자동으로 복사된 콘텐츠를 담고 있기 때문입니다. 이는 사용자들에게 유용하지 않습니다. 하지만 구글이 다른 검색 엔진보다 광범위한 인덱스를 보유하고 있다는 것에 자부심을 느끼고 있으며, 구글의 목표는 언제나 세상의 모든 데이터에 대한 인덱스를 만드는 것에 포커스를 두고 있습니다.
구글은 이 같은 거대한 양의 정보를 따라잡기 위해 검색어 결과에 대한 초기 웹 데이터 처리 당시부터 크게 힘써왔습니다. 그 당시 모든 작업은 일괄적으로 처리 되었습니다: 하나의 워크스테이션이 2-3 시간 만에 2600만개의 페이지에 대한 페이지랭크(PageRank) 그래프를 계산할 수 있었습니다. 이를 통해 취합된 페이지들이 일정 기간 동안 구글 인덱스로 사용되었습니다. 현재 구글은 웹을 지속적으로 다운로드하며 업데이트된 페이지 정보를 모으고 하루에도 몇 번씩 웹-링크 그래프 전체를 재처리하고 있습니다. 1조 페이지 URL에 대한 이 그래프는 1조 개의 교차로가 그려져 있는 지도와 유사합니다. 저희는 미국의 전체 도로에 있는 모든 교차로를 하루에 몇 차례씩 완벽하게 조사하는 것과 유사한 작업을 컴퓨터로 하고 있는 것입니다. 다만 이것을 지도로 그린다면 미국 지도보다 약 5만 배 클 것이며 도로와 교차로의 수도 5만 배 정도 더 많을 것입니다.
이같은 구글의 폭넓은 시스템은 수조 개의 연결을 담은 링크 그래프를 효과적으로 처리하고 페타바이트(테라바이트 용량의 1024배)의 데이터를 빠르게 분류하여 가장 중요한 질문에 알맞은 답을 하기 위해 준비합니다: 이것이 바로 여러분의 구글 검색입니다.
작성자: 웹검색 인프라스트럭쳐 팀소프트웨어 엔지니어 제시 앨퍼트(Jesse Alpert), 닛산 하자즈(Nissan Hajaj)
댓글 없음 :
댓글 쓰기
태그
"웹마스터를 위한 검색 이야기"
[YTN 라디오]구글 인기 검색어
+1
2009 대한민국 검색대회
2015 Google HackFair
개인정보 보호정책
개인정보 취급 방침
갤럭시 넥서스
검색+
검색결과 삭제
검색어 성격별 스마트 검색
검색어 연속 추가 + 버튼
검색의 미래
검색품질
게임
광복절
구글
구글 가족 안전 센터
구글 개발자 핵페어
구글 개발자 행사
구글 검색 이야기
구글 검색 챌린지
구글 검색 통계
구글 검색통계 (Insights for search)
구글 계정 보안
구글 과학 경시 대회(Google Science Fair)
구글 광고 이야기
구글 나우(Google Now)
구글 나이트 (Google Night)
구글 나이트 시즌 2
구글 뉴스
구글 대시보드
구글 도서 검색
구글 도움말
구글 드라이브(Google Drive)
구글 디자인
구글 리더
구글 모바일
구글 문서도구
구글 문화
구글 문화연구원
구글 번역
구글 브레인
구글 비영리단체 프로그램
구글 사이언스 페어(Google Science Fair)
구글 사이트
구글 사이트 도구
구글 세상보기(Google Currents)
구글 소셜검색(Google social search)
구글 아니타 보그 추모 장학금 제도
구글 아트 프로젝트
구글 애드몹(AdMob)
구글 애드센스(AdSense)
구글 애드워즈
구글 앱스 (Google Apps)
구글 오픈소스 라운드테이블
구글 음성검색
구글 이벤트
구글 이스터에그(Easter egg)
구글 인기 검색어
구글 인턴
구글 자이트가이스트(Zeitgeist)
구글 저작권
구글 제품 포럼
구글 지도
구글 창업가 지원팀
구글 채용
구글 캘린더
구글 코드잼 (Google Code Jam)
구글 크롬(Chrome)
구글 크롬(Chrome) OS
구글 토픽검색
구글 트렌드
구글 플러스
구글 플레이
구글 플레이 무비 서비스
구글 플레이 북 서비스
구글 플루 트랜드
구글 필기 검색
구글 한국 블로그
구글 PhD 펠로우십 프로그램
구글 TV
구글검색으로 할 수 있는 100가지
구글과 다양성
구글과 함께하는 모바일 세상
구글러 이야기
구글서브(Google Serve)
구글어스
구글의 개방성
구글의 기부철학
구글의 사회공헌
구글의 정책
구글이 바라본 미래 시리즈 (Google at 10)
구글지도
구글플러스
구글플레이
구글플레이 인사이드 BIFF
글로벌 K-스타트업
기념 로고
기념로고
날씨 레이어
내 계정
넥서스
넥서스7
넥서스플레이어
놀(Knol)
대중교통 내비게이션
더 나은 웹 (betterweb.or.kr)
데이터 센터
두들 이야기
라마단
런던 하계 게임
마케팅 캠페인
만우절
모바일 광고
무인자동차
밴쿠버 동계 이벤트
버추얼 포토워크 코리아
보안
부산국제영화제
블로거 칼럼
블로그 토픽 서비스
비영리단체
비즈니스 포토(Business Photo)
빅텐트 (big tent)
빈트 서프
사진 여행
서평
소프트웨어 업데이트
쇼팽 국제 피아노 콩쿠르
순간 페이지(Instant Pages)
스타트업 채용
스트리트 뷰
아이구글(iGoogle)
악성코드
안드로이드 개발자 랩
안드로이드 마시멜로
안드로이드 마켓 (Android Market)
안드로이드 웨어
안드로이드 M
안드로이드(Android)
안전한 인터넷의 날
알아두면 좋은 정보(Good to Know)
애드센스(AdSense)
애플리케이션
엄마를 위한 캠퍼스
에너지 효율을 위한 5단계
여성의 날
오픈소셜 (OpenSocial)
원박스
웹 브라우저
웹개방성
웹마스터 지식
웹마스터를 위한 검색 이야기
위치 기반 서비스
유튜브
유튜브 뮤직데이 (YouTube Music Day)
유튜브 생중계
유튜브 스페이스 랩
유튜브 심포니 오케스트라(YTSO)
유튜브 어워즈
유튜브 이야기
유튜브 저작권
음성검색
이미지 검색
이집트
이태영박사
인사이드 서치(Inside Search)
인터넷 개방성 포럼
인포그래픽
장학생
접근성
제스처 검색(Gesture Search)
주민등록번호 노출 경고 시스템
지메일
지메일(Gmail)
지식 그래프
지역정보
채용정보
축구응원
취업
캠퍼스 서울
컨슈머 바로미터
케네디 우주 센터
코리아 고 글로벌
코펜하겐 기후 정상 회의
크롬 실험(Chrome Experiment)
크롬 앱 (Chrome Apps)
크롬캐스트(Chromecast)
테크숩코리아
텍스트 큐브(textcube)
통신사 요금 결제
투명성 보고서(Transparency Report)
포스트마스터(Postmaster)
표현의 자유
한글날
한글박물관
행아웃
행아웃 온에어
호우재난정보
A-Pop
Android Marshmallow
Android Wear
Blogger
BOLD
brasil2014
Campus for Moms
Campus Seoul
CEO의 편지
DevArt
Doodle
Enterprise
GDG
Global Impact Awards
google
Google Crisis Response
Google Cultural Institute
Google Developers Hackathon Korea
Google Finance
Google for Entrepreneurs
Google for Entrepreneurs Exchange 2015
Google for Nonprofits
Google Geo
Google I/O (구글 개발자 컨퍼런스)
Google I/O (구글 개발자 회의)
Google Impact Challenge
Google Keep
Google Localization
Google PhD Fellowship Program
Google Play
Google Translate
Google Trends
Google.org
Grow Beyond
HackFair
Hello World!
HTML5
Innovation Heroes
iOS 지원
K-스타트업
K-Pop
Kstartup
Musicking on the Web
MWC
Nexus
Nexus 5X
Nexus 6P
Openness
RRN leak message
SSL 암호화 검색
Start@Startups
Summer of Code
Women Techmakers
YouTube
��$Google I/O (구글 개발자 회의)�
블로그 목록
2015
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2011
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2010
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2009
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2008
12월
11월
10월
9월
8월
7월
웹의 규모는 얼마나 될까요?
구글 데스크톱으로 내 컴퓨터에 있는 문서 한번에 찾기!
여러분의 소중한 개인정보 지메일(Gmail)로 지키세요.
구글 검색 시스템의 핵심 기술
구글 검색순위에 담긴 철학
더욱 향상된 구글 그룹스를 소개합니다.
데이터를 활용한 웹스팸 차단
외부 메일을 지메일(Gmail)로 가져오는 방법
6월
5월
4월
3월
2월
1월
2007
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2006
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2005
12월
11월
10월
9월
8월
7월
Feed
Follow @googlekorea
구글 제품 포럼
을 방문하여 여러분의 의견을 공유해 주세요.
댓글 없음 :
댓글 쓰기