한국 블로그
Google에 대한 다양한 소식을 확인해 보세요!
구글 검색 시스템의 핵심 기술
수요일, 7월 23, 2008
날짜: 2008년 7월 23일 수요일
지난번 저는
구글 검색순위에 담긴 철학
을 소개해드렸습니다. 이번 시간에는 검색 품질과 관련해서 구글의 검색기술에 대해 좀 더 자세히 말씀 드리겠습니다. 구글의 검색순위 시스템의 핵심기술은 정보검색(IR: Information Retrieval) 분야에서 출발합니다. 정보검색 분야는 학계에서 50년 가까이 연구되어 왔으며, 여기서 페이지 순위를 매기기 위한 단어빈도와 같은 용어의 특징을 통계 부호로 사용하게 됩니다(정보검색 기술에 대한 설명은
"현대 정보검색의 개괄"
참조). 이같은 정보검색은 많은 부분에서 구글 검색 기술에 토대를 마련해줬고 구글은 이를 바탕으로 링크, 페이지 구조, 그리고 다른 다양한 혁신들을 통해 거대한 시스템을 구축했습니다.
지난 10년 동안 검색은 '내가 말한 것'을 찾아주던 시대에서 '내가 원하는 것'을 찾아주는 시대로 진보했다고 볼 수 있습니다. 이로 인해 검색에 대한 사용자의 기대치는 자연스럽게 높아졌습니다. 구글은 사용자 한 분 한 분의 기대를 충족시키기 위해 최선을 다하고 있으며 이를 위해서 페이지, 검색어, 그리고 사용자들을 더욱 깊이 이해하려고 노력하고 있습니다. 이 같은 3가지 검색 과정의 구성요소를 이해하기 위해 지난 10년 동안 완전히 새로운 차원에서 검색 기술을 개발해 왔습니다.
구글에서 검색어를 말할 때는 괄호 [ ]를 사용해 검색어의 시작과 끝을 구분합니다(참조: 매트 커츠의 "
검색어 쓰는 방법
"). 이번 글에서도 같은 방법을 사용하겠습니다(페이지와 검색결과는 수시로 바뀌기 때문에 이 글에 나오는 검색어 사례는 설명대로 나오지 않을 수도 있습니다).
페이지에 대한 이해:
구글은 수년 동안 웹페이지 크롤링과 색인생성 시스템 개발에 노력해 온 결과 현재 최신의 대규모 색인을 보유하고 있습니다. 정보의 규모와 최신성은 물론 새로운 방식으로 색인을 생성하는 방법을 개발함으로써 더욱 시스템을 향상시켜왔습니다. 페이지를 이해하기 위해 구글이 개발한 핵심 기술 중 하나는 주요 개념들이 페이지에 명확하게 나오지 않아도 이들 개념들을 결부시키는 페이지를 생성해 내는 능력에 관한 것입니다. 예를 들어 이탈리어로 [
galleria sprovieri londra
]를 치면 공식 홈페이지에는 ‘런던’ 혹은 ‘런드라(Londra: 이탈리어로 ‘런던’)’라는 단어가 없더라도 런던의
스프로비에리 갤러리(Sprovieri Gallery)
를 찾을 수 있는 것 입니다. 미국에서 [cool tech pc vancouver, wa]을 입력한 사용자는
http://www.cooltechpc.com/
홈페이지를 찾게 됩니다. 홈페이지에는 이 회사가 미국 워싱턴주 밴쿠버에 위치하고 있다는 내용이 어디에도 없는데도 말이지요. 구글이 개발한 또 하나의 기술은 페이지 내 단어의 중요도나 정보의 최신성을 찾아내는 기술입니다.
검색어에 대한 이해:
검색어가 가지고 있는 일반적인 의미를 넘어서 사용자들이 진정 무엇을 찾는가를 이해하는 것은 검색 기술의 핵심입니다. 이 분야와 관련해 업계 최고의 스펠링 제시 시스템, 첨단 동의어 구별 시스템, 그리고 매우 강력한 개념 분석 시스템 등의 몇 개의 괄목할만한 진전을 이루어냈습니다.
대부분의 사용자들은 구글의 스펠링 제시 시스템을 한 두 차례 사용해 보았을 것입니다. 이 시스템은 [
kofee annan
]을 입력한 사람은 사실 Kofi Annan을 검색하는 것으로 인식하고 “이것을 찾으셨나요:
kofi annan
”라고 하면서 올바른 철자를 제시합니다. 반면 [
kofee beans
]을 입력한 사람이 찾는 것은 실제로 coffee beans를 찾는 것으로 구별해야겠지요. 이러한 기능을 국제적인 차원에서 매우 정확하게 제공하는 것은 어려운 일인데 구글은 이를 능숙하게 처리하고 있습니다.
동의어는 우리가 검색어를 이해하는 과정에서 바탕이 됩니다. 이는 구글에서 가장 어려운 문제 중 하나입니다. 사람에게는 자명한 것일지라도 기계적인 언어 처리에서는 여전히 풀리지 않은 문제로 남아 있습니다. 저는 사용자로서 검색어에 어떤 단어를 입력해야 할지 너무 많은 생각을 하고 싶지 않습니다. 알맞은 단어가 무엇인지조차 종종 모를 때가 있습니다. 바로 이때 구글 동의어 시스템이 필요합니다. 구글의 동의어 시스템을 이용하면 복잡한 검색어의 수정이 가능합니다. 예를 들어 [
Dr Zhivago
]라는 검색어에서 'Dr'라는 단어는 의사를 뜻하는 Doctor로 알고 있습니다. 반면에 [
Rodeo Dr
]에서의 Dr는 거리를 뜻하는 Drive 입니다. [
back bumper repair
]를 입력한 사용자가 찾는 정보는 후방(rear) 범퍼 수리에 관한 것으로 해당된 결과를 얻을 수 있습니다.
[
Ramstein ab
]에 대해서는 자동으로 Ramstein Air Base를 찾아주고; [
b&b ab
]에 대해서는 캐나다주 앨버타에 있는 Bed and Breakfasts 관련 정보를 찾아줍니다. 이 같은 수준의 검색어를 100여 개의 언어로 분별할 수 있는 구글의 기술력을 매우 자랑스럽게 생각합니다.
구글 랭킹 시스템이 사용되는 또 다른 기술은 개념 확인에 관한 것입니다. 검색어에 있는 단어의 중요한 개념을 이해하면 자연스럽게 더 관련성이 높은 결과가 나타납니다. 예를 들어 구글의 알고리듬은 [
new york times square church
]와 같은 검색어에 대해 사용자가
타임즈 광장에 있는 유명한 교회
를 찾고 있다고 파악하지 뉴욕 타임즈의 기사를 찾는 게 아니라는 것을 정확히 알아냅니다. 저희는 이러한 개념을 인지하는 것에 그치지 않고 올바른 개념으로 검색어를 더욱 구체화시키는 작업을 합니다. 예를 들어 누군가 [
PC and its impact on people
]을 입력해 관련 정보를 찾는다면 이 사람은 실제로 컴퓨터가 사회에 미치는 영향을 찾고 있는 것입니다. 혹은 [
rainforest instructional activities for vocabulary
]의 검색어로 정보를 찾는 사람의 경우에는 실제 rain forest lesson plans을 찾고 있다고 파악하는 것이지요. 구글의 검색어 분석 알고리듬에는 많은 첨단 기술이 녹아 있습니다. 거듭 말씀 드리지만 이 같은 검색 서비스는 전세계 거의 모든 언어로 제공되고 있습니다.
사용자에 대한 이해:
사용자의 의도를 해석하는 일은 사람들이 검색어로 쓴 그대로가 아니라 진정 마음 속으로 원하는 결과를 찾아주기 위한 것입니다. 이 작업은 세계적인 수준의 구글 현지화 시스템에서 의해 이루어지며 여기에 구글의 첨단 개인화 기술과 사용자 의도를 해석하는 구글 유니버설 검색(Universal Search)과 같은 기술이 추가됩니다.
"전세계적으로 제공되는 최고의 현지화된 연관 검색결과"에는 구글의 현지화 노력에 반영돼 있습니다. 여러나라에서 입력된 동일한 검색어라 하더라도 결과는 전혀 다를 수 있습니다. 미국에서 [
bank
]를 입력한 사용자는 미국은행에 관한 정보를 얻어야 하겠지만,
영국
사용자는 Bank Fashion line 혹은 영국의 금융 기관을 찾는 것일 수 있습니다.
호주
,
캐나다
,
뉴질랜드
, 남아프리카와 같은 영어권 국가에서는 이 검색어가 현지 금융 기관을 결과로 보여져야 합니다. 비영어권 국가인
이집트
,
이스라엘
,
일본
,
러시아
,
사우디아라비아
,
스위스
에서 입력될 경우에는 재미난 현상이 나타납니다. 마찬가지로 [football]이라는 검색어는
호주
,
영국
,
미국
에서 각각 완전히 다른 스포츠를 의미합니다. 이러한 예들은 구글이 동일한 개념에 대한 현지화 버전을 정확하게 보여준다는 것을 증명해줍니다(금융 기관, 스포츠 등). 그러나 동일한 검색어는 서로 다른 나라에서는 완전히 다른 것을 의미할 수 있습니다. 예를 들어 [Côte d'Or]는
프랑스
에서는 지리학적 지역이지만, 인접하고 있는 불어권 국가
벨기에
에서는 대형 초코렛 제조업체의 이름으로 쓰입니다. 네, 그렇습니다. 구글은 이것도 정확하게 집어내고 있습니다 :-).
구글 검색 시스템에 있어 또 다른 강력한 특징 중 하나는 각 개인 사용자에게 맞춤형 검색결과를 제공하는 개인화에 관한 것입니다. 로그인한 상태로 검색을 하는 사용자들이 웹 히스토리(Web History)에 등록되어 있으면 일반적인 구글 검색결과에 비해 더욱 관련성이 높은 결과를 얻게 됩니다. 예를 들어, 미식축구와 관련된 검색을 많이 하는 사용자라면 [자이언츠]를 검색할 때 미식축구와 관련한 정보를 더욱 많이 얻게 되지만, 다른 사용자들은 야구팀 자이언츠에 대한 결과를 얻을 확률이 높습니다. 마찬가지로 특정한 쇼핑 사이트의 결과를 선호하는 경향이 있다면 어떤 상품을 검색할 때 그 사이트로 부터 결과를 얻을 가능성이 높습니다. 구글의 분석에 따르면 개인화된 결과들이 비개인화된 결과에 비해 더욱 관련성이 높은 것으로 나타났습니다.
사용자 의도를 파악하기 위한 또 하나의 사례는 [
chevrolet magnum
]과 같은 검색어에서 찾아 볼 수 있습니다. Magnum은 실제로 Dodge가 만들지 Chevrolet가 만들지 않습니다. 따라서 검색 결과도 Dodge Magnum을 찾는 것으로 파악하고
dodge magnum
을 제안하게 됩니다.
유니버설 검색은 구글이 사용자 의도를 해석해 그들이 진정으로 원하는 정보를 제공해주는 또 하나의 예입니다. [
bangalore
]를 찾는 사용자는 주요 웹페이지는 물론 방갈로어의 지도나 거리의 모습을 보여주는 비디오, 교통정보, 관련 뉴스와 블로그 등도 제공받게 됩니다.
이 비디오
를 보면 마치 정말 방갈로어에 와 있는 것 같습니다 :-).
마지막으로 구글이 검색에서 가장 최근에 이룬 성과 중 하나를 말씀드리면 바로 교차언어검색(CLIR: Cross Language Information Retrieval)입니다. 교차언어검색은 사용자가 자신이 쓰는 언어가 아닌 다른 언어로 된 정보를 발견하는 때 구글의 번역 기술을 이용해 이 정보에 접근할 수 있도록 하는 것입니다. 저는 이러한 진전을 이렇게 부릅니다: 내가 원하는 정보를 모든 언어로! 러시아어로 된 토니 블레어 전기를 찾는 누군가가 러시아어 검색어인 [
Тони Блэр биография
]를 입력하면 검색 결과 밑에 다음과 같이 영어 웹사이트에서 검색할 것을 제안 받습니다.
마찬가지로 이집트에서 [
أغاني أفلام ديزني
]라는 검색어로 디즈니 영화 음악을 검색하면 영어 웹사이트에서 검색할 것을 제안 받습니다. 저희는 교차언어검색에 거는 기대가 큽니다. 왜냐하면 교차언어검색은 전세계 정보를 체계화해 누구나 편리하게 이용할 수 있도록 하는 구글의 미션을 달성하는데 큰 도움이 되기 때문입니다.
구글의 랭킹 시스템의 우수성을 보여주는 첨단 기술 사례를 계속해서 설명드릴 수 있지만 사실 검색은 절대로 완벽하게 해결된 문제가 아닙니다. 많은 검색어들이 여전히 구글의 검색으로 만족스러운 결과를 얻지 못하고 있습니다. 하지만 각각의 검색어는 구글의 랭킹 시스템을 향상시킬 수 있는 기회이기도 합니다. 저희 그룹에서 개발 중인 수많은 기술이 가까운 장래에 구글의 랭킹 알고리듬에 큰 향상을 가져다 줄 것을 확신합니다.
제가 구글 검색 결과와 관련해 올린 두 개의 글이 우리가 매일 같이 검색과 함께하며 그 어느때 보다도 열정을 기울이고 있다는 사실을 분명하게 보여줄 수 있기를 바랍니다. 전세계 사용자들을 위해 최고의 서비스를 제공하고자 하는 이러한 우리의 열정은 전례가 없습니다. 구글은 뛰어난 랭킹 시스템을 운용하며 매일 더 좋은 시스템을 개발하기 위해 부단히 노력하고 있습니다.
작성자: 아미트 싱할(Amit Singhal), 구글 펠로우(Google Fellow)
댓글 없음 :
댓글 쓰기
태그
"웹마스터를 위한 검색 이야기"
[YTN 라디오]구글 인기 검색어
+1
2009 대한민국 검색대회
2015 Google HackFair
개인정보 보호정책
개인정보 취급 방침
갤럭시 넥서스
검색+
검색결과 삭제
검색어 성격별 스마트 검색
검색어 연속 추가 + 버튼
검색의 미래
검색품질
게임
광복절
구글
구글 가족 안전 센터
구글 개발자 핵페어
구글 개발자 행사
구글 검색 이야기
구글 검색 챌린지
구글 검색 통계
구글 검색통계 (Insights for search)
구글 계정 보안
구글 과학 경시 대회(Google Science Fair)
구글 광고 이야기
구글 나우(Google Now)
구글 나이트 (Google Night)
구글 나이트 시즌 2
구글 뉴스
구글 대시보드
구글 도서 검색
구글 도움말
구글 드라이브(Google Drive)
구글 디자인
구글 리더
구글 모바일
구글 문서도구
구글 문화
구글 문화연구원
구글 번역
구글 브레인
구글 비영리단체 프로그램
구글 사이언스 페어(Google Science Fair)
구글 사이트
구글 사이트 도구
구글 세상보기(Google Currents)
구글 소셜검색(Google social search)
구글 아니타 보그 추모 장학금 제도
구글 아트 프로젝트
구글 애드몹(AdMob)
구글 애드센스(AdSense)
구글 애드워즈
구글 앱스 (Google Apps)
구글 오픈소스 라운드테이블
구글 음성검색
구글 이벤트
구글 이스터에그(Easter egg)
구글 인기 검색어
구글 인턴
구글 자이트가이스트(Zeitgeist)
구글 저작권
구글 제품 포럼
구글 지도
구글 창업가 지원팀
구글 채용
구글 캘린더
구글 코드잼 (Google Code Jam)
구글 크롬(Chrome)
구글 크롬(Chrome) OS
구글 토픽검색
구글 트렌드
구글 플러스
구글 플레이
구글 플레이 무비 서비스
구글 플레이 북 서비스
구글 플루 트랜드
구글 필기 검색
구글 한국 블로그
구글 PhD 펠로우십 프로그램
구글 TV
구글검색으로 할 수 있는 100가지
구글과 다양성
구글과 함께하는 모바일 세상
구글러 이야기
구글서브(Google Serve)
구글어스
구글의 개방성
구글의 기부철학
구글의 사회공헌
구글의 정책
구글이 바라본 미래 시리즈 (Google at 10)
구글지도
구글플러스
구글플레이
구글플레이 인사이드 BIFF
글로벌 K-스타트업
기념 로고
기념로고
날씨 레이어
내 계정
넥서스
넥서스7
넥서스플레이어
놀(Knol)
대중교통 내비게이션
더 나은 웹 (betterweb.or.kr)
데이터 센터
두들 이야기
라마단
런던 하계 게임
마케팅 캠페인
만우절
모바일 광고
무인자동차
밴쿠버 동계 이벤트
버추얼 포토워크 코리아
보안
부산국제영화제
블로거 칼럼
블로그 토픽 서비스
비영리단체
비즈니스 포토(Business Photo)
빅텐트 (big tent)
빈트 서프
사진 여행
서평
소프트웨어 업데이트
쇼팽 국제 피아노 콩쿠르
순간 페이지(Instant Pages)
스타트업 채용
스트리트 뷰
아이구글(iGoogle)
악성코드
안드로이드 개발자 랩
안드로이드 마시멜로
안드로이드 마켓 (Android Market)
안드로이드 웨어
안드로이드 M
안드로이드(Android)
안전한 인터넷의 날
알아두면 좋은 정보(Good to Know)
애드센스(AdSense)
애플리케이션
엄마를 위한 캠퍼스
에너지 효율을 위한 5단계
여성의 날
오픈소셜 (OpenSocial)
원박스
웹 브라우저
웹개방성
웹마스터 지식
웹마스터를 위한 검색 이야기
위치 기반 서비스
유튜브
유튜브 뮤직데이 (YouTube Music Day)
유튜브 생중계
유튜브 스페이스 랩
유튜브 심포니 오케스트라(YTSO)
유튜브 어워즈
유튜브 이야기
유튜브 저작권
음성검색
이미지 검색
이집트
이태영박사
인사이드 서치(Inside Search)
인터넷 개방성 포럼
인포그래픽
장학생
접근성
제스처 검색(Gesture Search)
주민등록번호 노출 경고 시스템
지메일
지메일(Gmail)
지식 그래프
지역정보
채용정보
축구응원
취업
캠퍼스 서울
컨슈머 바로미터
케네디 우주 센터
코리아 고 글로벌
코펜하겐 기후 정상 회의
크롬 실험(Chrome Experiment)
크롬 앱 (Chrome Apps)
크롬캐스트(Chromecast)
테크숩코리아
텍스트 큐브(textcube)
통신사 요금 결제
투명성 보고서(Transparency Report)
포스트마스터(Postmaster)
표현의 자유
한글날
한글박물관
행아웃
행아웃 온에어
호우재난정보
A-Pop
Android Marshmallow
Android Wear
Blogger
BOLD
brasil2014
Campus for Moms
Campus Seoul
CEO의 편지
DevArt
Doodle
Enterprise
GDG
Global Impact Awards
google
Google Crisis Response
Google Cultural Institute
Google Developers Hackathon Korea
Google Finance
Google for Entrepreneurs
Google for Entrepreneurs Exchange 2015
Google for Nonprofits
Google Geo
Google I/O (구글 개발자 컨퍼런스)
Google I/O (구글 개발자 회의)
Google Impact Challenge
Google Keep
Google Localization
Google PhD Fellowship Program
Google Play
Google Translate
Google Trends
Google.org
Grow Beyond
HackFair
Hello World!
HTML5
Innovation Heroes
iOS 지원
K-스타트업
K-Pop
Kstartup
Musicking on the Web
MWC
Nexus
Nexus 5X
Nexus 6P
Openness
RRN leak message
SSL 암호화 검색
Start@Startups
Summer of Code
Women Techmakers
YouTube
��$Google I/O (구글 개발자 회의)�
블로그 목록
2015
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2011
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2010
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2009
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2008
12월
11월
10월
9월
8월
7월
웹의 규모는 얼마나 될까요?
구글 데스크톱으로 내 컴퓨터에 있는 문서 한번에 찾기!
여러분의 소중한 개인정보 지메일(Gmail)로 지키세요.
구글 검색 시스템의 핵심 기술
구글 검색순위에 담긴 철학
더욱 향상된 구글 그룹스를 소개합니다.
데이터를 활용한 웹스팸 차단
외부 메일을 지메일(Gmail)로 가져오는 방법
6월
5월
4월
3월
2월
1월
2007
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2006
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2005
12월
11월
10월
9월
8월
7월
Feed
Follow @googlekorea
구글 제품 포럼
을 방문하여 여러분의 의견을 공유해 주세요.
댓글 없음 :
댓글 쓰기