웹 크롤러(Web crawler)란?

2011. 4. 24. 02:14카테고리 없음

@ 웹 크롤러 (Web crawler)

-  웹크롤러는 조직적, 자동화된 방법으로 월드 와이드 웹 (WWW)을 탐색하는 컴퓨터 프로그램이다. 웹크롤러에 대한 다른 용어로는 앤드(ants), 자동 인덱서(automatic ndexers), 봇(bots), 웜(worms), 웹 스파이터(web spider), 웹 로봇(web robot)등 이 있다.
- 웹 크롤러가 하는 작업을 웹 크롤링 (web crawling) 혹은 스파이더링 (spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는데 사용되며, 검색엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹페이지의 특정 형태의 정보를 수집하는데도 사용된다.
- 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seed)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 


WebCrawler is a metasearch engine that blends the top search results from GoogleYahoo!Bing Search (formerly MSN Search andLive Search), Ask.comAbout.comMIVALookSmart and other popular search engines. WebCrawler also provides users the option to search for images, audio, video, news, yellow pages and white pages. WebCrawler is a registered trademark of InfoSpace, Inc.

WebCrawler was the first Web search engine to provide full text search. It went live on April 20, 1994 and was created by Brian Pinkerton at the University of Washington. It was bought by America Online on June 1, 1995 and sold to Excite on April 1, 1997. WebCrawler was acquired by InfoSpace in 2001 after Excite, (which was then called Excite@Home), went bankrupt. InfoSpace also owns and operates the metasearch engines DogpileMetaCrawler and Excite.

WebCrawler was originally a separate search engine with its own database, and displayed advertising results in separate areas of the page. More recently it has been repositioned as a metasearch engine, providing a composite of separately identified sponsored and non-sponsored search results from most of the popular search engines.