Web Crawler

Định nghĩa Web Crawler là gì?

Web CrawlerWeb Crawler. Đây là nghĩa tiếng Việt của thuật ngữ Web Crawler - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.

Độ phổ biến(Factor rating): 5/10

Một Web thu thập là một bot Internet giúp trong Web lập chỉ mục. Chúng bò một trang tại một thời điểm thông qua một trang web cho đến khi tất cả các trang đã được lập chỉ mục. trình thu thập web giúp trong việc thu thập thông tin về một trang web và các liên kết liên quan đến họ, và cũng có thể giúp đỡ trong việc chứng thực các mã HTML và siêu liên kết.

Xem thêm: Thuật ngữ công nghệ A-Z

Giải thích ý nghĩa

Trình thu thập web thu thập thông tin như địa chỉ URL của trang web, thông tin thẻ meta, nội dung trang web, các liên kết trong trang web và các điểm đến hàng đầu từ các liên kết này, tiêu đề trang web và bất kỳ thông tin liên quan khác. Họ giữ theo dõi của các URL đã được tải về để tránh tải cùng một trang một lần nữa. Một sự kết hợp của các chính sách như chính sách tái lần, chính sách lựa chọn, chính sách song song và chính sách lễ phép xác định hành vi của các Web thu thập. Có rất nhiều thách thức cho trình thu thập web, cụ thể là lớn và không ngừng phát triển World Wide Web, cân bằng lựa chọn nội dung, nghĩa vụ xã hội và đối phó với các đối thủ.

What is the Web Crawler? - Definition

A Web crawler is an Internet bot which helps in Web indexing. They crawl one page at a time through a website until all pages have been indexed. Web crawlers help in collecting information about a website and the links related to them, and also help in validating the HTML code and hyperlinks.

Understanding the Web Crawler

Web crawlers collect information such the URL of the website, the meta tag information, the Web page content, the links in the webpage and the destinations leading from those links, the web page title and any other relevant information. They keep track of the URLs which have already been downloaded to avoid downloading the same page again. A combination of policies such as re-visit policy, selection policy, parallelization policy and politeness policy determines the behavior of the Web crawler. There are many challenges for web crawlers, namely the large and continuously evolving World Wide Web, content selection tradeoffs, social obligations and dealing with adversaries.

Thuật ngữ liên quan

  • Search Engine Spider
  • Spider
  • Indexing
  • Web
  • World Wide Web (WWW)
  • Apache Nutch
  • Clickjack Attack
  • Bookmark
  • Firefox
  • Microbrowser

Source: ? Technology Dictionary - Filegi - Techtopedia - Techterm

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *