文章內(nèi)容

網(wǎng)絡(luò)爬蟲與Web安全

發(fā)布時間: 2012/8/25 20:15:51

網(wǎng)絡(luò)爬蟲概述

網(wǎng)絡(luò)爬蟲(Web Crawler)，又稱網(wǎng)絡(luò)蜘蛛(Web Spider)或網(wǎng)絡(luò)機(jī)器人(Web Robot)，是一種按照一定的規(guī)則自動抓取萬維網(wǎng)資源的程序或者腳本，已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源，通過相應(yīng)的索引技術(shù)組織這些信息，提供給搜索用戶進(jìn)行查詢。隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。不斷優(yōu)化的網(wǎng)絡(luò)爬蟲技術(shù)正在有效地應(yīng)對這種挑戰(zhàn)，為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。網(wǎng)絡(luò)爬蟲也為中小站點的推廣提供了有效的途徑，網(wǎng)站針對搜索引擎爬蟲的優(yōu)化曾風(fēng)靡一時。

傳統(tǒng)網(wǎng)絡(luò)爬蟲從一個或若干個初始網(wǎng)頁的URL(Universal Resource Locator統(tǒng)一資源定位符)開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定條件停止抓取�，F(xiàn)階段網(wǎng)絡(luò)爬蟲已發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法綜合應(yīng)用的智能工具。

網(wǎng)絡(luò)爬蟲的安全性問題

由于網(wǎng)絡(luò)爬蟲的策略是盡可能多的“爬過”網(wǎng)站中的高價值信息，會根據(jù)特定策略盡可能多的訪問頁面，占用網(wǎng)絡(luò)帶寬并增加Web服務(wù)器的處理開銷，不少小型站點的站長發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)爬蟲光顧的時候，訪問流量將會有明顯的增長。惡意用戶可以利用爬蟲程序?qū)eb站點發(fā)動DoS攻擊，使Web服務(wù)在大量爬蟲程序的暴力訪問下，資源耗盡而不能提供正常服務(wù)。惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏感資料用于不正當(dāng)用途，主要表現(xiàn)在以下幾個方面：

1)搜索目錄列表

互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請求該站點中某個沒有默認(rèn)頁面的目錄時，會返回一個目錄列表。該目錄列表通常包括可供用戶點擊的目錄和文件鏈接，通過這些鏈接可以訪問下一層目錄及當(dāng)前目錄中的文件。因而通過抓取目錄列表，惡意用戶往往可獲取大量有用的資料，包括站點的目錄結(jié)構(gòu)、敏感文件以及 Web服務(wù)器設(shè)計架構(gòu)及配置信息等等，比如程序使用的配置文件、日志文件、密碼文件、數(shù)據(jù)庫文件等，都有可能被網(wǎng)絡(luò)爬蟲抓取。這些信息可以作為挑選攻擊目標(biāo)或者直接入侵站點的重要資料。

2)搜索測試頁面、手冊文檔、樣本程序及可能存在的缺陷程序

大多數(shù)Web服務(wù)器軟件附帶了測試頁面、幫助文檔、樣本程序及調(diào)試用后門程序等。這些文件往往會泄漏大量的系統(tǒng)信息甚至提供繞過認(rèn)證直接訪問Web服務(wù)數(shù)據(jù)的方法，成為惡意用戶分析攻擊Web服務(wù)器的有效情報來源。而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞。

3)搜索管理員登錄頁面

許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口，允許管理員在互聯(lián)網(wǎng)中對其進(jìn)行遠(yuǎn)程管理與控制。如果管理員疏于防范，沒有修改網(wǎng)絡(luò)產(chǎn)品默認(rèn)的管理員名及密碼，一旦其管理員登錄頁面被惡意用戶搜索到，網(wǎng)絡(luò)安全將面臨極大的威脅。

本文出自：億恩科技【1tcdy.com】

服務(wù)器租用/服務(wù)器托管中國五強(qiáng)！虛擬主機(jī)域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]

上一篇 >> 云計算安全漫談：看安全架構(gòu)的優(yōu)勢
下一篇 >> 網(wǎng)絡(luò)應(yīng)用程序每年或遭受2700多次攻擊

亚洲综合社区欧美综合色-欧美逼逼一区二区三区-国产老熟女高潮精品网站-国产日韩最新视频在线看

服務(wù)器租用

服務(wù)器托管

機(jī)柜批發(fā)

云服務(wù)器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內(nèi)容

網(wǎng)絡(luò)爬蟲與Web安全

同類文章

億恩公告

在線客服