暗網(wǎng) - 隱藏網(wǎng)絡(luò)
暗網(wǎng)(作深網(wǎng),不可見網(wǎng),隱藏網(wǎng))是指那些存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動(dòng)態(tài)網(wǎng)頁技術(shù)訪問的資源集合,不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。邁克爾·伯格曼將當(dāng)今互聯(lián)網(wǎng)上的搜索服務(wù)比喻為像在地球的海洋表面的拉起一個(gè)大網(wǎng)的搜索,大量的表面信息固然可以通過這種方式被查找得到,可是還有相當(dāng)大量的信息由于隱藏在深處而被搜索引擎錯(cuò)失掉。絕大部分這些隱藏的信息是須通過動(dòng)態(tài)請(qǐng)求產(chǎn)生的網(wǎng)頁信息,而標(biāo)準(zhǔn)的搜索引擎卻無法對(duì)其進(jìn)行查找。傳統(tǒng)的搜索引擎“看”不到,也獲取不了這些存在于暗網(wǎng)的內(nèi)容,除非通過特定的搜查這些頁面才會(huì)動(dòng)態(tài)產(chǎn)生。于是相對(duì)的,暗網(wǎng)就隱藏了起來。
暗網(wǎng)的定義
暗網(wǎng)(作深網(wǎng),不可見網(wǎng),隱藏網(wǎng))是指那些存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動(dòng)態(tài)網(wǎng)頁技術(shù)訪問的資源集合,不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。
邁克爾·伯格曼將當(dāng)今互聯(lián)網(wǎng)上的搜索服務(wù)比喻為像在地球的海洋表面的拉起一個(gè)大網(wǎng)的搜索,大量的表面信息固然可以通過這種方式被查找得到,可是還有相當(dāng)大量的信息由于隱藏在深處而被搜索引擎錯(cuò)失掉。絕大部分這些隱藏的信息是須通過動(dòng)態(tài)請(qǐng)求產(chǎn)生的網(wǎng)頁信息,而標(biāo)準(zhǔn)的搜索引擎卻無法對(duì)其進(jìn)行查找。傳統(tǒng)的搜索引擎“看”不到,也獲取不了這些存在于暗網(wǎng)的內(nèi)容,除非通過特定的搜查這些頁面才會(huì)動(dòng)態(tài)產(chǎn)生。于是相對(duì)的,暗網(wǎng)就隱藏了起來。
來源現(xiàn)狀
HiddenWeb最初由Dr.JillEllsworth于1994年提出,指那些沒有被任何搜索引擎索引注冊(cè)的網(wǎng)站:
“這些網(wǎng)站可能已經(jīng)被合理地設(shè)計(jì)出來了,但是他們卻沒有被任何搜索引擎編列索引,以至于事實(shí)上沒有人能找到他們。我可以這樣對(duì)這些不可見的網(wǎng)站說,你們是隱藏了的?!绷硗庠缙谑褂谩安豢梢娋W(wǎng)絡(luò)”這一術(shù)語的,是一家叫做“個(gè)人圖書館軟件”公司的布魯斯·芒特(產(chǎn)品開發(fā)總監(jiān))和馬修·B·科爾(首席執(zhí)行官和創(chuàng)建人),當(dāng)他們公司在1996年12月推出和發(fā)行的一款軟件時(shí),他們對(duì)暗網(wǎng)工具的有過這樣的一番描述:
不可見網(wǎng)絡(luò)這一術(shù)語其實(shí)并不準(zhǔn)確,它描述的只是那些在暗網(wǎng)中,可被搜索的數(shù)據(jù)庫不被標(biāo)準(zhǔn)搜索引擎索引和查詢的內(nèi)容,而對(duì)于知道如何進(jìn)入訪問這些內(nèi)容的人來說,它們又是相當(dāng)可見的。
第一次使用暗網(wǎng)這一特定術(shù)語,是2001年伯格曼的研究當(dāng)中。
從信息量來講,與能夠索引的數(shù)據(jù)相比,“暗網(wǎng)”更是要龐大得多。根據(jù)BrightPlanet公司此前發(fā)布的一個(gè)名為《TheDeepWeb-SurfacingTheHiddenValue》(深層次網(wǎng)絡(luò),隱藏的價(jià)值)白皮書中提供的數(shù)據(jù),“暗網(wǎng)”包含100億個(gè)不重復(fù)的表單,其包含的信息量是“非暗網(wǎng)”的40倍,有效高質(zhì)內(nèi)容總量至少是后者的1000倍到2000倍。更讓人無所適從的是,BrightPlanet發(fā)現(xiàn),無數(shù)網(wǎng)站越來越像孤立的系統(tǒng),似乎沒有打算與別的網(wǎng)站共享信息,如此一來,“暗網(wǎng)”已經(jīng)成為互聯(lián)網(wǎng)新信息增長的最大來源,也就是說,互聯(lián)網(wǎng)正在變得“越來越暗”。
當(dāng)然,所謂“暗網(wǎng)”,并不是真正的“不可見”,對(duì)于知道如何訪問這些內(nèi)容的人來說,它們無疑是可見的。2001年,ChristSherman、GaryPrice對(duì)HiddenWeb定義為:雖然通過互聯(lián)網(wǎng)可以獲取,但普通搜索引擎由于受技術(shù)限制而不能或不作索引的那些文本頁、文件或其它通常是高質(zhì)量、權(quán)威的信息。根據(jù)對(duì)HiddenWeb的調(diào)查文獻(xiàn)得到了如下有意義的發(fā)現(xiàn):
- 1HiddenWeb大約有307,000個(gè)站點(diǎn),450,000個(gè)后臺(tái)數(shù)據(jù)庫和1,258,000個(gè)查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。
- 2HiddenWeb內(nèi)容分布于多種不同的主題領(lǐng)域,電子商務(wù)是主要的驅(qū)動(dòng)力量,但非商業(yè)領(lǐng)域相對(duì)占更大比重。
- 3當(dāng)今的爬蟲并非完全爬行不到HiddenWeb后臺(tái)數(shù)據(jù)庫內(nèi),一些主要的搜索引擎已經(jīng)復(fù)蓋HiddenWeb大約三分之一的內(nèi)容。然而,在復(fù)蓋率上當(dāng)前搜索引擎存在技術(shù)上的本質(zhì)缺陷。
- 4HiddenWeb中的后臺(tái)數(shù)據(jù)庫大多是結(jié)構(gòu)化的,其中結(jié)構(gòu)化的是非結(jié)構(gòu)化的3.4倍之多。
- 5雖然一些HiddenWeb目錄服務(wù)已經(jīng)開始索引Web數(shù)據(jù)庫,但是它們的復(fù)蓋率比較小,僅為0.2%~15.6%。
- 6Web數(shù)據(jù)庫往往位于站點(diǎn)淺層,多達(dá)94%的Web數(shù)據(jù)庫可以在站點(diǎn)前3層發(fā)現(xiàn)。
暗網(wǎng)分類
它分為兩種:
一種是技術(shù)的原因,很多網(wǎng)站本身不規(guī)范、或者說互聯(lián)網(wǎng)本身缺少統(tǒng)一規(guī)則,導(dǎo)致了搜索引擎的爬蟲無法識(shí)別這些網(wǎng)站內(nèi)容并抓取,這不是搜索引擎自身就能解決的問題,而是有賴整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的規(guī)范化,百度的“阿拉丁計(jì)劃”、谷歌的“云計(jì)算”就是要從根本解決這一問題。
另一個(gè)原因則是很多網(wǎng)站根本就不愿意被搜索引擎抓取,比如考慮到版權(quán)保護(hù)內(nèi)容、個(gè)人隱私內(nèi)容等等,很多網(wǎng)站都在屏蔽百度、比如視頻網(wǎng)站優(yōu)酷也宣布屏蔽百度一樣,這更不是搜索引擎能解決的問題了。如果他們能被搜索引擎抓取到,就屬于違法了。
數(shù)據(jù)顯示,能夠搜索到的數(shù)據(jù)僅占全部信息量的千分之二。而對(duì)暗網(wǎng)的發(fā)掘能擴(kuò)大搜索數(shù)據(jù)庫,使人們能夠在搜索引擎上搜索到更多的網(wǎng)頁、信息。
幾乎任何有抱負(fù)的通用搜索引擎都有一個(gè)共同的夢(mèng)想:整合人類所有信息,并讓大家用最便捷的方式各取所需。
對(duì)此,百度說:“讓人們最便捷地獲取信息,找到所求”;谷歌說:“整合全球信息,使人人皆可訪問并從中受益”。這兩者表達(dá)的實(shí)際上是同一個(gè)愿景。
然而,這注定是一項(xiàng)不可能完成的任務(wù)。據(jù)科學(xué)家估測(cè),人類信息大概只有0.2%實(shí)現(xiàn)了web化,并且這個(gè)比例很可能在持續(xù)降低。更甚的是,即便在已經(jīng)Web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。
萬里長征的第一步即是對(duì)付“暗網(wǎng)”。所謂“暗網(wǎng)”,簡言之即為“搜索引擎抓取不到的網(wǎng)頁數(shù)據(jù)”。點(diǎn)亮“暗網(wǎng)”早已納入各大搜索引擎的日程之中,很明顯,這將是一場曠日持久的戰(zhàn)爭。
警惕
今年6月,云南省羅平縣人民法院也公布了一起利用“暗網(wǎng)”侵犯公民個(gè)人信息的案例。被告人在境外網(wǎng)站發(fā)帖,標(biāo)明提供個(gè)人戶籍、全家戶籍、開房記錄、同住記錄等公民個(gè)人信息的服務(wù)項(xiàng)目及價(jià)格,并在“暗網(wǎng)”市場上以比特幣交易,于2018年4月至11月期間,非法獲取、出售多人個(gè)人信息1000余條,獲利1.33315比特幣,并將1.30948比特幣兌換成人民幣41397.35元。
5月7日,江蘇省南通市公安局公布,經(jīng)過4個(gè)多月的縝密偵查,江蘇南通、如東兩級(jí)公安機(jī)關(guān)破獲了一起特大“暗網(wǎng)”侵犯公民個(gè)人信息案,抓獲犯罪嫌疑人27名,查獲被售賣的公民個(gè)人信息數(shù)據(jù)5000多萬條。這起案件也被公安部列為2019年以來全國公安機(jī)關(guān)偵破的10起侵犯公民個(gè)人信息違法犯罪典型案件之一。
