国产日韩欧美综合色视频在线|日本在线中文字幕四区|最新中文字幕在线|成人女人天堂午夜视频

設(shè)為首頁加入收藏業(yè)務(wù)一覽表公司歷程公司介紹聯(lián)系我們
當(dāng)前位置網(wǎng)站運(yùn)營 >> Google搜索引擎的工作原理

Google搜索引擎的工作原理

PPCblog.com浮現(xiàn)給我們一幅由Jess Bachman(在WallStats.com工作)精心刻畫的示意圖,這張流程圖展現(xiàn)了天天擁有3億次點(diǎn)擊量的Google搜索按鈕背后搜索引擎在那不到1秒的響應(yīng)時(shí)間內(nèi)所進(jìn)行的處理。

這是我剛付印的最新示意圖,這張流程圖演示了在你點(diǎn)擊Google搜索按鈕后,在Google返回查詢成果前那一眨眼的工夫里,Google是如何處理你的搜索懇求的?這可是搜索偉人Google年贏利額高達(dá)200億美元的殺手級(jí)利用,也是Internet首屈一指的貿(mào)易和技巧神話,大家確定都想知道Google這棵搖錢樹背后的機(jī)密。

一、Google官方對(duì)其搜索技巧的敘述

我們搜索技巧的后端軟件會(huì)在服務(wù)器側(cè)觸發(fā)一系列履行時(shí)間不到1秒的并行盤算,Google問世前的傳統(tǒng)搜索引擎的搜索成果嚴(yán)重依附于關(guān)鍵詞在頁面上呈現(xiàn)的頻度,我們應(yīng)用了200多個(gè)指標(biāo)信號(hào)(其中包含我們擁有專利的PageRank頁面等級(jí)加權(quán)算法)用來檢查萬維網(wǎng)的鏈接結(jié)構(gòu)(佩奇和布林最初的想法是把萬維網(wǎng)的鏈接結(jié)構(gòu)用圖論的有向無環(huán)圖來建模)并決定網(wǎng)頁的重要程度,我們假定一個(gè)網(wǎng)頁的重要程度取決于別的頁面對(duì)它的引用,就像學(xué)術(shù)論文中的引用指數(shù)一樣,重要的論文總是會(huì)被很多其他論文引用。然后我們?cè)俑鶕?jù)搜索條件進(jìn)行超文本匹配分析(對(duì)bot抓取的頁面內(nèi)容進(jìn)行關(guān)鍵詞倒排索引檢索)斷定跟搜索懇求最相干的網(wǎng)頁。綜合最重要的網(wǎng)頁和跟搜索懇求最相干的網(wǎng)頁兩個(gè)方面,我們就能按重要程度和用戶搜索懇求相干程度把查詢成果排序后浮現(xiàn)給我們的用戶。

二、數(shù)據(jù)中心:Google用來索引世界的塔

Google的數(shù)據(jù)中心高度機(jī)密,我們能懂得到的未幾:

1. 在美國本土有19個(gè)以上的數(shù)據(jù)中心,其余17個(gè)數(shù)據(jù)中心散布在美國以外的世界各地。

2. 每個(gè)數(shù)據(jù)中心有50萬平方英尺那么大,建造一個(gè)數(shù)據(jù)中心要花費(fèi)約6億美元。

3. Google數(shù)據(jù)中心是世界上最高效的設(shè)施之一,而且也非常環(huán)保,幾乎沒有碳排放。

4. 數(shù)據(jù)中心應(yīng)用50到100兆瓦的電力,由于需要冷卻,通常建在便于用水的處所。

5. Google服務(wù)器安頓在一個(gè)一組容得下1160臺(tái)服務(wù)器的有屋子那么大的尺度集裝箱容器中。


三、處理流程:

1. 你寫博客、或在Twitter上推微博、更新站點(diǎn)等諸如此類往web上添加內(nèi)容的把持

2. Google爬蟲(一種作為搜索引擎構(gòu)件的智能代理程序)抓取你網(wǎng)頁的title和description、keyword等內(nèi)容

(1) Google bots程序沿鏈接路徑周游萬維網(wǎng),假如沒有http路徑到你的站點(diǎn),你的站點(diǎn)將不會(huì)被索引

(2) 假如你在robots.txt中設(shè)置不許索引,Google bots程序?qū)⒉粫?huì)抓取你的網(wǎng)頁

(3) 假如鏈接到你站點(diǎn)的html鏈接上有nofollow標(biāo)簽,Google bots將不會(huì)從這些鏈接路徑周游到你的站點(diǎn)。

(4) Google也能通過blog軟件或xml站點(diǎn)輿圖找到你的網(wǎng)站

(5) 從PageRank越高的網(wǎng)站鏈接到你的網(wǎng)站的鏈接越多,你的網(wǎng)站的PageRank就越高。

(6) Google爬蟲將周游所有未標(biāo)注為nofollow的鏈接

3. 一旦被Google爬蟲拜訪到,網(wǎng)頁幾秒內(nèi)就被索引了

(1) 網(wǎng)頁內(nèi)容被存儲(chǔ)在一個(gè)倒排索引中

① 網(wǎng)頁標(biāo)題和鏈接數(shù)據(jù)被保留在一個(gè)索引中,用于廣度優(yōu)先搜索

② 網(wǎng)頁內(nèi)容保留在另一個(gè)索引中,以用于檢索頻率不高的長尾、個(gè)性化、深度優(yōu)先搜索

(2) 當(dāng)你用Google搜索時(shí),你并沒有在檢索時(shí)時(shí)更新的萬維網(wǎng),而是在檢索Google的緩存,Google定期更新其索引庫,在Twitter實(shí)時(shí)搜索等的競爭下,Google的索引庫更新周期趨短。

4. Google基于鏈接評(píng)估域名和網(wǎng)頁的總體PageRank值。

5. 檢查網(wǎng)頁以防止作弊行動(dòng)

(1) Google的搜索質(zhì)量和反垃圾信息審查和優(yōu)化算法

(2) 1萬多遠(yuǎn)程測試用戶評(píng)價(jià)搜索成果的質(zhì)量

(3) Google征請(qǐng)用戶對(duì)有PageRank訛詐嫌疑的垃圾信息進(jìn)行舉報(bào)

(4) Google接到 (美國)數(shù)字千年版權(quán)法案的通知,請(qǐng)求Google把盜版行動(dòng)記錄備案

6. 在對(duì)頁面做了侵害分析后,現(xiàn)在每個(gè)頁面都有很多用于幫助用戶搜索的數(shù)據(jù)片(比如檢索關(guān)鍵詞)反向引用著它

7. 用戶發(fā)出搜索懇求

(1)Google搜索質(zhì)量工程師Patrick Riley:在大多數(shù)Google搜索中,你的搜索處于很多并行的節(jié)制過程或Google實(shí)驗(yàn)室的創(chuàng)新項(xiàng)目組過程中,可以說每一個(gè)查詢懇求都會(huì)參與一些Google的創(chuàng)意實(shí)驗(yàn)。

8. Google會(huì)用同義詞匹配與你的搜索關(guān)鍵詞語義相近的查詢成果

9. 天生初步的查詢成果

(1) 也許Google宣言能返回成千上萬數(shù)目無限的查詢成果,但一般只顯示不到1000條的查詢成果,出于“少則得,多則惑”的考慮。

(2) 對(duì)查詢成果做本地化處理,本土站點(diǎn)在查詢成果中優(yōu)先呈現(xiàn)

10. 對(duì)查詢成果集按權(quán)威性和PageRank進(jìn)行排序,重復(fù)的查詢成果被剔除。

(1) Google根據(jù)關(guān)鍵詞、廣告類型、用戶所處地位找出相干的被競價(jià)拍賣的關(guān)鍵詞廣告

(2) 關(guān)鍵詞廣告必需遵照當(dāng)?shù)胤蓷l文

① 廣告業(yè)主的非法廣告將被取消

② 假如關(guān)鍵詞的搜索流量過低或關(guān)鍵詞廣告點(diǎn)擊量偏低,則會(huì)被主動(dòng)禁用

③ 出于貿(mào)易策略,像亞馬遜這樣的客戶會(huì)給予優(yōu)惠折扣。

(3) 關(guān)鍵詞相干廣告按收益潛力(對(duì)關(guān)鍵詞進(jìn)行競價(jià)拍賣后的廣告質(zhì)量不斷進(jìn)行評(píng)估)排序

(4) 對(duì)廣告業(yè)主來說廣告內(nèi)容一般都是固定的,但有時(shí)應(yīng)用動(dòng)態(tài)關(guān)鍵詞使關(guān)鍵詞廣告與搜索關(guān)鍵詞相干度更高

①一些廣告本身答應(yīng)增加易變的附屬信息,比如網(wǎng)站鏈接、電話號(hào)碼、產(chǎn)品鏈接、地址等

(5) 當(dāng)廣告擁有了相當(dāng)高的點(diǎn)擊率,則會(huì)顯示在搜索成果列表的上方,以使其更顯眼。

(6) 其余的廣告依序顯示在相應(yīng)的地位

11. 對(duì)查詢成果進(jìn)行過濾處理

(1) 對(duì)通常的查詢(比如在Google首頁上發(fā)出的搜索懇求),Google會(huì)把相干的專題性垂直搜索成果(比如消息、購物、視頻、書籍、輿圖等)也加到返回的查詢成果中

(2) 個(gè)性化方面:用戶拜訪過的網(wǎng)站在查詢成果列表中會(huì)更靠上

(3) 大批應(yīng)用錨點(diǎn)的網(wǎng)站有可能被從查詢成果中刪除

(4) 搜索成果集的聚簇性:假如網(wǎng)頁被其他高PageRank的網(wǎng)站引用,則網(wǎng)頁的重要性會(huì)大大提高。

(5) 趨勢分析:對(duì)搜索流量爆增或有大批消息的搜索關(guān)鍵詞,Google會(huì)在新的查詢成果中增加額外的PageRank權(quán)值。(Google有反應(yīng)關(guān)鍵詞搜索流量的Google趨勢專題頁面)

(6) 同一個(gè)域名下的多個(gè)網(wǎng)頁假如具有雷同的PageRank會(huì)被回為一組。

12. 終極返回給瀏覽器真?zhèn)€用戶一個(gè)人性化的、布局良好的、查詢成果和廣告涇渭分明的有機(jī)查詢成果頁面。

所有這些步驟在總共不到1秒的響應(yīng)時(shí)間內(nèi)完成,天天3億次的點(diǎn)擊量給Google帶來了超過200億美元的年收進(jìn)。



[來源:互聯(lián)網(wǎng)] [作者:c36] [日期:10-07-05] [閱讀:]