欧美+日韩精品,精品人妻午夜一区二区三区四区,国产尤物av尤物在线看

首頁(yè) > 問答 > 問題詳情

發(fā)布文章

聯(lián)系我們

運(yùn)營(yíng)相關(guān)

用戶運(yùn)營(yíng)

產(chǎn)品運(yùn)營(yíng)

私域社群

數(shù)據(jù)運(yùn)營(yíng)

市場(chǎng)推廣

品牌營(yíng)銷

行業(yè)綜合

#線上營(yíng)銷#

目錄搜索引擎有哪些

好問題

常用信息檢索工具全文搜索引擎和目錄搜索引擎是如何工作的？？目錄搜索引擎和全文搜索引擎哪個(gè)搜索速度快？？

馬世龍

提問日期：2023-03-13 ｜瀏覽次數(shù)：3047

關(guān)注問題

舉報(bào)

付明君

2人贊同了該回答

?　　您好,我就為大家解答關(guān)于目錄搜索引擎有哪些，目錄搜索引擎相信很多小伙伴還不知道,現(xiàn)在讓我們一起來看看吧！1、目錄索引中最具襪羨代表性的... 　　您好,我就為大家芹悄解答關(guān)于目錄搜索引擎有哪些，目錄搜索引擎相信很多小伙伴還不知道,現(xiàn)在讓我們一起來看看吧！　　1、目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。　　2、其他著名的還有Open Directory Project（DMOZ）、LookSmart、告首拍About等。

發(fā)布于2023-05-29

0條評(píng)論

2收藏

lyqkk

2人贊同了該回答

?　　從速度上來說，全文搜索引擎速度更快點(diǎn)。兩種搜索各有千秋，全文搜索引擎因?yàn)橐揽寇浖M(jìn)行，所以數(shù)據(jù)庫(kù)的容量非常龐大，但是，它的查詢結(jié)果往往不夠準(zhǔn)確。　　分類目錄依靠人工收集和整理網(wǎng)站，能夠提供更為準(zhǔn)確的查詢結(jié)果，但收集的內(nèi)容卻非常有限。

發(fā)布于2023-03-13

0條評(píng)論

3收藏

程毅

2人贊同了該回答

?　　目錄搜索引擎利用人工方式或半自動(dòng)方式搜集信息，經(jīng)編輯人員對(duì)信息進(jìn)行審查之后，再由人工編輯形成信息摘要。最后將信息置于事先確定的分類框架中，提供給用戶查詢。　　全文搜索引擎通過從互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)建立數(shù)據(jù)庫(kù)，用戶搜索時(shí)再?gòu)臄?shù)據(jù)庫(kù)中檢索與用戶查詢條件相匹配的相關(guān)記錄，然后按一定的排序，將結(jié)果返回給用戶。

發(fā)布于2023-03-13

0條評(píng)論

2收藏

熊小杰

1人贊同了該回答

?　　大家一定不會(huì)多搜索引擎感到陌生，搜索引擎是互聯(lián)網(wǎng)發(fā)展的最直接的產(chǎn)物，它可以幫助我們從海量的互聯(lián)網(wǎng)資料中找到我們查詢的內(nèi)容，也是我們?nèi)粘W(xué)習(xí)、工作和娛樂不可或缺的查詢工具。　　之前本人也是經(jīng)常使用Google和Baidu搜索，而對(duì)搜索引擎的知識(shí)架構(gòu)沒有一個(gè)整體的概念。前一陣子的實(shí)習(xí)，使我有機(jī)會(huì)全面的了解了搜索引擎，感覺還是蠻有意思。　　所以，即使在面臨找工作的高壓下，也一定要抽時(shí)間來總結(jié)和回顧一下學(xué)到的知識(shí)，以便以后查閱，如果能給其他人帶來幫助，那最好不過了。　　搜索引擎的標(biāo)準(zhǔn)定義：搜索引擎（Search Engine）是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。　　從上述定義中我們可以獲得幾個(gè)有關(guān)搜索引擎的關(guān)鍵步驟，分別為：搜集信息；組織和處理信息；展示信息。其實(shí)，真正的搜索引擎架構(gòu)也正是根據(jù)這三大塊進(jìn)行構(gòu)建的。　　1. 搜索引擎分類搜索引擎多種多樣，類別繁多，其中根據(jù)工作方式可以分為如下幾類：　　1）全文搜索引擎全文搜索引擎可以說是真正的搜索引擎，包括我們身邊的Goggle、Baidu等耳熟能詳?shù)拇笏阉饕?，其都屬于是全文搜索引擎? 　　全文搜索引擎是從網(wǎng)站提取信息從而構(gòu)建網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的。全文搜索引擎的是如何搜集網(wǎng)站的呢？其實(shí)這里一般有兩種方法：　　1> 搜索引擎定期派出網(wǎng)絡(luò)爬蟲(也成為是蜘蛛或者機(jī)器人)，對(duì)互聯(lián)網(wǎng)中的網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)有新的網(wǎng)站就會(huì)自動(dòng)抽取其信息，然后加入到自己的數(shù)據(jù)庫(kù)中；　　2> 網(wǎng)站擁有者主動(dòng)向搜索引擎提交自己的網(wǎng)站信息，但是主動(dòng)提交網(wǎng)站并不能一定確保自己的網(wǎng)站會(huì)被搜索引擎收錄，網(wǎng)站擁有者可以通過外鏈來提升自己網(wǎng)站的受關(guān)注度（這屬于SEO的知識(shí)了）。　　全文搜索引擎如何展示查詢結(jié)果？當(dāng)用戶輸入查詢?cè)~（query）查詢時(shí)，搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋，如果找到與用戶要求內(nèi)容相符的網(wǎng)站，便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí)，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。　　我們可以看到，全文搜索引擎的特點(diǎn)就是搜全率比較高。　　2）目錄搜索引擎目錄搜索引擎主要是按類目對(duì)網(wǎng)站進(jìn)行收錄，而且在查詢時(shí)也不需要輸入關(guān)鍵詞，最為典型的目錄搜索引擎就是Sina、Yahoo等。目錄索引無需輸入任何文字，只要根據(jù)網(wǎng)站提供的主題分類目錄，層層點(diǎn)擊進(jìn)入，便可查到所需的網(wǎng)絡(luò)信息資源。　　雖然有搜索功能，但嚴(yán)格意義上不能稱為真正的搜索引擎，只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息，不依靠關(guān)鍵詞（Keywords）進(jìn)行查詢。如果把書比作是網(wǎng)站，它就像是我們?nèi)D書館一級(jí)一級(jí)地按區(qū)域?qū)ふ椅覀冃枰臅粯?，所以很形象地被稱為是目錄搜索引擎。　　3）元搜索引擎元搜索引擎（META Search Engine）接受用戶查詢請(qǐng)求后，同時(shí)在多個(gè)搜索引擎上搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源排列搜索結(jié)果，如Dogpile；有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。　　4）垂直搜索引擎在介紹垂直搜索引擎之前，我們先解釋一下橫向行業(yè)和垂直行業(yè)的含義。橫向行業(yè)一般指跨行業(yè)，包含有多個(gè)領(lǐng)域或行業(yè)；而垂直行業(yè)特指某個(gè)行業(yè)或者某個(gè)領(lǐng)域。理解了垂直行業(yè)，我們就不難理解垂直搜索引擎了。　　垂直搜索引擎是近年來新興起的一種搜索引擎，不同于通用的網(wǎng)頁(yè)搜索引擎，垂直搜索專注于特定的搜索領(lǐng)域和搜索需求（例如：機(jī)票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索、購(gòu)物搜索等等），在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。相比通用搜索動(dòng)輒數(shù)千臺(tái)檢索服務(wù)器，垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。比較典型的垂直搜索引擎代表有，去哪兒網(wǎng)、攜程等。　　5）其他類目的搜索引擎除了上述四類搜索引擎以外，還有集合式搜索引擎、門戶搜索引擎以及免費(fèi)鏈接式搜索引擎，這里就不一一詳細(xì)介紹了。　　2. 搜索引擎的基礎(chǔ)架構(gòu)一個(gè)優(yōu)秀的搜索引擎需要復(fù)雜的架構(gòu)和算法，以此來支撐對(duì)海量數(shù)據(jù)的獲取、存儲(chǔ)，以及對(duì)用戶查詢的快速而準(zhǔn)確地響應(yīng)。從架構(gòu)層面，搜索引擎需要能夠?qū)σ园賰|計(jì)的海量網(wǎng)頁(yè)進(jìn)行獲取、存儲(chǔ)、處理的能力，同時(shí)要保證搜索結(jié)果的質(zhì)量。　　構(gòu)建一個(gè)搜索引擎的基礎(chǔ)架構(gòu)，要考慮如下三個(gè)問題：如何獲取、存儲(chǔ)并計(jì)算如此海量的數(shù)據(jù)？如何快速響應(yīng)用戶的査詢？如何使得搜索結(jié)果能夠滿足用戶的信息需求？下圖是一個(gè)通用的搜索引笨架構(gòu)示意圖：　　從上述的搜索引擎架構(gòu)圖中，我們可以看出一個(gè)完整搜索引擎架構(gòu)（全文搜索引擎為例）需要包含的三大塊（我們一開始就說到的）：　　1）搜集信息：這一階段是基本的數(shù)據(jù)收錄階段，主要任務(wù)就是構(gòu)建網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。該階段主要依靠網(wǎng)絡(luò)爬蟲技術(shù)搜集全網(wǎng)的數(shù)據(jù)，并進(jìn)行收錄，這一階段還包括網(wǎng)頁(yè)去重的過程，主要利用dedup技術(shù)。　　2）組織和處理信息：這里最為重要的一個(gè)環(huán)節(jié)就是構(gòu)建索引，其主要的技術(shù)為倒排索引技術(shù)。當(dāng)然，該階段還有建立連接關(guān)系和防作弊技術(shù)。　　3）展示信息：搜索引擎根據(jù)用戶的查詢?cè)~（query）來進(jìn)行數(shù)據(jù)庫(kù)檢索，然后根據(jù)內(nèi)容、鏈接匹配度和特定的排序算法將結(jié)果展示給用戶。目前常用的排序算法主要為L(zhǎng)earn2Rank的排序方法以及GBRank算法。　　下面我們針對(duì)每一個(gè)環(huán)節(jié)進(jìn)行具體的闡述。　　1）網(wǎng)頁(yè)爬取和收錄網(wǎng)絡(luò)爬蟲技術(shù)是網(wǎng)頁(yè)爬取的核心技術(shù)，我們可以通過編寫一定的程序或者腳本來對(duì)互聯(lián)網(wǎng)的信息進(jìn)行抓取。網(wǎng)絡(luò)爬蟲技術(shù)的詳細(xì)介紹會(huì)在之后的博文中具體呈現(xiàn)，這里不再細(xì)述。在網(wǎng)頁(yè)抓取之后，我們要構(gòu)建相應(yīng)的數(shù)據(jù)庫(kù)來存儲(chǔ)我們爬取的網(wǎng)頁(yè)信息。　　但是互聯(lián)網(wǎng)的信息具有冗余性，主要原因是各大網(wǎng)站也都會(huì)在后臺(tái)進(jìn)行爬蟲爬取，他們也會(huì)通過爬蟲來檢測(cè)一些熱點(diǎn)的內(nèi)容或者文章，然后爬取其信息并對(duì)格式進(jìn)行重新的組織，但其實(shí)網(wǎng)頁(yè)的內(nèi)容幾乎都是一致的。所以在收錄爬蟲爬取的網(wǎng)頁(yè)信息之前，我們還要加入一個(gè)關(guān)鍵的環(huán)節(jié)——網(wǎng)頁(yè)去重，來確保我們數(shù)據(jù)庫(kù)中網(wǎng)頁(yè)的唯一性。　　2）建立索引在抓取了網(wǎng)頁(yè)的信息之后，我們需要對(duì)網(wǎng)頁(yè)的信息進(jìn)行解析，抽取到網(wǎng)頁(yè)的主題內(nèi)容和類別信息。這就是我們通常所說的網(wǎng)頁(yè)解析，其主要涉及的技術(shù)為文本識(shí)別和文本分類技術(shù)。　　網(wǎng)頁(yè)解析后的輸出往往是一些結(jié)構(gòu)化的信息（每個(gè)網(wǎng)頁(yè)的信息完整度是不同的，我們需要統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化操作），一般的結(jié)構(gòu)化信息包括網(wǎng)頁(yè)的URL、網(wǎng)頁(yè)編碼、網(wǎng)頁(yè)標(biāo)題、作者、生成時(shí)間、類別信息、摘要等等。在獲取了網(wǎng)頁(yè)結(jié)構(gòu)化信息后，就要構(gòu)建相應(yīng)的索引了。　　為了加快響應(yīng)用戶査詢的速度，網(wǎng)頁(yè)內(nèi)容通過"倒排索引"這種高效查詢數(shù)據(jù)結(jié)構(gòu)來保存，而網(wǎng)頁(yè)之間的鏈接關(guān)系也會(huì)予以保存。　　之所以要保存鏈接關(guān)系，是因?yàn)檫@種關(guān)系在網(wǎng)F相關(guān)性排序階段是可利用的，通過"鏈接分析"可以判斷頁(yè)面的相對(duì)重要性，對(duì)于為用戶提供準(zhǔn)確的搜索結(jié)果幫助很大。　　由于互聯(lián)網(wǎng)的網(wǎng)頁(yè)信息是海量的，所以搜索引擎的構(gòu)建離不開大數(shù)據(jù)處理平臺(tái)和云計(jì)算技術(shù)，目前較為常用的大數(shù)據(jù)處理平臺(tái)為Hadoop生態(tài)架構(gòu)。3）查詢?cè)~分析查詢?cè)~分析我們經(jīng)常稱為是query分析或者query聚類。　　當(dāng)搜索引擎接收到用戶的査詢?cè)~后，首先需要對(duì)查詢?cè)~進(jìn)行分析，希望能夠結(jié)合查詢?cè)~和用戶信息來正確推導(dǎo)用戶的真正搜索意圖。比如，一個(gè)用戶輸入的查詢?cè)~為“養(yǎng)水仙花”，那么除了基本的內(nèi)容匹配外，搜索引擎需要讀懂用戶，其實(shí)用戶的查詢?cè)~還可以這樣被理解“水仙花怎么養(yǎng)”，“水仙花好養(yǎng)嗎” 等等近意的查詢?cè)~。　　在此之后，首先在緩存中査找，搜索引擎的緩存系統(tǒng)存儲(chǔ)了不同的查詢意圖對(duì)應(yīng)的搜索結(jié)果，如果能夠在緩存系統(tǒng)找到滿足用戶需求的信息，則可以直接將搜索結(jié)果返回給用戶，這樣既省掉了重復(fù)計(jì)算對(duì)資源的消耗，又加快了響應(yīng)速度。　　4）搜索排序搜索引擎在分析了用戶的查詢?cè)~以后，如果緩存的信息無法滿足用戶的查詢需求，搜索引擎要根據(jù)索引來查詢數(shù)據(jù)庫(kù)的網(wǎng)頁(yè)內(nèi)容，并根據(jù)網(wǎng)頁(yè)內(nèi)容與用戶需求來進(jìn)行網(wǎng)頁(yè)排序。　　網(wǎng)頁(yè)排序需要眾多的因素，其中最為主要的兩方面因素為：　　1> 網(wǎng)頁(yè)內(nèi)容與用戶查詢內(nèi)容的相似度（匹配度）：這個(gè)不難理解，搜索引擎的基本功能就是查詢，如果一個(gè)搜索引擎無法為用戶提供用戶需要查詢的內(nèi)容，那其也就不能稱為是一個(gè)搜索引擎，所以網(wǎng)頁(yè)內(nèi)容與用戶查詢內(nèi)容的相似度是網(wǎng)頁(yè)排序的一個(gè)首要依據(jù)；　　2> 網(wǎng)頁(yè)的重要程度：一個(gè)網(wǎng)頁(yè)的重要程度關(guān)乎了網(wǎng)頁(yè)內(nèi)容的質(zhì)量，在滿足用戶需求的基礎(chǔ)之上，用戶更加希望獲得高質(zhì)量的內(nèi)容，這是無可厚非的。　　根據(jù)上述因素，搜索引擎對(duì)查詢到的結(jié)果進(jìn)行排序，然后展示給用戶。　　5）推薦系統(tǒng)其實(shí)從不嚴(yán)格的角度來說，整個(gè)網(wǎng)頁(yè)排序的過程就屬于一種推薦策略。從嚴(yán)格意義上來說，推薦系統(tǒng)并不屬于一個(gè)搜索引擎架構(gòu)的必要環(huán)節(jié)，而且推薦系統(tǒng)在上述示意圖中并沒有顯示。　　但是一個(gè)優(yōu)秀的搜索引擎不止要能分析出用戶查詢的基本需求，進(jìn)一步來講，要能了解到或者猜測(cè)用戶的可能的下一步需求。目前隨著大數(shù)據(jù)的熱潮，各大互聯(lián)網(wǎng)公司和眾多專家認(rèn)為推薦系統(tǒng)是解決互聯(lián)網(wǎng)大數(shù)據(jù)的一種有效途徑。　　而且，最近越來越多個(gè)性化推薦知識(shí)受到了熱捧。其實(shí)推薦系統(tǒng)在搜索引擎中往往是以中間頁(yè)的形式展示的，它的主要作用就是為推薦系統(tǒng)進(jìn)行導(dǎo)流。　　版權(quán)聲明：　　1、內(nèi)容轉(zhuǎn)自網(wǎng)絡(luò)，不代表本平臺(tái)觀點(diǎn)。

發(fā)布于2023-05-29

0條評(píng)論

0收藏

chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区