品才網(wǎng)>總結(jié)范文>數(shù)據(jù)挖掘面試題總結(jié)

數(shù)據(jù)挖掘面試題總結(jié)

時(shí)間：2022-07-13 23:33:42 總結(jié)范文我要投稿

相關(guān)推薦

1. 給定a、b兩個(gè)文件，各存放50億個(gè)url，每個(gè)url各占64字節(jié)，內(nèi)存限制是4G，讓你找出a、b文件共同的url?

數(shù)據(jù)挖掘面試題總結(jié)

方案1：可以估計(jì)每個(gè)文件安的大小為50G×64=320G，遠(yuǎn)遠(yuǎn)大于內(nèi)存限制的4G。所以不可能將其完全加載到內(nèi)存中處理�？紤]采取分而治之的方法。

s 遍歷文件a，對(duì)每個(gè)url求取，然后根據(jù)所取得的值將url分別存儲(chǔ)到1000個(gè)小文件(記為)中。這樣每個(gè)小文件的大約為300M。

s 遍歷文件b，采取和a相同的方式將url分別存儲(chǔ)到1000各小文件(記為)。這樣處理后，所有可能相同的url都在對(duì)應(yīng)的小文件()中，不對(duì)應(yīng)的小文件不可能有相同的url。然后我們只要求出1000對(duì)小文件中相同的url即可。

s 求每對(duì)小文件中相同的url時(shí)，可以把其中一個(gè)小文件的url存儲(chǔ)到hash_set中。然后遍歷另一個(gè)小文件的每個(gè)url，看其是否在剛才構(gòu)建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允許有一定的錯(cuò)誤率，可以使用Bloom filter，4G內(nèi)存大概可以表示340億bit。將其中一個(gè)文件中的url使用Bloom filter映射為這340億bit，然后挨個(gè)讀取另外一個(gè)文件的url，檢查是否與Bloom filter，如果是，那么該url應(yīng)該是共同的url(注意會(huì)有一定的錯(cuò)誤率)。

2. 有10個(gè)文件，每個(gè)文件1G，每個(gè)文件的每一行存放的都是用戶的query，每個(gè)文件的query都可能重復(fù)。要求你按照query的頻度排序。

方案1：

s 順序讀取10個(gè)文件，按照hash(query)的結(jié)果將query寫入到另外10個(gè)文件(記為)中。這樣新生成的文件每個(gè)的大小大約也1G(假設(shè)hash函數(shù)是隨機(jī)的)。

s 找一臺(tái)內(nèi)存在2G左右的機(jī)器，依次對(duì)用hash_map(query, query_count)來統(tǒng)計(jì)每個(gè)query出現(xiàn)的次數(shù)。利用快速/堆/歸并排序按照出現(xiàn)次數(shù)進(jìn)行排序。將排序好的query和對(duì)應(yīng)的query_cout輸出到文件中。這樣得到了10個(gè)排好序的文件(記為)。

s 對(duì)這10個(gè)文件進(jìn)行歸并排序(內(nèi)排序與外排序相結(jié)合)。

方案2：

一般query的總量是有限的，只是重復(fù)的次數(shù)比較多而已，可能對(duì)于所有的query，一次性就可以加入到內(nèi)存了。這樣，我們就可以采用trie樹/hash_map等直接來統(tǒng)計(jì)每個(gè)query出現(xiàn)的次數(shù)，然后按出現(xiàn)次數(shù)做快速/堆/歸并排序就可以了。

方案3：

與方案1類似，但在做完hash，分成多個(gè)文件后，可以交給多個(gè)文件來處理，采用分布式的架構(gòu)來處理(比如MapReduce)，最后再進(jìn)行合并。

3. 有一個(gè)1G大小的一個(gè)文件，里面每一行是一個(gè)詞，詞的大小不超過16字節(jié)，內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。

方案1：順序讀文件中，對(duì)于每個(gè)詞x，取，然后按照該值存到5000個(gè)小文件(記為)中。這樣每個(gè)文件大概是200k左右。如果其中的有的文件超過了1M大小，還可以按照類似的方法繼續(xù)往下分，知道分解得到的小文件的大小都不超過1M。對(duì)每個(gè)小文件，統(tǒng)計(jì)每個(gè)文件中出現(xiàn)的詞以及相應(yīng)的頻率(可以采用trie樹/hash_map等)，并取出出現(xiàn)頻率最大的100個(gè)詞(可以用含100個(gè)結(jié)點(diǎn)的最小堆)，并把100詞及相應(yīng)的頻率存入文件，這樣又得到了5000個(gè)文件。下一步就是把這5000個(gè)文件進(jìn)行歸并(類似與歸并排序)的過程了。

4. 海量日志數(shù)據(jù)，提取出某日訪問百度次數(shù)最多的那個(gè)Ip。

方案1：首先是這一天，并且是訪問百度的日志中的Ip取出來，逐個(gè)寫入到一個(gè)大文件中。注意到Ip是32位的，最多有個(gè)Ip。同樣可以采用映射的方法，比如模1000，把整個(gè)大文件映射為1000個(gè)小文件，再找出每個(gè)小文中出現(xiàn)頻率最大的Ip(可以采用hash_map進(jìn)行頻率統(tǒng)計(jì)，然后再找出頻率最大的幾個(gè))及相應(yīng)的頻率。然后再在這1000個(gè)最大的Ip中，找出那個(gè)頻率最大的Ip，即為所求。

5. 在2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)，內(nèi)存不足以容納這2.5億個(gè)整數(shù)。

方案1：采用2-Bitmap(每個(gè)數(shù)分配2bit，00表示不存在，01表示出現(xiàn)一次，10表示多次，11無意義)進(jìn)行，共需內(nèi)存內(nèi)存，還可以接受。然后掃描這2.5億個(gè)整數(shù)，查看Bitmap中相對(duì)應(yīng)位，如果是00變01，01變10，10保持不變。所描完事后，查看bitmap，把對(duì)應(yīng)位是01的整數(shù)輸出即可。

方案2：也可采用上題類似的方法，進(jìn)行劃分小文件的方法。然后在小文件中找出不重復(fù)的整數(shù)，并排序。然后再進(jìn)行歸并，注意去除重復(fù)的元素。

6. 海量數(shù)據(jù)分布在100臺(tái)電腦中，想個(gè)辦法高校統(tǒng)計(jì)出這批數(shù)據(jù)的TOp10。

方案1：

s 在每臺(tái)電腦上求出TOp10，可以采用包含10個(gè)元素的堆完成(TOp10小，用最大堆，TOp10大，用最小堆)。比如求TOp10大，我們首先取前10個(gè)元素調(diào)整成最小堆，如果發(fā)現(xiàn)，然后掃描后面的數(shù)據(jù)，并與堆頂元素比較，如果比堆頂元素大，那么用該元素替換堆頂，然后再調(diào)整為最小堆。最后堆中的元素就是TOp10大。

s 求出每臺(tái)電腦上的TOp10后，然后把這100臺(tái)電腦上的TOp10組合起來，共1000個(gè)數(shù)據(jù)，再利用上面類似的方法求出TOp10就可以了。

7. 怎么在海量數(shù)據(jù)中找出重復(fù)次數(shù)最多的一個(gè)?

方案1：先做hash，然后求模映射為小文件，求出每個(gè)小文件中重復(fù)次數(shù)最多的一個(gè)，并記錄重復(fù)次數(shù)。然后找出上一步求出的數(shù)據(jù)中重復(fù)次數(shù)最多的一個(gè)就是所求(具體參考前面的題)。

8. 上千萬或上億數(shù)據(jù)(有重復(fù))，統(tǒng)計(jì)其中出現(xiàn)次數(shù)最多的錢N個(gè)數(shù)據(jù)。

方案1：上千萬或上億的數(shù)據(jù)，現(xiàn)在的機(jī)器的內(nèi)存應(yīng)該能存下。所以考慮采用hash_map/搜索二叉樹/紅黑樹等來進(jìn)行統(tǒng)計(jì)次數(shù)。然后就是取出前N個(gè)出現(xiàn)次數(shù)最多的數(shù)據(jù)了，可以用第6題提到的堆機(jī)制完成。

9. 1000萬字符串，其中有些是重復(fù)的，需要把重復(fù)的全部去掉，保留沒有重復(fù)的字符串。請(qǐng)?jiān)趺丛O(shè)計(jì)和實(shí)現(xiàn)?

方案1：這題用trie樹比較合適，hash_map也應(yīng)該能行。

10. 一個(gè)文本文件，大約有一萬行，每行一個(gè)詞，要求統(tǒng)計(jì)出其中最頻繁出現(xiàn)的前10個(gè)詞，請(qǐng)給出思想，給出時(shí)間復(fù)雜度分析。

方案1：這題是考慮時(shí)間效率。用trie樹統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù)，時(shí)間復(fù)雜度是O(n*le)(le表示單詞的平準(zhǔn)長度)。然后是找出出現(xiàn)最頻繁的前10個(gè)詞，可以用堆來實(shí)現(xiàn)，前面的題中已經(jīng)講到了，時(shí)間復(fù)雜度是O(n*lg10)。所以總的時(shí)間復(fù)雜度，是O(n*le)與O(n*lg10)中較大的哪一個(gè)。

11. 一個(gè)文本文件，找出前10個(gè)經(jīng)常出現(xiàn)的詞，但這次文件比較長，說是上億行或十億行，總之無法一次讀入內(nèi)存，問最優(yōu)解。

方案1：首先根據(jù)用hash并求模，將文件分解為多個(gè)小文件，對(duì)于單個(gè)文件利用上題的方法求出每個(gè)文件件中10個(gè)最常出現(xiàn)的詞。然后再進(jìn)行歸并處理，找出最終的10個(gè)最常出現(xiàn)的詞。

12. 100w個(gè)數(shù)中找出最大的100個(gè)數(shù)。

方案1：在前面的題中，我們已經(jīng)提到了，用一個(gè)含100個(gè)元素的最小堆完成。復(fù)雜度為O(100w*lg100)。

方案2：采用快速排序的思想，每次分割之后只考慮比軸大的一部分，知道比軸大的一部分在比100多的時(shí)候，采用傳統(tǒng)排序算法排序，取前100個(gè)。復(fù)雜度為O(100w*100)。

方案3：采用局部淘汰法。選取前100個(gè)元素，并排序，記為序列L。然后一次掃描剩余的元素x，與排好序的100個(gè)元素中最小的元素比，如果比這個(gè)最小的要大，那么把這個(gè)最小的元素刪除，并把x利用插入排序的思想，插入到序列L中。依次循環(huán)，知道掃描了所有的元素。復(fù)雜度為O(100w*100)。

13. 尋找熱門查詢：

搜索引擎會(huì)通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來，每個(gè)查詢串的長度為1-255字節(jié)。假設(shè)目前有一千萬個(gè)記錄，這些查詢串的重復(fù)讀比較高，雖然總數(shù)是1千萬，但是如果去除重復(fù)和，不超過3百萬個(gè)。一個(gè)查詢串的重復(fù)度越高，說明查詢它的用戶越多，也就越熱門。請(qǐng)你統(tǒng)計(jì)最熱門的10個(gè)查詢串，要求使用的內(nèi)存不能超過1G。

(1) 請(qǐng)描述你解決這個(gè)問題的思路;

(2) 請(qǐng)給出主要的處理流程，算法，以及算法的復(fù)雜度。

方案1：采用trie樹，關(guān)鍵字域存該查詢串出現(xiàn)的次數(shù)，沒有出現(xiàn)為0。最后用10個(gè)元素的最小推來對(duì)出現(xiàn)頻率進(jìn)行排序。

14. 一共有N個(gè)機(jī)器，每個(gè)機(jī)器上有N個(gè)數(shù)。每個(gè)機(jī)器最多存O(N)個(gè)數(shù)并對(duì)它們操作。如何找到個(gè)數(shù)中的中數(shù)?

方案1：先大體估計(jì)一下這些數(shù)的范圍，比如這里假設(shè)這些數(shù)都是32位無符號(hào)整數(shù)(共有個(gè))。我們把0到的整數(shù)劃分為N個(gè)范圍段，每個(gè)段包含個(gè)整數(shù)。比如，第一個(gè)段位0到，第二段為到，…，第N個(gè)段為到。然后，掃描每個(gè)機(jī)器上的N個(gè)數(shù)，把屬于第一個(gè)區(qū)段的數(shù)放到第一個(gè)機(jī)器上，屬于第二個(gè)區(qū)段的數(shù)放到第二個(gè)機(jī)器上，…，屬于第N個(gè)區(qū)段的數(shù)放到第N個(gè)機(jī)器上。注意這個(gè)過程每個(gè)機(jī)器上存儲(chǔ)的數(shù)應(yīng)該是O(N)的。下面我們依次統(tǒng)計(jì)每個(gè)機(jī)器上數(shù)的個(gè)數(shù)，一次累加，直到找到第k個(gè)機(jī)器，在該機(jī)器上累加的數(shù)大于或等于，而在第k-1個(gè)機(jī)器上的累加數(shù)小于，并把這個(gè)數(shù)記為x。那么我們要找的中位數(shù)在第k個(gè)機(jī)器中，排在第位。然后我們對(duì)第k個(gè)機(jī)器的數(shù)排序，并找出第個(gè)數(shù)，即為所求的中位數(shù)。復(fù)雜度是的。

方案2：先對(duì)每臺(tái)機(jī)器上的數(shù)進(jìn)行排序。排好序后，我們采用歸并排序的思想，將這N個(gè)機(jī)器上的數(shù)歸并起來得到最終的排序。找到第個(gè)便是所求。復(fù)雜度是的。

15. 最大間隙問題

給定n個(gè)實(shí)數(shù)，求著n個(gè)實(shí)數(shù)在實(shí)軸上向量2個(gè)數(shù)之間的最大差值，要求線性的時(shí)間算法。

方案1：最先想到的方法就是先對(duì)這n個(gè)數(shù)據(jù)進(jìn)行排序，然后一遍掃描即可確定相鄰的最大間隙。但該方法不能滿足線性時(shí)間的要求。故采取如下方法：

s 找到n個(gè)數(shù)據(jù)中最大和最小數(shù)據(jù)max和min。

s 用n-2個(gè)點(diǎn)等分區(qū)間[min, max]，即將[min, max]等分為n-1個(gè)區(qū)間(前閉后開區(qū)間)，將這些區(qū)間看作桶，編號(hào)為，且桶的上界和桶i+1的下屆相同，即每個(gè)桶的大小相同。每個(gè)桶的大小為：。實(shí)際上，這些桶的邊界構(gòu)成了一個(gè)等差數(shù)列(首項(xiàng)為min，公差為)，且認(rèn)為將min放入第一個(gè)桶，將max放入第n-1個(gè)桶。

s 將n個(gè)數(shù)放入n-1個(gè)桶中：將每個(gè)元素分配到某個(gè)桶(編號(hào)為index)，其中，并求出分到每個(gè)桶的最大最小數(shù)據(jù)。

s 最大間隙：除最大最小數(shù)據(jù)max和min以外的n-2個(gè)數(shù)據(jù)放入n-1個(gè)桶中，由抽屜原理可知至少有一個(gè)桶是空的，又因?yàn)槊總€(gè)桶的大小相同，所以最大間隙不會(huì)在同一桶中出現(xiàn)，

【數(shù)據(jù)挖掘面試題總結(jié)】相關(guān)文章：

聘：數(shù)據(jù)分析數(shù)據(jù)挖掘07-10

關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的數(shù)據(jù)10個(gè)問題07-10

網(wǎng)絡(luò)游戲的數(shù)據(jù)挖掘與數(shù)據(jù)分析07-10

請(qǐng)問大數(shù)據(jù)和數(shù)據(jù)挖掘的關(guān)系是什么？07-10

爬網(wǎng)頁數(shù)據(jù)算不算是數(shù)據(jù)挖掘？07-10

數(shù)據(jù)挖掘分析《紅樓夢》07-10

數(shù)據(jù)分析和挖掘有哪些公開的數(shù)據(jù)來源？07-10

職場人要學(xué)數(shù)據(jù)挖掘還是數(shù)據(jù)分析好？07-10

數(shù)據(jù)分析、挖掘的好書求推薦07-10

如何結(jié)合云存儲(chǔ)來做數(shù)據(jù)分析和數(shù)據(jù)挖掘?07-10

97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

數(shù)據(jù)挖掘面試題總結(jié)