- 相關推薦
百度校園招聘筆試題目(2)
3、一個大的含有50M個URL的記錄,一個小的含有500個URL的記錄,找出兩個記錄里相同的URL。
回答:
首先使用包含500個url的文件創(chuàng)建一個hash_set。
然后遍歷50M的url記錄,如果url在hash_set中,則輸出此url并從hash_set中刪除這個url。
所有輸出的url就是兩個記錄里相同的url。
4、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。
回答:
如果日志文件足夠的大,大到不能完全加載到內存中的話。
那么可以考慮分而治之的策略,按照IP地址的hash(IP)%1024值,將海量日志存儲到1024個小文件中。每個小文件最多包含4M個IP地址。
對于每個小文件,可以構建一個IP作為key,出現(xiàn)次數(shù)作為value的hash_map,并記錄當前出現(xiàn)次數(shù)最多的1個IP地址。
有了1024個小文件中的出現(xiàn)次數(shù)最多的IP,我們就可以輕松得到總體上出現(xiàn)次數(shù)最多的IP。
5、螞蟻爬桿問題
有一根27厘米長的細木桿,在第3厘米,7厘米,11厘米,17厘米,23厘米這五個位置上各有一只螞蟻,木桿很細,不能同時通過兩只螞蟻,開始時,螞蟻的頭朝向左還是右是任意的,他們只會朝前走或掉頭,但不會后退,當兩只螞蟻相遇后,螞蟻會同時掉頭朝反方向走,假設螞蟻們每秒鐘可以走1厘米的距離。求所有螞蟻都離開木桿的最小時間和最大時間。
答案:
兩只螞蟻相遇后,各自掉頭朝相反方向走。如果我們不考慮每個螞蟻的具體身份,這和兩只螞蟻相遇后,打個招呼繼續(xù)向前走沒有什么區(qū)別。
所有螞蟻都離開木桿的最小時間為
max(min(3,27-3),min(7,27-7), min(11,27-11), min(17,27-17),min(23,27-23))=11
所有螞蟻都離開木桿的最大時間為
max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24
6、有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。如何按照query的頻度排序?
回答:
1)讀取10個文件,按照hash(query)%10的結果將query寫到對應的文件中。這樣我們就有了10個大小約為1G的文件。任意一個query只會出現(xiàn)在某個文件中。
2)對于1)中獲得的10個文件,分別進行如下操作
-利用hash_map(query,query_count)來統(tǒng)計每個query出現(xiàn)的次數(shù)。
-利用堆排序算法對query按照出現(xiàn)次數(shù)進行排序。
-將排序好的query輸出的文件中。
這樣我們就獲得了10個文件,每個文件中都是按頻率排序好的query。
3)對2)中獲得的10個文件進行歸并排序,并將最終結果輸出到文件中。
http://m.msguai.com/【百度校園招聘筆試題目(2)】相關文章:
校園招聘筆試試題(2)10-07
銀行招聘英語筆試題目04-15
自主招生筆試題目(2)09-05
網(wǎng)易java筆試題目(2)10-25
百度校園招聘面試題07-13
百度技術研發(fā)類筆試題(2)08-31
南京銀行筆試題目(2)10-02
電信筆試題目及答案(2)06-05
陜西事業(yè)單位筆試題目(2)08-31