百度日本-四面楚歌

百度对日本业务投入不菲。07年筹措日本分公司之初,就动用了12亿日元也就是近1亿人民币买服务器。百度日本站点www.baidu.jp 于08年1月正式推出。

现在的日本搜索,Google占60%份额,雅虎30%,但随着孙正义执掌的雅虎日本开始使用Google提供的技术和广告,Google占有超过90%份额。据估计,百度日本占有约1%。可忽略不计。

Alexa数据显示,Google日本在日本网站中排名第2,百度日本排名300上下,Google日本在全球网站的排名是27,百度日本排名是4000以后。从08年末开始,Google日本的全球排名从40名逐步提升到目前的27名;百度日本的全球排名一直在4000名转。从08年末的4300名下降到2010年的低谷8000名,最近又慢升到4300名左右。 继续阅读

Top K算法详细解析—百度面试

问题描述:

这是在网上找到的一道百度的面试题:

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。


问题解析:

【分析】:要统计最热门查询,首先就是要统计每个Query出现的次数,然后根据统计结果,找出Top 10。所以我们可以基于这个思路分两步来设计该算法。下面分别给出这两步的算法: 继续阅读