海量数据处理专题（六）——双层桶划分

发表于 2010年10月8日作者 pkuoliver

【什么是双层桶】
事实上，与其说双层桶划分是一种数据结构，不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候，我们可以将其分成一个个小的单元，然后根据一定的策略来处理这些小单元，从而达到目的。

【适用范围】
第k大，中位数，不重复或重复的数字

【基本原理及要点】
因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子，分治才是其根本（只是“只分不治”）。继续阅读全文 →

一个Sqrt函数引发的血案

发表于 2010年10月6日作者 pkuoliver

好吧，我承认我标题党了，不过既然你来了，就认真看下去吧，保证你有收获。

我们平时经常会有一些数据运算的操作，需要调用sqrt，exp，abs等函数，那么时候你有没有想过：这个些函数系统是如何实现的？就拿最常用的sqrt函数来说吧，系统怎么来实现这个经常调用的函数呢？

虽然有可能你平时没有想过这个问题，不过正所谓是“临阵磨枪，不快也光”，你“眉头一皱，计上心来”，这个不是太简单了嘛，用二分的方法，在一个区间中，每次拿中间数的平方来试验，如果大了，就再试左区间的中间数；如果小了，就再拿右区间的中间数来试。比如求sqrt(16)的结果，你先试（0+16）/2=8，8*8=64，64比16大，然后就向左移，试（0+8）/2=4，4*4=16刚好，你得到了正确的结果sqrt(16)=4。然后你三下五除二就把程序写出来了：继续阅读全文 →

谷歌(Google)2011年校园招聘笔试题

发表于 2010年10月4日作者 pkuoliver

2010年9月27日晚在北京进行了2011年度招聘宣讲会，宣讲会结束后就开始现场笔试，第二天6点之前就可以得到面试资格的通知。据当时Hr所说，根据以往经验，其中800笔试者中会有40名入选面试。Google的效率和招人的精益程度可见一斑。

笔试一共有10个选择题和3个编程算法题，Google的要求是前面的选择题至少正确6个以上，判卷人才会看后面的三个算法题。下面是回忆版的笔试题，有的已经记不起来了，有可能回忆的不太准确。大家看看这些题，在找工作的时候有个参考，好运Ｅｖｅｒｙｏｎｅ～～～继续阅读全文 →

从张筱雨大胆人体艺术写真全集看国人喜好

发表于 2010年10月3日作者 pkuoliver

刘亦菲，没有人不知道的。

张筱雨，如果你不知道她是谁，那么告诉你，你已经落伍了，至少说你已经是个二等网民了。

张筱雨，一个长期霸占“百度美女风云榜TOP10”第一位的女孩，一夜之间成为了人们议论的热门话题。大胆的暴露自己的身体的那一刻，她把自己推向了舆论的风口浪尖。每天80+w的搜索量证明了一个事实，那就是“国人很关注”。继续阅读全文 →

海量数据处理专题（五）——堆

发表于 2010年10月2日作者 pkuoliver

【什么是堆】
概念：堆是一种特殊的二叉树，具备以下两种性质
1）每个节点的值都大于（或者都小于，称为最小堆）其子节点的值
2）树是完全平衡的，并且最后一层的树叶都在最左边
这样就定义了一个最大堆。如下图用一个数组来表示堆：

继续阅读全文 →

码农们的诗歌

发表于 2010年9月28日作者 pkuoliver

One
Programs are but dreams
Born in formless, shapeless Zen.
We are but dreamers.

一
程序不过是梦，
生于无形无象的禅中，
我们只是那做梦的人。

Two
I programmed three days
And heard no human voices.
But the hard disk sang.

二
我编程三日，
两耳不闻人声，
只有硬盘在歌唱。继续阅读全文 →

Google今年2011笔试题暗示搞软件没前途，囧

发表于 2010年9月27日作者 pkuoliver

今天晚上Google的2011年校园招聘宣讲会分别在北大和清华举行，其中北大本来是350人的会场，去了大约600多人，爆满，那场面绝对是人山人海，彩旗飘飘。经过了大约一个小时多的宣讲和问答，开始现场笔试环节，一共10个选择题和三个算法题，只有选择题答对了6个以上的人才有机会让面试官看你后面的算法题。然后明天下午会通知笔试通过的人进行面试，Google的效率就像其搜索引擎一样迅速，效率可见一般。

其中前10个选择题中有一个特别雷人的，题如下：

现在北京有一套房子，价格200万，假设房价每年上涨10%，一个软件工程师每年固定能赚40万。如果他想买这套房子，不贷款，不涨工资，没有其他收入，每年不吃不喝不消费，那么他需要几年才能攒够钱买这套房子？
A, 5年
B, 7年
C, 8年
D, 9年
E, 永远买不起

继续阅读全文 →

海量数据处理专题（四）——Bit-map

发表于 2010年9月26日作者 pkuoliver

【什么是Bit-map】

所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。

如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0(如下图：)

继续阅读全文 →

一个易用，高效，精确的纳秒级C#时间计数器

发表于 2010年9月25日作者 pkuoliver

我们在平时的项目中，时常会遇到这样的问题，当我们要评价一个算法的好坏时（这里指的是时间复杂度量级相同的两个算法）；当我们要测试一段代码的性能时。。。我们都需要一个高精度的时间。如何来得到一个高精度的时间，而且又不影响我们的测试准确性呢？平时大家可能采用的方法是：new两个time，然后两个Time相减，得到一个TimeSpan，这样就可以得到一个毫秒级的时间（当然了，这个是一个并不精确的毫秒级时间），但是，那如果你要求的精度更好，需要达到微秒，纳秒级呢？这时候使用系统提供的Time类就不行了。

我曾经也遇到过类似的问题，于是在这里就封装了自己的Code，提供一个使用方便，高效，精确的纳秒级计时器。

我采用的方法是使用两个Win32函数来实现的：

QueryPerformanceCounter()：此函数用于获取精确的性能计数器数值。

QueryPerformanceFrequency()：返回硬件支持的高精度计数器的频率(你可以理解为查询CPU的主频)。
这两个函数是Win32标准库函数，我们要使用它就需要P/Invoke技术。P/Invoke技术是由微软提供的用于Native和Managed之间资源和函数互访的一项技术。在.net平台中就是DllImport。继续阅读全文 →

海量数据处理专题（三）——Hash

发表于 2010年9月24日作者 pkuoliver

【什么是Hash】

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

HASH主要用于信息安全领域中加密算法，它把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值. 也可以说，hash就是找到一种数据内容和数据存放地址之间的映射关系。继续阅读全文 →

帝都码农

关注移动互联网与业界动态

海量数据处理专题（六）——双层桶划分

一个Sqrt函数引发的血案

谷歌(Google)2011年校园招聘笔试题

从张筱雨大胆人体艺术写真全集看国人喜好

海量数据处理专题（五）——堆

码农们的诗歌

Google今年2011笔试题暗示搞软件没前途，囧

海量数据处理专题（四）——Bit-map

一个易用，高效，精确的纳秒级C#时间计数器

海量数据处理专题（三）——Hash