海量数据处理专题（八）——倒排索引(搜索引擎之基石)

发表于 2011年9月25日作者 pkuoliver

引言：

在信息大爆炸的今天，有了搜索引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，就不得不说VSM模型，说到VSM，就不得不聊倒排索引。可以毫不夸张的讲，倒排索引是搜索引擎的基石。

VSM检索模型

VSM全称是Vector Space Model(向量空间模型)，是IR(Information Retrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中。98年的Google就是凭借这样的一个模型，开始了它的疯狂扩张之路。废话不多说，让我们来看看到底VSM是一个什么东东。继续阅读全文 →

从lucene的文件结构看它的性能

发表于 2010年9月8日作者 pkuoliver

Lucene是一个apache项目，完全使用java语言编写（废话，谁都知道apache主要是做java项目的，不过，已经有人对Lucene进行了迁移，比如CLucene），它提供了一个基本的索引文档后进行搜索的功能。目前版本是2.0，具体信息可以直接看http://lucene.apache.org/官方网站。同时，http://www.lucene.com.cn/about.htm提供了一个很不错的介绍（同时介绍了CLucene项目）。

本文不打算介绍它的使用，因为它的使用实在是过于简单，而且，太多的人写了关于它的使用方法。本文试图从一个更高的层次来分析一下lucene的文件结构及其性能，所以，需要读者已经对搜索引擎的工作原理有较深入的了解（推荐学习MIT的开放课程中的Information Extraction）。

本文的内容主要参考了http://lucene.apache.org/java/docs/fileformats.html，这是lucene的文件结构页面。继续阅读全文 →

帝都码农

关注移动互联网与业界动态

标签：搜索引擎

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

引言：

VSM检索模型

从lucene的文件结构看它的性能