lucene原理

iluoxuan

浏览: 571434 次
性别:
来自: 北京

最近访客更多访客>>

czl026

java_my_life

hejin_sl

yzzh9

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

lucene 搜索

Lucene原理

1 反向索引

_ 字符串到文件的映射

左边的称为“字典”,用户要搜索的词语，而右边就是所有包含该次的文档的list，称为“倒排表posting List”.查找lucene和solr就3步

1. 查找包含lucene关键字的文档链表

2. 查找包含solr关键字文档链表

3. 合并链表中相同的

_ 相对扫描多了个索引过程，但是对于大数据索引只要创建一次，索引的更新可以是增量的。

2 创建索引

2.1 索引文档建立（txt，doc，xsl等）

4. 文档可以使pdf，doc，xsl，txt等格式

5. lucene的基本是纯全本，我接触的

6. 从数据库中导入数据建立索引

2.2 对文档进行分词（中文分词，英文分词等）

中文分词组件：

中文分词算法分类：

http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

http://www.iteye.com/news/9637

2.3 对词语进行语言处理（还原词语如cars->car,去掉停用词等）

2.4 索引创建

2.4.1 利用词语（Term）创建字典

_ Term词语对应的document的id

_ 对字典安装字母排序

_ 合并相同的词，统计词频等

Document frequery是该词语出现在多个个文档中

frequery是改词语在每个文档中出现的次数

2.4.2 对字典按字母排序

2.4.3 合并相同的词(Term)成为文档倒排(Posting List)链表

3 搜索索引

3.1 输入查询语句（lucene and solr）

3.2 对查询语句进行语法，词法，语言处理

3.2.1 词法分析，分析出单词和关键字

3.2.2 语法分析，根据查询语法构造语法树

3.2.3 语言处理同索引过程中的语言处理几乎相

3.3 搜索索引，等到符合语法树的文档

3.4 对搜索结果排序

_ 搜索中主要的词有不重要的词

_ 一个词的权重计算过程

1. Term Frequency (tf)：即此Term 在此文档中出现了多少次。tf 越大说明越重要。

2. Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

查看图片附件

分享到：

lucene4.0入门实例 | 【串和序列处理 3】Trie Tree 串集合查找

2012-10-30 09:18
浏览 1964
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene原理

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene原理

评论

发表评论

相关推荐

protobuf-dt插件

java循环标签

java程序性能优化 --阅读

jetty invalid entry CRC问题

guice注入

eclipse快捷键

java clone

ThreadLocal

hession

冒泡和快速排序java

java生产者和消费者模型三种实现

单例模式

freemarker的使用

java 引用类型和内存泄露

java泛型

filter执行顺序

spring rmi远程调用

spring mvc返回204状态码

editplus去掉多余空行

spring3 aop 使用详细

最近访客更多访客>>