Lucene的学习第一篇 — 引出Lucene

2023年5月3日 Lucene Joe.Ye

需求场景提出

常规的搜索，我们是对数据库的内容进行sql查找，匹配从而实现搜索。但是对于以上的问题，数据库如何建表？字段怎么建？内容怎么存？发现没法建这个表。

1、于是思考出这个问题：

数据库之所以好搜，能搜，那是因为表中的数据，有行有列。具有一致性的结构。固定的格式，限定的长度。这类数据，也就是结构化的数据。

而我们的要搜的内容没有结构性。也不知道长度。非结构化的数据，搜索也是任意指定，数据库不能实现。

2、继续思考：那么非结构化数据怎么办？

程序无非就是代替的人做的事。我们先考虑我们怎么搜索：（以下取场景1进行分析）

（1）对于文档中内容搜索，要找到“吃鸡”，我们一个一个打开文档看，从头到尾进行浏览，发现了“吃鸡”，这个文档就有。没发现，这个文档就没有。

当然我们会使用Ctrl+F 进行查找（Ctrl+F也就是从头到尾进行查找）。这种搜索的方法：叫做顺序扫描。

所以我们写个程序，实现以下功能：

那么会面临以下几个问题：

（2）顺序扫描，我们没有能力写出代码，那么我们换一种角度思考：

我们在词典中查找“吃”，之所以很快，是因为我们通过拼音，或者部首，直接找到了“吃”，找到了“吃”所在的页数，然后找到了“吃”的位置。

所以只要，我们将内容全部拆成一些词汇，然后建立信息，跟一个词典一样，那么好办了，一切问题都解决了。

面临个问题，一：如何实现拆？二：工作量如此巨大，效率如何？

拆词：使用第三方工具

拆词之后，一次建立，重复使用（类似字典），一旦建成，功利千秋（后期新增数据，动态更新就好了）

将数据通过拆解，分析，从新组织的，变得有结构化，并将重新结构化的结果保存下来。重新结构化的结果就是索引。我们只需要对索引进行搜索。索引的集合组成一个索引库。

所以全文检索的技术要点：

作者：Joe.Ye

链接：https://www.appblog.cn/index.php/2023/05/03/lucene-learning-part-1-introduction-to-lucene/

文章版权归作者所有，未经允许请勿转载。

一位WordPress评论者

2月12日

您好，这是一条评论。若需要审核、编辑或删除评论，请访问仪表盘的评论界面。评论者头像来自 Gravatar。

评论于CentOS 7下安装MySQL