索引文件的读取（十三）之doc&&pos&&pay（Lucene 8.4.0）

本文承接文章索引文件的读取（十二）之doc&&pos&&pay，继续介绍剩余的内容。索引文件.doc、.pos、.pay的读取过程相比索引文件.tim&&.tip较为简单，核心部分为如何通过读取这三个索引文件，生成一个PostingsEnum对象，该对象中描述了term在一篇文档中的词频frequency、位置position、在文档中的偏移offset、负载payload以及该文档的文档号docId，其中docId和frequency通过索引文件.doc获得、position通过索引文件.pos获得、offset和payload通过索引文件.pay获得。

PostingsEnum

PostingsEnum是一个抽象类，其子类的实现有很多，本文中仅仅介绍在Lucene84PostingsReader类中的子类，如下所示：

图1：

图1中共有5个子类实现，用红框标注，在搜索阶段，通过下面两个条件来选择其中一种实现：

条件一：Flag
条件二：打分模式ScoreMode

Flag

Flag描述了在搜索阶段中，我们需要获取term在文档中的哪些信息。这里的信息即上文中提到的frequency、position、offset以及payload。由于不是所有的查询都需要所有的这些信息，选择性（optional）的获取这些信息能降低搜索阶段的内存开销，同时减少读取索引文件时产生的磁盘I/O，下文中会详细介绍。

Flag的可选值如下所示：

图2：

打分模式ScoreMode

ScoreMode描述的是搜索模式，正如源码中的注释：

图3：

本文中我们不展开ScoreMode的详细介绍，我们仅仅看下图3中红框标注的TOP_SCORES，该值影响了上文中PostingsEnum子类的选择，该注释源码大意为：在搜索阶段，不会匹配所有满足查询条件的文档，会跳过那些不具竞争力的文档。其原理就是利用了索引文件.doc中的Impacts字段实现的，这里简单提下，在以后介绍WAND（weak and）算法时候再详细介绍。

选择PostingsEnum的实现类

图4：

图4的流程图描述了如何根据Flag跟打分模式选择PostingsEnum的实现类。是否有跳表信息的判断依据为：如果包含term的文档数量小于128，即一个block的大小，那么在生成索引文件.doc阶段就不会有跳表信息（不懂？见文章索引文件的生成（三）之跳表SkipList）;在读取阶段由于是先读取索引文件.tim，故通过该索引文件中的DocFreq字段来获取包含term的文档数量，如下图红框标注的字段：

图5：

图5索引文件.tim的字段介绍以及生成过程可以分别阅读文章索引文件tim&&tip、索引文件的读取（七）之tim&&tip。

PostingsEnum中的信息

我们先直接列出每个实现类中包含的数据，随后介绍获取这些信息的方式。

BlockDocsEnum：
- docId集合
- frequency集合
EverythingEnum：
- docId集合
- frequency集合
- position集合
- offset集合
- payload集合
BlockImpactsDocsEnum：
- docId集合
- frequency集合
- impactData信息
BlockImpactsPostingsEnum：
- docId集合
- frequency集合
- position集合
- impactData信息
BlockImpactsEverythingEnum：
- docId集合
- frequency集合
- position集合
- offset集合
- payload集合
- impactData信息

无论哪一种PostingsEnum的实现类，在读取过程中，每次总是从索引文件.doc、pos、pay只读取一个block的信息，并把block中的信息写入到多个数组中（下文会介绍这些数组），这些数组用来描述上文中docId集合、frequency集合、position集合、offset集合、payload集合、impactData信息。

如何读取一个block中的信息

为了便于描述，我们不考虑没有生成跳表以及**不满128条信息的block（见文章索引文件之doc中VIntBlocks的介绍）**的读取，只介绍生成跳表后的读取方式。

在读取了跳表SkipList之后（读取过程见文章索引文件的生成（四）之跳表SkipList），我们就获得了一个SkipDatum的信息。

这里需要简单说明下，在生成跳表SkipList的过程中，在第0层中每当处理skipInterval（默认值为128）篇文档就生成一个SkipDatum，另外每生成skipMultiplier（默认值为8）个SkipDatum就在上一层，即第1层，生成一个SkipDatum。注意的是第1层的该SkipDatum中包含的指针信息是指向第0层中最后一个SKipDatum的结束读取位置，同时意味着指针信息指向了第0层的最后一个SkipDatum的下一个待写入的SkipDatum的起始读取位置，如果不了解这段描述，请阅读文章索引文件的生成（三）之跳表SkipList。

那么此时问题来了，在读取阶段，最高层的第一个跳表是如何读取的；term的第一个docId信息、frequency信息、position信息、offset信息、payload信息是如何获得的呢？

通过图5中索引文件.tim中的TermMetadata字段中的SkipOffset获得最高层的第一个跳表信息，通过DocStartFP、PosStartFP、PayStartFP获取term的第一个docId信息、frequency信息、position信息、offset信息、payload信息分别在索引文件.doc、.pos、.pay中的起始读取位置。

图6：

在SkipDatum字段包含的信息中，DocFPSkip描述了存储docId跟frequency的block在索引文件.doc中的起始读取位置，PosFPSkip描述了存储position的block在索引文件.pos中的起始读取位置，PosBlockOffset描述了block中的块内偏移（不明白的话，请阅读文章索引文件的生成（一）之doc&&pay&&pos、索引文件的生成（二）之doc&&pay&&pos）剩余的字段同理，下文中会进一步介绍，最终读取后的信息写入到上文提到的各种集合中：

图7：

点击查看大图

docId集合、frequency集合

在源码中，使用docBuffer[ ]、freqBuffer[ ]两个数组来描述在内存中一个block中的的docId、frequency集合信息，从下面的定义也可以看出这两个数组都只存储一个block大小的信息：

图8：

通过读取索引文件.doc的TermFreqs字段中的PackedDocDeltaBlock跟PackedFreqBlock字段，就可以获得docId集合跟frequency集合，并将这两个字段的信息分别写入到docBuffer[ ]、freqBuffer[ ]中：

图9：

这里要特别说明的是，在读取block时，总是会将PackedDocDeltaBlock的信息，即文档号信息，写入到docBuffer[ ]中，而PackeddFreqBlock的信息，即frequency词频信息，则是采用read lazily，它描述的是在索引阶段存储了文档的frequency信息（基于IndexOptions选项），但是在搜索阶段，某种查询并不需要frequency信息，那么只有在需要frequency信息时候才读取PackedFreqBlock，并且写入到freqBuffer[ ]中。

position集合、offset集合、payload集合

在源码中，使用posDeltaBuffer[ ]描述position信息；使用offsetStartDeltaBuffer[ ]、offsetLengthBuffer[ ]描述offset信息；使用payloadLengthBuffer[ ]、payloadBytes[ ]描述payload信息：

图10：

对于这三个信息的读取相比较读取文档号跟词频稍微复杂，原因在于term在一篇文档中的这三个信息可能分布在一个或多个block（图7中的PackedPosBlock、packedPayBlock）中、甚至有可能在同一个PackedPosBlock中，保存term在两篇文档或更多篇文档的position信息，并且这些文档的属于不同的SkipDatum管理。例如term在一篇文档中的词频为386次，由于每128个位置信息就生成一个PackedPosBlock，故需要3个block存储。

对于上述的情况，我们以position为例，通过SkipDatum中的PosFPSkip先从索引文件.pos中找到block，即PackedPosBlock，的起始读取位置，然后将PosBlockOffset作为块内偏移找到在block中的起始读取位置即可。

由于position信息、offset信息、payload信息的数量总是保持一致的，即term在文档中的某个位置，必定对应有一个offset以及payload（可以为空），所以存储这些信息的posDeltaBuffer[ ]、offsetStartDeltaBuffer[ ]、offsetLengthBuffer[ ]、payloadLengthBuffer[ ]这四个数组的数组下标是保持一致的，注意的是payloadLengthBuffer[ ]描述的是在某个位置的term的payload长度length，根据这个长度去payloadBytes[ ]读取payload数据：

图11：

impactData信息

最后剩余读取impactData信息就相对简单了，在源码中，用二维数组impactData[ ] [ ]、impactDataLength[ ]来描述所有层的Impacts信息（Impacts的概念见文章索引文件的读取（十二）之doc&&pos&&pay）、图6中，先读取ImpactLength字段，确定Impacts字段的读取区间，然后将Impacts字段的信息写入到这两个数组中，这两个数组跟存储payload信息的两个数组用法一致，不赘述。

结语

关于索引文件.doc、.pos、.pay的一些基本的读取逻辑就暂时介绍到这里，在后面的文章介绍WAND（weak and）算法时，我们再进一步展开几个方法，例如advance( )、nextDoc( )、slowAdvance( )、advanceShallow( )等等，这些方法更细节的实现了读取索引文件.doc、.pos、.pay的过程。

点击下载附件