1) inverted file

倒排文档
1.
This paper examined an XML collection from the viewpoint of information retrieval(IR),and suggested an efficient index which combining the inverted file with a structure index,it could implement retrieval both on context and structure.
从信息检索角度出发,提出一种高效的索引,在结构索引中集成了倒排文档,可同时查询XML结构部分和关键词。
2) self-adaptive inverse document frequency

自适应倒排文档频率
1.
In this paper, a Chinese news topic detection system is designed and tested by using the improved time window strategy and adopting the self-adaptive inverse document frequency.
文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验。
3) shift the gear into [put the car] reverse

把排档换成倒档
4) document sorting

文档排序
5) document re-ranking

文档重排
1.
This paper presents a document re-ranking model based on document clique,which is extracted from the document Markov network constructed form corpus.
该文提出了基于文档团的文档重排模型(DCRM模型),此模型通过对文档集的学习,构造文档与文档关系的Markov网络,提取出文档Markov网络中的"文档团",应用文档团信息进行文档重排。
6) linear file,serial file

顺排文档
补充资料:倒排档
计算机中存储的辅关键词索引。所谓辅关键词是指能在多个情报中同时出现的关键词,诸如情报中的主题词、作者、分类号等,它们与情报没有一一对应关系;而与情报有一一对应关系的关键词则称之为主关键词,如文献情报中的文献号、存储地址等。
倒排档记录一般总是由辅关键词及其所属情报主关键词的集合所组成,常见的组织方式有多表方式、倒排表方式和位图方式,其逻辑结构可图示如下:其中,假设字母表示辅关键词;数字表示情报的编号。也就是说,假定情报1包含辅关键词A;情报2包含辅关键词B;情报3包含辅关键词A;情报4包含辅关键词C。
位图方式为定长记录,处理简单,但存储空间浪费较多;倒排表采用变长记录,节省存储,但处理比较复杂;而多表方式使用半固定长记录,处理比倒排表简单,但比位图方式复杂,存储量比倒排表大,但比位图方式小。
正如索引能加快手工查找速度一样,在计算机建立倒排档往往也能加快情报的检索速度。联机情报检索要求实时响应,故大多数联机检索系统都使用倒排档进行检索或辅助检索。不过,建立倒排档需要时间与空间,维护也比较困难,因而一次性的定题情报检索(SDI) 系统往往都不使用倒排档;为了尽可能的减少不必要的存储,在联机情报检索中往往不对所有的辅关键词建立倒排档,而只是对常用的辅关键词:主题词、作者等建立倒排档,因此,在对倒排档检索以后,往往还要补充对原文档进行二次检索。前者人们又常称之为集合检索,后者则称之为顺序检索。
倒排档记录一般总是由辅关键词及其所属情报主关键词的集合所组成,常见的组织方式有多表方式、倒排表方式和位图方式,其逻辑结构可图示如下:其中,假设字母表示辅关键词;数字表示情报的编号。也就是说,假定情报1包含辅关键词A;情报2包含辅关键词B;情报3包含辅关键词A;情报4包含辅关键词C。
位图方式为定长记录,处理简单,但存储空间浪费较多;倒排表采用变长记录,节省存储,但处理比较复杂;而多表方式使用半固定长记录,处理比倒排表简单,但比位图方式复杂,存储量比倒排表大,但比位图方式小。
正如索引能加快手工查找速度一样,在计算机建立倒排档往往也能加快情报的检索速度。联机情报检索要求实时响应,故大多数联机检索系统都使用倒排档进行检索或辅助检索。不过,建立倒排档需要时间与空间,维护也比较困难,因而一次性的定题情报检索(SDI) 系统往往都不使用倒排档;为了尽可能的减少不必要的存储,在联机情报检索中往往不对所有的辅关键词建立倒排档,而只是对常用的辅关键词:主题词、作者等建立倒排档,因此,在对倒排档检索以后,往往还要补充对原文档进行二次检索。前者人们又常称之为集合检索,后者则称之为顺序检索。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条