信息检索按其检索手段划分

如题所述

信息检索按存储载体和检索手段方式划分,可分为:手工检索、机械检索、计算机检索三种。

检索需求:满足用户在海量信息中迅速筛选出自己感兴趣的内容。

检索外部流程:用户检索意图 → 输入的内容(关键词/图片/语音/二维码等)→ 搜索结果(屏蔽部分结果)→ 搜索结果展现(默认排序和选择排序)。

检索内部流程:用户输入query → query分析 → 索引&词库 → 内容筛选 → 结果召回→ 结果排序及展示。

Query分析主要是对用户输入的query进行信息的转译过程,将用户输入的query进行分词处理。各个搜索平台都有自己的分词模型,CRF模型是一种序列标注的机器学习方法,其关键点在于如何有足够且标注准确的训练语料库。切分后的关键词进一步用子项检索策略处理,归一化无效词,如:“的”。Query分析里面包含了很多子项策略,包括纠错,相关搜索词,query改写/变换,query类别识别,意图识别,同义词替换,Term词项构造(文本词条化,停用词过滤,词条归一化,词干提取,词形还原)等等。

在实际项目中,因为召回率和准确率相互影响,所以我们尽可能在保证一定召回率的情况下提升准确率(但如果是反作弊系统则是在保证准确率的情况下,保证召回率)。因此,我们通过统计出一组不同阀值下的准确率和召回率的关系,称之为P-R曲线。计算一个F值作为准确率和召回率的综合表征,F = 2*P*R / (P + R) 。在实际应用中也会对参数进行调整做出适应使用场景的灵活变化。

排序的合理性评估则是需要根据用户的使用场景确定是要根据热度排序还是距离排序等进行评估。评估时需制定评估标准,做到评估标准相互独立,完全穷尽的原则,便于他人理解与工作复查(检索结果排序常用GSB方式评估,需要注意Bad中是否有极端bad的结果)。

温馨提示:答案为网友推荐,仅供参考
相似回答