基于Whoosh和BM25算法实现的问答系统
目录
一、实验目的
本次实验目的是对问答系统的设计与实现过程有一个全面的了解。实验主要内容包括:对给定的文本集合进行处理、建立索引;找出问题的候选答案句并排序;答案抽取,逐步调优。
二、实验内容
本次实验中,首先要自己建立一个检索系统,从文本库中检索到与问题最相关的文档(可以是一个或者多个)。然后对文档中的候选答案句进行排序,抽取出最相关的候选答案句。最后,在最相关的候选答案句中抽取最精简的答案,这个答案可能是一个词或者几个词。实验提供了一部分有标注的数据作为训练集和开发集,需要提交的那部分是去掉了标注的数据,最终通过提交的答案和标准答案的相似度(BLEU-1 值)来评价本次实验的效果。











