海量规模网络信息检索评测语料库的设计与实现.ppt
《海量规模网络信息检索评测语料库的设计与实现.ppt》由会员分享,可在线阅读,更多相关《海量规模网络信息检索评测语料库的设计与实现.ppt(43页珍藏版)》请在沃文网上搜索。
1、海量规模网络信息检索评测语料库的设计与实现 研究背景研究背景多少人在使用搜索引擎全球范围内84%的互联网用户使用搜索引擎,其中超过一半的人几乎每天使用。95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。商用搜索引擎竞争日趋激烈(市场规模约56亿元)。从2007年9月开始,中国成为全球首个每月搜索请求超过100亿次的国家 研究背景研究背景搜索引擎与性能评价对搜索引擎用户:选择最有效获取信息的媒介对广告商:选择最有效的盈利平台对研究人员:算法改进、性能监控效果评价是信息检索相关研究的基础内容 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与它们的效果
2、评价方式是合二为一的。(Saracevic,1995)研究背景研究背景如何对网络信息检索系统进行评价Cranfield评价方法被应用在包括TREC在内的几乎所有主流的信息检索研究工作中。评价组成:文本语料库,查询样例集,标准答案集Cranfield评价方式的优势有效控制系统变量可以跨系统比较的评价结果研究背景研究背景网络信息检索评测语料库建立评测语料库的必要性信息检索是实证学科真实规模的评测语料是算法有效性的保证研究人员独立构建存在困难海量网络资源抓取真实用户需求获取大规模用户查询的答案标注建立评测语料库的可能性产业界与研究界的合作搜索引擎日志被合理应用已有的评测语料库相关研究已有的评测语料库
3、相关研究文本信息检索会议(TREC)NIST组织的研讨文本检索技术的国际性论坛大规模文本检索系统的标准评测平台与网络信息检索相关的评测语料VLC track(VLC,VLC2,WT2g,WT10g)6 years,300 topics,100gBWeb track(.GOV corpus)3 years,550 topics,1.25 M pages,18gBTerabyte track(.GOV2 corpus)3 years,1800 topics,27 M pages,400gB已有的评测语料库相关研究已有的评测语料库相关研究863中文信息处理与智能人机接口评测语料库规模30G 数据30
4、个查询,pooling方式确定答案4个系统参加评测现场评测参与系统少侧重系统稳定性和效率已有的评测语料库相关研究已有的评测语料库相关研究SEWM评测北京大学网络实验室组织类似TREC的评测架构文本语料库:CWT100g,CWT200g去重、去除垃圾,37M网页查询语料库:来自天网查询日志2005-2007 三年的时间1185 导航类查询285 信息类查询标注方式:人工标注,pooling方法已有的评测语料库相关研究已有的评测语料库相关研究经验总结文本语料抓取相对高质量的网络数据VLC2=WT10g,.GOV,.GOV2,CWT200g查询语料真实反映用户需求TREC Web,Terabyte;
5、SEWM标注语料规模保证TREC million query track:efficiency,not effectiveness已有的评测语料库相关研究已有的评测语料库相关研究主要困难文本语料库构建规模问题Google(8 billion+),Yahoo!(20 billion+),Sogou(10 billion+)达到Billion/Terabyte量级,保证研究成果的可信性网页质量筛选网页质量相对较高:重复语料、垃圾语料的处理。辅助语料的构建问题链接关系语料网页质量评估数据点击日志信息网络信息检索评测集合网络信息检索评测集合主要困难查询语料库构建规模问题有充分的代表性考虑到标注工作量查
6、询样例选择真实用户需求有充分的代表性覆盖不同用户信息需求已有的评测语料库相关研究已有的评测语料库相关研究主要困难标注语料库构建Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间SogouT语料库构建语料库构建设计思路海量规模、符合大多数研究机构的处理能力能够代表中文互联网的基本情况能够代表中文搜索引擎用户的需求情况客观全面评价网络信息检索系统性能实现思路利
7、用搜索引擎资源网页抓取、查询日志获取、网页质量评估数据获取使用自动化的查询语料标注方法SogouT语料库构建语料库构建构建过程网页文本语料库标注语料库查询语料库检索结果结果池手工标注网页文本语料库查询语料库标注语料库用户查询日志抓取传统方式传统方式SogouT构建方式构建方式自动标注生成SogouT语料库构建语料库构建 查询语料查询语料查询语料库构建用户查询频度的分布情况2008年6月的日志数据查询频度最高的前10000个查询词用户查询总数的万分之六点五,覆盖超过56%的用户需求SogouT语料库构建语料库构建 查询语料查询语料抽样方式2008年6月搜狗搜索引擎查询日志选取查询量最高的1000
8、0个用户查询用户查询需求抽样标注导航类约占30.6%,信息类约占69.4%具有充分的代表性规模大:我们所知最大规模的信息检索评测查询集合覆盖率高:覆盖%以上的用户查询需求SogouT语料库构建语料库构建 标注语料标注语料核心问题:如何提高结果标注的自动化程度利用伪相关反馈的方法进行结果自动标注伪相关反馈的结果被认为是答案Soboroff et.al,2001;Nuray et.al,2003;Beitzel et.al.,2003标注的准确程度和可靠性不高对查询词的近义词集合进行标注根据结果网页的查询词及近义词词频进行评判Amitay et.al,2004初始标注工作量大,评判的可靠性不高So
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 规模 网络 信息 检索 评测 语料库 设计 实现
