1、海量规模网络信息检索评测语料库的设计与实现 研究背景研究背景多少人在使用搜索引擎全球范围内84%的互联网用户使用搜索引擎,其中超过一半的人几乎每天使用。95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。商用搜索引擎竞争日趋激烈(市场规模约56亿元)。从2007年9月开始,中国成为全球首个每月搜索请求超过100亿次的国家 研究背景研究背景搜索引擎与性能评价对搜索引擎用户:选择最有效获取信息的媒介对广告商:选择最有效的盈利平台对研究人员:算法改进、性能监控效果评价是信息检索相关研究的基础内容 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与它们的效果
2、评价方式是合二为一的。(Saracevic,1995)研究背景研究背景如何对网络信息检索系统进行评价Cranfield评价方法被应用在包括TREC在内的几乎所有主流的信息检索研究工作中。评价组成:文本语料库,查询样例集,标准答案集Cranfield评价方式的优势有效控制系统变量可以跨系统比较的评价结果研究背景研究背景网络信息检索评测语料库建立评测语料库的必要性信息检索是实证学科真实规模的评测语料是算法有效性的保证研究人员独立构建存在困难海量网络资源抓取真实用户需求获取大规模用户查询的答案标注建立评测语料库的可能性产业界与研究界的合作搜索引擎日志被合理应用已有的评测语料库相关研究已有的评测语料库
3、相关研究文本信息检索会议(TREC)NIST组织的研讨文本检索技术的国际性论坛大规模文本检索系统的标准评测平台与网络信息检索相关的评测语料VLC track(VLC,VLC2,WT2g,WT10g)6 years,300 topics,100gBWeb track(.GOV corpus)3 years,550 topics,1.25 M pages,18gBTerabyte track(.GOV2 corpus)3 years,1800 topics,27 M pages,400gB已有的评测语料库相关研究已有的评测语料库相关研究863中文信息处理与智能人机接口评测语料库规模30G 数据30
4、个查询,pooling方式确定答案4个系统参加评测现场评测参与系统少侧重系统稳定性和效率已有的评测语料库相关研究已有的评测语料库相关研究SEWM评测北京大学网络实验室组织类似TREC的评测架构文本语料库:CWT100g,CWT200g去重、去除垃圾,37M网页查询语料库:来自天网查询日志2005-2007 三年的时间1185 导航类查询285 信息类查询标注方式:人工标注,pooling方法已有的评测语料库相关研究已有的评测语料库相关研究经验总结文本语料抓取相对高质量的网络数据VLC2=WT10g,.GOV,.GOV2,CWT200g查询语料真实反映用户需求TREC Web,Terabyte;
5、SEWM标注语料规模保证TREC million query track:efficiency,not effectiveness已有的评测语料库相关研究已有的评测语料库相关研究主要困难文本语料库构建规模问题Google(8 billion+),Yahoo!(20 billion+),Sogou(10 billion+)达到Billion/Terabyte量级,保证研究成果的可信性网页质量筛选网页质量相对较高:重复语料、垃圾语料的处理。辅助语料的构建问题链接关系语料网页质量评估数据点击日志信息网络信息检索评测集合网络信息检索评测集合主要困难查询语料库构建规模问题有充分的代表性考虑到标注工作量查
6、询样例选择真实用户需求有充分的代表性覆盖不同用户信息需求已有的评测语料库相关研究已有的评测语料库相关研究主要困难标注语料库构建Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间SogouT语料库构建语料库构建设计思路海量规模、符合大多数研究机构的处理能力能够代表中文互联网的基本情况能够代表中文搜索引擎用户的需求情况客观全面评价网络信息检索系统性能实现思路利
7、用搜索引擎资源网页抓取、查询日志获取、网页质量评估数据获取使用自动化的查询语料标注方法SogouT语料库构建语料库构建构建过程网页文本语料库标注语料库查询语料库检索结果结果池手工标注网页文本语料库查询语料库标注语料库用户查询日志抓取传统方式传统方式SogouT构建方式构建方式自动标注生成SogouT语料库构建语料库构建 查询语料查询语料查询语料库构建用户查询频度的分布情况2008年6月的日志数据查询频度最高的前10000个查询词用户查询总数的万分之六点五,覆盖超过56%的用户需求SogouT语料库构建语料库构建 查询语料查询语料抽样方式2008年6月搜狗搜索引擎查询日志选取查询量最高的1000
8、0个用户查询用户查询需求抽样标注导航类约占30.6%,信息类约占69.4%具有充分的代表性规模大:我们所知最大规模的信息检索评测查询集合覆盖率高:覆盖%以上的用户查询需求SogouT语料库构建语料库构建 标注语料标注语料核心问题:如何提高结果标注的自动化程度利用伪相关反馈的方法进行结果自动标注伪相关反馈的结果被认为是答案Soboroff et.al,2001;Nuray et.al,2003;Beitzel et.al.,2003标注的准确程度和可靠性不高对查询词的近义词集合进行标注根据结果网页的查询词及近义词词频进行评判Amitay et.al,2004初始标注工作量大,评判的可靠性不高So
9、gouT语料库构建语料库构建 标注语料标注语料核心问题:如何提高结果标注的自动化程度利用用户行为分析方法Joachims et.al.(1997)创建了一个元搜索接口,将不同搜索引擎的结果加以混杂,把用户点击不同结果的情况加以记录,并以此作为评判依据用户行为分析的思路值得肯定缺点:改变用户检索习惯、个体用户行为不可靠等我们的研究思路通过对搜索引擎记录下的用户行为日志进行分析,不额外增加用户负担。使用用户群体,而不是个体的点击行为作为依据SogouT语料库构建语料库构建 标注语料标注语料对查询集合结果进行标注个体用户可能在点击过程中出现谬误用户群体的点击信息则是很大程度上可靠的统计用户群体的点击
10、行为,进而对查询对应的结果进行标注结果标注的可靠性分析结果标注是否准确结果标注是否全面SogouT语料库构建语料库构建 标注语料标注语料用户行为的可靠性分析对导航类查询结果唯一,不存在“找不全”的问题搜索引擎检索性能高,点击准确度较可靠能够发现用户的关注热点,如“163”=“搜狗”=适合作为搜索性能自动评测的对象SogouT语料库构建语料库构建 标注语料标注语料用户行为的可靠性分析对信息事务类查询(以查询词”电影”为例)不同搜索引擎的点击分布差异大存在着搜索引擎对用户行为的偏置性影响索引数据偏置检索策略偏置结果不唯一,全面性难以保证不适合使用单一搜索引擎的日志信息,作为完全自动评测的对象Sog
11、ouT语料库构建语料库构建 标注语料标注语料针对导航类查询的结果自动标注利用单个搜索引擎的点击信息即可完成焦点假设:不同用户具有相同的导航类别检索需求时,他们的点击都会集中在其检索目标网页(或其镜像)上。网页r 针对查询q的点击集中度q的点击集中度最高的r即为其检索目标页面SogouT语料库构建语料库构建 标注语料标注语料针对导航类查询的结果自动标注标注算法:寻找针对q的ClickFocus值最大的r标注样例查询自动标注的URL读写网http:/ 标注语料标注语料针对信息事务类查询需求的答案自动标注基于多搜索引擎用户行为挖掘1.利用单搜索引擎用户行为挖掘方式,进行各自独立的标注2.借鉴Pool
12、ing做法,综合不同标注者(这里为搜索引擎用户的宏观行为)的意见需要考虑的因素用户点击行为差异用户访问量差异搜索引擎相对重要性的差异SogouT语料库构建语料库构建 标注语料标注语料基于多搜索引擎用户行为挖掘的标注算法需要考虑的因素用户点击行为差异用户访问量差异查询分布差异搜索引擎相对重要性的差异综合考虑以上因素,计算某个结果对于某个查询的置信度SogouT语料库构建语料库构建 标注语料标注语料合并计算结果url对于查询q的置信度 基于单搜索引擎进行答案标注的可信度依据查询用户数来计算SogouT语料库构建语料库构建 标注语料标注语料 单独某个搜索引擎标注答案的可信程度依据此搜索引擎的用户点击
13、的宏观集中程度来确定SogouT语料库构建语料库构建 标注语料标注语料查询点击分布合并模型其中,反映不同搜索引擎的在结果标注中的重要程度SogouT语料库构建语料库构建 标注语料标注语料例:查询“疯狂英语”BaiduGoogleYahoowww.crazyenglish.org/ SogouT语料库构建语料库构建 标注语料标注语料实验数据Sogou搜索8个月查询日志(超过7亿条日志信息)针对其中高频导航类查询进行自动标注对每个时间段抽取约5%的数据进行手工检查时间段时间段标注查询数标注查询数检验样检验样例数例数样样例集合例集合准确度准确度Jun.06-Aug.0613,902695 98.13
14、%Sept.06-Nov.0613,884694 97.41%Dec.06-Jan.0711,296565 96.64%SogouT语料库构建语料库构建 标注语料标注语料与手工评价结果类似利用用户群体行为分析方法进行搜索引擎自动性能评价是可行的SogouT语料库构建语料库构建 标注语料标注语料SogouT自动标注语料库10000个查询主题,65465个标注答案抽样其中5%的查询进行检查(500个)由两名标注人员手工检查(1人标注,1人检查)总数标注错误 标注正确正确率信息类查询对应的答案10114296995.85%导航类查询对应的答案3652534093.15%SogouT语料库构建语料库构
15、建 文本语料库文本语料库文本语料库构建网页抓取网络爬虫种子选取策略标注语料库所包含的65465个网页Sogou网络爬虫种子集合所包含的网站防止爬虫黑洞必要的垃圾网页过滤(黑名单)必要的低质量页面、无内容网页过滤(爬虫判断)只抓取HTML网页内容抓取到约1亿网页时停止SogouT语料库构建语料库构建 文本语料库文本语料库文本语料库构成1.387亿网页存储空间约5 Terabyte,gzip压缩后约1.01 Terabyte链接关系图链接关系数目约33.4亿条存储空间约24 Gigabyte(gzip压缩)网页质量评估数据所有网页对应的SogouRank值(site-based PageRank)
16、SogouT语料库构建语料库构建 评测系统评测系统SogouT语料获取文本语料:http:/ 评测系统评测系统“搜索仪”在线评测系统http:/searchE 评测系统评测系统“搜索仪”在线评测系统用户注册后,即可获取SogouE1 SogouE3对应的查询语料(只有SogouE1对应的标注语料)用户根据SogouE1对检索系统进行训练,并改进系统设计与算法用户随时提交对查询语料进行检索得到的检索结果,并获得根据SogouE2即时反馈的检索评价搜索仪网站根据评价结果对用户系统进行排名并随时公布、更新。SogouT语料库构建语料库构建 评测系统评测系统“搜索仪”在线评测系统定期召开的信息检索与内
17、容安全全国会议(NCIRCS)上,组织专门的评测论坛使用SogouE3对用户提交的结果进行进一步验证邀请系统性能领先的研究人员进行交流应用实例:搜索仪应用实例:搜索仪Http:/searchE 功能演示!相关参考文献相关参考文献搜狗实验室网站:http:/ at:http:/ Liu,Yupeng Fu,Min Zhang,Shaoping Ma,Liyun Ru.Automatic Search Engine Performance Evaluation with Click-through Data Analysis.in Proceedings of the 16th international Conference on World Wide Web.WWW 07.ACM,New York,NY,1133-1134.中华人民共和国专利:刘奕群,张敏,金奕江,马少平.一种搜索引擎性能评价的自动化处理方法.200610144289.XThank you!