<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Information Retrieval Blog &#187; IR实验系统</title>
	<atom:link href="http://blog.zye.me/tag/ir%e5%ae%9e%e9%aa%8c%e7%b3%bb%e7%bb%9f/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.zye.me</link>
	<description>REAL TIME DATA PROCESSING, DISTRIBUTED COMPUTING, PATTERN DISCOVERY</description>
	<lastBuildDate>Wed, 08 Feb 2012 17:33:32 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>The Ivory Toolkit with the SMRF Retrieval Engine (under Hadoop Framework)</title>
		<link>http://blog.zye.me/2009/08/53939.html</link>
		<comments>http://blog.zye.me/2009/08/53939.html#comments</comments>
		<pubDate>Sat, 08 Aug 2009 17:53:41 +0000</pubDate>
		<dc:creator>yezheng</dc:creator>
				<category><![CDATA[information Retrieval]]></category>
		<category><![CDATA[IR toolkit]]></category>
		<category><![CDATA[IR实验系统]]></category>
		<category><![CDATA[Ivory]]></category>
		<category><![CDATA[MapReduce]]></category>
		<category><![CDATA[SaberLucene]]></category>

		<guid isPermaLink="false">http://blog.so8848.com/?p=53939</guid>
		<description><![CDATA[With the growth of IR dataset in size, it seems that a powerful platform for rapidly indexing and searching is needed.  Ivory is a newly announced experimental platform developed on the basis of Hadoop. It could be a good choice when we come to the billion era. This system has shown very competitive performance. I believe it will be the next successful <a href='http://blog.zye.me/2009/08/53939.html'>[...]</a>]]></description>
			<content:encoded><![CDATA[<table border="0" width="80%">
<tbody>
<tr>
<td align="left">With the growth of IR dataset in size, it seems that a powerful platform for rapidly indexing and searching is needed.  Ivory is a newly announced experimental platform developed on the basis of Hadoop. It could be a good choice when we come to the billion era. This system has shown very competitive performance. I believe it will be the next successful experimental platform  if more documentation can be provided.However, for the out-of-box Ivory,  there are not sufficient algorithms implemented like in Terrier (also not enough). This would also be a future step for our LabLucene Project (under release). Besides the MapReduce framework, we would also like to integrate Indri Query Lanuage into LabLucene. After these two major steps, we would expect a first release of LabLucene. Right now, I just start learning Hadoop. I would also like someone to help me out. Anyone who wants to get involved in this unfunded project will be warmly welcomed.</p>
<h2>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</h2>
<h2>The Ivory Toolkit with the SMRF Retrieval Engine</h2>
<div class="main">
<p>Ivory is a Hadoop toolkit for Web-scale information retrieval research that features a retrieval engine based on Markov Random Fields, appropriately named SMRF (Searching with Markov Random Fields). This open-source project began in Spring 2009 and represents a collaboration between the University of Maryland and Yahoo! Research. Ivory takes full advantage of the <a href="http://hadoop.apache.org/core/">Hadoop</a> distributed environment (the MapReduce programming model and the underlying distributed file system) for both indexing and retrieval.</p>
<p>In order to temper expectations, please note that Ivory is not meant to serve as a full-featured search engine (e.g., Lucene), but rather aimed at information retrieval researchers who need access to low-level data structures and who generally know their way around retrieval algorithms. As a result, a lot of &#8220;niceties&#8221; are simply missing—for example, fancy interfaces or ingestion support for different file types. It goes without saying that Ivory is a bit rough around the edges, but our philosophy is to release early and release often. In short, Ivory is <strong>experimental</strong>!</p>
<p>Ivory was specifically designed to work with Hadoop &#8220;out of the box&#8221; on the <a href="http://boston.lti.cs.cmu.edu/clueweb09/wiki/tiki-index.php?page=ClueWeb09%20Wiki">ClueWeb09 collection</a>, a 1 billion page (25 TB) Web crawl distributed by Carnegie Mellon University. The initial release of Ivory is meant to serve as a reference implementation of indexing and retrieval algorithms that can operate at the multi-terabyte scale. Another interesting experimental aspect of Ivory is it&#8217;s retrieval architecture: we&#8217;ve been playing with retrieval engines that directly read postings from HDFS. The getting started guide with <a href="trec.html">TREC disks 4-5</a> provides more details.</p>
<h3>Download</h3>
<ul>
<li>Ivory, release 0.1 (July 18, 2009): <a href="http://www.umiacs.umd.edu/~jimmylin/dist/ivory-r0.1.tar.gz">ivory-r0.1.tar.gz</a> (4.9 MB)</li>
</ul>
<h3>Documentation</h3>
<ul>
<li><a href="javadoc/index.html">Ivory API javadoc</a></li>
<li><a href="start.html">Downloading and setting up</a> the Ivory toolkit</li>
<li>Getting started with <a href="trec.html">TREC disks 4-5</a></li>
<li>Getting started with <a href="clue.html">the ClueWeb09 collection</a></li>
<li>Other <a href="thirdparty.html">third-party libraries</a> on which Ivory depends</li>
<li><a href="team.html">Project team</a></li>
</ul>
</div>
</td>
</tr>
</tbody>
</table>
]]></content:encoded>
			<wfw:commentRss>http://blog.zye.me/2009/08/53939.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>IR实验系统</title>
		<link>http://blog.zye.me/2009/06/50714.html</link>
		<comments>http://blog.zye.me/2009/06/50714.html#comments</comments>
		<pubDate>Sun, 21 Jun 2009 05:33:18 +0000</pubDate>
		<dc:creator>yezheng</dc:creator>
				<category><![CDATA[information Retrieval]]></category>
		<category><![CDATA[Indri]]></category>
		<category><![CDATA[IR实验系统]]></category>
		<category><![CDATA[LabLucene]]></category>
		<category><![CDATA[Lemur]]></category>
		<category><![CDATA[Okapi]]></category>
		<category><![CDATA[Smart]]></category>
		<category><![CDATA[Terrier]]></category>

		<guid isPermaLink="false">http://blog.so8848.com/?p=50714</guid>
		<description><![CDATA[IR实验系统 根据设计目的和使用用途的不同，文本信息检索系统可以分为两大类：一类是以技术研究为目的，供研究者使用的实验系统；另一类是供普通用户使用的实用系统，其中使用最广泛的就是WWW搜索引擎。 实验系统 由于文本信息检索系统非常复杂，所涉及的技术很多，因此，如果每个研究者都自己开发一个完整的检索系统则是相当困难的，并且也没有必要。事实上，已经有不少很完善的实验系统出现，研究者可以利用它们进行研究，其中很多系统都可免费使用，有些甚至提供源代码和完善的文档，让使用者可以很方便地实现自己的算法。 1．Smart系统(http://ftp.cs.cornell.edu/pub/smart/) Smart系统是最著名的、使用者最多的实验系统之一。其原因一方面是它的历史比较长，另一方面是它的使用是免费的，且可下载源代码，使研究者使用起来非常方便。Smart系统由美国康奈尔大学研发，最初的研发工作由Gerard Salton教授领导，并在20世纪80年代初开发出第一个版本。目前其维护工作由Chris Buckley负责，最新的版本是Smart11。 开发Smart系统的目的是为了给文本信息检索技术的研究者提供一个完善的实验平台。在这一思想指导下，Smart实现了一个完整的基于向量空间模型的文本信息检索系统，不过目前只能处理英文文档。利用Smart，用户可以对一组文档建立索引，然后即可对给出的问询(query)返回检索结果，并对结果进行评价。同时，它包括去除stopwords（stopwords列表可由用户指定）、去除词形变化(stemming)、weighting计算等子功能模块。用户可以根据自己的需要分别调用。不过，由于其设计年代较早，Smart系统存在一个很大的缺点，即只能处理大约500MB以下的文档集合，这使它在数据量达到10GB以上的TREC Web Track这样的问题时显得力不从心。Smart系统的另一个不足之处是缺乏良好的文档，使用者常常需要自己摸索使用方法。 2．Okapi系统(http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html) Okapi是另一个著名的文本检索实验系统。其第一版于20世纪80年代末问世，运行在Unix系统上。时至今日，经过10多年的发展，Okapi系统越来越健壮，检索精确度也越来越高。近几年，在TREC比赛中，有不少参加者采用Okapi系统取得了很好的成绩。不过，Okapi系统不是免费的，并且不提供源代码。目前，该系统可运行在Sun工作站、Linux系统以及Windows系统平台上。 Okapi系统是由伦敦城市大学开发的。它基于概率检索模型设计，使用著名的bm25公式及其变形（bm2500、bm250）等作为求term 权值的公式。这种权重计算公式在概率模型中已经成为公认的成熟的标准计算方法。Okapi同样提供建立索引和查询的工具，分别有命令行方式和图形界面方式。 3．Lemur Toolkit系统(http://www-2.cs.cmu.edu/~lemur/) Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学（CMU）开发，在2001年公布了第一个公开的版本。其特点是在检索中引入了语言模型，更重要的是，它不仅是一个完整的检索系统，而且是以工具包的形式提供的。各功能模块都有良好的封装，并提供清晰的源代码和丰富的文档说明，研究者使用它搭建自己的实验系统易如反掌。 Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究，包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等各方面技术的研究。工具包支持对大规模文本数据建立索引，对文档和查询构建简单的语言模型，同时实现了基于语言模型的检索系统。整个系统用C和C++语言实现，可在Unix和Windows系统下运行。 Indri Indri 是来自于Lemur项目的一个新搜索引擎；由University of Massachusettsand Carnegie Mellon University 合作完成。虽然是来源于Lemur project，但是一个完全独立的搜索引擎系统，和Lemur同步更新。 特点开源、高效、灵活，build-in 支持 trec ad hoc 检索。 特色： 1）支持流行的结构化查询语言INQUERY 2）排序算法，Indri Ranking algorithm &#8211; A combination of Inference network and Language Model 3） 支持build-in passage Retrieval 另外Indri 和 Lemur可以共享索引文件，也就是说Lemur里面的其它Ranking 算法都可以用。 <a href='http://blog.zye.me/2009/06/50714.html'>[...]</a>]]></description>
			<content:encoded><![CDATA[<h1>IR实验系统</h1>
<p>根据设计目的和使用用途的不同，文本信息检索系统可以分为两大类：一类是以技术研究为目的，供研究者使用的实验系统；另一类是供普通用户使用的实用系统，其中使用最广泛的就是WWW搜索引擎。</p>
<p>实验系统</p>
<p>由于文本信息检索系统非常复杂，所涉及的技术很多，因此，如果每个研究者都自己开发一个完整的检索系统则是相当困难的，并且也没有必要。事实上，已经有不少很完善的实验系统出现，研究者可以利用它们进行研究，其中很多系统都可免费使用，有些甚至提供源代码和完善的文档，让使用者可以很方便地实现自己的算法。</p>
<h1>1．Smart系统(http://ftp.cs.cornell.edu/pub/smart/)</h1>
<p>Smart系统是最著名的、使用者最多的实验系统之一。其原因一方面是它的历史比较长，另一方面是它的使用是免费的，且可下载源代码，使研究者使用起来非常方便。Smart系统由美国康奈尔大学研发，最初的研发工作由Gerard Salton教授领导，并在20世纪80年代初开发出第一个版本。目前其维护工作由Chris Buckley负责，最新的版本是Smart11。</p>
<p>开发Smart系统的目的是为了给文本信息检索技术的研究者提供一个完善的实验平台。在这一思想指导下，Smart实现了一个完整的基于向量空间模型的文本信息检索系统，不过目前只能处理英文文档。利用Smart，用户可以对一组文档建立索引，然后即可对给出的问询(query)返回检索结果，并对结果进行评价。同时，它包括去除stopwords（stopwords列表可由用户指定）、去除词形变化(stemming)、weighting计算等子功能模块。用户可以根据自己的需要分别调用。不过，由于其设计年代较早，Smart系统存在一个很大的缺点，即只能处理大约500MB以下的文档集合，这使它在数据量达到10GB以上的TREC Web Track这样的问题时显得力不从心。Smart系统的另一个不足之处是缺乏良好的文档，使用者常常需要自己摸索使用方法。</p>
<h1>2．Okapi系统(http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html)</h1>
<p>Okapi是另一个著名的文本检索实验系统。其第一版于20世纪80年代末问世，运行在Unix系统上。时至今日，经过10多年的发展，Okapi系统越来越健壮，检索精确度也越来越高。近几年，在TREC比赛中，有不少参加者采用Okapi系统取得了很好的成绩。不过，Okapi系统不是免费的，并且不提供源代码。目前，该系统可运行在Sun工作站、Linux系统以及Windows系统平台上。</p>
<p>Okapi系统是由伦敦城市大学开发的。它基于概率检索模型设计，使用著名的bm25公式及其变形（bm2500、bm250）等作为求term 权值的公式。这种权重计算公式在概率模型中已经成为公认的成熟的标准计算方法。Okapi同样提供建立索引和查询的工具，分别有命令行方式和图形界面方式。</p>
<h1>3．Lemur Toolkit系统(http://www-2.cs.cmu.edu/~lemur/)</h1>
<p>Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学（CMU）开发，在2001年公布了第一个公开的版本。其特点是在检索中引入了语言模型，更重要的是，它不仅是一个完整的检索系统，而且是以工具包的形式提供的。各功能模块都有良好的封装，并提供清晰的源代码和丰富的文档说明，研究者使用它搭建自己的实验系统易如反掌。</p>
<p>Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究，包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等各方面技术的研究。工具包支持对大规模文本数据建立索引，对文档和查询构建简单的语言模型，同时实现了基于语言模型的检索系统。整个系统用C和C++语言实现，可在Unix和Windows系统下运行。</p>
<p>Indri</p>
<p>Indri 是来自于Lemur项目的一个新搜索引擎；由<a href="http://ciir.cs.umass.edu/">University of Massachusetts</a>and <a href="http://www.lti.cs.cmu.edu/">Carnegie Mellon University</a> 合作完成。虽然是来源于Lemur project，但是一个完全独立的搜索引擎系统，和Lemur同步更新。</p>
<p>特点开源、高效、灵活，build-in 支持 trec ad hoc 检索。</p>
<p>特色： 1）支持流行的结构化查询语言INQUERY 2）排序算法，Indri Ranking algorithm &#8211; A combination of Inference network and Language Model 3） 支持build-in passage Retrieval</p>
<p>另外Indri 和 Lemur可以共享索引文件，也就是说Lemur里面的其它Ranking 算法都可以用。</p>
<h1>4. <a href="http://ir.dcs.gla.ac.uk/terrier/">Terrier</a></h1>
<p>Terrier 由 <a href="http://www.gla.ac.uk/">University of Glasgow</a> 开发，主用用于试验研究目的，java语言开发，开源。</p>
<p>适用于ad hoc 检索实验，特别容易修改其ranking 算法和Query Expansion 算法，而且已经内部实现很多state-of-the-art的相关算法。</p>
<p>对于ranking 算法，除了有基本的language model 和 bm25 之外，还有他们自己提出的Divergence From Randomness (DFR) weighting model, 是一种无参数的weighting model，很多实验表明检索效果要优于BM25 with default parameters，而且 DFR 也有相对应的Query Expansion算法，效果也相当不错。</p>
<p>缺点暂时还不支持 索引多个域。虽然已经发布到2.2.1 版本了，但感觉还是in its very early stage。</p>
<p>感觉Terrier算是系统结果比较简单一IR系统，比较适合初学者去修改。</p>
<p>5.  <a href="http://www.zye.me/lucene/">LabLucene<br />
</a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.zye.me/2009/06/50714.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

