这也算是个好消息,IR研究用的数据集在量上有了一个大的的突破,以前做过最大的不超过3k万,gov2 压缩也才50G左右,SEWM cwt200G。这下直接上了几十倍,exciting,不知道在这么大的数据集还有几个Lab能搞定,量变不知道会导致多大程度的质变。另外以前在小数据上Ranking 得比较好的算法,不知道现在效果会怎么样。

The corpus of 1 billion web documents ClueWeb09 is now available. The upcoming TREC 2009 will use it. You can also see the crawl stats. It ships on 4 1.5 TB hard drives.

 Leave a Reply

(required)

(required)


*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

使用腾讯微博登陆

Protected by WP Anti Spam
   
© 2011 Information Retrieval Blog Suffusion theme by Sayontan Sinha