Mar 282009
这也算是个好消息,IR研究用的数据集在量上有了一个大的的突破,以前做过最大的不超过3k万,gov2 压缩也才50G左右,SEWM cwt200G。这下直接上了几十倍,exciting,不知道在这么大的数据集还有几个Lab能搞定,量变不知道会导致多大程度的质变。另外以前在小数据上Ranking 得比较好的算法,不知道现在效果会怎么样。
The corpus of 1 billion web documents ClueWeb09 is now available. The upcoming TREC 2009 will use it. You can also see the crawl stats. It ships on 4 1.5 TB hard drives.