数据集 – 找不到的博客

今天在看《Convolutional Neural Networks for Sentence Classification》这篇论文的时候，在实验部分看到了这样的一个表格(摘取两行数据)：

Data	c	l	N	\|V\|	\|Vpre\|	Test
MR	2	20	10662	18765	16448	CV
SST-1	5	18	11855	17836	16262	2210

关于表头，论文给出了注释：

c: Number of target classes. l: Average sentence length.
N: Dataset size.
|V|: Vocabulary size.
|Vpre|: Number ofwords present in the set of pre-trained word vectors.
Test:Test set size (CV means there was no standard train/test splitand thus 10-fold CV was used).

关于最后的一个Test，即测试数据集，说是由于没有标准的测试集，所以用一个10-fold CV来代替。

那这个10-fold CV到底是什么来的。

查了下资料，10-fold CV也就是10-fold cross-validation，是一种交叉验证的方法，最简单的解释就是，将数据集分成10份，轮流将其中9份用于训练，1份用于测试，循环10次，求最终准确度的平均值。

依此类推，k-fold CV亦是如此。

所以我下载的http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz 这个数据集，由于没有验证测试集，所以就用10-fold CV 这种方法来做了。

标签：数据集

10-fold CV是什么意思