今天在看《Convolutional Neural Networks for Sentence Classification》这篇论文的时候,在实验部分看到了这样的一个表格(摘取两行数据):
Data | c | l | N | |V| | |Vpre| | Test |
MR | 2 | 20 | 10662 | 18765 | 16448 | CV |
SST-1 | 5 | 18 | 11855 | 17836 | 16262 | 2210 |
关于表头,论文给出了注释:
c: Number of target classes. l: Average sentence length.
N: Dataset size.
|V|: Vocabulary size.
|Vpre|: Number ofwords present in the set of pre-trained word vectors.
Test:Test set size (CV means there was no standard train/test splitand thus 10-fold CV was used).
关于最后的一个Test,即测试数据集,说是由于没有标准的测试集,所以用一个10-fold CV来代替。
那这个10-fold CV到底是什么来的。
查了下资料,10-fold CV也就是10-fold cross-validation,是一种交叉验证的方法,最简单的解释就是,将数据集分成10份,轮流将其中9份用于训练,1份用于测试,循环10次,求最终准确度的平均值。
依此类推,k-fold CV亦是如此。
所以我下载的http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz 这个数据集,由于没有验证测试集,所以就用10-fold CV 这种方法来做了。
哈哈,博主你的博客被找到了,我也是最近在看CNN的那篇文章,也是不明白cv的意思,百度找到了你的答案,很清楚,谢谢啦
哈哈哈不客气
博主我可以请教你一个问题吗:
RNN的代码:
self.emb = theano.shared(0.2 * numpy.random.uniform(-1.0, 1.0,\
(ne+1, de)).astype(theano.config.floatX))
idxs = T.imatrix() # as many columns as context window size/lines as words in the sentence
x = self.emb[idxs].reshape((idxs.shape[0], de*cs))
y = T.iscalar(‘y’) # label
上面x=self.emb….这句是什么意思呢,我的理解是idxs被定义成一个矩阵,可是矩阵的大小并没有给出啊?那idxs.shape[0]的值怎么确定呢?self.emb[idxs]的意思是在self.emb这个大矩阵中划出来一个如idxs大小的矩阵么?叙述的不太清楚,望见谅。
恰好最近我也在看rnn哈哈,不过这些用theano写的rnn代码,我还在看,所以不是很清楚。然后我也print了一下,idxs是TensorType(int32, matrix)>,idxs.shape[0]是Subtensor{int64}.0
等我学会了再回复你哈,或者你弄懂了可以告诉我一声。
刚刚找了一下,下面这篇博文可能能帮到你:
http://www.cnblogs.com/alex21/p/5254235.html
哈哈,好巧啊,现在我有点明白那行代码,但也不是很清楚。等我再琢磨琢磨,然后反馈给你
哈哈好
同学你好,我想问一下你现在是在读深度学习的研究生吗,纯属个人猜测。我现在在做关于深度学习在文本处理方面的毕设,举步维艰啊,如果同学你也是读研,也是这个方向,我们可以加个联系方式吗,有问题可以及时讨论。不是的话,就没事啦,打扰啦
嗯 是的 加你qq了
同学你好,我是研究深度学习的研究生,希望我们可以交流经验。
没问题,我也在学习中