在RNN网络中,输入的数据都是离散序列化数据。
梯度消失:
梯度消失包含梯度消失和梯度爆炸。梯度消失的意思是如果每一个连续相乘的导数值均小于1时,那么最终的结果很快将趋于0;相反,梯度爆炸的意思是如果每一个连续相乘的导数值均大于1,会产生一个很大的结果。
为了将单词前后连续起来,便产生了LSTM(Long Short-term Memory),中文名称为长短期记忆网络。他的核心思想是利用电子电路中的各种门电路的组合来进行“记忆”。对于RNN来说,如果我们有10000个x,那么是否需要将每一个x输出的结果都进行记忆呢?答案是否定的,显然太前方的信息或者一些其他信息已经对我们当前的信息没有什么影响了,所以我们就需要LSTM的门电路对这些输入进行过滤。
word2vec
如何对一个人进行描述呢?我们会直观地看到它的外貌,比如身高体重等,对于单词也是如此。我们把每一个单词拆分成一定维度地向量,向量太小会描述不准确,因为我们需要从多个角度去评价这一向量,根据Google的建议,向量大小通常设置在50-300维度为宜。通常维度越多,计算出的值越具有可靠性。
(利用平均余弦相似度来计算得分)
(以热力图反映出词意的相近程度。)
CBOW:以上下文作为输入,中间值作为输出。
Skipgram:以中间值作为输入,上下文作为输出。
假定限制每次三个单词,移动滑块。
输入A我们想得到B,即可转化思路为输入A,得到B的概率为多少,当然是越接近1越好。
但是我们所给的标签均为1,所以我们要进行负样本采样,人工加入干扰项,并将干扰项的概率设为0,
干扰项设置为5个为宜。