詞向量

簡述四大類文本分析中的“詞向量”

Submitted by huzhenda on Sat, 07/14/2018 - 14:24

詞向量類型:

一個詞一列向量:Hash算法,word2vec。hash把詞打散成(01010101110)的數值,word2vec則打散同時定義成了向量,參考文獻中驗證了將詞向量加起來的確是一個有效的方法;延伸:word2vec考慮了上下語義,doc2vec還考慮了上下語句順序,用在段落中較好。

一個詞一個值:bow算法+詞權重,LDA主題-詞語矩陣。兩者有遞進關系,bow進化到LDA,當然LDA超級耗時,所以業界不喜歡用。

由詞向量到句向量:

如果是一詞一列向量,一般用簡單相加(相加被證明是最科學)來求得;

一個詞一值的就是用詞權重組合成向量的方式;

谷歌的句向量sen2vec可以直接將句子變為一列向量。

詞向量的額外效果

消除歧義:LDA的主題-詞語向量;

結合上下文語境:word2vec;

文檔與文檔之間的關系:bow+TFIDF(TFIDF能夠較好區分文檔差別的指標,而互信息較為有利于文檔中核心詞的提?。?/p>

Tags

冯仰妍破处门