| 一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 | |
| 所屬分類(lèi):技术论文 | |
| 上傳者:zhoubin333 | |
| 文檔大?。?span>3591 K | |
| 標(biāo)簽: 科技项目文本 文本相似度 TF-IDF | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 | |
| 現(xiàn)在下載 | |
| VIP會(huì)員,AET專(zhuān)家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2