| 基于单页语义特征的垃圾网页检测 | |
| 所屬分類:技术论文 | |
| 上傳者:zhoubin333 | |
| 文檔大?。?span>3500 K | |
| 標(biāo)簽: 垃圾网页检测 特征提取 记忆化搜索 | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。 | |
| 現(xiàn)在下載 | |
| VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2