数据仓库中重复记录清理算法研究
所屬分類:技术论文
上傳者:aet
文檔大小:967 K
標(biāo)簽: 自动化软件
所需積分:0分積分不夠怎么辦?
文檔介紹:针对重复记录清理中的“排序、识别、合并”算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考 虑了匹配字段的文字数量、在2 个字段中出现的频率、在记录中各字段的重要性( 权重) 、中文字段的语义和语义重点偏后等5 个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。