| 一种自适应网页结构化信息提取方法 | |
| 所屬分類:技术论文 | |
| 上傳者:aetmagazine | |
| 文檔大小:509 K | |
| 標(biāo)簽: 信息提取 结构化信息 分类模型 | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:面向互联网信息采集挖掘应用,针对传统的网站信息整页采集方式存在采集信息混杂、无法直接使用,而人工结构化采集方式成本高、工作效率低的问题,研究提出了一种自适应网页结构化信息提取方法,实现了网页分类算法、基于子树的标题项、内容项的结构化信息提取算法。基于典型网站网页分类标注数据集进行分类模型的学习建模,可以自适应不同网站的差异,对网页进行分类,按照网页分类分别提取出网页中的列表项结构化信息、内容项结构化信息。该技术对提高网站信息结构化采集处理的自动化水平及处理效率具有重要作用。 | |
| 現(xiàn)在下載 | |
| VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2