123,123

基于混合表征学习的专利分类方法研究

信息技术与网络安全 12期

王庆才1，2，刘贵全1，2

(1.中国科学技术大学计算机科学与技术学院，安徽合肥230027； 2.大数据分析与应用安徽省重点实验室，安徽合肥230027)

摘要： 专利分类是专利分析的基本任务，而基于深度学习的自动化专利分类方法可以有效地执行专利分类任务。现有研究大多利用自然语言处理方法，基于单个专利的文本内容(如摘要和标题)对专利文本进行分类，而专利及标签之间的宏观关系(如专利之间的引用和标签之间的共现)在很大程度上被忽略。为了缓解专利分类中单一专利信息的问题，构建了三个图网络表示专利及其标签之间的宏观关系，然后提出一个基于混合表征学习的专利分类框架，将专利及标签的宏观关系融入分类中，以提高专利的自动化分类的准确性。在真实的专利数据集的实验结果表明，该分类方法在多个评价指标上取得了最佳的性能。

關(guān)鍵詞： 专利分类多标签分类图神经网络深度学习

中圖分類號(hào)： TP181
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2021.12.009
引用格式：王慶才，劉貴全. 基于混合表征學(xué)習(xí)的專利分類方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全，2021，40(12)：51-59.

Hybrid representation based framework for patent classification

Wang Qingcai1，2，Liu Guiquan1，2

(1.School of Computer Science and Technology，University of Science and Technology of China，Hefei 230027，China； 2.Anhui Province Key Laboratory of Big Data Analysis and Application，Hefei 230027，China)

Abstract： Patent classification is a fundamental task in patent analysis, and automatic patent classification methods based on deep learning can perform effectively. Most existing studies utilize natural language processing methods to classify patent documents based on the textual contents of individual patents(e.g.，abstracts and titles), while the macro-relationships between patents and their labels(e.g.，citations between patents and co-occurrence between labels) are largely ignored. To alleviate the problem of single patent information in patent classification, this paper constructed three graphs to represent the macro-relationships between patents and labels, and then proposed a hybrid representation based framework for patent classification to enhance the automated classification of patents. Extensive experiments conducted on real patent datasets show that the proposed classification method achieves the best performance in several evaluation metrics.

Key words : patent classification；multi-label classification；Graph Neural Network；deep learning

0 引言

專利分類是專利挖掘和管理中重要的基礎(chǔ)任務(wù)。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征，然后將這些特征輸入分類器中，其輸出結(jié)果表示專利文檔所屬的標(biāo)簽。通常一個(gè)專利具有一個(gè)或多個(gè)標(biāo)簽。面對(duì)每年快速增長的專利申請(qǐng)數(shù)量，實(shí)現(xiàn)高效的、自動(dòng)化的專利分類算法可以大大減少專利機(jī)構(gòu)的人工成本和時(shí)間成本。目前，自動(dòng)化專利分類算法已被專利機(jī)構(gòu)廣泛使用，為專利檢索[1]、專利價(jià)值評(píng)估[2]、專利訴訟風(fēng)險(xiǎn)評(píng)估[3]等專利智能服務(wù)提供支持。

因此，這吸引了許多研究人員來研究自動(dòng)專利分類問題[4-6]，并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類任務(wù)[4-5]。專利的主要內(nèi)容為其組件和創(chuàng)新的詳細(xì)說明文檔，該任務(wù)的目標(biāo)是針對(duì)專利自動(dòng)化預(yù)測一組標(biāo)準(zhǔn)化的類別。傳統(tǒng)的專利分類方法大多基于統(tǒng)計(jì)學(xué)和自然語言處理方法人工構(gòu)造特征信息，輸入到機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練，然后預(yù)測未知專利的類別信息。這些方法大多屬于淺層模型，僅僅學(xué)習(xí)了專利文本簡單的詞義信息，無法獲取深層的上下文語義信息。而且專利中包含了大量的非結(jié)構(gòu)化信息，如專利之間的引用信息，通常將專利作為網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)建專利引用網(wǎng)絡(luò)，然后基于網(wǎng)絡(luò)分析的方法對(duì)專利節(jié)點(diǎn)進(jìn)行分類。此類方法專注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息，忽略了專利文本信息對(duì)預(yù)測專利類別的影響。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://m.ihrv.cn/resource/share/2000003896.

作者信息：

王慶才1，2，劉貴全1，2

(1.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥230027；

2.大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室，安徽合肥230027)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容