《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信与网络 > 设计应用 > 涉及隐私侵占类APP识别与分类方法研究
涉及隐私侵占类APP识别与分类方法研究
信息技术与网络安全 12期
易 黎1,邱秀连1,马 芳1,彭艳兵1,程 光2
(1.南京烽火星空通信发展有限公司,江苏 南京210019;2.东南大学 网络空间安全学院,江苏 南京211189)
摘要: 随着信息基础建设的发展和移动应用的普及,用户个人信息在使用过程中被应用开发者大量收集,出现了对个人信息的非法泄露和使用问题,严重威胁到了个人信息安全。为了更加高效准确地识别是否存在侵占隐私行为及对应APP类别,提出了一种基于多模态特征的多策略组合的识别算法。首先,该算法采用Word2vec的方法来完成APP相关文本的词汇层面的特征向量表示,随后有针对性地将获得的特征向量输入CNN网络进行分类,接着根据文本分类的结果和多种行为特征集合生成应用程序特征向量,最后结合多种不同的基分类器,采用硬投票的方式预测侵占隐私行为。实验结果表明,经过训练的模型在验证集上的分类结果F1值最高可达91%,该方法可以有效地对侵占隐私类APP进行识别及分类,有助于在大数据时代,保障个人信息安全建设。
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.002
引用格式: 易黎,邱秀連,馬芳,等. 涉及隱私侵占類APP識(shí)別與分類方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(12):8-14.
Research on identification and classification methods of APP involving privacy infringement
Yi Li1,Qiu Xiulian1,Ma Fang1,Peng Yanbing1,Cheng Guang2
(1.Nanjing FiberHome Software Technology Co.,Ltd.,Nanjing 210019,China; 2.School of Cyber Science and Engineering,Southeast University,Nanjing 211189,China)
Abstract: With the development of information infrastructure and the popularization of mobile applications, a large number of users′ personal information is collected by application developers in the process of use, and there are problems with the illegal collecting and using of personal information, which seriously threatens the security of personal information. In order to more effectively identify the type of APP and whether it has violated privacy, a recognition algorithm based on multi-modal features and multi-strategy combination is proposed. Firstly, the algorithm uses the Word2vec method to extract feature formation vectors related to APP text, and then the obtained feature vector is input into the CNN network for classification. Based on the result of the text classification and a variety of behavior feature sets, it generates application feature vectors, and finally combines a variety of different base classifiers and uses hard voting to predict the applications′ invade-privacy categories. The experimental result shows that the F1 value of the trained model on the validation set can be as high as 91%. This method can effectively identify and classify privacy-invading apps, which is helpful to ensure the security of personal information in the era of big data.
Key words : multi-label text classification;feature extraction;behavioral features;model construction;machine learning

0 引言

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,截至2021年6月,中國(guó)手機(jī)網(wǎng)民的數(shù)量已高達(dá)10.07億,如此巨大的用戶量具有不可估量的商業(yè)價(jià)值,而其背后如此巨大的用戶個(gè)人信息在當(dāng)前信息時(shí)代環(huán)境下更是蘊(yùn)含著巨大價(jià)值[1]。但在實(shí)踐中,如此眾多的用戶使用量其問(wèn)題也接踵而至,最明顯的是關(guān)于用戶個(gè)人信息泄漏事件層出不窮,對(duì)用戶個(gè)人信息的侵害可謂無(wú)孔不入,智能手機(jī)APP為用戶帶來(lái)便利的同時(shí),也成為個(gè)人信息泄漏的根本原因之一。

依據(jù)敏感程度和安全性不同,用戶個(gè)人信息內(nèi)容分為用戶核心隱私信息、用戶的重要隱私信息與用戶的普通隱私信息三個(gè)類別[2]。其中關(guān)于通訊錄聯(lián)系人、手機(jī)賬號(hào)、賬戶密碼、聊天記錄以及定位用戶當(dāng)前所在地點(diǎn)等內(nèi)容被劃分為核心隱私信息;關(guān)于手機(jī)發(fā)送接收短信信息、撥通電話、調(diào)用手機(jī)自帶的攝像頭權(quán)限等內(nèi)容信息歸屬于重要隱私信息一類;最后用戶的Wi-Fi連接無(wú)線網(wǎng)絡(luò)、藍(lán)牙連接無(wú)線設(shè)備、手機(jī)數(shù)據(jù)網(wǎng)絡(luò)流量使用等信息屬于普通隱私信息。





本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000003889







作者信息:

易  黎1,邱秀連1,馬  芳1,彭艷兵1,程  光2

(1.南京烽火星空通信發(fā)展有限公司,江蘇 南京210019;2.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京211189)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容