免费女人自慰一级a片,在线观看黄色毛片av,国产精品区一区第一页

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

日期： 2021-03-16

來源：雷锋网

關鍵詞： 清华大学芯翌科技人脸数据集

　　芯翌科技與清華大學自動化系智能視覺實驗室合作，發(fā)布了業(yè)界規(guī)模最大的人臉數據集WebFace260M，相關學術論文已經被計算機視覺國際頂級會議CVPR 2021接收。該數據集完全基于全球互聯網公開人臉數據構建，包含數百萬ID和數億圖片，旨在進一步推動人臉識別相關技術的進步，促進智能化行業(yè)的發(fā)展，助力AI時代科技創(chuàng)新。

微信圖片_20210316144258.png

　　網站地址：https://www.face-benchmark.org

　　論文地址：https://arxiv.org/abs/2103.04098

　　隨著人工智能技術的不斷發(fā)展，越來越多生物識別技術融入到我們的日常生活中。人臉識別作為應用最廣泛的生物識別技術，和指紋、虹膜等生物識別技術相比，以其非接觸、高精度、便捷的優(yōu)勢，廣泛落地于各行各業(yè)，是目前最受歡迎的生物認證方式。

　　人臉數據集發(fā)布背景

　　近年來，得益于深度學習技術的發(fā)展，經過業(yè)界多年來在數據集構建、神經網絡架構、損失函數設計等方面的詳盡研究，人臉識別技術在識別精度上已經取得了長足進步，并實現了大規(guī)模落地。但當前人臉識別仍然面臨公開數據規(guī)模小、標準混雜、測評無法對齊等問題。

　　其中，目前公開的人臉識別訓練數據集中，規(guī)模最大的是MegaFace2和MS1M，分別僅擁有67.2萬ID和470萬圖片，以及10萬 ID和1000萬圖片，遠遠無法滿足實際人臉識別系統(tǒng)的數據需求。可以說，公開數據規(guī)模與實際落地系統(tǒng)所需數據規(guī)模之間的巨大差距，已經較大程度上阻礙了當前人臉識別相關技術的持續(xù)發(fā)展。

　　另一方面，評測準則和測試集也是影響人臉識別技術進一步發(fā)展的重要制約因素。目前公開的人臉識別評測集，包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等，在精度上基本已經比較飽和。同時這些測試集對于人臉識別不同場景下的分類測評不夠細致，沒有持續(xù)迭代、升級和維護，也沒有根據實際應用限制搭建評測準則。

　　業(yè)界公認，NIST-FRVT是一個完全獨立的第三方測評系統(tǒng)，它的測試集非公開，測評指標分類詳盡，并且對提交頻次有嚴格限制和運行時間有嚴格要求，是目前唯一符合現實應用的測評系統(tǒng)。然而，也由于NIST-FRVT對提交頻率和提交條件的嚴格要求，一定程度上也限制了人臉識別技術的發(fā)展。

　　WebFace260M數據集情況

　　基于當前行業(yè)的現狀，芯翌科技與清華大學的研究人員在FRVT參賽基礎上，完全基于全球互聯網公開人臉數據，聯合推出了當前全球規(guī)模最大的人臉數據集WebFace260M，人臉I(yè)D數目首次達到數百萬，圖片數目首次達到數億規(guī)模，將很大程度上推動以深度學習為基礎的人臉識別相關技術發(fā)展。

　　WebFace260M數據集和公開數據集

　　在人臉I(yè)D和數量上的比較

　　同時在WebFace260M的基礎上，芯翌科技和清華大學的研究人員采用自訓練全自動迭代的清洗流程（Cleaning Automatically by Self-Training, CAST），得到WebFace42M，是目前全球規(guī)模最大的可直接用于訓練的干凈人臉數據集。該數據集包含200萬ID和4200萬圖片，ID數目和圖片數目相比目前使用最廣泛、最受認可的公開數據集MS1MV2都提高了一個數量級以上。

　　針對目前人臉識別的評測問題，研究人員發(fā)布了更貼近實際應用的”時間受限人臉識別評測準則“-FRUITS （Face Recognition Under Inference Time conStraint），和分布更廣泛、更具挑戰(zhàn)性、分類更細致的人臉測試集，這將推動人臉識別評測更靠近真實場景。同時，研究人員將持續(xù)維護、迭代和升級該測試集以及評測系統(tǒng)，助力行業(yè)技術發(fā)展。

　　數據集共同作者、芯翌科技AI算法技術總監(jiān)黃冠表示：

　　基于發(fā)布的數據集、測試準則和測試集，我們進行了廣泛的實驗、對比和分析。分析結果表明，在新的高一個數量級的大規(guī)模數據、更貼近實際應用的評測準則、更具挑戰(zhàn)的測試集等多項內容的綜合評判下，大規(guī)模人臉識別問題在算法、系統(tǒng)、數據、評測等各個方面，存在相當多的問題需要學術界和工業(yè)界一起去探索和解決。

　　WebFace260M數據集指標

　　基于WebFace260M清洗得到的WebFace42M數據，能夠在目前公開的、最具挑戰(zhàn)性的IJBC測試集上，達到新的SOTA （State-Of-The-Art），并把相對錯誤率降低了40%。

　　基于WebFace42M，在IJBC測試集上取得了SOTA的性能

　　同時，僅基于WebFace42M的數據，芯翌科技在2020年10月NIST-FRVT的榜單上，取得了1:1人臉識別評測綜合排名世界前三的成績。

　　更進一步，以WebFace42M為基礎，在2021年3月最新一期的NIST-FRVT榜單上，芯翌科技在戴口罩人臉識別評測中以絕對優(yōu)勢獲得世界第一，并在1:1人臉識別評測綜合排名世界前三。

　　打造開放、共享、安全的數據生態(tài)

　　芯翌科技研發(fā)副總裁都大龍表示：

　　在數字經濟和智能化時代，數據資源是最寶貴的生產資料。人們可能需要像對待傳統(tǒng)的生產資料，如土地資源、生產原料、工具設備等一樣，去規(guī)劃、生產、分享、交易、使用和保護新時代的生產資料——數據資源。

　　然而目前，國內外普遍對數據資源這一重要的生產資料重視程度不夠，行業(yè)規(guī)范不足，分享壁壘嚴重，缺乏長期規(guī)劃。生產資料的匱乏，嚴重影響和制約了數字經濟和智能化時代生產力的釋放，限制了行業(yè)的發(fā)展。

　　芯翌科技和清華大學的研究人員深刻認識到數據資源對行業(yè)發(fā)展的重要性，合作推出了目前全球最大的公開人臉數據集——WebFace260M以及相應的Benchmark。通過這個數據集，希望能夠助力AI時代科技創(chuàng)新，持續(xù)推動智能化產業(yè)落地。同時，也希望和整個學術界、產業(yè)界一起，打造智能化時代開放、共享、安全的數據生態(tài)。

　　END

　　推薦閱讀早報 | 特斯拉無法剎車撞上護欄，售后實測也撞了！最新甩鍋：地面濕滑；華為以及孟晚舟方有4個鐵證；何小鵬回應怒懟馬斯克

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

日期： 2021-03-16

來源：雷锋网

相關內容