發布源:深圳維創信息技術發布時間:2020-09-16 瀏覽次數: 次
騰訊云副總裁黎巍:如何處理井噴的數據并維護信息安全?金秋九月,2017國際大數據產業技術創新高峰論壇暨大數據系統軟件國家工程實驗室第一次會議盛大開幕,大數據系統軟件國家工程實驗室作為大數據系統軟件技術研發與工程化的國家級創新平臺,將通過大數據系統軟件技術的跨界合作與國際交流,建立和完善大數據領域的技術創新平臺,集聚整合創新資源,加強產學研用結合,突破一批關鍵共性技術并實現產業化,促進大數據產業的快速發展,為培育和發展戰略性新興產業提供驅動力。
本屆論壇特別邀請到騰訊云副總裁黎巍帶來《社交網絡大數據——從建設到賦能》的主題報告。
演講精華內容經數據派整理如下:
15年前,當QQ還在為用戶人數過百萬而慶賀時,誰也想不到只用了十幾年的時間,騰訊的用戶數量呈指數型增長,同時在線人數達到了2億。
整個產業的演變,很快顛覆了傳統的認知。
據相關媒體報道,2021年,全球IoT(物聯網)數據總量將超過280億。
并且隨著全球物聯網的發展,冰箱、電視機等家用設備都將具備攝像頭和互聯網功能,就如同傳統意義上的一臺臺電腦,但不是傳統的一臺臺顯示終端,而是都要進入到網絡,產生數據,這就是“大數據井噴”的時代。
談到騰訊和大數據,就不能不談社交網絡。
騰訊產品業務中有三款作為騰訊所有業務發展的平臺級產品,即:QQ、QQ空間和微信。
截至目前,QQ每月的活躍用戶是8.5億,同時在線最高突破2.68億。
僅QQ這款軟件,每天在群、C2C個人聊天產生的消息超過了2000億。
如此龐大的數量級,相當于在這個平臺上每天生產出2000萬冊圖書;QQ空間里有6億多的活躍用戶,每天上傳的圖片、照片數量也已經超過6億;微信作為騰訊的后起之秀,目前的月活數量已經達到9.63億,遠遠趕超了QQ。
這三個社交軟件匯總到整個騰訊基礎存儲計算的平臺上,公司內存儲的數據量超過了200PB,日計算量超過15PB,每天騰訊公司接入數據超過3萬億,每天實時計算超過1萬億。
從下圖可以看出,騰訊社交網絡平臺的數據量之大。
整個IT服務設施自適應能力,是未來承載大數據非常重要的基礎。
這里的數據,尤其是核心、敏感的數據,不允許出現任何問題。
因為一旦出問題,影響的是千家萬戶,影響的是整個社會的方方面面。
我在騰訊這十幾年來,見證了公司業務的高速成長,每天也都在迎接著一些挑戰。
最近幾年,我主要負責社交網絡安全,包括云計算安全。
因此,巨大的安全挑戰就是我們每天必須要面對的。
在生產環節,產生這些數據以后,公司內部存儲、使用是否安全,會不會導致一些數據的泄露;當真正利用這些數據用在產品業務里時,這些數據在傳輸、調用過程中,會不會有問題;甚至一些歷史上已經過了很長時間不用的數據,是否就可以隨意丟棄;整個數據的銷毀一旦出現泄露,會產生怎樣的后果等等。
爆炸現場分分秒秒都面臨著挑戰,隨時有可能停電、停水,數據中心也會隨時停止運轉。
當時公司做了一次史無前例的壯舉,30分鐘之內,在深圳、上海進行大量的服務器擴容上線,把天津的在線QQ用戶以1000萬顆粒度調度到了上海和深圳的災備機房。
不過設想一下,如果天津港爆炸事件波及到了騰訊在天津的數據中心,用戶在線使用會受到怎樣的影響呢?騰訊內部的可伸縮的服務架構可以保障QQ的使用,在出現極端情況自動調度時,會自動把內部服務按照顆粒度進行降維,比如一些不那么重要的視頻、語音服務,可以同時擠到上海和深圳,這時候帶寬等出現一些擁擠時,這些重的服務會降維,但基礎的登錄、發文本消息仍然可以運行。
所以整個柔性可用(是服務存在除了正常服務,和掛掉之外的第三種狀態,這就是“服務降級”的另一種說法)是根據外部變化,快速去適應。
從天津大爆炸來看QQ用戶遷徙,這里承載了騰訊多年來在海量服務上的實戰經驗累積。
天津大遷徙能夠做到用戶無感知,主要仰仗內部的SET模型,是彈性伸縮的高效服務模型。
這套模型架構,在十年前創立時,它的基礎架構參照的是集裝箱原理。
海量服務后臺各種服務、各種同步的邏輯非常復雜。
以集裝箱原理,把所有的服務模糊掉耦合,變成一個個可以度量,甚至每一個SET模型都可以獨立運轉,都可以獨立異地部署。
所以,當QQ在線用戶數量無論是2億、10億或是100億,在內部后臺服務看到的只是擴充一個個集裝箱,整個后臺監控大屏可以看出哪里出問題,看到每一個集裝箱的問題。
在這個模型里,每一個SET內部可以擴展,可以承載幾萬客戶,也可以擴展承載上千萬客戶,同時每個SET擴展幾百萬客戶,很多SET平行運轉。
這樣使得可管理性、可度量性大大增強,自動化部署和自動化運維會非常快。
這是整個騰訊后臺服務彈性伸縮模型中非常重要的基礎的構造,也是天津大遷徙最終能夠實現無感知基礎的架構。
這方面,騰訊為什么能做到無感知延遲?其原因是騰訊在全中國是以深圳、上海、天津三地骨干網進行連接,三地大數據中心全部都是有儲備的,這個意思就是QQ、微信,最核心用戶的一些信息數據在三地是完整的。
這里不是簡單磁盤數據,而是在天津、上海、深圳三地都保持著100多T的內存數據。
在切換時,不需要從另外一個地方同步數據、導數據,可以做到快速切換。
例如,對于不是那么敏感的資料和信息數據,音樂之類的數據,一般主要是在深圳和上海兩地進行備份容災。
所以,整個分布式容災能力,日常容災、備份能力,也是保證整個服務遇到危機時,不會因為移地而受到影響。
所以整個柔性可用(是服務存在除了正常服務,和掛掉之外的第三種狀態,這就是“服務降級”的另一種說法)是根據外部變化,快速去適應。
從天津大爆炸來看QQ用戶遷徙,這里承載了騰訊多年來在海量服務上的實戰經驗累積。
經過十八年的發展,騰訊作為一家互聯網公司,在海量的服務、容災容錯,各種異地分布式積累方面儲備了大量的經驗和教訓,所以著重考慮把這些能力、資源、經驗貢獻到社會和企業。
最近幾年,因為云計算的興起,我們開始通過“云”這個平臺和管道賦能到企業和社會,實現資源的整合再平衡,以及社會潛能的釋放。
目前,包括整個處理平臺的開放和騰訊大數據的開放。
騰訊的業務數據量非常龐大,每天面臨的國內外黑產、黑客的攻擊層出不窮。
這么多年來,給我們積累了大量的經驗和數據,在整個騰訊平臺上,現在具備100億惡意網址檢測的存儲數據,APK樣本過億級。
整個中國從事非法獲益的手機庫有過億黑手機,超過百萬黑銀行卡信息數據。
這些數據經過我們最近幾年深度學習的算法挖掘,數據價值越來越大。
現在這個平臺開放以后,除了騰訊,包括幫助國內很多公司和網站,每天識別惡意網址超過百萬,每天識別惡意詐騙電話超過百萬,每天檢測出在網上傳播的各種惡意樣本超過千萬級。
我們把這些能力最后匯集成一些產品和服務系統(基本上都是公益的),開放給社會。
另外,這幾年國內電話詐騙,釣魚、仿冒銀行短信,甚至基站都是偽造的,普通網民很難識別,一年多前,騰訊把反偽基站系統、反釣魚網站系統提供給包括運營商、各地公安部門,在一些地方部署以后,偽基站的部署量有了70%的下降。
計算結果令我們非常震驚,基本看到了整個社交網絡星云圖,在邊緣有非常多的毛刺,這些毛刺就是異常、有問題的網絡,通過這樣的星云圖,進一步從里面深入挖掘分析,再進一步把在網上利用QQ平臺從事各種非法獲益的社團挖掘出來,甚至通過社團的邊緣連接點,已經能夠比較好的將其上下游繪制出來。
這些年,應用在整個社交網絡里面一些詐騙、有害信息的處理,這方面對團伙的挖掘和打擊非常有效。
這是社交網絡大數據重要的研究應用。
通過這些畫像可以有力地打擊網上非法獲益產業。
在國內,現在非常典型的非法獲益產業,行業稱之為“羊毛黨”。
銀行或電商做一個活動,有很多獎品,發現很多獎品都被專門的“羊毛黨”騙走了,單一中小企業應對這些“羊毛黨”是非常難的。
因為他們非常聰明,有大量資源和信息可以繞過。
把大量用戶IP、設備各種行為進行畫像,身份屬性畫像以后,對用戶做了畫像、DNA建模以后,通過單點繞過我們監測也很難。
這個平臺開放到了云上,給到一些電商互聯網金融企業進行反欺詐、防“羊毛黨”的打擊工作也是卓有成效的。
經過十幾年的摸爬滾打,騰訊從整個數據的創建、存儲、傳輸、訪問、使用,包括到最后的銷毀,已經具備了一個全流程的數據安全的防控體系。
作為內部來說,包括用戶在使用時,最基本身份的管理、授權的管理、認證的管理,一定要非常清楚是誰在用這個數據,而在十年前,這些卻都是安全漏洞。
另外,騰訊海量的數據,在這些海量數據里要尋找惡意數據,如果用傳統規則的一些算法和方法,是很難發現這些惡意的。
所以最近一兩年,我們利用機器學習、深度學習一些引擎應用在大數據上,發現了一些惡意數據爬取、訪問,在云平臺上給用戶提供了全生命周期的安全防護。
數據是企業和社會發展的重要動力,也是我們未來生產和生活的動力源泉。
隨著近些年人工智能、大數據、云計算等方面的突破,相信未來數據利用的效能一定會越來越高,對整個社會、對企業的生態都會產生非常積極有價值的影響。
Copyright © 2021 深圳市維創信息技術有限公司 版權所有