一文讀懂如何用深度學習實現網絡安全

Submitted by huzhenda on Sun, 08/19/2018 - 16:25

本文簡要介紹深度學習以及它支持的一些現有信息安全應用,并提出一個基于深度學習的TOR流量檢測方案。

簡介

我們看到的大多數深度學習應用程序通常面向市場、銷售、金融等領域,但在使用深度學習來保護這些領域的產品和業務、避免惡意軟件和黑客攻擊方面,則鮮有文章或資源。

像谷歌、臉譜、微軟和SalesForce這樣的大型科技公司已經將深度學習嵌入他們的產品之中,但網絡安全行業仍在迎頭趕上。這是一個具有挑戰性的領域,需要我們全力關注。

21.1

本文中,我們簡要介紹深度學習(Deep Learning,DL)以及它支持的一些現有信息安全(此處稱為InfoSec)應用。然后,我們深入研究匿名TOR流量檢測這個有趣的問題,并提出一個基于深度學習的TOR流量檢測方案。

如何匹配兩段文本的語義?

Submitted by huzhenda on Sun, 08/19/2018 - 14:13

本文基于理論分析與前人的實驗結果來簡要敘述了paraphrase任務和QA匹配任務的模型設計的相同與差異之處。

本文由來

筆者一年前在知乎上關注過這么一個問題:
如何判斷兩段文本說的是「同一件事情」? - 知乎 https://www.zhihu.com/question/56751077

如果是document level的判斷,那么信息檢索中的shingling算法是一個簡單有效的解決方案。不過看了一下問題描述,應該是特指sentence level,所以這個問題應該是屬于sentence level paraphrase任務。

近期小夕的研究中也順帶研究了一下相關任務,發現這個問題并不是如最高票所言的將QA匹配模型直接搬到這個問題里就萬事大吉了。其實在理論層面上這種做法已經很不合適了,里面有很多坑要填,所以本文就試圖糾正一下這個問題的導向吧。

基于目標依賴財經文檔表示學習的累積超額收益預測

Submitted by huzhenda on Sun, 08/19/2018 - 10:15

本文介紹哈爾濱工業大學社會計算與信息檢索研究中( SCIR)錄于COLING 2018的論文《 Learning Target-Specific Representations of Financial News Documents For Cumulative Abnormal Return Prediction》中的工作。本文提出了一種新的目標依賴的新聞文檔表示模型。該模型使用目標敏感新聞摘要的表示來衡量新聞中句子的重要性,從而選擇和組合最有意義的句子來進行建模。在累積超額收益上的預測結果表明,相比于摘要和標題,基于文檔表示的方法更有效。同時,相對于句子級的方法,我們的模型能更好地組合來自多個文檔源的信息。

論文作者:段俊文,張岳,丁效,Ching-Yun Chang,劉挺

如何使用嵌套交叉驗證方法處理時序數據

Submitted by huzhenda on Fri, 08/10/2018 - 22:29

本文討論了對時序數據使用傳統交叉驗證的一些缺陷。具體來說,我們解決了以下問題:

1)在不造成數據泄露的情況下,對時序數據進行分割;2)在獨立測試集上使用嵌套交叉驗證得到誤差的無偏估計;3)對包含多個時序的數據集進行交叉驗證。

本文主要針對缺乏如何對包含多個時間序列的數據使用交叉驗證的在線信息。

本文有助于任何擁有時間序列數據,尤其是多個獨立的時間序列數據的人。這些方法是在醫療研究中被設計用于處理來自多個參與人員的醫療時序數據的。

交叉驗證

交叉驗證(CV)是一項很流行的技術,用于調節超參數,是一種具備魯棒性的模型性能評價技術。兩種最常見的交叉驗證方式分別是 k 折交叉驗證和 hold-out?交叉驗證。

由于文獻中術語的不同,本文中我們將明確定義交叉驗證步驟。首先,將數據集分割為兩個子集:訓練集和測試集。如果有需要被調整的參數,我們將訓練集分為訓練子集和驗證集。模型在訓練子集上進行訓練,在驗證集上將誤差最小化的參數將最終被選擇。最后,模型使用所選的參數在整個訓練集上進行訓練,并且記錄測試集上的誤差。

理解隨機森林

Submitted by huzhenda on Fri, 08/10/2018 - 20:46

今天的文章中我們將為大家介紹另外一種集成學習算法-隨機森林。隨機森林由多棵決策樹組成,采用多棵決策樹聯合進行預測可以有效提高模型的精度。這些決策樹用對訓練樣本集隨機抽樣構造出的樣本集訓練得到。由于訓練樣本集由隨機抽樣構造,因此稱為隨機森林。隨機森林不僅對訓練樣本進行抽樣,還對特征向量的分量隨機抽樣,在訓練決策樹時,每次尋找最佳分裂時只使用一部分抽樣的特征分量作為候選特征進行分裂。

集成學習

集成學習(ensemble learning)是機器學習中的一種思想,而不是指某一具體算法,它通過多個模型的組合形成一個精度更高的模型,參與組合的模型稱為弱學習器(weak learner)。在預測時使用這些弱學習器模型聯合進行預測;訓練時需要用訓練樣本集依次訓練出這些弱學習器。這種集體決策的例子在我們的日常生活中經常會見到,如醫生集體會診,如果對某一病人的情況拿不定主意,可以讓多位醫生一起來診斷,用他們各自的診斷結果進行投票,得到最終的診斷結果。因此,集成學習是一種非常符合人類思維習慣的方法。

基于強化學習的中文零指代消解模型

Submitted by huzhenda on Fri, 08/10/2018 - 19:39

1 前言

中文的零指代,作為指代現象中的一種,能夠更好地幫助機器理解自然語言。隨著計算機技術和互聯網的迅速發展,社會的信息化程度已經發展到一個全新的階段,信息的傳遞與交流已成為現代社會生活運作的重要基礎,各種信息呈爆炸式增長。人們在享受海量信息提供便利的同時,也面臨著如何從浩如煙海的信息中找到自己所需內容的困境。一些集成了自然語言處理成果的技術,如信息檢索(Information Retrieval)、信息抽取(Information Extraction)、問答(Question Answering)、自動文摘(Automatic Summarization)和機器翻譯(Machine Translation)等系統,能夠幫助用戶更為方便快捷準確地獲得自己所需的內容。在這些系統中,自然語言都扮演著很重要的角色。比如在問答系統中,用戶的問題都是通過自然語言的形式提出的,而如何能夠讓機器正確有效地理解這些問題就成了重中之重。

基于交互感知注意力機制神經網絡的行為分類技術

Submitted by huzhenda on Sat, 08/04/2018 - 16:19

以往注意機制模型通過加權所有局部特征計算和提取關鍵特征,忽略了各局部特征間的強相關性,特征間存在較強的信息冗余。為解決此問題,來自美圖云視覺技術部門和中科院自動化所的研發人員借鑒 PCA(主成分分析)思想,提出了一種引入局部特征交互感知的自注意機制模型,并將模型嵌入到 CNN 網絡中,提出一個端到端的網絡結構。該算法在多個學術數據集和美圖公司內部工業界視頻數據集上的行為分類表現都非常出色?;谠撍惴ㄋ枷氲南嚓P論文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV2018 收錄,下文將從背景、核心思想、效果和應用前景幾個方面進行介紹。

一、背景

深度卷積神經網絡中,特征圖里相鄰空間位置的局部通道特征,往往由于它們的感受野重疊而具有很高的相關性。自注意機制模型通常利用每個局部特征內部元素的加權和(或其他函數)來獲得其權重得分,此權重用于加權所有局部特征獲取關鍵特征。盡管局部特征之間具有很高的相關性,但此權重計算并沒有考慮到它們之間的相互作用。

從幾篇頂會論文看「知識圖譜」領域最新研究進展 | 解讀 & 代碼

Submitted by huzhenda on Sat, 08/04/2018 - 15:07

ISWC 2018

14.1

■ 鏈接 | http://www.paperweekly.site/papers/1912

■ 源碼 | https://github.com/quyingqi/kbqa-ar-smcnn

■ 解讀 | 吳桐桐,東南大學博士生,研究方向為自然語言問答

概述

隨著近年來知識庫的快速發展,基于知識庫的問答系統(KBQA )吸引了業界的廣泛關注。該類問答系統秉承先編碼再比較的設計思路,即先將問題和知識庫中的三元組聯合編碼至統一的向量空間,然后在該向量空間內做問題和候選答案間的相似度計算。該類方法簡單有效,可操作性比較強,然而忽視了很多自然語言詞面的原始信息。

理解過擬合

Submitted by huzhenda on Sat, 08/04/2018 - 11:07

導言

在進行有監督的機器學習建模時,一般假設數據獨立同分布(i.i.d,independently and identically distributed)。即樣本數據根據通過一個概率分布采樣得到,而且這些樣本相互之間獨立。我們使用歷史數據集去訓練模型,使得損失函數最小化,然后用訓練得到的模型去預測未知數據。如果一味追求讓損失函數達到最小,模型就會面臨過擬合問題,導致預測未知數據的效果變差。如何判斷自己的模型是否訓練正常?怎么解決過擬合問題?

小明的故事

小明是個機器學習愛好者,他很喜歡吃蛋糕。有一天他突然想到:能不能用蛋糕的直徑來預測蛋糕的價格。于是他定了各種不同尺寸的蛋糕,然后把尺寸和價格的數據記錄起來,接著使用回歸函數來擬合這些訓練數據。小明決定使用四次多項式:

13.1

和均方差損失函數:

圖神經網絡+池化模塊,斯坦福等提出層級圖表征學習

Submitted by huzhenda on Sat, 07/28/2018 - 16:23

圖網絡(GN)在深度學習短板即因果推理上擁有巨大潛力,很有可能成為機器學習領域的下一個增長點,而圖神經網絡(GNN)正屬于圖網絡的子集。GNN 近期在圖形分類任務上得到了當前最佳的結果,但其存在平面化的局限,因而不能將圖形分層表征?,F實應用中,很多圖形信息都是層級表征的,例如地圖、概念圖、流程圖等,捕獲層級信息將能更加完整高效地表征圖形,應用價值很高。在本文中,來自斯坦福等大學的研究者通過在 GNN 中結合一種類似 CNN 中空間池化的操作——可微池化,實現了圖形的分層表征。該方法在大部分圖形分類基準上都取得了當前最佳的表現,并在較簡單的約束下就能自動捕獲層級結構。

近年來人們開發圖形神經網絡的興趣持續激增。圖形神經網絡即可以在如社交網絡數據 [16,21,36] 或基于圖形的分子表征 [7,11,15] 的圖形結構數據上運行的一般的深度學習架構。GNN 一般是將底層圖形作為計算圖,通過在圖上傳遞、轉換和聚合節點特征信息學習神經網絡基元以生成單個節點嵌入。生成的節點嵌入可以作為輸入,用于如節點分類或連接預測的任何可微預測層,完整的模型可以通過端到端的方式訓練。

冯仰妍破处门