語音合成之Char2Wav模型和SampleRNN模型

Submitted by chenrouyu on Mon, 05/07/2018 - 10:39
語音合成是指將文本轉化成音頻的過程,整個過程的難點可以用兩個詞語來形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音頻是否是干凈的,是否可以被人聽懂;而自然度是指合成的音頻是否融合了情感上的色彩。傳統的語音合成通常有兩種做法,一種是合成式,另外一種是參數式,下面我們分別看它們各自的特點。

自然語言處理中的注意力機制

Submitted by chenrouyu on Mon, 05/07/2018 - 09:15
概括地說,在神經網絡實現預測任務時,引入注意力機制能使訓練重點集中在輸入數據的相關部分,而不是無關部分。注意力是指人的心理活動指向和集中于某種事物的能力。比如說,你將很長的一句話人工從一種語言翻譯到另一種語言,在任何時候,你最關注的都是當時正在翻譯的詞或短語,與它在句子中的位置無關。在神經網絡中引入注意力機制,就讓它也學會了人類這種做法。

Kaggle經驗分享||CNN識別患者CT圖像預測患癌的可能性

Submitted by chenrouyu on Sat, 05/05/2018 - 11:40

背景

肺癌是最常見的癌癥之一,尤其在北美地區。其是男性最常見的癌癥形式,其次為女性。全球每年有160萬人死于肺癌,僅在美國每年就有225000肺癌新增病例。此外,肺癌也是低存活率的癌癥之一,平均5年的存活率低于20%。然而,早期發現的平均概率至少是肺癌存活率的兩倍。

?

The Data Science Bowl (DSB) 是Kaggle舉辦的年度機器學習競賽。2017年的競賽是該賽事的第三屆比賽,該次比賽共有2000名選手,其獎金池也高達100萬美元。該比賽的目標為構建一個自動化系統,其能預測患者在下一年的CT掃描診斷中是否會被診斷為肺癌。該比賽的數據集只提供了每位患者的一次CT掃描圖像,并刪除了患者的相關信息。

?

工具

解決方案完全使用Python高級程序設計語言,并使用了相關的開源科學計算庫:

  • keras

  • theano

  • numpy

  • scipy

  • scikit-learn

Tags

讓機器“觀色”:真實世界的表情識別

Submitted by chenrouyu on Sat, 05/05/2018 - 10:51
自古,“觀色”即是全面分析人物的重要依據。在《論語.顏淵》中更是有,“夫達也者,質直而好義,察言而觀色,慮以下人?!?而在計算機視覺領域,如果能夠通過識別一個人的表情以觀其色,即可為場景中出現的人物提供輔助的結構化信息,這在人機交互、安防等多個領域均有廣泛的應用。 因此,在學術界衍生出了表情識別這一研究方向。傳統的手工設計的面部特征,易受到光照變化等影響,面臨真實場景中魯棒性不足等問題,而近年來深度學習技術的出現,為表情識別帶來了斐然的進展。

為什么深度學習要使用大量數據?

Submitted by chenrouyu on Sat, 05/05/2018 - 10:24
深度學習與機器學習一個很重要的區別在于數據量的大小。就目前大量的實驗和工作證明,數據量的大小直接影響深度學習的性能。我們都希望利用小的數據集、簡單的算法就能取得不錯的效果,但目前的事實是小數據集上使用深度學習往往容易過擬合。本文中作者闡述了幾個大容量訓練數據的場景來展示大數據對深度學習的重要性。

序列模型和注意力機制

Submitted by donghonglin on Thu, 05/03/2018 - 10:59

1. 基礎模型

sequence to sequence 模型:

sequence to sequence 模型最為常見的就是機器翻譯,假如這里我們要將法語翻譯成英文:

1

對于機器翻譯的序列對序列模型,如果我們擁有大量的句子語料,則可以得到一個很有效的機器翻譯模型。模型的前部分使用一個編碼網絡來對輸入的法語句子進行編碼,后半部分則使用一個解碼網絡來生成對應的英文翻譯。網絡結構如下圖所示:

2

序列模型 --- NLP和詞嵌入

Submitted by donghonglin on Thu, 05/03/2018 - 09:30

1. 詞匯表征

在前面學習的內容中,我們表征詞匯是直接使用英文單詞來進行表征的,但是對于計算機來說,是無法直接認識單詞的。為了讓計算機能夠能更好地理解我們的語言,建立更好的語言模型,我們需要將詞匯進行表征。下面是幾種不同的詞匯表征方式:

one-hot 表征:

在前面的一節課程中,已經使用過了one-hot表征的方式對模型字典中的單詞進行表征,對應單詞的位置用1表示,其余位置用0表示,如下圖所示:

1

one-hot表征的缺點:這種方法將每個詞孤立起來,使得模型對相關詞的泛化能力不強。每個詞向量之間的距離都一樣,乘積均為0,所以無法獲取詞與詞之間的相似性和關聯性。

特征表征:詞嵌入

用不同的特征來對各個詞匯進行表征,相對與不同的特征,不同的單詞均有不同的值。如下例所示:

微信億級用戶異常檢測框架的設計與實踐

Submitted by donghonglin on Sat, 04/28/2018 - 14:02
如何在大規模數據下檢測異常用戶一直是學術界和工業界研究的重點,而在微信安全的實際生態中,一方面,黑產作惡手段多變,為了捕捉黑產多變的惡意模式,若采用有監督的方法模型可能需要頻繁更新,維護成本較高;另一方面,通過對惡意帳號進行分析,我們發現惡意用戶往往呈現一定的“聚集性”特征,因此這里需要更多地依賴無監督或半監督的手段對惡意用戶進行檢測。然而,微信每日活躍帳號數基本在億級別,如何在有限的計算資源下從億級別帳號中找出可疑帳號給聚類方案的設計帶來了不小的挑戰,而本文則是為了解決這一問題的一個小小的嘗試。

異常檢測之SOS算法和

Submitted by donghonglin on Sat, 04/28/2018 - 13:25

SOS算法全稱stochastic outlier selection algorithm. 該算法的作者是jeroen janssens. SOS算法是一種無監督的異常檢測算法.

算法的輸入:

特征矩陣(feature martrix)或者相異度矩陣(dissimilarity matrix)

算法的輸出:

一個異常概率值向量(每個點對應一個).

直覺上,當一個點和其它所有點的關聯度(affinity)都很小的時候,它就是一個異常點。

我們看下面這個數據集:

1

冯仰妍破处门