讓機器理解漢字的一筆一劃

Submitted by donghonglin on Fri, 04/27/2018 - 10:35
cw2vc算法,充分利用了中文的語言學特性,讓機器理解漢字一筆一畫之間的奧秘。在公開數據集上,算法的準確度超過了谷歌的word2vec,斯坦福的GloVe,清華的CWE等業界最優的算法,并且在阿里的諸多場景中均取得了不錯的效果。

競技游戲的匹配系統如何做到雙方實力相近

Submitted by donghonglin on Tue, 04/24/2018 - 15:54

其實現在競技游戲的實時匹配算法已經很成熟了,大到 DotA 2,小到 Clash Royale,基本都是在用一個叫 ELO(因為作者叫 Arpad Elo)的算法。

這個算法來源于 1960 年,美國國際象棋協會采納使用的,最初的目的呢就是用來提升象棋比賽中匹配的合理性。

那么怎么樣的匹配才能被認為是合理的呢?首先我們有如下幾條假設:

  • 某個玩家,在某一分段區間內的波動屬于正?,F象。

  • 在某一分段區間內的玩家,水平大致相同,勝出的期望也大致相同。

優化方向(合理性):

場景文字檢測—CTPN原理與實現

Submitted by donghonglin on Tue, 04/24/2018 - 11:14
對于復雜場景的文字識別,首先要定位文字的位置,即文字檢測。這一直是一個研究熱點。 Detecting Text in Natural Image with Connectionist Text Proposal Network 是在ECCV 2016中提出的一種場景文本算法,作者Zhi Tian等。 CTPN結合CNN與LSTM深度網絡,能有效的檢測出復雜場景的橫向分布的文字,效果如圖1,是目前比較好的文字檢測算法。

樹回歸

Submitted by donghonglin on Tue, 04/24/2018 - 10:15

CART

CART是一種二分遞歸分割的技術,分割方法采用基于最小距離的基尼指數估計函數,將當前的樣本集分為兩個子樣本集,使得生成的的每個非葉子節點都有兩個分支。因此,CART算法生成的決策樹是結構簡潔的二叉樹。

分類樹是針對目標變量是離散型變量,通過二叉樹將數據進行分割成離散類的方法。而回歸樹則是針對目標變量是連續性的變量,通過選取最優分割特征的某個值,然后數據根據大于或者小于這個值進行劃分進行樹分裂最終生成回歸樹。

特征和最佳分割點的選取

在使用決策樹解決回歸問題中我們需要不斷的選取某一特征的一個值作為分割點來生成子樹。選取的標準就是使得被分割的兩部分數據能有最好的純度。

  • 對于離散型數據我們可以通過計算分割兩部分數據的基尼不純度的變化來判定最佳分割點;
  • 對于連續性變量我們通過計算最小平方殘差,也就是選擇使得分割后數據方差變得最小的特征和分割點。直觀的理解就是使得分割的兩部分數據能夠有最相近的值。

樹分裂的終止條件

有了選取分割特征和最佳分割點的方法,樹便可以依此進行分裂,但是分裂的終止條件是什么呢?

Tags

深度學習也可以取悅女友

Submitted by donghonglin on Mon, 04/23/2018 - 10:49

深度學習目前在圖像處理領域有著非常好的應用和研究,在醫學領域可以用它在極早期判斷癌癥;在安防領域,可以用它來快速檢索目標任務,進行可疑或危險人物的檢測與抓捕;在金融領域,可以較好的分析風險風控等。

但是今天不說這么深奧的知識,我們今天來說的是一個能有程序取悅我們女朋友的“黑科技”!這一招叫藝術風格變換,就是你點擊一下,就可以把你女朋友的大頭照換成一個畢加索的后現代藝術作品(當然是取代還是找打要看你的藝術品位)。

藝術風格遷移是一個古老而現代的主題 ,多少藝術家為了描摹他人作品而競折腰。在出現了深度學習之后,通過簡單的訓練就可以完成這個簡單的任務,接下來,說說何玩轉基于神經網絡的風格遷移。

其實風格遷移就是把一張圖片的內容和另一個圖片的風格進行合成的一個方法,比如說你給出一個貓的圖片和一個梵高的自畫像,就可以生成一只梵高畫像版本的貓。

在深度學習沒有應用在該領域之前,機器視覺的工程師就嘗試用各種濾鏡提取圖像的紋理信息或者用傳統的機器學習方法提取,得到的紋理特征再經過某些變換放回到原始圖片中,就得到了一個新的風格圖片。

深度學習所作的事情,是把整個過程自動化智能化了。我們利用卷積網絡的深層結構去提取圖片的信息,來替代之前的各種濾鏡或機器學習方法?!?/p>

基于強化學習開發人機對弈五子棋游戲

Submitted by donghonglin on Mon, 04/23/2018 - 09:25
今天通過一個實例來具體講解狀態空間、價值函數等概念,例子是編寫一個可以人機對弈的五子棋程序。由于完整的棋盤導致狀態空間太大,個人PC一時難以訓練,因此這里我們使用的是5*5大小的棋盤。加入兩個玩家的棋子為X和O,那么贏的情況就是: 同一行或者同一列的棋子相同; 正對角線或反對角線的棋子相同。

語義分割中的弱監督學習

Submitted by donghonglin on Sat, 04/21/2018 - 15:58
我們所關注的弱監督問題是指為實現某個計算機視覺任務,采用了比該任務更弱的一種人工標注作為監督信息。一般來講,這種弱監督的標注比原始的標注更容易獲取。例如,對于目標檢測任務,image-level(圖像層面)的標簽相比物體的bounding box是一種弱監督的標注;對于語義分割任務,image-level的標簽和物體的bounding box相比pixel-level(像素層面)的標簽則是一種弱監督的標注。
冯仰妍破处门