基因組醫學中的機器學習-計算問題與數據集綜述

Submitted by chenrouyu on Fri, 05/25/2018 - 16:13
本文主要介紹了基因組醫學涉及到的一些典型機器學習問題?;蚪M醫學的一個目標就是發現個體 DNA 的變化是如何影響疾病風險,并試圖找到背后的致病機理以便于研制出相應的靶向治療[1]方案。本文的重點將放在如何利用機器學習來對 DNA 與細胞中可能與疾病風險存在關聯的關鍵分子的數量(我們稱之為細胞變量)之間的關系進行建?!,F代生物學允許對很多細胞變量(包括基因表達[2],剪接[3]和核酸結合蛋白[4]等)進行高通量測量。這些細胞變量都可以作為預測模型的目標變量。隨著大型數據集的不斷涌現和計算技術(如深度學習)的高速發展,一個新的基因組醫學時代可能會到來。

從對話中學習文本相似性

Submitted by chenrouyu on Sat, 05/19/2018 - 17:57
我們通過對話中的數據來學習句子中語義相似的表達。我們訓練了一個無監督模型來預測對話中的問與答。在STS標準下我們的輸出結果能夠很好地嵌入進對話中。如果把多任務訓練和對話中輸入-回答任務相結合,并且能夠用自然語言很好的表達,那么模型的輸出表現會更好。更多的實驗表明,這樣的模型在STS標準下比所有的神經模型表現得更好,并且表達更加有藝術性。

用機器學習構建O(N)復雜度的排序算法,可在GPU和TPU上加速計算

Submitted by chenrouyu on Sat, 05/19/2018 - 16:01
排序一直是計算機科學中最為基礎的算法之一,從簡單的冒泡排序到高效的桶排序,我們已經開發了非常多的優秀方法。但隨著機器學習的興起與大數據的應用,簡單的排序方法要求在大規模場景中有更高的穩定性與效率。中國科技大學和蘭州大學等研究者提出了一種基于機器學習的排序算法,它能實現 O(N) 的時間復雜度,且可以在 GPU 和 TPU 上高效地實現并行計算。這篇論文在 Reddit 上也有所爭議,我們也希望機器學習能在更多的基礎算法上展現出更優秀的性能。

用傅立葉變換來美顏

Submitted by chenrouyu on Wed, 05/16/2018 - 15:01
在宇宙學里面,離散傅里葉變換在數值模擬方法中有很重要的應用,是Particle Mesh 方法的核心算法。核心思想是將不規則粒子規劃到正規網格上,用傅里葉變化快速計算粒子之間相互的力和引力勢,通過這種方法可以極大地壓縮N體粒子運算量。

讓機器學會看破“黑暗”

Submitted by chenrouyu on Thu, 05/10/2018 - 17:32
在黑暗的條件下分清圖片很困難。短時曝光的圖片會受到噪音干擾,然而長時間曝光會導致模糊并且也是不現實的。許多降噪,去模糊化和增強機器也先后被提出,但是在一些特定情境下,他們的效果受到了很大的限制。為了支持基于學習的黑暗條件下圖片處理的發展,我們引入了一組黑暗下短時曝光的圖片集,并且還有與之對應的長時曝光的圖片?;诂F有的數據集,我們發展了一套基于端對端訓練的全卷積神經網絡處理黑暗中圖片的管道。該神經網絡直接處理原始的感知數據,并且替換了之前一些處理黑暗中圖片的方法。

令人拍案叫絕的Wasserstein GAN

Submitted by chenrouyu on Mon, 05/07/2018 - 13:02
要知道自從2014年Ian Goodfellow提出以來,GAN就存在著訓練困難、生成器和判別器的loss無法指示訓練進程、生成樣本缺乏多樣性等問題。從那時起,很多論文都在嘗試解決,但是效果不盡人意,比如最有名的一個改進DCGAN依靠的是對判別器和生成器的架構進行實驗枚舉,最終找到一組比較好的網絡架構設置,但是實際上是治標不治本,沒有徹底解決問題。而今天的主角Wasserstein GAN(下面簡稱WGAN)成功地做到了以下爆炸性的幾點: 徹底解決GAN訓練不穩定的問題,不再需要小心平衡生成器和判別器的訓練程度 基本解決了collapse mode的問題,確保了生成樣本的多樣性 訓練過程中終于有一個像交叉熵、準確率這樣的數值來指示訓練的進程,這個數值越小代表GAN訓練得越好,代表生成器產生的圖像質量越高(如題圖所示) 以上一切好處不需要精心設計的網絡架構,最簡單的多層全連接網絡就可以做到

Tags

冯仰妍破处门