為什么機器學習在投資領域不好使

Submitted by huzhenda on Sat, 07/28/2018 - 14:23

題記

最近,一條新聞引爆了投資圈:世界上最大的投資管理公司貝萊德(BlackRock)宣布將使用機器(確切的說是人工智能 artificial intelligence 或機器學習算法 machine learning algorithm)來取代一些基金經理進行選股。近年來,隨著其在人臉識別,信用反欺詐乃至國際象棋和圍棋領域的應用和杰出表現,人工智能被越來越多的人所熟悉。很多人開始看好在不久的將來機器學習算法在二級市場投資上將會比人取得更加優異的成績。而貝萊德的這一宣布無疑將人工智能又一次推上了風口浪尖。這其中最根本的觀點是:

機器學習通過可以使用復雜的各種非線性算法(比如神經網絡、決策樹、遺傳算法)來從大量的歷史交易數據中挖掘出人類無法看到的投資模式。根據這些模式來選股就可以取得豐厚收益。

Python數據分析之pandas

Submitted by huzhenda on Sat, 07/28/2018 - 11:09

Pandas

WHAT?

Pandas是基于Numpy構建的庫,在數據處理方面可以把它理解為numpy加強版,同時Pandas也是一項開源項目:Github?。不同于numpy的是,pandas擁有種數據結構:SeriesDataFrame:?

10.1

下面我們就來生成一個簡單的series對象來方便理解:?

Tags

提高NLP語義解析準確度:融合SQL語法的生成式語義解析模型

Submitted by huzhenda on Sat, 07/21/2018 - 15:25

無論是在日常生活還是工作中,人們都越來越多地使用自然語言來與計算機進行交互。例如,使用自然語音交互方式讓虛擬語音助手(如Cortana、Siri、Google Assistant、Amazon Alexa等)查詢天氣、預定日程、撥打電話等;用戶在搜索引擎中用自然語言輸入查詢內容,得到精準的答案;員工使用自然語言與結構化的企業數據庫交互,完成查詢操作。

在上述的應用場景中,輸入的是用戶的自然語言(natural language),而輸出的是機器可以理解并執行的規范語義表示(formal meaning representation),該表示可以在某個環境中被執行并返回結果。

如何將知識圖譜特征學習應用到推薦系統?

Submitted by huzhenda on Sat, 07/21/2018 - 13:59

將知識圖譜作為輔助信息引入到推薦系統中可以有效地解決傳統推薦系統存在的稀疏性和冷啟動問題,近幾年有很多研究人員在做相關的工作。目前,將知識圖譜特征學習應用到推薦系統中主要通過三種方式——依次學習、聯合學習、以及交替學習。

AI與理性投資——基于金融知識圖譜的智能問答

Submitted by huzhenda on Sat, 07/21/2018 - 10:49

國內的股票市場,一般認為是更加傾向于主題投資而不是基本面、價值投資的市場,原因之一是散戶貢獻了大部分成交量。與此同時,監管機構一再教育廣大投資者要理性投資、價值投資,在2017年全國證券期貨監管工作會議上,證監會主席劉士余也批判了題材炒作,鼓勵理性投資、價值投資。

理性一直是人類探討的一個永恒話題。本文并不打算就這一話題展開討論,這里只描述下相關假設。本文所描述理性是按諾貝爾經濟學獎,圖靈獎獲得者郝伯特·西蒙的不確定性環境下決策理論中的定義:理性應當是有限的理性,而不是完全理性;應當是過程合理性,而不是本質合理性。過程理性決策步驟可以參考文章[1][3]中描述。其實不論價值投資還是主題投資其實都可以理性投資。

在這個信息爆炸的時代,如《信號與噪聲》[2]書中描述在大數據時代信息量呈指數增長。大多數數據都只是噪聲,人們很難從干擾他們的噪聲中分辨出有用的信號。數據展示給我們的通常都是我們想要的結果,而且我們通常也默認這種皆大歡喜的結果。作者納特?西爾弗還引用莎士比亞劇作中的話“人們照著自己的意思解釋一切事物的原因,實際上卻和這些事物本身的目的完全相反”。在國內證券市場也是如此,更有甚者,有些專業的市場參與者還利用這點進行炒作。

簡述脈沖神經網絡SNN:下一代神經網絡

Submitted by huzhenda on Sun, 07/15/2018 - 15:19

脈沖神經網絡(SNN)屬于第三代神經網絡模型,實現了更高級的生物神經模擬水平。除了神經元和突觸狀態之外,SNN 還將時間概念納入了其操作之中。本文將簡要介紹這種神秘的神經網絡形式。

所有對目前機器學習有所了解的人都聽說過這樣一個事實:目前的人工神經網絡是第二代神經網絡。它們通常是全連接的,接收連續的值,輸出連續的值。盡管當代神經網絡已經讓我們在很多領域中實現了突破,但它們在生物學上是不精確的,其實并不能模仿生物大腦神經元的運作機制。

如何用50行代碼構建情感分類器

Submitted by huzhenda on Sun, 07/15/2018 - 11:58

情感分析背后的動機?

人類自己無法理解語言是如何被大腦處理的。那么,我們能教一臺機器學習我們的語言嗎?通過廣泛研究,人們已經開發了許多方法來幫助機器理解語言。自然語言處理(NLP)是研究人類語言與計算機交互的領域。自然語言處理的一個子問題是情感分析,即把一個語句分類為積極或消極。把語句分類為積極或消極有什么用呢?以亞馬遜網站為例。在亞馬遜上,用戶可以對一個產品發表評論,說明它是好是壞,甚至可以是中性的。然而,使用人工閱讀所有評論并獲得客戶對產品的總體反饋既昂貴又耗時。再說說我們的機器學習模型。機器學習模型可以通過大量數據進行推斷,對評論進行分類。利用這種機器學習模型,亞馬遜可以通過客戶評論改進其產品,從而為公司帶來更多收入。

情感分析并不像看起來那么簡單。如果你認為含有「好的」、「很棒」等詞的評論可歸為積極評論,而含有「壞的」、「苦惱的」等詞的評論可歸為消極評論,那你需要三思。例如,「完全沒有好味道」和「一份好的快餐,但沒有什么特別的」分別代表消極和中立的反饋,即使都有「好」字。因此,這項任務可能沒有看起來那么簡單。接下來讓我們看看即將使用的數據。

數據集

我們將使用亞馬遜產品評論、IMDB 電影評論和 Yelp 評論來構建情感分析模型。

Feature Tools:可自動構造機器學習特征的Python庫

Submitted by huzhenda on Sun, 07/15/2018 - 10:15

目前,很多機器學習項目的模型選擇開始轉向自動化,而特征工程仍然主要以人工為主。這個過程的重要性可能比模型選擇更重要,人工得到的特征總帶有一定的局限性。在本文中作者將為我們介紹如何使用 Feature Tools Python 庫實現特征工程自動化,項目已開源。

機器學習越來越多地從人工設計模型轉向使用 H20、TPOT 和 auto-sklearn 等工具自動優化的工具。這些庫以及隨機搜索(參見《Random Search for Hyper-Parameter Optimization》)等方法旨在通過尋找匹配數據集的最優模型來簡化模型選擇和機器學習調優過程,而幾乎不需要任何人工干預。然而,特征工程作為機器學習流程中可能最有價值的一個方面,幾乎完全是人工的。

特征工程也被稱為特征構造,是從現有數據中構造新的特征從而訓練機器學習模型的過程。這一步可能比實際上使用的模型更重要,因為一個機器學習算法只能從我們給定的數據中學習,所以構造一個和任務相關的特征是至關重要的,參見優質論文《A Few Useful Things to Know about?Machine Learning》。

強化學習(Reinforcement Learning)介紹

Submitted by huzhenda on Sat, 07/14/2018 - 15:21

當前的機器學習算法可以分為3種:有監督的學習(Supervised Learning)、無監督的學習(Unsupervised Learning)和強化學習(Reinforcement Learning),結構圖如下所示:?

3.1

其他許多機器學習算法中學習器都是學得怎樣做,而RL是在嘗試的過程中學習到在特定的情境下選擇哪種行動可以得到最大的回報。在很多場景中,當前的行動不僅會影響當前的rewards,還會影響之后的狀態和一系列的rewards。RL最重要的3個特定在于:(1)基本是以一種閉環的形式;(2)不會直接指示選擇哪種行動(actions);(3)一系列的actions和獎勵信號(reward signals)都會影響之后較長的時間。?

簡述四大類文本分析中的“詞向量”

Submitted by huzhenda on Sat, 07/14/2018 - 14:24

詞向量類型:

一個詞一列向量:Hash算法,word2vec。hash把詞打散成(01010101110)的數值,word2vec則打散同時定義成了向量,參考文獻中驗證了將詞向量加起來的確是一個有效的方法;延伸:word2vec考慮了上下語義,doc2vec還考慮了上下語句順序,用在段落中較好。

一個詞一個值:bow算法+詞權重,LDA主題-詞語矩陣。兩者有遞進關系,bow進化到LDA,當然LDA超級耗時,所以業界不喜歡用。

由詞向量到句向量:

如果是一詞一列向量,一般用簡單相加(相加被證明是最科學)來求得;

一個詞一值的就是用詞權重組合成向量的方式;

谷歌的句向量sen2vec可以直接將句子變為一列向量。

詞向量的額外效果

消除歧義:LDA的主題-詞語向量;

結合上下文語境:word2vec;

文檔與文檔之間的關系:bow+TFIDF(TFIDF能夠較好區分文檔差別的指標,而互信息較為有利于文檔中核心詞的提?。?/p>

Tags

冯仰妍破处门