面向物聯網應用的人工智能相關技術研究

Submitted by like on Wed, 06/07/2017 - 15:57

1 引言

目前對物聯網的理解,已經從IoT(Internet of Things)擴展到IoE(Internet of Everything),從一開始定義的傳感器網絡,發展到萬物互聯時代。據IDC分析,到2020年,全球將有300億智能設備接入互聯網并產生海量數據。隨著越來越多的業界領先公司進入到物聯網領域,從對物聯網基礎設施的建設,物聯網各類設備的控制,到物聯網產生的數據分析處理,最后到基于數據理解的物聯網融合應用研發等還有許多問題沒有解決,對于物聯網世界未來發展所需要解決的核心技術、技術演進路線等并沒有統一的認識。

目前,對于物聯網技術的研究熱點主要從通信角度,研究物聯網終端之間新型通信協議、標準,如低功耗廣覆蓋(Low Power Wide Area,LPWA)等各類新型通信技術研究。這些研究為未來各類場景下,實現各類物體的低成本連接提供了基本的通信保證。另一方面,物聯網領域的標志性應用還未出現,雖然有自動駕駛、智能抄表等案例,但目前還未出現從經濟效益、業界影響力,到創新性技術應用的標志性物聯網應用。通信技術的升級只解決了物聯網的聯網問題,并未解決信息技術發展的內在驅動力,即廣泛認可的應用問題。解決應用問題的核心技術恰恰是傳統通信技術研發機構所不擅長的信息內容理解及應用技術。

特征選擇常用算法綜述

Submitted by neurta on Wed, 04/05/2017 - 09:01

1 綜述

(1)?什么是特征選擇

特征選擇?( Feature Selection )也稱特征子集選擇( Feature Subset Selection , FSS )?,或屬性選擇( Attribute Selection )?,是指從全部特征中選取一個特征子集,使構造出來的模型更好。

(2)?為什么要做特征選擇

???????在機器學習的實際應用中,特征數量往往較多,其中可能存在不相關的特征,特征之間也可能存在相互依賴,容易導致如下的后果:

  • 特征個數越多,分析特征、訓練模型所需的時間就越長。
  • 特征個數越多,容易引起“維度災難”,模型也會越復雜,其推廣能力會下降。

特征選擇能剔除不相關(irrelevant)或亢余(redundant )的特征,從而達到減少特征個數,提高模型精確度,減少運行時間的目的。另一方面,選取出真正相關的特征簡化了模型,使研究人員易于理解數據產生的過程。

?2 特征選擇過程

“十項全能”的 IBM沃森人工智能都學會了哪些技能?

Submitted by neurta on Tue, 03/28/2017 - 11:33

在 IBM 的人工智能沃森于 2011 年在 Jeopardy! 中擊敗人類冠軍 Brad Rutter 和 Ken Jennings 之后,它并沒有依靠贏得 77147 美元獎金過活。和微軟的小娜與蘋果的?Siri?不同,沃森的父母 IBM 并不愿意讓它免費在自家吃住,所以沃森在醫療保健領域找了一個工作——通過提供治療建議幫助健康保險公司 Wellpoint 和醫生。

自那以后,加上后面跟進的超過 10 億美元投資,沃森學會的技能越來越多,工作能力也越來越強。通過機器學習、自然語言處理以及其它各種技術的結合,沃森正為多種領域的許多不同類型的公司提供幫助:除了醫療保健,沃森還在時尚、酒店、視頻、游戲、零售、金融服務和獸醫學等領域嶄露了頭角。

?

其最新的工作甚至已經涉足到了保護計算機免受其同類的傷害。本周二,IBM 公布了用于網絡安全的沃森計劃——一個基于云的服務,而非配置在企業控制的私有主機上。

今年秋天,在八所大學的研究人員的協助下,沃森將開始學習識別網絡安全威脅,以望其認知能力能幫助識別惡意代碼和制定減損策略。其訓練數據的核心將來自 IBM 的 X-Force 研究庫,該庫中包含了 800 萬條垃圾郵件和網絡釣魚攻擊的數據,還有超過 10 萬個漏洞。

發現·跨界 | 東軟大數據高級分析產品助力新聞出版行業發展

Submitted by neurta on Mon, 03/27/2017 - 13:58

國務院發布《促進大數據發展行動綱要》(以下簡稱《綱要》),旨在全面推進我國大數據發展和應用,加快建設數據強國。明確提出從政府大數據、大數據產業、大數據安全保障體系三個方面推進大數據領域的十大工程?!毒V要》的出臺,賦予了大數據作為建設數據強國、提升政府治理能力、推動經濟轉型升級的戰略地位。(摘錄)

?

十三五期間,新聞出版廣電總局將深入貫徹落實《綱要》,逐步構建起新聞出版大數據體系,推動國家大數據產業健康快速發展,為建設數據強國提供有力支撐。新聞出版業在國家大數據戰略中處于相當重要、不可替代的地位。新聞出版業在產生數據、更在生產數據;新聞出版業在應用數據、更在供應數據;新聞出版業需要關注數據安全,更是國家大數據安全的重要保障部門。(摘錄)

?

近年來,信息技術快速發展,使得人們進入互聯網、大數據時代,閱讀時代也漸漸進入電子化、網絡化、個性定制化。傳統的出版、印刷、發行方式受到了挑戰,數字出版、網絡發行、多元閱讀等新興的方式嚴重的沖擊了傳統出版業。大數據時代的新聞出版業面臨的七大問題和挑戰,如下圖:

?

秦濤:深度學習的五個挑戰和其解決方案

Submitted by neurta on Mon, 03/27/2017 - 10:13

大家好,我是微軟亞洲研究院的秦濤,今天我將分享我們組對深度學習這個領域的一些思考,以及我們最近的一些研究工作。歡迎大家一起交流討論。

先介紹一下我所在的機器學習組。微軟亞洲研究院機器學習組研究的重點是機器學習,包含機器學習的各個主要方向,從底層的深度學習分布式機器學習平臺(AI的Infrastructure)到中層的深度學習、強化學習、符號學習算法以及再上面的機器學習理論。

人工智能近年的進展

從1956年達特茅斯會議上人工智能的誕生開始,到如今人工智能已經發展了61年,這期間人工智能歷經風雨,經歷了數次高潮也有數次低谷,每次高潮都是因為核心技術的提出引起了人們極大的興趣,吸引了大量的資金的投入。但同時由于大家的期望值遠遠超過了技術所能夠達到的高度,因此當人們發現巨大的資金和人才的投入不能達到預期成果的時候,人工智能的冬天也隨之而來。幸運的是,現在我們正處于人工智能的第三次浪潮,并且目前看來,距離下一個冬天還是挺遠的。從媒體的報道,大家可能都能了解到,人工智能在各個方向都取得了非常大的進展,不管是研究上、實踐上,還是應用上。下面我們簡單回顧一下人工智能近年來在各個方向取得的進展。

?

計算機告訴你,唐朝詩人之間的關系到底是什么樣的?

Submitted by neurta on Fri, 03/24/2017 - 20:50

在我還念中學的時候,每當心情不好,就靠讀詩詞來排遣,慢慢讀得多了,就發現唐朝詩人之間存在著微妙的關系。比如杜甫非常喜歡李白,到了做夢都想見李白的地步:三夜頻夢君,情親見君意(夢李白)。而李白向孟浩然表過白:吾愛孟夫子,風流天下聞(贈孟浩然)。孟浩然的好基友則是王昌齡:數年同筆硯,茲夕間衾裯(送王昌齡之嶺南)。

出于好奇心,我一度想理清楚他們之間的關系。但是全唐詩一共四萬多首,再加上詩人之間經常稱呼對方的別稱,整理起來非常麻煩,慢慢的也就絕了這個念頭。

直到前不久在網上看到了這張非?;鸬膱D,又讓我想起來這段十五年前的心事。事不宜遲,拖了這么多年的愿望,不能再拖了。

這次,我將編程完成這件事。前面已經說過,這件事主要的麻煩在于以下兩點:

  • 全唐詩數量太多,一共四萬多首。

  • 詩人的別稱太多,比如杜甫:按字稱為子美,按排行稱為杜二,按官職稱為杜工部。

AAAI 2017最佳論文出爐,Udacity 創始人摘得雙項榮譽

Submitted by neurta on Thu, 03/23/2017 - 14:39

正在大洋彼岸舉行的 AAAI -17公布了本年度的最佳論文,一篇從物理研究中獲得啟發的論文獲得大獎,論文引入了一種新的神經網絡監督學習方法,在沒有任何帶標簽的訓練樣本的情況下,成功訓練出一個卷積神經網絡來檢測和跟蹤對象。另外,本屆大會的其他10項大獎也同時公布。優達學城(Udacity)創始人 Sebastian Thrun 的署名論文《Monte Carlo Localization: Efficient Position Estimation for Mobile Robots》獲獎,同時,他還獲得優秀教育者獎。

?

人工智能界年度頂級會議 AAAI 2017,暨第31屆 AAAI 大會 2月4日在美國舊金山舉行,會議圍繞人工智能的研究與發展,開展多場演講、課程講座、Workshop等多種形式的活動,吸引了世界各地的人工智能精英參加。

AAAI?成立于?1979?年,最初名為“美國人工智能協會” (American Association for Artificial Intelligence),2007?年才正式更名為“人工智能促進協會”?(Association for the Advancement of Artificial Intelligence )。

文本數據的機器學習自動分類方法

Submitted by neurta on Thu, 03/23/2017 - 10:55

隨著互聯網技術的迅速發展與普及,如何對浩如煙海的數據進行分類、組織和管理,已經成為一個具有重要用途的研究課題。而在這些數據中,文本數據又是數量最大的一類?!拔谋痉诸愂侵冈诮o定分類體系下,根據文本內容自動確定文本類別的過程”。文本分類有著廣泛的應用場景,例如:

新聞網站包含大量報道文章,基于文章內容,需要將這些文章按題材進行自動分類(例如自動劃分成政治、經濟、軍事、體育、娛樂等。

在電子商務網站,用戶進行了交易行為后對商品進行評價分類,商家需要對用戶的評價劃分為正面評價和負面評價,來獲取各個商品的用戶反饋統計情況。

電子郵箱頻繁接收到垃圾廣告信息,通過文本分類技術從眾多的郵件中識別垃圾郵件并過濾,提高了郵箱用戶的使用效率。

媒體每日有大量投稿,依靠文本分類技術能夠對文章進行自動審核,標記投稿中的色情、暴力、政治、垃圾廣告等違規內容。

?

綜述 | 2017知識圖譜研究進展

Submitted by neurta on Tue, 03/21/2017 - 10:51

1 知識圖譜構建技術

本節首先給出知識圖譜的技術地圖,然后介紹知識圖譜構建的關鍵技術,包括關系抽取技術、知識融合技術、實體鏈接技術和知識推理技術。

1.1 知識圖譜技術地圖

構建知識圖譜的主要目的是獲取大量的、讓計算機可讀的知識。在互聯網飛速發展的今天,知識大量存在于非結構化的文本數據、大量半結構化的表格和網頁以及生產系統的結構化數據中。為了闡述如何構建知識圖譜,本文給出了構建知識圖譜的技術地圖,該技術地圖如圖1所示。整個技術圖主要分為三個部分,第一個部分是知識獲取,主要闡述如何從非結構化、半結構化、以及結構化數據中獲取知識。第二部是數據融合,主要闡述如何將不同數據源獲取的知識進行融合構建數據之間的關聯。第三部分是知識計算及應用,這一部分關注的是基于知識圖譜計算功能以及基于知識圖譜的應用。

1.1.1 知識獲取

冯仰妍破处门