208個最新最全大數據/人工智能專有名詞術語 中英對照(上)

Submitted by zhongzhimin on Thu, 08/24/2017 - 09:40
大數據

A

?

Apache Kafka:命名于捷克作家卡夫卡,用于構建實時數據管道和流媒體應用。它如此流行的原因在于能夠以容錯的方式存儲、管理和處理數據流,據說還非?!缚焖佟?。鑒于社交網絡環境大量涉及數據流的處理,卡夫卡目前非常受歡迎。

?

Apache Mahout:Mahout 提供了一個用于機器學習和數據挖掘的預制算法庫,也可用作創建更多算法的環境。換句話說,機器學習極客的最佳環境。

?

Apache Oozie:在任何編程環境中,你都需要一些工作流系統通過預定義的方式和定義的依賴關系,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數據工作所提供正是這個。

?

應用程序開發(APP DEV):應用程序開發是根據用戶要求建造出軟件系統或者系統中的軟件部分的過程,包括需求捕捉、需求分析、設計、實現和測試的系統工程。一般是用某種程序設計語言來實現的。通常采用應用程序開發工具可以進行開發。

?

Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數據的交互。如果你已經知道 SQL 并處理以大數據格式存儲的數據(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點奇怪。

?

Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數據集。

?

Apache Pig:Pig 是在大型分布式數據集上創建、查詢、執行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的?

?

Apache Sqoop:一個用于將數據從 Hadoop 轉移到非 Hadoop 數據存儲(如數據倉庫和關系數據庫)的工具。

?

Apache Storm:一個免費開源的實時分布式計算系統。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結構化數據。

?

人工智能(Artificial Intelligence):研發智能機器和智能軟件,這些智能設備能夠感知周遭的環境,并根據要求作出相應的反應,甚至能自我學習

?

聚合(Aggregation)?– 搜索、合并、顯示數據的過程

?

算法(Algorithm):算法可以理解成一種數學公式或用于進行數據分析的統計學過程。那么,「算法」又是何以與大數據扯上關系的呢?要知道,盡管算法這個詞是一個統稱,但是在這個流行大數據分析的時代,算法也經常被提及且變得越發流行。

?

異常檢測(Anomaly detection)?– 在數據集中搜索與預期模式或行為不匹配的數據項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通??商峁╆P鍵的可執行信息

?

匿名化(Anonymization)?– 使數據匿名,即移除所有與個人隱私相關的數據

?

應用(Application)?– 實現某種特定功能的計算機軟件

?

分析法(Analytics):用于發現數據的內在涵義。讓我們試想一個很可能發生的情況,你的信用卡公司給你發了封記錄著你全年卡內資金轉賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數據(這些數據可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對整個城市人們發的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數據分析。所謂大數據分析,就是對大量數據進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現在我們來對它們分別進行梳理。

?

Image removed.

B

?

批處理(Batch processing):盡管批量數據處理從大型機(mainframe)時代就已經存在了,但是在處理大量數據的大數據時代面前,批處理獲得了更重要的意義。批量數據處理是一種處理大量數據(如在一段時間內收集到的一堆交易數據)的有效方法。分布式計算(Hadoop),后面會討論,就是一種專門處理批量數據的方法。

?

行為分析(Behavioral Analytics):你有沒有想過谷歌是如何為你需要的產品/服務提供廣告的?行為分析側重于理解消費者和應用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網模式,社交媒體互動行為,以及我們的網上購物活動(購物車等),連接這些無關的數據點,并試圖預測結果。舉一個例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點嗎?

?

商業智能(Business Intelligence):我將重用 Gartner 對 BI 的定義,因為它解釋的很好。商業智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優化決策及績效。

?

生物測定學(Biometrics):這是一項 James Bondish 技術與分析技術相結合的通過人體的一種或多種物理特征來識別人的技術,如面部識別,虹膜識別,指紋識別等。

?

描述性分析法(Descriptive Analytics):如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那么這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節。

?

大數據科學家(Big Data Scientist):能夠設計大數據算法使得大數據變得有用的人

?

大數據創業公司(Big data startup):指研發最新大數據技術的新興公司

?

B字節 (BB: Brontobytes):約等于1000 YB(Yottabytes),相當于未來數字化宇宙的大小。1 B字節包含了27個0!

?

大數據 (Big data):指的是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

?

數據科學平臺(Data science platforms):是數據科學家創造和測試數據科學解決方案的工作平臺。按照高德納的定義,數據科學平臺是“由緊密相關的多項數據處理核心技術模塊組合而成的軟件系統,以支持各類數據科學解決方案的開發及其在業務流程、周邊基礎設施和產品中的應用。

?

?

Image removed.

?

C

?

點擊流分析(Clickstream analytics):用于分析用戶在網絡上瀏覽時的在線點擊數據。有沒有想過即使在切換網站時,為什么某些谷歌廣告還是陰魂不散?因為谷歌大佬知道你在點擊什么。

?

聚類分析(Cluster Analysis):是一個試圖識別數據結構的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因為它是探索性的,確實對依賴變量和獨立變量進行了區分。SPSS 提供的不同的聚類分析方法可以處理二進制、標稱、序數和規模(區間或比率)數據。

?

比較分析(Comparative Analytics):因為大數據的關鍵就在于分析,顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統計技術來比較多個進程、數據集或其他對象。我知道它涉及的技術越來越少,但是我仍無法完全避免使用術語。比較分析可用于醫療保健領域,通過比較大量的醫療記錄、文件、圖像等,給出更有效和更準確的醫療診斷。

?

關聯分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網將人與主題連接起來,從而確定特定主題的影響者。關聯分析分析可以幫助發現人們、產品、網絡之中的系統,甚至是數據與多個網絡結合之間的相關連接和影響。

?

Cassandra:是一個很流行的開源數據管理系統,由 Apache Software Foundation 開發并運營。Apache 掌握了很多大數據處理技術,Cassandra 就是他們專門設計用于在分布式服務器之間處理大量數據的系統。

?

云計算(Cloud computing):構建在網絡上的分布式計算系統,數據是存儲于機房外的(即云端),軟件或數據在遠程服務器上進行處理,并且這些資源可以在網絡上任何地方被訪問,那么它就可被稱為云計算。

?

集群計算(Cluster computing):這是一個來描述使用多個服務器豐富資源的一個集群(cluster)的計算的形象化術語。更技術層面的理解是,在集群處理的語境下,我們可能會討論節點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和并行處理(parallel processing)等等。

?

分類分析(Classification analysis)?:從數據中獲得重要的相關性信息的系統化過程; 這類數據也被稱為元數據(meta data),是描述數據的數據。

?

商業分析(Commerce analytics):指的是包括審視預計的銷售額、成本和利潤是否達到公司預計目標;如達到,則此產品概念才能進一步發展到產品開發階段。

?

聚類分析(Clustering analysis)?– 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數據間的差異和相似性。

?

冷數據存儲(Cold data storage)?– 在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時。

?

眾包(Crowdsourcing):從一廣泛群體,特別是在線社區,獲取所需想法,服務或內容貢獻的實踐。

?

集群服務器(Cluster server):把多臺服務器通過快速通信鏈路連接起來,從外部看來,這些服務器就像一臺服務器在工作,而對內來說,外面來的負載通過一定的機制動態地分配到這些節點機中去,從而達到超級服務器才有的高性能、高可用。

?

對比分析(Comparative analysis)?– 在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。

?

復雜結構的數據(Complex structured data)?– 由兩個或多個復雜而相互關聯部分組成的數據,這類數據不能簡單地由結構化查詢語言或工具(SQL)解析。

?

計算機產生的數據(Computer generated data)?– 如日志文件這類由計算機生成的數據。

?

并發(Concurrency)?– 同時執行多個任務或運行多個進程。

?

相關性分析(Correlation analysis)?– 是一種數據分析方法,用于分析變量之間是否存在正相關,或者負相關。

?

客戶關系管理(CRM: Customer Relationship Management)?– 用于管理銷售、業務過程的一種技術,大數據將影響公司的客戶關系管理的策略。

?

云數據(Cloud data):是基于云計算商業模式應用的數據集成、數據分析、數據整合、數據分配、數據預警的技術與平臺的總稱。

?

Image removed.

?

D

?

數據分析師(Data Analyst):數據分析師是一個非常重要和受歡迎的工作,除了準備報告之外,它還負責收集、編輯和分析數據。

?

數據清洗(Data Cleansing):顧名思義,數據清洗涉及到檢測并更正或者刪除數據庫中不準確的數據或記錄,然后記住「臟數據」。借助于自動化或者人工工具和算法,數據分析師能夠更正并進一步豐富數據,以提高數據質量。請記住,臟數據會導致錯誤的分析和糟糕的決策。

?

數據即服務(DaaS):通過給用戶提供按需訪問的云端數據,DaaS 提供商能夠幫助我們快速地得到高質量的數據。

?

數據虛擬化(Data virtualization):這是一種數據管理方法,它允許某個應用在不知道技術細節(如數據存放在何處,以什么格式)的情況下能夠抽取并操作數據。例如,社交網絡利用這個方法來存儲我們的照片。

?

臟數據(Dirty Data):臟數據就是不干凈的數據,換言之,就是不準確的、重復的以及不一致的數據。顯然,你不會想著和臟數據攪在一起。所以,盡快地修正它。

?

暗數據(Dark data):公司積累和處理的實際上完全用不到的所有數據,從這個意義上來說我們稱它們為「暗」的數據,它們有可能根本不會被分析。這些數據可以是社交網絡中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數據中有 60% 到 90% 不等可能是暗數據,但實際上沒人知道。

?

數據流(data stream):最初是通信領域使用的概念,代表傳輸中所使用的信息的數字編碼信號序列。然而,我們所提到的數據流概念與此不同。

?

數據湖(Data lake):即一個以大量原始格式保存了公司級別的數據知識庫。這里我們介紹一下數據倉庫(Data warehouse)。數據倉庫是一個與這里提到的數據湖類似的概念,但不同的是,它保存的是經過清理和并且其它資源整合后的結構化數據。數據倉庫經常被用于通用數據(但不一定如此)。一般認為,一個數據湖可以讓人更方便地接觸到那些你真正需要的數據,此外,你也可以更方便地處理、有效地使用它們。

?

數據資源管理(Data Resources):是應用信息技術和軟件工具完成組織數據資源管理任務的管理活動。

?

數據源(Data Source):顧名思義,數據的來源,是提供某種所需要數據的器件或原始媒體。在數據源中存儲了所有建立數據庫連接的信息。就像通過指定文件名稱可以在文件系統中找到文件一樣,通過提供正確的數據源名稱,你可以找到相應的數據庫連接。

?

數據挖掘(Data mining):從一大群數據中以復雜的模式識別技巧找出有意義的模式,并且得到相關洞見。

?

數據分析平臺(Data analyst platforms):?主要通過集成企業內部運營支撐系統和外部數據,包括交易型大數據(Big Transaction Data)和交互型大數據(Big Interaction Data),通過多種云計算的技術將之集成和處理,向企業內部和外部企業客戶提供有極大商業價值的信息支撐和智能解決方案,基于大數據平臺建設的數據倉庫的基礎上,提供報表工具,分析工具,結合企業的實際需求進行的解決方案實施服務;企業的管理人員、業務分析人員等可以通過web、手機或其它移動設備訪問,以便隨時了解企業的關鍵指標和進行深度業務分析。

?

分布式文件系統(Distributed File System):大數據數量太大,不能存儲在一個單獨的系統中,分布式文件系統是一個能夠把大量數據存儲在多個存儲設備上的文件系統,它能夠減少存儲大量數據的成本和復雜度。

。

?

儀表板(Dashboard) :使用算法分析數據,并將結果用圖表方式顯示于儀表板中。

?

數據存取(Data access):是指數據庫數據存貯組織和存貯路徑的實現和維護。

?

數據傳送(data transfer):是指在數據源和數據宿之間傳送數據的過程,也稱數據通信。

?

數據聚合工具(Data aggregation tools)?:將分散于眾多數據源的數據轉化成一個全新數據源的過程。

?

數據庫(Database)?:一個以某種特定的技術來存儲數據集合的倉庫。

?

數據庫管理系統(DBMS: Database Management System) :收集、存儲數據,并提供數據的訪問。

?

數據中心(Data centre)?: 一個實體地點,放置了用來存儲數據的服務器。

?

數據管理員(Data custodian)?:負責維護數據存儲所需技術環境的專業技術人員。

?

數據道德準則(Data ethical guidelines)?:這些準則有助于組織機構使其數據透明化,保證數據的簡潔、安全及隱私。

?

數據訂閱(Data feed) : 一種數據流,例如Twitter訂閱和RSS。

?

數據集市(Data marketplace)?:進行數據集買賣的在線交易場所。

?

數據建模(Data modelling)?:使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。

?

數據集(Data set)?:大量數據的集合。

?

數據虛擬化(Data virtualization)?:數據整合的過程,以此獲得更多的數據信息,這個過程通常會引入其他技術,例如數據庫,應用程序,文件系統,網頁技術,大數據技術等等。

?

去身份識別(De-identification)?:也稱為匿名化(anonymization),確保個人不會通過數據被識別。

?

判別分析(Discriminant analysis)?:將數據分類;按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,并從中獲取分類規則。

?

分布式文件系統(Distributed File System)?:提供簡化的,高可用的方式來存儲、分析、處理數據的系統。

?

文件存貯數據庫(Document Store Databases)?又稱為文檔數據庫(document-oriented database), 為存儲、管理、恢復文檔數據而專門設計的數據庫,這類文檔數據也稱為半結構化數據。

?

數據治理(Data Governance)?:數據治理是指從使用零散數據變為使用統一主數據、從具有很少或沒有組織和流程治理到企業范圍內的綜合數據治理、從嘗試處理主數據混亂狀況到主數據井井有條的一個過程。

?

數據轉換服務(Data Transfer Service):?主要用作在不同的數據庫之間轉換數據,比如在SQL Server和Oracle之間轉換數據。

?

數據集成(Data integration):是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。

?

Image removed.

?

E

?

ETL:ETL 代表提取、轉換和加載。它指的是這一個過程:「提取」原始數據,通過清洗/豐富的手段,把數據「轉換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統使用。即使 ETL 源自數據倉庫,但是這個過程在獲取數據的時候也在被使用,例如,在大數據系統中從外部源獲得數據。

?

企業級應用(Enterprise applications):其實是一個軟件行業內部通用的一個術語。如果解釋成通俗易懂的話來說,那就是一個企業范圍內所使用的、基于計算機的穩定的、安全的和高效的分布式信息管理系統。

?

探索性分析(Exploratory analysis)?:在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法

?

E字節(EB: Exabytes):約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB。

?

提取-轉換-加載(ETL: Extract, Transform and Load)?– 是一種用于數據庫或者數據倉庫的處理過程。即從各種不同的數據源提取(E)數據,并轉換(T)成能滿足業務需要的數據,最后將其加載(L)到數據庫。

?

企業生產力(Enterrrise productivity):企業在一定時期為社會提供某種產品或勞務的能力。

?

Image removed.

?

F

?

模糊邏輯(Fuzzy logic):我們有多少次對一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數據聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。

?

故障切換(Failover)?:當系統中某個服務器發生故障時,能自動地將運行任務切換到另一個可用服務器或節點上。

?

架構(Framework):又名軟件架構,是有關軟件整體結構與組件的抽象描述,用于指導大型軟件系統各個方面的設計。

?

流量監控(Flow monitoring): 流量監控指的是對數據流進行的監控,通常包括出數據、入數據的速度、總流量。微信用戶可以在騰訊手機管家4.7上實現流量的精準監控。

?

容錯設計(Fault-tolerant design)?:一個支持容錯設計的系統應該能夠做到當某一部分出現故障也能繼續運行。

?

金融(Finance):是人們在不確定環境中進行資源跨期的最優配置決策的行為。

?

Image removed.

?

G

?

游戲化(Gamification)?:在其他非游戲領域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創建和偵測,非常有效。

?

圖形數據庫(Graph Databases)?:運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數據,這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能,也就是說,數據庫中每個元素間都與其他相鄰元素直接關聯。

?

網格計算(Grid computing)?:將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。

?

Image removed.

?

H

?

Hadoop?用戶體驗(Hadoop User Experience /Hue):Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應用;它有一款分布式文件系統的文件瀏覽器;它有用于 MapReduce 的任務設計;它有能夠調度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。

?

人力資本(Human capital):是指勞動者受到教育、培訓、實踐經驗、遷移、保健等方面的投資而獲得的知識和技能的積累,亦稱“非物力資本”。

?

硬件設施(Hardware): 計算機系統中由電子,機械和光電元件等組成的各種物理裝置的總稱。

?

高性能分析應用(HANA):這是 SAP 公司為大數據傳輸和分析設計的一個軟硬件內存平臺。

?

HBase:?一個分布式的面向列的數據庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。

?

Hadoop?– 一個開源的分布式系統基礎框架,可用于開發分布式程序,進行大數據的運算與存儲。

?

Hadoop數據庫(HBase)?:一個開源的、非關系型、分布式數據庫,與Hadoop框架共同使用。

?

分布式文件系統(Hadoop Distributed File System):是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。

?

高性能計算(HPC: High-Performance-Computing) :使用超級計算機來解決極其復雜的計算問題。

?

部署在云上的Hadoop(Hadoop in the cloud):某些云解決方案完全基于某個特定服務,該服務將會加載并處理數據。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一個 MapReduce 服務,該服務可以處理高達 20GB 的信息。但 Hadoop 服務的大小、配置與復雜性是不可配置的。其他基于服務的解決方案也提供同樣類別的復雜性。

?

Image removed.

?

I

?

基礎設施即服務(Infrastructure As a ?Service):消費者通過Internet 可以從完善的計算機基礎設施獲得服務。這類服務稱為基礎設施即服務。

?

基礎設施即代碼(Infrastructure As a Code):一種通過源代碼就可以解析計算和網絡架構的一種方式,然后就可以認為是任何一種軟件系統。這些代碼可以在源代碼管理中被保存以確??蓪徯院驮偎苄?,受限于測試實踐和持續交付的所有準則。這是十幾年前就被用在處理成長中的云計算平臺的方法,也將會是日后處理計算架構的主要方式。

?

內存計算(In-memory computing):通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把所有的工作數據集都移動到集群的集體內存中,避免了在計算過程中向磁盤寫入中間結果。Apache Spark 就是一個內存計算的系統,它相對 Mapreduce 這類 I/O 綁定的系統具有很大的優勢。

?

物聯網(IoT):最新的流行語就是物聯網(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備通過英特網的互聯,它們能夠收發數據。物聯網生成了海量的數據,帶來了很多大數據分析的機遇。

?

內存數據庫(IMDB: In-memory)?:一種數據庫管理系統,與普通數據庫管理系統不同之處在于,它用主存來存儲數據,而非硬盤。其特點在于能高速地進行數據的處理和存取。

?

法律上的數據一致性(Juridical data compliance)?:當你使用的云計算解決方案,將你的數據存儲于不同的國家或不同的大陸時,就會與這個概念扯上關系了。你需要留意這些存儲在不同國家的數據是否符合當地的法律。

Tags

冯仰妍破处门