一種基于數據挖掘和可視化的電網事故關聯原因回溯方法

Submitted by neurta on Sun, 02/09/2020 - 09:43
tf-idf

s12,將對決策有用的數據從數據集中提取出來形成數據樣本;

s13, 利用數據挖掘的各種方法對數據樣本進行挖掘,發現其中隱含的、對決策有用的數據或者數據間的相互關系;

數據挖掘分為包括六類功能:(1)自動預測趨勢和行為;(2)關聯分析;(3)分類:(4)聚類;(5)概念描述;(6)偏差檢測;

為識別系統運行人、物、事(pi,pj)之間的關系,對clique關聯圖G中所有邊上的關鍵詞統計每個關鍵詞在圖中出現的邊數;假設集合v中的某個關鍵詞k在圖中邊上出現的詞數為fqk,tf-idf(term frequency-inverse Document frequency)計算出的關鍵詞權重wk,最終關鍵詞k對于系統運行人、物、事的重要性為Weightk:

weightk=wk*fqk

關鍵詞關鍵網絡建立完成以后,需要對關聯網絡進行分析以發現系統運行人、物、事關系;表示系統運行人、物、事關系的關鍵詞與系統運行人、物、事會存在頻繁的共現關系,而且在關鍵詞關聯網絡中處于核心的位置,通過圖聚類的方式找到系統運行人、物、事關系;使用基于團clieque的圖聚類方法,檢測出關聯網絡中所有固定大小的clique;每個clique中包含若干個關鍵詞,這些關鍵詞在關聯網絡中都有邊相連;在關鍵詞關鍵網絡建立以后,使用復雜網絡分析工具networkx中的find——cliques()函數查找關鍵詞關聯網絡中的所有clique;為利用識別出的clique挖掘系統運行人、物、事的關系詞,構建clique之間的關聯;關聯網絡中檢測出的clique之間往往會存在共同的關鍵詞;clique間的共同出現關鍵詞組成集合v={w1,w2,...,wm},共包含m個關鍵詞;以每個clique作為節點,clique之間的共現關鍵詞為邊的來建立clique關聯圖G;

?

tfidf代碼

?

tfidf03

冯仰妍破处门