- 相關(guān)推薦
論數(shù)據(jù)挖掘技術(shù)在電力行業(yè)中的應(yīng)用論文
引言 數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
一、數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘就是指
從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。包括存儲和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個過程中支持人機(jī)交互的模式。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識別、統(tǒng)計學(xué)、模糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法,已成功應(yīng)用在超市、金融、銀行、生產(chǎn)企業(yè)和電信,并有很好的表現(xiàn)。
二、數(shù)據(jù)挖掘的過程
挖掘數(shù)據(jù)過程可以分為3個步驟:數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析。
(1)數(shù)據(jù)預(yù)處理。實際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進(jìn)行挖掘,要通過預(yù)處理提供準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個文件或多個數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。
(2)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識?捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。
(3)模式分析。模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段,對得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。
三、數(shù)據(jù)挖掘在電力系統(tǒng)負(fù)荷預(yù)測中的應(yīng)用
電力負(fù)荷預(yù)測是能量管理系統(tǒng)及配電管理系統(tǒng)的重要組成部分,是電力系統(tǒng)規(guī)劃和運(yùn)行調(diào)度的依據(jù),也是電力市場化商業(yè)運(yùn)營所必需的基本內(nèi)容。負(fù)荷預(yù)測工作的關(guān)鍵在于收集大量的歷史數(shù)據(jù),建立科學(xué)有效的預(yù)測模型,采用有效的算法,以歷史數(shù)據(jù)為基礎(chǔ),進(jìn)行大量試驗性研究,總結(jié)經(jīng)驗,不斷修正模型和算法,以真正反映負(fù)荷變化規(guī)律。其過程為:
(1) 調(diào)查和選擇歷史負(fù)荷數(shù)據(jù)資料
多方面調(diào)查收集資料,包括電力企業(yè)內(nèi)部資料和外部資料,從眾多的資料中挑選出有用的一小部分,即把資料濃縮到最小量。挑選資料時的標(biāo)準(zhǔn)要直接、可靠并且是最新的資料。如果資料的收集和選擇得不好,會直接影響負(fù)荷預(yù)測的質(zhì)量。通過建立計算機(jī)數(shù)據(jù)管理系統(tǒng),利用計算機(jī)軟件系統(tǒng)來自動管理數(shù)據(jù)。
(2) 負(fù)載數(shù)據(jù)預(yù)處理
經(jīng)過初步整理,還用于數(shù)據(jù)分析的預(yù)處理,平滑異常值的歷史數(shù)據(jù)和缺失數(shù)據(jù)的異常數(shù)據(jù)主要是水平的,垂直的方法附錄。正在分析數(shù)據(jù)之前和之后的兩個時間的負(fù)載數(shù)據(jù)作為基準(zhǔn),來設(shè)置要處理的數(shù)據(jù)時,要處理的數(shù)據(jù)的范圍中最大的變化的數(shù)據(jù)的處理的水平超過該范圍時,它被認(rèn)為是壞的數(shù)據(jù),使用平均法平滑變化;垂直負(fù)載數(shù)據(jù)預(yù)處理中的數(shù)據(jù)處理的考慮其24小時的小循環(huán),即,相同的時間的日期不同的負(fù)載應(yīng)具有相似的,同時負(fù)載值應(yīng)保持在一定范圍內(nèi),校正外的范圍內(nèi)的數(shù)據(jù)進(jìn)行處理,在最近幾天的壞數(shù)據(jù),力矩載荷的意思。
(3) 歷史資料的整理
一般來說,由于預(yù)測的質(zhì)量不會超過所用資料的質(zhì)量,所以要對所收集的與負(fù)荷有關(guān)的統(tǒng)計資料進(jìn)行審核和必要的加工整理,來保證資料的質(zhì)量,從而為保證預(yù)測質(zhì)量打下基礎(chǔ),即要注意資料的完整無缺,數(shù)字準(zhǔn)確無誤,反映的都是正常狀態(tài)下的水平,資料中沒有異常的“分離項”,還要注意資料的補(bǔ)缺,并對不可靠的資料加以核實調(diào)整。通過建立數(shù)據(jù)完整性、一致性約束模型,來建立海量數(shù)據(jù)集為后面的數(shù)據(jù)挖掘做好充分的準(zhǔn)備。
(4) 建立負(fù)荷預(yù)測模型
負(fù)荷預(yù)測模型是統(tǒng)計資料軌跡的概括,預(yù)測模型是多種多樣的,因此,對于具體資料要選擇恰當(dāng)?shù)念A(yù)測模型,這是負(fù)荷預(yù)測過程中至關(guān)重要的一步。當(dāng)由于模型選擇不當(dāng)而造成預(yù)測誤差過大時,就需要改換模型,必要時,還可同時采用幾種數(shù)學(xué)模型進(jìn)行運(yùn)算,以便對比、選擇。
(5) 選擇算法
選擇聚類法又稱聚類分析法,它是對一組負(fù)荷影響因素數(shù)據(jù)進(jìn)行聚類的方法,聚類后的數(shù)據(jù)即構(gòu)成了一組分類。聚類的標(biāo)準(zhǔn)是以數(shù)據(jù)的表象(即數(shù)據(jù)屬性 值)為依據(jù)的,聚類的工具是將一組數(shù)據(jù)按表象而將相近的歸并成類,最終形成若干個類,在類內(nèi)數(shù)據(jù)具有表象的相似性,而類間的數(shù)據(jù)具有表象的相異性。聚類的算法也有很多,有遺傳算法,劃分法,層次法,基于密度方法,基于網(wǎng)格方法等。 四、CURE算法在負(fù)荷預(yù)測中的應(yīng)用 CURE算法是一種分層聚類算法。典型的數(shù)據(jù)點(diǎn)來表示一個具有固定數(shù)目的聚類。的CURE算法需要作為參數(shù)輸入的群集數(shù)?。由于CURE聚類的代表點(diǎn)的某些有代表性的,可以發(fā)現(xiàn)具有任何尺寸和形狀的聚類。同時,在一個集群代表點(diǎn)的選擇方式的中心“縮水”排除“噪音”。
歷史上第一個數(shù)據(jù)庫負(fù)荷預(yù)測,數(shù)據(jù)提取樣品。的數(shù)據(jù)樣本聚類,可以分為兩種方法:一個是所有樣本數(shù)據(jù)進(jìn)行聚類,這個方法會使主內(nèi)存容量是遠(yuǎn)遠(yuǎn)不夠的,系統(tǒng)無法掃描一次完成。我們使用所有的樣本數(shù)據(jù)被分成多個區(qū)域,每個區(qū)域的數(shù)據(jù)進(jìn)行聚類,使每個分區(qū)可以品嘗到所有的數(shù)據(jù)加載到主內(nèi)存。然后,針對每個分區(qū),使用分層算法的聚類。
電力系統(tǒng)的應(yīng)用SCADA系統(tǒng)中的數(shù)據(jù)測量、記錄、轉(zhuǎn)換、傳輸、收集數(shù)據(jù),并可能導(dǎo)致故障和負(fù)載數(shù)據(jù)丟失或異常。異常數(shù)據(jù)的生成是隨機(jī)的,因此,在數(shù)據(jù)庫中的不確定性的分布,不同類型的異常數(shù)據(jù)出現(xiàn)單獨(dú)或在一個特定的時刻,或交叉混合發(fā)生在同一天連續(xù),或在相同的連續(xù)天期的橫分布,以及許多其他場合。異常數(shù)據(jù)的處理的關(guān)鍵影響的預(yù)測結(jié)果的準(zhǔn)確性。使用兩種不同的技術(shù),以刪除異常。第一種技術(shù)是要刪除的集群增長緩慢。當(dāng)簇的數(shù)量低于某一閾值,將只包含一個或兩個集群成員的刪除,第二種方法是在集群的最后階段,非常小的集群中刪除。
最后對樣本中的全部數(shù)據(jù)進(jìn)行聚類,為了保證可以在內(nèi)存中處理,輸入只包括各個分區(qū)獨(dú)自聚類時發(fā)現(xiàn)的簇的代表性點(diǎn)。使用c個點(diǎn)代表每個簇,對磁盤上的整個數(shù)據(jù)庫進(jìn)行聚類。數(shù)據(jù)庫中的數(shù)據(jù)項被分配到與最近的代表性點(diǎn)表示的簇中。代表性點(diǎn)的集合必須足夠小以適應(yīng)主存的大小。
結(jié)束語
數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將更加成熟,并取得更加顯著的效果。
【論數(shù)據(jù)挖掘技術(shù)在電力行業(yè)中的應(yīng)用論文】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中的應(yīng)用研究論文07-03
軟件工程行業(yè)中數(shù)據(jù)挖掘的應(yīng)用論文06-30
數(shù)據(jù)挖掘技術(shù)的醫(yī)療信息管理應(yīng)用論文07-03
數(shù)據(jù)挖掘在物流業(yè)中的應(yīng)用06-23
數(shù)據(jù)挖掘在工商管理中的運(yùn)用論文07-03
論析多媒體技術(shù)在航海教學(xué)培訓(xùn)中的應(yīng)用論文07-03
論自動化技術(shù)在機(jī)械設(shè)計制造中的應(yīng)用論文07-04