品才網(wǎng)>讀書筆記>數(shù)據(jù)挖掘讀書筆記

數(shù)據(jù)挖掘讀書筆記

時(shí)間：2022-06-27 12:16:37 讀書筆記我要投稿

相關(guān)推薦

數(shù)據(jù)挖掘讀書筆記

　　導(dǎo)語(yǔ)：數(shù)據(jù)挖掘（Data Mining）是一項(xiàng)較新的數(shù)據(jù)庫(kù)技術(shù)，它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫(kù)，從中發(fā)現(xiàn)潛在的、有價(jià)值的信息——稱為知識(shí)，用于支持決策。以下小編為大家介紹數(shù)據(jù)挖掘讀書筆記文章，歡迎大家閱讀參考!

數(shù)據(jù)挖掘讀書筆記

　　1、數(shù)據(jù)挖掘要解決的問(wèn)題

　　可伸縮（算法在處理各種規(guī)模的數(shù)據(jù)時(shí)都有很好的性能。隨著數(shù)據(jù)的增大，效率不會(huì)下降很快。）

　　高維性（簡(jiǎn)單的說(shuō)就是多維數(shù)據(jù)的意思。平時(shí)我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù)，高維數(shù)據(jù)也可以類推，不過(guò)維數(shù)較高的時(shí)候，直觀表示很難。）

　　異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)

　　數(shù)據(jù)的所有權(quán)與分布（分布式數(shù)據(jù)挖掘：應(yīng)付分布式海量數(shù)據(jù)的現(xiàn)代方法）

　　非傳統(tǒng)的分析（傳統(tǒng)方法：基于一種假設(shè)-檢驗(yàn)?zāi)Ｊ剑粩?shù)據(jù)挖掘分析-時(shí)機(jī)性樣本，而不是隨機(jī)樣本）

　　2、數(shù)據(jù)挖掘任務(wù)

　　1）預(yù)測(cè)任務(wù)（目標(biāo)變量/因變量：被預(yù)測(cè)的屬性；說(shuō)明變量/自變量：用來(lái)做預(yù)測(cè)的屬性）

　　2）描述任務(wù)

　　A預(yù)測(cè)建模：分類-預(yù)測(cè)離散的目標(biāo)變量和回歸-預(yù)測(cè)連續(xù)的目標(biāo)變量

　　B關(guān)聯(lián)分析

　　C聚類分析

　　D異常檢測(cè)（識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)或離群點(diǎn)）

　　3、屬性的四種類型

　　1）標(biāo)稱

　　2）序數(shù)

　　3）區(qū)間

　　4）比率

　�。ú紶栕兞浚築oolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量，它包含兩個(gè)值：真和假。如果在表達(dá)式中使用了布爾型變量，那么將根據(jù)變量值的真假而賦予整型值1或0。）

　　數(shù)據(jù)挖掘讀書筆記2

　　1. 確定業(yè)務(wù)對(duì)象

　　清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

　　2. 數(shù)據(jù)準(zhǔn)備

　　1）數(shù)據(jù)清理

　　消除噪聲或不一致數(shù)據(jù)。

　　2）數(shù)據(jù)集成

　　多種數(shù)據(jù)源可以組合在一起

　　3）數(shù)據(jù)選擇

　　搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

　　4）數(shù)據(jù)變換

　　將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

　　3. 數(shù)據(jù)挖掘

　　對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

　　4. 結(jié)果分析

　　解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

　　5. 知識(shí)的同化

　　將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

　　3、數(shù)據(jù)挖掘熱點(diǎn)

　　8.1電子商務(wù)網(wǎng)站的數(shù)據(jù)挖掘

　　在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí)，所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面：一方面是客戶的背景信息，此部分信息主要來(lái)自于客戶的登記表；而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流，此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候，客戶對(duì)自己的背景信息十分珍重，不肯把這部分信息填寫在登記表上，這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下，就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶的背景信息，進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言，網(wǎng)站的數(shù)據(jù)挖掘和原來(lái)的數(shù)據(jù)挖掘差別并不是特別大，很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來(lái)自于點(diǎn)擊流，和傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。

　　8.2生物基因的數(shù)據(jù)挖掘

　　生物基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域，在商業(yè)上很難講有多大的價(jià)值，但對(duì)于人類卻受益非淺。例如，基因的組合千變?nèi)f化，得某種病的'人的基因和正常人的基因到底差別多大？能否找出其中不同的地方，進(jìn)而對(duì)其不同之處加以改變，使之成為正�；颍窟@都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比，無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言，都要復(fù)雜得多。從分析算法上講，更需要一些新的和好的算法�，F(xiàn)在還遠(yuǎn)沒(méi)有達(dá)到成熟的地步。

　　8.3文本的數(shù)據(jù)挖掘

　　在現(xiàn)實(shí)世界中，可獲取的大部分信息是存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的，由來(lái)自各種數(shù)據(jù)源的大量文檔組成。由于電子形式的信息量的飛速增長(zhǎng)，文本數(shù)據(jù)庫(kù)得到飛速的發(fā)展。文檔數(shù)據(jù)庫(kù)中存儲(chǔ)最多的數(shù)據(jù)是所謂的半結(jié)構(gòu)化數(shù)據(jù)(semistructure data)，它既不是完全無(wú)結(jié)構(gòu)的，也不是完全結(jié)構(gòu)化的。在最近數(shù)據(jù)庫(kù)領(lǐng)域研究中已由大量有關(guān)半結(jié)構(gòu)化數(shù)據(jù)的建模和實(shí)現(xiàn)方面的研究。而且，信息檢索技術(shù)已經(jīng)被用來(lái)處理費(fèi)結(jié)構(gòu)化文檔。傳統(tǒng)的信息檢索已經(jīng)不適應(yīng)日益增長(zhǎng)的大量文本數(shù)據(jù)處理的需要。因此，文檔挖掘就成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的流行課題。

　　8.4Web數(shù)據(jù)挖掘

　　Web上有海量的數(shù)據(jù)信息，怎樣對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)庫(kù)技術(shù)的研究熱點(diǎn)。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容，解決數(shù)據(jù)的應(yīng)用質(zhì)量問(wèn)題。充分利用有用的數(shù)據(jù)，廢棄虛偽無(wú)用的數(shù)據(jù)，是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。顯然，面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多。因?yàn)樗媾R如下諸多挑戰(zhàn)：

　　1、對(duì)于有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言，Web的存儲(chǔ)量實(shí)在是太龐大了。

　　2、 Web頁(yè)面的復(fù)雜性遠(yuǎn)比任何傳統(tǒng)的文本文檔復(fù)雜得多。

　　3、 Web是一個(gè)動(dòng)態(tài)性極強(qiáng)得信息源。

　　4、 Web面對(duì)的是一個(gè)廣泛形形色色的用戶群體。

　　5、 Web上的信息只有很小的一部分是相關(guān)的或有用的。

　　一般的，Web數(shù)據(jù)挖掘可分為三類：Web內(nèi)容挖掘(Web content mining)，Web結(jié)構(gòu)挖掘(Web structure mining)，Web使用紀(jì)律挖掘(Web usage mining)。

　　面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù)，由于上述種種挑戰(zhàn)的存在，因而面向Web的數(shù)據(jù)挖掘成了一個(gè)難以解決的問(wèn)題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來(lái)了機(jī)會(huì)。由于XML能夠使不同來(lái)源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起，因而使搜索多樣的不兼容的數(shù)據(jù)庫(kù)能夠成為可能，從而為解決Web數(shù)據(jù)挖掘難題帶來(lái)了希望。XML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù)，從而能描述搜集的Web頁(yè)中的數(shù)據(jù)記錄。同時(shí)，由于基于XML的數(shù)據(jù)是自我描述的，數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個(gè)工業(yè)標(biāo)準(zhǔn)，XML為組織、軟件開發(fā)者、Web站點(diǎn)和終端使用者提供了許多有利條件。相信在以后，隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式的出現(xiàn)，面向Web的數(shù)據(jù)挖掘?qū)?huì)變得非常輕松。

　　4、數(shù)據(jù)挖掘的未來(lái)

　　當(dāng)前，DMKD研究方興未艾，其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在70年代所處的地位，迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo)，才能使DMKD的應(yīng)用得以普遍推廣。DMKD的研究還會(huì)形成更大的高潮，研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面：

　　發(fā)現(xiàn)語(yǔ)言的形式化描述，即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言，也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化。

　　尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法，使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解，也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互。

　　研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)（WebMining），特別是在因特網(wǎng)上建立DMKD服務(wù)器，并且與數(shù)據(jù)庫(kù)服務(wù)器配合，實(shí)現(xiàn)WebMining。

　　加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開采（DataMining for Audio ＆ Video），如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。

　　交互式發(fā)現(xiàn)。

　　知識(shí)的維護(hù)更新。

　　但是，不管怎樣，需求牽引與市場(chǎng)推動(dòng)是永恒的，DMKD將首先滿足信息時(shí)代用戶的急需，大量的基于DMKD的決策支持軟件產(chǎn)品將會(huì)問(wèn)世。只有從數(shù)據(jù)中有效地提取信息，從信息中及時(shí)地發(fā)現(xiàn)知識(shí)，才能為人類的思維決策和戰(zhàn)略發(fā)展服務(wù)。也只有到那時(shí)，數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源，信息時(shí)代才會(huì)真正到來(lái)。

97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

數(shù)據(jù)挖掘讀書筆記

數(shù)據(jù)挖掘讀書筆記2

　　數(shù)據(jù)挖掘讀書筆記2