97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

數(shù)據(jù)挖掘讀書筆記

時(shí)間:2022-06-27 12:16:37 讀書筆記 我要投稿
  • 相關(guān)推薦

數(shù)據(jù)挖掘讀書筆記

  導(dǎo)語(yǔ):數(shù)據(jù)挖掘(Data Mining)是一項(xiàng)較新的數(shù)據(jù)庫(kù)技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫(kù),從中發(fā)現(xiàn)潛在的、有價(jià)值的信息——稱為知識(shí),用于支持決策。以下小編為大家介紹數(shù)據(jù)挖掘讀書筆記文章,歡迎大家閱讀參考!

數(shù)據(jù)挖掘讀書筆記

  1、數(shù)據(jù)挖掘要解決的問(wèn)題

  可伸縮(算法在處理各種規(guī)模的數(shù)據(jù)時(shí)都有很好的性能。隨著數(shù)據(jù)的增大,效率不會(huì)下降很快。)

  高維性(簡(jiǎn)單的說(shuō)就是多維數(shù)據(jù)的意思。平時(shí)我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過(guò)維數(shù)較高的時(shí)候,直觀表示很難。)

  異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)

  數(shù)據(jù)的所有權(quán)與分布(分布式數(shù)據(jù)挖掘:應(yīng)付分布式海量數(shù)據(jù)的現(xiàn)代方法)

  非傳統(tǒng)的分析(傳統(tǒng)方法:基于一種假設(shè)-檢驗(yàn)?zāi)J剑粩?shù)據(jù)挖掘分析-時(shí)機(jī)性樣本,而不是隨機(jī)樣本)

  2、數(shù)據(jù)挖掘任務(wù)

  1)預(yù)測(cè)任務(wù)(目標(biāo)變量/因變量:被預(yù)測(cè)的屬性;說(shuō)明變量/自變量:用來(lái)做預(yù)測(cè)的屬性)

  2)描述任務(wù)

  A預(yù)測(cè)建模:分類-預(yù)測(cè)離散的目標(biāo)變量和回歸-預(yù)測(cè)連續(xù)的目標(biāo)變量

  B關(guān)聯(lián)分析

  C聚類分析

  D異常檢測(cè)(識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)或離群點(diǎn))

  3、屬性的四種類型

  1)標(biāo)稱

  2)序數(shù)

  3)區(qū)間

  4)比率

 。ú紶栕兞浚築oolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個(gè)值:真和假。如果在表達(dá)式中使用了布爾型變量,那么將根據(jù)變量值的真假而賦予整型值1或0。)

  數(shù)據(jù)挖掘讀書筆記2

  1. 確定業(yè)務(wù)對(duì)象

  清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

  2. 數(shù)據(jù)準(zhǔn)備

  1)數(shù)據(jù)清理

  消除噪聲或不一致數(shù)據(jù)。

  2)數(shù)據(jù)集成

  多種數(shù)據(jù)源可以組合在一起

  3)數(shù)據(jù)選擇

  搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

  4)數(shù)據(jù)變換

  將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

  3. 數(shù)據(jù)挖掘

  對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

  4. 結(jié)果分析

  解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

  5. 知識(shí)的同化

  將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

  3、 數(shù)據(jù)挖掘熱點(diǎn)

  8.1電子商務(wù)網(wǎng)站的數(shù)據(jù)挖掘

  在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來(lái)自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流,此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶的背景信息,進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來(lái)的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來(lái)自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。

  8.2生物基因的數(shù)據(jù)挖掘

  生物基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的'人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正;颍窟@都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法,F(xiàn)在還遠(yuǎn)沒(méi)有達(dá)到成熟的地步。

  8.3文本的數(shù)據(jù)挖掘

  在現(xiàn)實(shí)世界中,可獲取的大部分信息是存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的,由來(lái)自各種數(shù)據(jù)源的大量文檔組成。由于電子形式的信息量的飛速增長(zhǎng),文本數(shù)據(jù)庫(kù)得到飛速的發(fā)展。文檔數(shù)據(jù)庫(kù)中存儲(chǔ)最多的數(shù)據(jù)是所謂的半結(jié)構(gòu)化數(shù)據(jù)(semistructure data),它既不是完全無(wú)結(jié)構(gòu)的,也不是完全結(jié)構(gòu)化的。在最近數(shù)據(jù)庫(kù)領(lǐng)域研究中已由大量有關(guān)半結(jié)構(gòu)化數(shù)據(jù)的建模和實(shí)現(xiàn)方面的研究。而且,信息檢索技術(shù)已經(jīng)被用來(lái)處理費(fèi)結(jié)構(gòu)化文檔。傳統(tǒng)的信息檢索已經(jīng)不適應(yīng)日益增長(zhǎng)的大量文本數(shù)據(jù)處理的需要。因此,文檔挖掘就成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的流行課題。

  8.4Web數(shù)據(jù)挖掘

  Web上有海量的數(shù)據(jù)信息,怎樣對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)庫(kù)技術(shù)的研究熱點(diǎn)。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問(wèn)題。充分利用有用的數(shù)據(jù),廢棄虛偽無(wú)用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。顯然,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多。因?yàn)樗媾R如下諸多挑戰(zhàn):

  1、 對(duì)于有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言,Web的存儲(chǔ)量實(shí)在是太龐大了。

  2、 Web頁(yè)面的復(fù)雜性遠(yuǎn)比任何傳統(tǒng)的文本文檔復(fù)雜得多。

  3、 Web是一個(gè)動(dòng)態(tài)性極強(qiáng)得信息源。

  4、 Web面對(duì)的是一個(gè)廣泛形形色色的用戶群體。

  5、 Web上的信息只有很小的一部分是相關(guān)的或有用的。

  一般的,Web數(shù)據(jù)挖掘可分為三類:Web內(nèi)容挖掘(Web content mining),Web結(jié)構(gòu)挖掘(Web structure mining),Web使用紀(jì)律挖掘(Web usage mining)。

  面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù),由于上述種種挑戰(zhàn)的存在,因而面向Web的數(shù)據(jù)挖掘成了一個(gè)難以解決的問(wèn)題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來(lái)了機(jī)會(huì)。由于XML能夠使不同來(lái)源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫(kù)能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來(lái)了希望。XML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁(yè)中的數(shù)據(jù)記錄。同時(shí),由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個(gè)工業(yè)標(biāo)準(zhǔn),XML為組織、軟件開發(fā)者、Web站點(diǎn)和終端使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)?huì)變得非常輕松。

  4、 數(shù)據(jù)挖掘的未來(lái)

  當(dāng)前,DMKD研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使DMKD的應(yīng)用得以普遍推廣。DMKD的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:

  發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化。

  尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互。

  研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)WebMining。

  加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMining for Audio & Video),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。

  交互式發(fā)現(xiàn)。

  知識(shí)的維護(hù)更新。

  但是,不管怎樣,需求牽引與市場(chǎng)推動(dòng)是永恒的,DMKD將首先滿足信息時(shí)代用戶的急需,大量的基于DMKD的決策支持軟件產(chǎn)品將會(huì)問(wèn)世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時(shí)地發(fā)現(xiàn)知識(shí),才能為人類的思維決策和戰(zhàn)略發(fā)展服務(wù)。也只有到那時(shí),數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時(shí)代才會(huì)真正到來(lái)。