97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)

時(shí)間:2022-07-10 18:59:08 其他 我要投稿
  • 相關(guān)推薦

如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)


一年一度的奧斯卡頒獎(jiǎng)又要開始了。 2005年, 李安導(dǎo)演憑借《斷背山》獲得最佳導(dǎo)演獎(jiǎng),可惜與最佳影片獎(jiǎng)失之交臂。 這次, 李安導(dǎo)演又一次攜《少年派的奇幻漂流》再次沖擊奧斯卡。

在一周前的金球獎(jiǎng), 《逃離德黑蘭》爆冷擊敗了《林肯》和《少年派的奇幻漂流》獲得最佳影片獎(jiǎng)。 這讓很多人都覺得不可思議。 雖然藝術(shù)評(píng)委的思維模式往往與大眾相左(參考閱讀:社會(huì)化輿情分析,你信奧斯卡還是IBM), 但實(shí)際上數(shù)據(jù)分析仍然有可能為我們“劇透”今年的奧斯卡最佳影片獎(jiǎng)得主。 好吧, 以下本人就試著用R分析一下吧。

奧斯卡的原始數(shù)據(jù)可以到www.appdata.com去下載這個(gè)文件, 這個(gè)文件包括了從1927年到2010年奧斯卡提名和獲獎(jiǎng)的所有數(shù)據(jù)。

有了這個(gè)原始數(shù)據(jù)集, 我們就可以開始我們的數(shù)據(jù)分析項(xiàng)目了。

首先確定項(xiàng)目的目標(biāo): 我希望能夠分析從最佳影片提名中預(yù)測(cè)最后產(chǎn)生的獲獎(jiǎng)影片。 首先要做得是確定預(yù)測(cè)樣本的特征值, 觀察了一下原始數(shù)據(jù)集, 我們可以把一些肯定與最佳影片無關(guān)的獎(jiǎng)項(xiàng)去掉(比如最佳動(dòng)畫長(zhǎng)片, 最佳短片, 最佳外語(yǔ)片等)。 最后 我選擇了下面這些獎(jiǎng)項(xiàng):

最佳男主角, 最佳男配角, 最佳女主角, 最佳女配角, 最佳藝術(shù)指導(dǎo), 最佳攝影, 最佳服裝設(shè)計(jì), 最佳導(dǎo)演, 最佳影片剪輯, 最佳化妝, 最佳原創(chuàng)音樂, 最佳原創(chuàng)歌曲, 最佳混音, 最佳音效, 最佳視覺效果和最佳劇本。

其中, 奧斯卡的最佳劇本其實(shí)分最佳原創(chuàng)劇本和最佳改編劇本, 但是原始數(shù)據(jù)把二者合并了。 (這也是數(shù)據(jù)分析中常常會(huì)碰到的情況。 不過對(duì)我們來說影響不大)。

然后, 就是根據(jù)這些特征值, 對(duì)數(shù)據(jù)集進(jìn)行整理。 這部分工作, 其實(shí)在一般的數(shù)據(jù)分析項(xiàng)目里, 大約占到60%的時(shí)間。 確實(shí)沒有搞模型什么的有意思, 不過很多數(shù)據(jù)分析項(xiàng)目實(shí)施的好壞和數(shù)據(jù)整理其實(shí)有很大的關(guān)系。

我在這里主要是把特征值進(jìn)行擴(kuò)展, 把獲得提名和獲得最后獎(jiǎng)項(xiàng)做為兩個(gè)特征來看, 對(duì)每個(gè)獎(jiǎng)項(xiàng), 如果獲得提名, 則獲得提名定值為1, 否則為0。 如果該獎(jiǎng)項(xiàng)沒有獲得提名, 則獲得最后獎(jiǎng)項(xiàng)的值為0 , 如果獲得提名并得獎(jiǎng), 則為1。 同時(shí)還需要把歷年的“最佳影片”的提名和獲獎(jiǎng)數(shù)據(jù)從原始數(shù)據(jù)集中取出來。 這些工作可以用R語(yǔ)言來完成,見附件中的代碼。 總共最后整理成了一個(gè)共有 485個(gè)觀察樣本, 每個(gè)樣本有32個(gè)特征值的數(shù)據(jù)集。 接著, 把這485個(gè)樣本進(jìn)行分組, 我按照80:20原則, 把80%的樣本作為訓(xùn)練樣本組, 20%的樣本作為驗(yàn)證預(yù)測(cè)模型的驗(yàn)證組。

接下來就是進(jìn)行預(yù)測(cè)模型的選擇。 由于我們是個(gè)分類問題, 所以可以選擇分類模型。 這個(gè)數(shù)據(jù)集相對(duì)較小, 因此不同模型的差別應(yīng)該不大。 這里我先選擇用回歸樹來做分析。 用R里面的回歸樹的包, 可以很容易的進(jìn)行決策樹的構(gòu)建。 最后的決策樹模型的ROC是0.877. 下圖是決策樹的示意。


決策樹的一個(gè)好處就是比較直觀, 這個(gè)決策樹簡(jiǎn)單來說, 就是這樣進(jìn)行預(yù)測(cè)判斷的, 首先是判斷是否獲得“最佳導(dǎo)演獎(jiǎng)”, 如果獲得最佳導(dǎo)演, 則判斷是否有“最佳影片剪輯提名”。 如果沒有, 則獲獎(jiǎng)概率為38%, 如果有最佳影片剪輯提名, 看是否獲得“最佳劇本”獎(jiǎng), 如果沒有, 則得獎(jiǎng)概率為63%, 如果獲得了, 則繼續(xù)看是否獲得“最佳混音”提名。 如此類推。

如此看來, 獲得奧斯卡最佳影片獎(jiǎng)的關(guān)鍵是獲得奧斯卡最佳導(dǎo)演獎(jiǎng)。 如果沒有導(dǎo)演獎(jiǎng), 那么獲最佳影片獎(jiǎng)的概率頂多就是37%。

好, 我們來看看《少年派》, 少年派獲得了導(dǎo)演獎(jiǎng)的提名, 而如果獲得了導(dǎo)演獎(jiǎng), 那么由于它本身已經(jīng)是“最佳影片剪輯”提名, 所以即便不能拿到“最佳劇本”獎(jiǎng), 獲獎(jiǎng)概率也能達(dá)到63%, 而如果再拿到“最佳劇本獎(jiǎng)”, 由于已經(jīng)獲得“最佳混音”提名, 所以幾乎就能夠鐵定獲獎(jiǎng)了。

而對(duì)《林肯》來說也是這樣的, 因?yàn)榱挚弦搏@得了最佳導(dǎo)演, 最佳剪輯和最佳劇本的提名, 所以, 《少年派》和《林肯》之間的對(duì)決主要是在最佳導(dǎo)演的爭(zhēng)奪上了。 至于《逃離德黑蘭》, 由于沒有獲得最佳導(dǎo)演獎(jiǎng)的提名, 所以, 它的獲獎(jiǎng)概率最多可以到37%。 當(dāng)然, 這個(gè)概率也比5選1的20%的概率要高。

為了看一看各個(gè)特征值對(duì)于最終獲獎(jiǎng)的影響, 我們也可以用邏輯回歸的模型看一下, 下面是邏輯回歸的出來的各特征值的權(quán)重, (ROC = 0.873,和決策樹差不多)。

這里面可以看到, 最佳導(dǎo)演獲獎(jiǎng)依然是影響最大的因素, 其次是最佳化妝獎(jiǎng)。 有意思的是, 有些提名或者獲獎(jiǎng)反而會(huì)降低得“最佳影片獎(jiǎng)”的概率。 比如說“最佳音效獎(jiǎng)得獎(jiǎng)”或者“最佳視覺效果提名”。 也可能這些是對(duì)“最佳影片”的落榜影片的“安慰獎(jiǎng)”。

“數(shù)據(jù)可視化是科學(xué), 也是藝術(shù)”,指出數(shù)據(jù)可視化是科學(xué)藝術(shù)和設(shè)計(jì)的結(jié)合,而我們現(xiàn)在做的,則是用數(shù)據(jù)分析預(yù)測(cè)藝術(shù)市場(chǎng)。 在我們觀看奧斯卡頒獎(jiǎng)典禮的時(shí)候, 因?yàn)樽罴延捌亲詈笠粋(gè)頒獎(jiǎng)的, 所以大家可以把決策樹拿出來, 對(duì)照著前面頒獎(jiǎng)的情況進(jìn)行觀看, 是不是會(huì)更有意思呢。

對(duì)數(shù)據(jù)分析愛好者來說, 我的R代碼和整理過的數(shù)據(jù)集見附件(請(qǐng)登錄下載), 讀者也可以自己研究一下, 也許還能發(fā)現(xiàn)更好的模型。 或者還可以把金球獎(jiǎng)的數(shù)據(jù)包括進(jìn)來。 看看《逃離德黑蘭》獲得金球獎(jiǎng)對(duì)它獲得奧斯卡獎(jiǎng)有多大影響。

Via:IT經(jīng)理網(wǎng)

最佳導(dǎo)演獲獎(jiǎng)

3.826687

最佳化妝獲獎(jiǎng)

3.036705

最佳音效提名

1.908622

最佳男主角獲獎(jiǎng)

1.641444

最佳服裝獲獎(jiǎng)

1.611889

最佳劇本獲獎(jiǎng)

1.27472

最佳影片剪輯提名

0.838309

最佳原創(chuàng)歌曲提名

0.763278

最佳男配角提名

0.644326

最佳藝術(shù)指導(dǎo)獲獎(jiǎng)

0.558941

最佳影片剪輯獲獎(jiǎng)

0.471427

最佳女配角獲獎(jiǎng)

0.454053

最佳服裝提名

0.383574

最佳混音獲獎(jiǎng)

0.343589

最佳混音提名

0.295055

最佳化妝提名

0.198427

最佳原創(chuàng)音樂提名

0.188186

最佳藝術(shù)指導(dǎo)提名

0.171621

最佳女主角獲獎(jiǎng)

0.108964

最佳導(dǎo)演提名

0.094558

最佳女配角提名

0.083959

最佳視覺效果獲獎(jiǎng)

-0.02597

最佳男配角獲獎(jiǎng)

-0.19262

最佳攝影獲獎(jiǎng)

-0.32458

最佳原創(chuàng)音樂獲獎(jiǎng)

-0.37605

最佳女主角提名

-0.39106

最佳男主角提名

-0.59084

最佳攝影提名

-0.71286

最佳原創(chuàng)歌曲獲獎(jiǎng)

-0.75752

最佳劇本提名

-0.78589

最佳視覺效果提名

-0.86435

最佳音效獲獎(jiǎng)

-2.07864

[如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)]相關(guān)文章:

1.如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)

【如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)】相關(guān)文章:

數(shù)據(jù)分析報(bào)告07-28

大數(shù)據(jù)分析07-20

銷售數(shù)據(jù)的分析方法07-25

大數(shù)據(jù)分析07-25

多維數(shù)據(jù)分析方法04-07

數(shù)據(jù)分析工作職責(zé)07-28

數(shù)據(jù)分析常用方法07-26

數(shù)據(jù)分析主管的職責(zé)01-13

數(shù)據(jù)分析報(bào)告【推薦】03-07

數(shù)據(jù)分析簡(jiǎn)歷模板02-17