- 相關(guān)推薦
如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)
一年一度的奧斯卡頒獎(jiǎng)又要開始了。 2005年, 李安導(dǎo)演憑借《斷背山》獲得最佳導(dǎo)演獎(jiǎng),可惜與最佳影片獎(jiǎng)失之交臂。 這次, 李安導(dǎo)演又一次攜《少年派的奇幻漂流》再次沖擊奧斯卡。
在一周前的金球獎(jiǎng), 《逃離德黑蘭》爆冷擊敗了《林肯》和《少年派的奇幻漂流》獲得最佳影片獎(jiǎng)。 這讓很多人都覺得不可思議。 雖然藝術(shù)評(píng)委的思維模式往往與大眾相左(參考閱讀:社會(huì)化輿情分析,你信奧斯卡還是IBM), 但實(shí)際上數(shù)據(jù)分析仍然有可能為我們“劇透”今年的奧斯卡最佳影片獎(jiǎng)得主。 好吧, 以下本人就試著用R分析一下吧。
奧斯卡的原始數(shù)據(jù)可以到www.appdata.com去下載這個(gè)文件, 這個(gè)文件包括了從1927年到2010年奧斯卡提名和獲獎(jiǎng)的所有數(shù)據(jù)。
有了這個(gè)原始數(shù)據(jù)集, 我們就可以開始我們的數(shù)據(jù)分析項(xiàng)目了。
首先確定項(xiàng)目的目標(biāo): 我希望能夠分析從最佳影片提名中預(yù)測(cè)最后產(chǎn)生的獲獎(jiǎng)影片。 首先要做得是確定預(yù)測(cè)樣本的特征值, 觀察了一下原始數(shù)據(jù)集, 我們可以把一些肯定與最佳影片無關(guān)的獎(jiǎng)項(xiàng)去掉(比如最佳動(dòng)畫長(zhǎng)片, 最佳短片, 最佳外語(yǔ)片等)。 最后 我選擇了下面這些獎(jiǎng)項(xiàng):
最佳男主角, 最佳男配角, 最佳女主角, 最佳女配角, 最佳藝術(shù)指導(dǎo), 最佳攝影, 最佳服裝設(shè)計(jì), 最佳導(dǎo)演, 最佳影片剪輯, 最佳化妝, 最佳原創(chuàng)音樂, 最佳原創(chuàng)歌曲, 最佳混音, 最佳音效, 最佳視覺效果和最佳劇本。
其中, 奧斯卡的最佳劇本其實(shí)分最佳原創(chuàng)劇本和最佳改編劇本, 但是原始數(shù)據(jù)把二者合并了。 (這也是數(shù)據(jù)分析中常常會(huì)碰到的情況。 不過對(duì)我們來說影響不大)。
然后, 就是根據(jù)這些特征值, 對(duì)數(shù)據(jù)集進(jìn)行整理。 這部分工作, 其實(shí)在一般的數(shù)據(jù)分析項(xiàng)目里, 大約占到60%的時(shí)間。 確實(shí)沒有搞模型什么的有意思, 不過很多數(shù)據(jù)分析項(xiàng)目實(shí)施的好壞和數(shù)據(jù)整理其實(shí)有很大的關(guān)系。
我在這里主要是把特征值進(jìn)行擴(kuò)展, 把獲得提名和獲得最后獎(jiǎng)項(xiàng)做為兩個(gè)特征來看, 對(duì)每個(gè)獎(jiǎng)項(xiàng), 如果獲得提名, 則獲得提名定值為1, 否則為0。 如果該獎(jiǎng)項(xiàng)沒有獲得提名, 則獲得最后獎(jiǎng)項(xiàng)的值為0 , 如果獲得提名并得獎(jiǎng), 則為1。 同時(shí)還需要把歷年的“最佳影片”的提名和獲獎(jiǎng)數(shù)據(jù)從原始數(shù)據(jù)集中取出來。 這些工作可以用R語(yǔ)言來完成,見附件中的代碼。 總共最后整理成了一個(gè)共有 485個(gè)觀察樣本, 每個(gè)樣本有32個(gè)特征值的數(shù)據(jù)集。 接著, 把這485個(gè)樣本進(jìn)行分組, 我按照80:20原則, 把80%的樣本作為訓(xùn)練樣本組, 20%的樣本作為驗(yàn)證預(yù)測(cè)模型的驗(yàn)證組。
接下來就是進(jìn)行預(yù)測(cè)模型的選擇。 由于我們是個(gè)分類問題, 所以可以選擇分類模型。 這個(gè)數(shù)據(jù)集相對(duì)較小, 因此不同模型的差別應(yīng)該不大。 這里我先選擇用回歸樹來做分析。 用R里面的回歸樹的包, 可以很容易的進(jìn)行決策樹的構(gòu)建。 最后的決策樹模型的ROC是0.877. 下圖是決策樹的示意。
決策樹的一個(gè)好處就是比較直觀, 這個(gè)決策樹簡(jiǎn)單來說, 就是這樣進(jìn)行預(yù)測(cè)判斷的, 首先是判斷是否獲得“最佳導(dǎo)演獎(jiǎng)”, 如果獲得最佳導(dǎo)演, 則判斷是否有“最佳影片剪輯提名”。 如果沒有, 則獲獎(jiǎng)概率為38%, 如果有最佳影片剪輯提名, 看是否獲得“最佳劇本”獎(jiǎng), 如果沒有, 則得獎(jiǎng)概率為63%, 如果獲得了, 則繼續(xù)看是否獲得“最佳混音”提名。 如此類推。
如此看來, 獲得奧斯卡最佳影片獎(jiǎng)的關(guān)鍵是獲得奧斯卡最佳導(dǎo)演獎(jiǎng)。 如果沒有導(dǎo)演獎(jiǎng), 那么獲最佳影片獎(jiǎng)的概率頂多就是37%。
好, 我們來看看《少年派》, 少年派獲得了導(dǎo)演獎(jiǎng)的提名, 而如果獲得了導(dǎo)演獎(jiǎng), 那么由于它本身已經(jīng)是“最佳影片剪輯”提名, 所以即便不能拿到“最佳劇本”獎(jiǎng), 獲獎(jiǎng)概率也能達(dá)到63%, 而如果再拿到“最佳劇本獎(jiǎng)”, 由于已經(jīng)獲得“最佳混音”提名, 所以幾乎就能夠鐵定獲獎(jiǎng)了。
而對(duì)《林肯》來說也是這樣的, 因?yàn)榱挚弦搏@得了最佳導(dǎo)演, 最佳剪輯和最佳劇本的提名, 所以, 《少年派》和《林肯》之間的對(duì)決主要是在最佳導(dǎo)演的爭(zhēng)奪上了。 至于《逃離德黑蘭》, 由于沒有獲得最佳導(dǎo)演獎(jiǎng)的提名, 所以, 它的獲獎(jiǎng)概率最多可以到37%。 當(dāng)然, 這個(gè)概率也比5選1的20%的概率要高。
為了看一看各個(gè)特征值對(duì)于最終獲獎(jiǎng)的影響, 我們也可以用邏輯回歸的模型看一下, 下面是邏輯回歸的出來的各特征值的權(quán)重, (ROC = 0.873,和決策樹差不多)。
這里面可以看到, 最佳導(dǎo)演獲獎(jiǎng)依然是影響最大的因素, 其次是最佳化妝獎(jiǎng)。 有意思的是, 有些提名或者獲獎(jiǎng)反而會(huì)降低得“最佳影片獎(jiǎng)”的概率。 比如說“最佳音效獎(jiǎng)得獎(jiǎng)”或者“最佳視覺效果提名”。 也可能這些是對(duì)“最佳影片”的落榜影片的“安慰獎(jiǎng)”。
“數(shù)據(jù)可視化是科學(xué), 也是藝術(shù)”,指出數(shù)據(jù)可視化是科學(xué)藝術(shù)和設(shè)計(jì)的結(jié)合,而我們現(xiàn)在做的,則是用數(shù)據(jù)分析預(yù)測(cè)藝術(shù)市場(chǎng)。 在我們觀看奧斯卡頒獎(jiǎng)典禮的時(shí)候, 因?yàn)樽罴延捌亲詈笠粋(gè)頒獎(jiǎng)的, 所以大家可以把決策樹拿出來, 對(duì)照著前面頒獎(jiǎng)的情況進(jìn)行觀看, 是不是會(huì)更有意思呢。
對(duì)數(shù)據(jù)分析愛好者來說, 我的R代碼和整理過的數(shù)據(jù)集見附件(請(qǐng)登錄下載), 讀者也可以自己研究一下, 也許還能發(fā)現(xiàn)更好的模型。 或者還可以把金球獎(jiǎng)的數(shù)據(jù)包括進(jìn)來。 看看《逃離德黑蘭》獲得金球獎(jiǎng)對(duì)它獲得奧斯卡獎(jiǎng)有多大影響。
Via:IT經(jīng)理網(wǎng)
最佳導(dǎo)演獲獎(jiǎng) | 3.826687 |
最佳化妝獲獎(jiǎng) | 3.036705 |
最佳音效提名 | 1.908622 |
最佳男主角獲獎(jiǎng) | 1.641444 |
最佳服裝獲獎(jiǎng) | 1.611889 |
最佳劇本獲獎(jiǎng) | 1.27472 |
最佳影片剪輯提名 | 0.838309 |
最佳原創(chuàng)歌曲提名 | 0.763278 |
最佳男配角提名 | 0.644326 |
最佳藝術(shù)指導(dǎo)獲獎(jiǎng) | 0.558941 |
最佳影片剪輯獲獎(jiǎng) | 0.471427 |
最佳女配角獲獎(jiǎng) | 0.454053 |
最佳服裝提名 | 0.383574 |
最佳混音獲獎(jiǎng) | 0.343589 |
最佳混音提名 | 0.295055 |
最佳化妝提名 | 0.198427 |
最佳原創(chuàng)音樂提名 | 0.188186 |
最佳藝術(shù)指導(dǎo)提名 | 0.171621 |
最佳女主角獲獎(jiǎng) | 0.108964 |
最佳導(dǎo)演提名 | 0.094558 |
最佳女配角提名 | 0.083959 |
最佳視覺效果獲獎(jiǎng) | -0.02597 |
最佳男配角獲獎(jiǎng) | -0.19262 |
最佳攝影獲獎(jiǎng) | -0.32458 |
最佳原創(chuàng)音樂獲獎(jiǎng) | -0.37605 |
最佳女主角提名 | -0.39106 |
最佳男主角提名 | -0.59084 |
最佳攝影提名 | -0.71286 |
最佳原創(chuàng)歌曲獲獎(jiǎng) | -0.75752 |
最佳劇本提名 | -0.78589 |
最佳視覺效果提名 | -0.86435 |
最佳音效獲獎(jiǎng) | -2.07864 |
[如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)]相關(guān)文章:
1.如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)
【如何用數(shù)據(jù)分析來預(yù)測(cè)奧斯卡最佳影片獎(jiǎng)】相關(guān)文章:
數(shù)據(jù)分析報(bào)告07-28
大數(shù)據(jù)分析07-20
銷售數(shù)據(jù)的分析方法07-25
大數(shù)據(jù)分析07-25
多維數(shù)據(jù)分析方法04-07
數(shù)據(jù)分析常用方法07-26