|
一鍵注冊(cè),加入手機(jī)圈
您需要 登錄 才可以下載或查看,沒有帳號(hào)?立即注冊(cè)
x
【2023年4月美賽加賽】Y題:Understanding Used Sailboat ...-1.jpg (70.27 KB, 下載次數(shù): 19)
下載附件
2023-4-5 23:14 上傳
在這里插入圖片描述
更新時(shí)間:2023-3-31 17:00
相關(guān)鏈接
【2023年4月美賽加賽】Z題:The Future of the Olympics 思路、建模方案、數(shù)據(jù)來(lái)源、相關(guān)資料
【 2021 MathorCup杯大數(shù)據(jù)挑戰(zhàn)賽 A題 二手車估價(jià)】初賽復(fù)賽總結(jié)、方案代碼及論文
1 題目
2023年MCM 問題Y:理解二手帆船價(jià)格
和許多奢侈品一樣,帆船的價(jià)值也會(huì)隨著年代和市場(chǎng)條件的變化而變化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在歐洲、加勒比地區(qū)和美國(guó)銷售的約3500艘36至56英尺長(zhǎng)的帆船的數(shù)據(jù)。一名劃船愛好者向COMAP提供了這些數(shù)據(jù)。像大多數(shù)現(xiàn)實(shí)世界的數(shù)據(jù)集一樣,它可能有缺失的數(shù)據(jù)或其他問題,需要在分析之前進(jìn)行一些數(shù)據(jù)清理。Excel文件包括兩個(gè)選項(xiàng)卡,一個(gè)用于單體帆船,另一個(gè)用于雙體船。在每個(gè)excel中的列包括:
- Make:船的制造商名稱。
- Variant:標(biāo)識(shí)特定型號(hào)的船名。
- Length (ft):以英尺為單位的船的長(zhǎng)度。
- Geographic Region:船所在的地理區(qū)域(加勒比海、歐洲、美國(guó))。
- Country/Region/State:船只所在的具體國(guó)家/地區(qū)/州。掛牌價(jià)格(USD):以美元標(biāo)價(jià)購(gòu)買該船的廣告價(jià)格。
- Year:船的制造年份。
對(duì)于給定的制造、變體和年份,除了提供的Excel文件之外,還有許多其他來(lái)源可以提供特定帆船特征的詳細(xì)描述。你可以用你選擇的任何額外數(shù)據(jù)來(lái)補(bǔ)充所提供的數(shù)據(jù)集;但是,你必須在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的數(shù)據(jù)。一定要完全識(shí)別并記錄所使用的任何補(bǔ)充數(shù)據(jù)的來(lái)源。帆船經(jīng)常通過經(jīng)紀(jì)人出售。為了更好地了解帆船市場(chǎng),中國(guó)香港(SAR)的一位帆船經(jīng)紀(jì)人委托您的團(tuán)隊(duì)準(zhǔn)備一份關(guān)于二手帆船定價(jià)的報(bào)告。該經(jīng)紀(jì)人希望您:
- 開發(fā)一個(gè)數(shù)學(xué)模型,解釋提供的電子表格中每艘帆船的掛牌價(jià)格。包括任何你認(rèn)為有用的預(yù)測(cè)因素。您可以利用其他來(lái)源來(lái)了解給定帆船的其他特征(如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動(dòng)機(jī)小時(shí)數(shù)、睡眠容量、凈空、電子設(shè)備等)以及按年份和地區(qū)劃分的經(jīng)濟(jì)數(shù)據(jù)。識(shí)別和描述所使用的所有數(shù)據(jù)來(lái)源。包括對(duì)每個(gè)帆船變種價(jià)格估計(jì)精度的討論。
- 用你的模型解釋地區(qū)對(duì)上市價(jià)格的影響(如果有的話)。討論是否所有帆船變體的區(qū)域效應(yīng)是一致的。說(shuō)明所注意到的任何區(qū)域影響的實(shí)際和統(tǒng)計(jì)意義。
- 討論你對(duì)給定地理區(qū)域的建模如何在香港(SAR)市場(chǎng)上發(fā)揮作用。從提供的電子表格中選擇一個(gè)信息豐富的帆船子集,分為單船體和雙體船。從香港(SAR)市場(chǎng)找到該子集的可比上市價(jià)格數(shù)據(jù)。建模香港(特區(qū))對(duì)子集中帆船的每艘帆船價(jià)格的區(qū)域影響(如果有的話)。雙體帆船和單體帆船的影響是一樣的嗎?
- 識(shí)別并討論你的團(tuán)隊(duì)從數(shù)據(jù)中得出的任何其他有趣和有信息的推論或結(jié)論。
- 為香港(SAR)帆船經(jīng)紀(jì)人準(zhǔn)備一到兩頁(yè)的報(bào)告。包括一些精心挑選的圖表,以幫助經(jīng)紀(jì)人理解你的結(jié)論。
總頁(yè)數(shù)不超過25頁(yè)的PDF解決方案應(yīng)包括:
- 一頁(yè)總結(jié)表,清楚地描述你解決問題的方法,以及在問題的背景下分析得出的最重要的結(jié)論。
- 目錄。
- 您的完整解決方案。
- 給經(jīng)紀(jì)人一到兩頁(yè)的報(bào)告。
附件
數(shù)據(jù)文件。2023_MCM_Problem_Y_Boats.xlsx
Monohulled Sailboats:?jiǎn)误w帆船
Catamarans:雙體船
數(shù)據(jù)文件條目描述
- Make:船的制造商名稱。Make、Variant、Length、Geographic Region
- Variant:標(biāo)識(shí)特定型號(hào)的船名。
- Length (ft):以英尺為單位的船的長(zhǎng)度。
- Geographic Region:船所在的地理區(qū)域(加勒比海、歐洲、美國(guó))。
- Country/Region/State:船只所在的具體國(guó)家/地區(qū)/州。掛牌價(jià)格(USD):以美元標(biāo)價(jià)購(gòu)買該船的廣告價(jià)格。
- Year:船的制造年份。
術(shù)語(yǔ)表
- 橫梁(Beam):船最寬處的寬度。
- Broker: 一艘帆船。
- 雙體船(Catamarans):一種多體船,有兩個(gè)大小相等的平行船體。
- 排水量(Displacement):一艘船排水量的重量。
- 吃水(Draft): 使船在不觸底的情況下浮起來(lái)所需要的最小水深。
- 發(fā)動(dòng)機(jī)小時(shí)數(shù)(EngineHours):自新船以來(lái),船舶發(fā)動(dòng)機(jī)運(yùn)行的小時(shí)數(shù)。
- 凈空高度(Headroom):在船艙中可以站立的高度。
- 船體(Hull): 船或其他船只的主體或外殼,包括底部、側(cè)面和甲板。
- 船殼材料(Hull Materials):制作船殼的材料。所用的材料包括玻璃纖維、鋼、木材和復(fù)合材料。
- 掛牌價(jià)格(Listing Price): 賣方要求的價(jià)格。這艘船可能會(huì)以不同的價(jià)格出售。
- 制造商(Make):帆船的制造商。
- 單體帆船(Monohull Sailboats):只有一個(gè)船體的帆船,通常以一個(gè)沉重的龍骨(中心槳葉)為中心。
- 索具(Rigging) :由繩索、纜索和滑輪組成的系統(tǒng),用來(lái)支撐和控制帆船的帆、舵和其他系統(tǒng)。
- 帆面積(Sail Area): 一艘船的帆完全揚(yáng)起時(shí)的總表面積。
- 變體(Variant):表示某一特定型號(hào)帆船的名稱。例如,“Sun Odyssey 54 DS”。
2 思路解析
2.1 問題一
可以提供關(guān)于帆船特性的信息:
(1)BoatTrader (https://www.boattrader.com/):一個(gè)網(wǎng)站,允許您根據(jù)不同的標(biāo)準(zhǔn),包括長(zhǎng)度、制造商和型號(hào),搜索新的和舊的帆船。該站點(diǎn)可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(2)SailboatData (https://sailboatdata.com/):帆船規(guī)格和圖紙數(shù)據(jù)庫(kù)。該網(wǎng)站包括關(guān)于各種帆船型號(hào)的梁、吃水、排水量、帆面積和其他帆船特性的信息。
(3)YachtWorld (https://www.yachtworld.com/):一個(gè)網(wǎng)站,允許您根據(jù)不同的標(biāo)準(zhǔn),包括長(zhǎng)度、制造商和型號(hào),搜索新的和舊的帆船。該站點(diǎn)可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(4)帆船雜志(https://www.sailmagazine.com/boats):,一個(gè)以帆船評(píng)論和文章為特色的網(wǎng)站。該網(wǎng)站可以提供有關(guān)帆船特性的信息,如索具、風(fēng)帆面積、船體材料和電子設(shè)備。更新中,及時(shí)進(jìn)群,我會(huì)在群里第一時(shí)間發(fā)布更新通知
為了建立一個(gè)數(shù)學(xué)模型來(lái)解釋所提供的電子表格中每艘帆船的標(biāo)價(jià),我們可以使用回歸分析?;貧w分析是一種統(tǒng)計(jì)方法,用于確定因變量(在本例中為上市價(jià)格)與一個(gè)或多個(gè)自變量(如制造、變體、長(zhǎng)度、地理區(qū)域、年份等)之間的關(guān)系。
匯總統(tǒng)計(jì)信息將提供關(guān)于模型中每個(gè)變量的系數(shù)、標(biāo)準(zhǔn)誤差、p值和r平方值的信息。我們可以使用這些信息來(lái)評(píng)估每種帆船品種價(jià)格估計(jì)的準(zhǔn)確性,并確定哪些變量對(duì)預(yù)測(cè)上市價(jià)格最重要。
除了提供的數(shù)據(jù)之外,我們還可以使用其他來(lái)源來(lái)了解給定帆船的其他特性,如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動(dòng)機(jī)小時(shí)數(shù)、睡眠容量、凈空、電子設(shè)備等。按年份和地區(qū)劃分的經(jīng)濟(jì)數(shù)據(jù)也可用于補(bǔ)充分析。例如,我們可以包括諸如通貨膨脹率、匯率和利率等變量,以解釋可能影響列出價(jià)格的經(jīng)濟(jì)因素。這些數(shù)據(jù)的來(lái)源可能包括行業(yè)報(bào)告、政府統(tǒng)計(jì)數(shù)據(jù)和市場(chǎng)研究。
回歸分析的python代碼
import pandas as pd
import numpy as np
import statsmodels.api as sm
# 加載數(shù)據(jù)
monohulls = pd.read_csv('Monohulled Sailboats.csv')
catamarans = pd.read_csv('Catamarans.csv')
# 類別特征編碼
monohulls = pd.get_dummies(monohulls, columns=['Geographic Region'])
catamarans = pd.get_dummies(catamarans, columns=['Geographic Region'])
# 合并
。。。略,請(qǐng)下載完整代碼
# 擬合線性回歸模型
model = sm.OLS(y, X).fit()
# 打印模型的匯總統(tǒng)計(jì)信息
print(model.summary())2.2 問題二
為了分析區(qū)域?qū)Ψ鲜袃r(jià)格的影響,我們可以使用一個(gè)包括地理區(qū)域作為預(yù)測(cè)變量的回歸模型。具體來(lái)說(shuō),我們可以用以下形式擬合線性回歸模型:
掛牌價(jià)格= β0 + β1 長(zhǎng)度+ β2 年份+ β3 *地區(qū)
其中,掛牌價(jià)格為因變量,長(zhǎng)度和年份為連續(xù)自變量,分別表示帆船長(zhǎng)度和制造年份,區(qū)域?yàn)榉诸愖宰兞?,表示帆船所在的地理區(qū)域(歐洲、加勒比或美國(guó))。β0、β1、β2和β3是反映每個(gè)自變量對(duì)因變量影響的回歸系數(shù)。
Python的statmodels庫(kù)來(lái)擬合回歸模型,并獲得回歸系數(shù)的估計(jì)值。
import pandas as pd
import statsmodels.api as sm
# 加載數(shù)據(jù)
sailboats = pd.read_csv("monohulled sailboats.csv")
# 擬合模型
model = sm.formula.ols("Listing_Price ~ Length + Year + C(Geographic_Region)", data=sailboats).fit()
# 輸出統(tǒng)計(jì)信息
print(model.summary())在上面的代碼中,我們使用statmodels中的ols函數(shù)來(lái)擬合一個(gè)線性回歸模型,其中Listing_Price作為因變量,Length和Year作為連續(xù)自變量,Geographic_Region作為分類自變量。C()符號(hào)指定應(yīng)將地理區(qū)域(Geographic_Region)視為分類變量。
model.summary()的輸出將包括回歸系數(shù)的估估值,包括地理區(qū)域的系數(shù)。我們可以用這些估計(jì)來(lái)分析地區(qū)對(duì)上市價(jià)格的影響。
如果地理區(qū)域的系數(shù)具有統(tǒng)計(jì)學(xué)意義(即p值小于選定的顯著性水平,通常為0.05),那么我們可以得出結(jié)論,在控制了帆船長(zhǎng)度和制造年份后,區(qū)域?qū)ι鲜袃r(jià)格具有顯著影響。我們還可以通過對(duì)系數(shù)符號(hào)的解讀,來(lái)確定某一特定地區(qū)的帆船的掛牌價(jià)格往往高于或低于其他地區(qū)的帆船。
要分析區(qū)域效應(yīng)在所有帆船變體中是否一致,可以從按地區(qū)查看帆船列表的分布開始。這可以讓我們初步了解是否某些地區(qū)在數(shù)據(jù)集中的比例更高,以及在哪些地區(qū)的掛牌價(jià)格往往更高或更低方面是否存在明顯的模式??梢允褂肞ython和pandas庫(kù)來(lái)讀入Monohulled sailboats.csv和Catamarans.csv文件,然后使用value_counts()方法來(lái)計(jì)算每個(gè)區(qū)域中的清單數(shù)量:
import pandas as pd
monohulls_df = pd.read_csv('Monohulled sailboats.csv')
catamarans_df = pd.read_csv('Catamarans.csv')
# 計(jì)算單船體船在每個(gè)區(qū)域的清單數(shù)量
。。。略,請(qǐng)下載完整代碼
# 計(jì)算每個(gè)地區(qū)雙體船的掛牌數(shù)量
catamarans_region_counts = catamarans_df['Geographic Region'].value_counts()
print("Catamarans region counts:")
print(catamarans_region_counts)
由此,我們可以看到,美國(guó)的單體船掛牌數(shù)量最多,而加勒比海的雙體船掛牌數(shù)量最多。我們還可以看到,單船和雙體船在各個(gè)地區(qū)的列表分布是不一樣的,例如,歐洲的單船列表比雙體船多,而加勒比海的雙體船列表比單船多。
為了分析地域?qū)ι鲜袃r(jià)格的影響,我們可以使用以地域?yàn)榉诸愵A(yù)測(cè)變量的線性回歸模型。我們可以加入其他相關(guān)的預(yù)測(cè)變量,如長(zhǎng)度和年份,以控制它們對(duì)上市價(jià)格的影響。
import statsmodels.api as sm
# 將數(shù)據(jù)子集化,只包含相關(guān)的預(yù)測(cè)變量
monohulls_data = monohulls_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
catamarans_data = catamarans_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
# 類別特征編碼
monohulls_data = pd.get_dummies(monohulls_data, columns=['Geographic Region'], prefix='region')
catamarans_data = pd.get_dummies(catamarans_data, columns=['Geographic Region'], prefix='region')
# 擬合模型
。。。略,請(qǐng)下載完整代碼
# 擬合雙體船線性回歸模型
catamarans_model = sm.OLS(catamarans_data['Listing Price (USD)'], sm.add_constant(catamarans_data[['Length (ft)', 'Year', 'region_Caribbean', 'region_Europe
2.3 問題三
已更新,請(qǐng)下載完整文檔
2.4 問題四
已更新,請(qǐng)下載完整文檔
3 完整文檔及代碼下載
【2023年4月美賽加賽】Y題:Understanding Used Sailboat ...-2.jpg (54.2 KB, 下載次數(shù): 29)
下載附件
2023-4-5 23:14 上傳
請(qǐng)?zhí)砑訄D片描述
----------------------------- |
|