|
一鍵注冊,加入手機圈
您需要 登錄 才可以下載或查看,沒有帳號?立即注冊 ![](source/plugin/mapp_wechat/images/wechat_login.png)
x
【2023年4月美賽加賽】Y題:Understanding Used Sailboat ...-1.jpg (70.27 KB, 下載次數(shù): 18)
下載附件
2023-4-5 23:14 上傳
在這里插入圖片描述
更新時間:2023-3-31 17:00
相關(guān)鏈接
【2023年4月美賽加賽】Z題:The Future of the Olympics 思路、建模方案、數(shù)據(jù)來源、相關(guān)資料
【 2021 MathorCup杯大數(shù)據(jù)挑戰(zhàn)賽 A題 二手車估價】初賽復(fù)賽總結(jié)、方案代碼及論文
1 題目
2023年MCM 問題Y:理解二手帆船價格
和許多奢侈品一樣,帆船的價值也會隨著年代和市場條件的變化而變化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在歐洲、加勒比地區(qū)和美國銷售的約3500艘36至56英尺長的帆船的數(shù)據(jù)。一名劃船愛好者向COMAP提供了這些數(shù)據(jù)。像大多數(shù)現(xiàn)實世界的數(shù)據(jù)集一樣,它可能有缺失的數(shù)據(jù)或其他問題,需要在分析之前進行一些數(shù)據(jù)清理。Excel文件包括兩個選項卡,一個用于單體帆船,另一個用于雙體船。在每個excel中的列包括:
- Make:船的制造商名稱。
- Variant:標識特定型號的船名。
- Length (ft):以英尺為單位的船的長度。
- Geographic Region:船所在的地理區(qū)域(加勒比海、歐洲、美國)。
- Country/Region/State:船只所在的具體國家/地區(qū)/州。掛牌價格(USD):以美元標價購買該船的廣告價格。
- Year:船的制造年份。
對于給定的制造、變體和年份,除了提供的Excel文件之外,還有許多其他來源可以提供特定帆船特征的詳細描述。你可以用你選擇的任何額外數(shù)據(jù)來補充所提供的數(shù)據(jù)集;但是,你必須在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的數(shù)據(jù)。一定要完全識別并記錄所使用的任何補充數(shù)據(jù)的來源。帆船經(jīng)常通過經(jīng)紀人出售。為了更好地了解帆船市場,中國香港(SAR)的一位帆船經(jīng)紀人委托您的團隊準備一份關(guān)于二手帆船定價的報告。該經(jīng)紀人希望您:
- 開發(fā)一個數(shù)學(xué)模型,解釋提供的電子表格中每艘帆船的掛牌價格。包括任何你認為有用的預(yù)測因素。您可以利用其他來源來了解給定帆船的其他特征(如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動機小時數(shù)、睡眠容量、凈空、電子設(shè)備等)以及按年份和地區(qū)劃分的經(jīng)濟數(shù)據(jù)。識別和描述所使用的所有數(shù)據(jù)來源。包括對每個帆船變種價格估計精度的討論。
- 用你的模型解釋地區(qū)對上市價格的影響(如果有的話)。討論是否所有帆船變體的區(qū)域效應(yīng)是一致的。說明所注意到的任何區(qū)域影響的實際和統(tǒng)計意義。
- 討論你對給定地理區(qū)域的建模如何在香港(SAR)市場上發(fā)揮作用。從提供的電子表格中選擇一個信息豐富的帆船子集,分為單船體和雙體船。從香港(SAR)市場找到該子集的可比上市價格數(shù)據(jù)。建模香港(特區(qū))對子集中帆船的每艘帆船價格的區(qū)域影響(如果有的話)。雙體帆船和單體帆船的影響是一樣的嗎?
- 識別并討論你的團隊從數(shù)據(jù)中得出的任何其他有趣和有信息的推論或結(jié)論。
- 為香港(SAR)帆船經(jīng)紀人準備一到兩頁的報告。包括一些精心挑選的圖表,以幫助經(jīng)紀人理解你的結(jié)論。
總頁數(shù)不超過25頁的PDF解決方案應(yīng)包括:
- 一頁總結(jié)表,清楚地描述你解決問題的方法,以及在問題的背景下分析得出的最重要的結(jié)論。
- 目錄。
- 您的完整解決方案。
- 給經(jīng)紀人一到兩頁的報告。
附件
數(shù)據(jù)文件。2023_MCM_Problem_Y_Boats.xlsx
Monohulled Sailboats:單體帆船
Catamarans:雙體船
數(shù)據(jù)文件條目描述
- Make:船的制造商名稱。Make、Variant、Length、Geographic Region
- Variant:標識特定型號的船名。
- Length (ft):以英尺為單位的船的長度。
- Geographic Region:船所在的地理區(qū)域(加勒比海、歐洲、美國)。
- Country/Region/State:船只所在的具體國家/地區(qū)/州。掛牌價格(USD):以美元標價購買該船的廣告價格。
- Year:船的制造年份。
術(shù)語表
- 橫梁(Beam):船最寬處的寬度。
- Broker: 一艘帆船。
- 雙體船(Catamarans):一種多體船,有兩個大小相等的平行船體。
- 排水量(Displacement):一艘船排水量的重量。
- 吃水(Draft): 使船在不觸底的情況下浮起來所需要的最小水深。
- 發(fā)動機小時數(shù)(EngineHours):自新船以來,船舶發(fā)動機運行的小時數(shù)。
- 凈空高度(Headroom):在船艙中可以站立的高度。
- 船體(Hull): 船或其他船只的主體或外殼,包括底部、側(cè)面和甲板。
- 船殼材料(Hull Materials):制作船殼的材料。所用的材料包括玻璃纖維、鋼、木材和復(fù)合材料。
- 掛牌價格(Listing Price): 賣方要求的價格。這艘船可能會以不同的價格出售。
- 制造商(Make):帆船的制造商。
- 單體帆船(Monohull Sailboats):只有一個船體的帆船,通常以一個沉重的龍骨(中心槳葉)為中心。
- 索具(Rigging) :由繩索、纜索和滑輪組成的系統(tǒng),用來支撐和控制帆船的帆、舵和其他系統(tǒng)。
- 帆面積(Sail Area): 一艘船的帆完全揚起時的總表面積。
- 變體(Variant):表示某一特定型號帆船的名稱。例如,“Sun Odyssey 54 DS”。
2 思路解析
2.1 問題一
可以提供關(guān)于帆船特性的信息:
(1)BoatTrader (https://www.boattrader.com/):一個網(wǎng)站,允許您根據(jù)不同的標準,包括長度、制造商和型號,搜索新的和舊的帆船。該站點可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(2)SailboatData (https://sailboatdata.com/):帆船規(guī)格和圖紙數(shù)據(jù)庫。該網(wǎng)站包括關(guān)于各種帆船型號的梁、吃水、排水量、帆面積和其他帆船特性的信息。
(3)YachtWorld (https://www.yachtworld.com/):一個網(wǎng)站,允許您根據(jù)不同的標準,包括長度、制造商和型號,搜索新的和舊的帆船。該站點可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(4)帆船雜志(https://www.sailmagazine.com/boats):,一個以帆船評論和文章為特色的網(wǎng)站。該網(wǎng)站可以提供有關(guān)帆船特性的信息,如索具、風帆面積、船體材料和電子設(shè)備。更新中,及時進群,我會在群里第一時間發(fā)布更新通知
為了建立一個數(shù)學(xué)模型來解釋所提供的電子表格中每艘帆船的標價,我們可以使用回歸分析。回歸分析是一種統(tǒng)計方法,用于確定因變量(在本例中為上市價格)與一個或多個自變量(如制造、變體、長度、地理區(qū)域、年份等)之間的關(guān)系。
匯總統(tǒng)計信息將提供關(guān)于模型中每個變量的系數(shù)、標準誤差、p值和r平方值的信息。我們可以使用這些信息來評估每種帆船品種價格估計的準確性,并確定哪些變量對預(yù)測上市價格最重要。
除了提供的數(shù)據(jù)之外,我們還可以使用其他來源來了解給定帆船的其他特性,如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動機小時數(shù)、睡眠容量、凈空、電子設(shè)備等。按年份和地區(qū)劃分的經(jīng)濟數(shù)據(jù)也可用于補充分析。例如,我們可以包括諸如通貨膨脹率、匯率和利率等變量,以解釋可能影響列出價格的經(jīng)濟因素。這些數(shù)據(jù)的來源可能包括行業(yè)報告、政府統(tǒng)計數(shù)據(jù)和市場研究。
回歸分析的python代碼
import pandas as pd
import numpy as np
import statsmodels.api as sm
# 加載數(shù)據(jù)
monohulls = pd.read_csv('Monohulled Sailboats.csv')
catamarans = pd.read_csv('Catamarans.csv')
# 類別特征編碼
monohulls = pd.get_dummies(monohulls, columns=['Geographic Region'])
catamarans = pd.get_dummies(catamarans, columns=['Geographic Region'])
# 合并
。。。略,請下載完整代碼
# 擬合線性回歸模型
model = sm.OLS(y, X).fit()
# 打印模型的匯總統(tǒng)計信息
print(model.summary())2.2 問題二
為了分析區(qū)域?qū)Ψ鲜袃r格的影響,我們可以使用一個包括地理區(qū)域作為預(yù)測變量的回歸模型。具體來說,我們可以用以下形式擬合線性回歸模型:
掛牌價格= β0 + β1 長度+ β2 年份+ β3 *地區(qū)
其中,掛牌價格為因變量,長度和年份為連續(xù)自變量,分別表示帆船長度和制造年份,區(qū)域為分類自變量,表示帆船所在的地理區(qū)域(歐洲、加勒比或美國)。β0、β1、β2和β3是反映每個自變量對因變量影響的回歸系數(shù)。
Python的statmodels庫來擬合回歸模型,并獲得回歸系數(shù)的估計值。
import pandas as pd
import statsmodels.api as sm
# 加載數(shù)據(jù)
sailboats = pd.read_csv("monohulled sailboats.csv")
# 擬合模型
model = sm.formula.ols("Listing_Price ~ Length + Year + C(Geographic_Region)", data=sailboats).fit()
# 輸出統(tǒng)計信息
print(model.summary())在上面的代碼中,我們使用statmodels中的ols函數(shù)來擬合一個線性回歸模型,其中Listing_Price作為因變量,Length和Year作為連續(xù)自變量,Geographic_Region作為分類自變量。C()符號指定應(yīng)將地理區(qū)域(Geographic_Region)視為分類變量。
model.summary()的輸出將包括回歸系數(shù)的估估值,包括地理區(qū)域的系數(shù)。我們可以用這些估計來分析地區(qū)對上市價格的影響。
如果地理區(qū)域的系數(shù)具有統(tǒng)計學(xué)意義(即p值小于選定的顯著性水平,通常為0.05),那么我們可以得出結(jié)論,在控制了帆船長度和制造年份后,區(qū)域?qū)ι鲜袃r格具有顯著影響。我們還可以通過對系數(shù)符號的解讀,來確定某一特定地區(qū)的帆船的掛牌價格往往高于或低于其他地區(qū)的帆船。
要分析區(qū)域效應(yīng)在所有帆船變體中是否一致,可以從按地區(qū)查看帆船列表的分布開始。這可以讓我們初步了解是否某些地區(qū)在數(shù)據(jù)集中的比例更高,以及在哪些地區(qū)的掛牌價格往往更高或更低方面是否存在明顯的模式??梢允褂肞ython和pandas庫來讀入Monohulled sailboats.csv和Catamarans.csv文件,然后使用value_counts()方法來計算每個區(qū)域中的清單數(shù)量:
import pandas as pd
monohulls_df = pd.read_csv('Monohulled sailboats.csv')
catamarans_df = pd.read_csv('Catamarans.csv')
# 計算單船體船在每個區(qū)域的清單數(shù)量
。。。略,請下載完整代碼
# 計算每個地區(qū)雙體船的掛牌數(shù)量
catamarans_region_counts = catamarans_df['Geographic Region'].value_counts()
print("Catamarans region counts:")
print(catamarans_region_counts)
由此,我們可以看到,美國的單體船掛牌數(shù)量最多,而加勒比海的雙體船掛牌數(shù)量最多。我們還可以看到,單船和雙體船在各個地區(qū)的列表分布是不一樣的,例如,歐洲的單船列表比雙體船多,而加勒比海的雙體船列表比單船多。
為了分析地域?qū)ι鲜袃r格的影響,我們可以使用以地域為分類預(yù)測變量的線性回歸模型。我們可以加入其他相關(guān)的預(yù)測變量,如長度和年份,以控制它們對上市價格的影響。
import statsmodels.api as sm
# 將數(shù)據(jù)子集化,只包含相關(guān)的預(yù)測變量
monohulls_data = monohulls_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
catamarans_data = catamarans_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
# 類別特征編碼
monohulls_data = pd.get_dummies(monohulls_data, columns=['Geographic Region'], prefix='region')
catamarans_data = pd.get_dummies(catamarans_data, columns=['Geographic Region'], prefix='region')
# 擬合模型
。。。略,請下載完整代碼
# 擬合雙體船線性回歸模型
catamarans_model = sm.OLS(catamarans_data['Listing Price (USD)'], sm.add_constant(catamarans_data[['Length (ft)', 'Year', 'region_Caribbean', 'region_Europe
2.3 問題三
已更新,請下載完整文檔
2.4 問題四
已更新,請下載完整文檔
3 完整文檔及代碼下載
【2023年4月美賽加賽】Y題:Understanding Used Sailboat ...-2.jpg (54.2 KB, 下載次數(shù): 28)
下載附件
2023-4-5 23:14 上傳
請?zhí)砑訄D片描述
----------------------------- |
|