愛鋒貝

標(biāo)題: 【2023年4月美賽加賽】Y題:Understanding Used Sailboat ... [打印本頁]

作者: 美曼科技    時(shí)間: 2023-4-4 06:20
標(biāo)題: 【2023年4月美賽加賽】Y題:Understanding Used Sailboat ...
(, 下載次數(shù): 19)

在這里插入圖片描述

更新時(shí)間:2023-3-31 17:00
相關(guān)鏈接

【2023年4月美賽加賽】Z題:The Future of the Olympics 思路、建模方案、數(shù)據(jù)來源、相關(guān)資料
【 2021 MathorCup杯大數(shù)據(jù)挑戰(zhàn)賽 A題 二手車估價(jià)】初賽復(fù)賽總結(jié)、方案代碼及論文
1 題目

2023年MCM 問題Y:理解二手帆船價(jià)格
和許多奢侈品一樣,帆船的價(jià)值也會(huì)隨著年代和市場(chǎng)條件的變化而變化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在歐洲、加勒比地區(qū)和美國銷售的約3500艘36至56英尺長的帆船的數(shù)據(jù)。一名劃船愛好者向COMAP提供了這些數(shù)據(jù)。像大多數(shù)現(xiàn)實(shí)世界的數(shù)據(jù)集一樣,它可能有缺失的數(shù)據(jù)或其他問題,需要在分析之前進(jìn)行一些數(shù)據(jù)清理。Excel文件包括兩個(gè)選項(xiàng)卡,一個(gè)用于單體帆船,另一個(gè)用于雙體船。在每個(gè)excel中的列包括:
對(duì)于給定的制造、變體和年份,除了提供的Excel文件之外,還有許多其他來源可以提供特定帆船特征的詳細(xì)描述。你可以用你選擇的任何額外數(shù)據(jù)來補(bǔ)充所提供的數(shù)據(jù)集;但是,你必須在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的數(shù)據(jù)。一定要完全識(shí)別并記錄所使用的任何補(bǔ)充數(shù)據(jù)的來源。帆船經(jīng)常通過經(jīng)紀(jì)人出售。為了更好地了解帆船市場(chǎng),中國香港(SAR)的一位帆船經(jīng)紀(jì)人委托您的團(tuán)隊(duì)準(zhǔn)備一份關(guān)于二手帆船定價(jià)的報(bào)告。該經(jīng)紀(jì)人希望您:
總頁數(shù)不超過25頁的PDF解決方案應(yīng)包括:
附件
數(shù)據(jù)文件。2023_MCM_Problem_Y_Boats.xlsx
Monohulled Sailboats:單體帆船
Catamarans:雙體船
數(shù)據(jù)文件條目描述
術(shù)語表
2 思路解析

2.1 問題一

可以提供關(guān)于帆船特性的信息:
(1)BoatTrader (https://www.boattrader.com/):一個(gè)網(wǎng)站,允許您根據(jù)不同的標(biāo)準(zhǔn),包括長度、制造商和型號(hào),搜索新的和舊的帆船。該站點(diǎn)可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(2)SailboatData (https://sailboatdata.com/):帆船規(guī)格和圖紙數(shù)據(jù)庫。該網(wǎng)站包括關(guān)于各種帆船型號(hào)的梁、吃水、排水量、帆面積和其他帆船特性的信息。
(3)YachtWorld (https://www.yachtworld.com/):一個(gè)網(wǎng)站,允許您根據(jù)不同的標(biāo)準(zhǔn),包括長度、制造商和型號(hào),搜索新的和舊的帆船。該站點(diǎn)可以提供一些關(guān)于帆船特性的基本信息,如橫梁、吃水和排水量。
(4)帆船雜志(https://www.sailmagazine.com/boats):,一個(gè)以帆船評(píng)論和文章為特色的網(wǎng)站。該網(wǎng)站可以提供有關(guān)帆船特性的信息,如索具、風(fēng)帆面積、船體材料和電子設(shè)備。更新中,及時(shí)進(jìn)群,我會(huì)在群里第一時(shí)間發(fā)布更新通知
為了建立一個(gè)數(shù)學(xué)模型來解釋所提供的電子表格中每艘帆船的標(biāo)價(jià),我們可以使用回歸分析?;貧w分析是一種統(tǒng)計(jì)方法,用于確定因變量(在本例中為上市價(jià)格)與一個(gè)或多個(gè)自變量(如制造、變體、長度、地理區(qū)域、年份等)之間的關(guān)系。
匯總統(tǒng)計(jì)信息將提供關(guān)于模型中每個(gè)變量的系數(shù)、標(biāo)準(zhǔn)誤差、p值和r平方值的信息。我們可以使用這些信息來評(píng)估每種帆船品種價(jià)格估計(jì)的準(zhǔn)確性,并確定哪些變量對(duì)預(yù)測(cè)上市價(jià)格最重要。
除了提供的數(shù)據(jù)之外,我們還可以使用其他來源來了解給定帆船的其他特性,如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動(dòng)機(jī)小時(shí)數(shù)、睡眠容量、凈空、電子設(shè)備等。按年份和地區(qū)劃分的經(jīng)濟(jì)數(shù)據(jù)也可用于補(bǔ)充分析。例如,我們可以包括諸如通貨膨脹率、匯率和利率等變量,以解釋可能影響列出價(jià)格的經(jīng)濟(jì)因素。這些數(shù)據(jù)的來源可能包括行業(yè)報(bào)告、政府統(tǒng)計(jì)數(shù)據(jù)和市場(chǎng)研究。
回歸分析的python代碼
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 加載數(shù)據(jù)
monohulls = pd.read_csv('Monohulled Sailboats.csv')
catamarans = pd.read_csv('Catamarans.csv')

# 類別特征編碼
monohulls = pd.get_dummies(monohulls, columns=['Geographic Region'])
catamarans = pd.get_dummies(catamarans, columns=['Geographic Region'])

# 合并
。。。略,請(qǐng)下載完整代碼

# 擬合線性回歸模型
model = sm.OLS(y, X).fit()

# 打印模型的匯總統(tǒng)計(jì)信息
print(model.summary())2.2 問題二

為了分析區(qū)域?qū)Ψ鲜袃r(jià)格的影響,我們可以使用一個(gè)包括地理區(qū)域作為預(yù)測(cè)變量的回歸模型。具體來說,我們可以用以下形式擬合線性回歸模型:
掛牌價(jià)格= β0 + β1 長度+ β2 年份+ β3 *地區(qū)
其中,掛牌價(jià)格為因變量,長度和年份為連續(xù)自變量,分別表示帆船長度和制造年份,區(qū)域?yàn)榉诸愖宰兞?,表示帆船所在的地理區(qū)域(歐洲、加勒比或美國)。β0、β1、β2和β3是反映每個(gè)自變量對(duì)因變量影響的回歸系數(shù)。
Python的statmodels庫來擬合回歸模型,并獲得回歸系數(shù)的估計(jì)值。
import pandas as pd
import statsmodels.api as sm

# 加載數(shù)據(jù)
sailboats = pd.read_csv("monohulled sailboats.csv")

# 擬合模型
model = sm.formula.ols("Listing_Price ~ Length + Year + C(Geographic_Region)", data=sailboats).fit()

# 輸出統(tǒng)計(jì)信息
print(model.summary())在上面的代碼中,我們使用statmodels中的ols函數(shù)來擬合一個(gè)線性回歸模型,其中Listing_Price作為因變量,Length和Year作為連續(xù)自變量,Geographic_Region作為分類自變量。C()符號(hào)指定應(yīng)將地理區(qū)域(Geographic_Region)視為分類變量。
model.summary()的輸出將包括回歸系數(shù)的估估值,包括地理區(qū)域的系數(shù)。我們可以用這些估計(jì)來分析地區(qū)對(duì)上市價(jià)格的影響。
如果地理區(qū)域的系數(shù)具有統(tǒng)計(jì)學(xué)意義(即p值小于選定的顯著性水平,通常為0.05),那么我們可以得出結(jié)論,在控制了帆船長度和制造年份后,區(qū)域?qū)ι鲜袃r(jià)格具有顯著影響。我們還可以通過對(duì)系數(shù)符號(hào)的解讀,來確定某一特定地區(qū)的帆船的掛牌價(jià)格往往高于或低于其他地區(qū)的帆船。
要分析區(qū)域效應(yīng)在所有帆船變體中是否一致,可以從按地區(qū)查看帆船列表的分布開始。這可以讓我們初步了解是否某些地區(qū)在數(shù)據(jù)集中的比例更高,以及在哪些地區(qū)的掛牌價(jià)格往往更高或更低方面是否存在明顯的模式??梢允褂肞ython和pandas庫來讀入Monohulled sailboats.csv和Catamarans.csv文件,然后使用value_counts()方法來計(jì)算每個(gè)區(qū)域中的清單數(shù)量:
import pandas as pd

monohulls_df = pd.read_csv('Monohulled sailboats.csv')
catamarans_df = pd.read_csv('Catamarans.csv')

# 計(jì)算單船體船在每個(gè)區(qū)域的清單數(shù)量
。。。略,請(qǐng)下載完整代碼

# 計(jì)算每個(gè)地區(qū)雙體船的掛牌數(shù)量
catamarans_region_counts = catamarans_df['Geographic Region'].value_counts()
print("Catamarans region counts:")
print(catamarans_region_counts)

由此,我們可以看到,美國的單體船掛牌數(shù)量最多,而加勒比海的雙體船掛牌數(shù)量最多。我們還可以看到,單船和雙體船在各個(gè)地區(qū)的列表分布是不一樣的,例如,歐洲的單船列表比雙體船多,而加勒比海的雙體船列表比單船多。
為了分析地域?qū)ι鲜袃r(jià)格的影響,我們可以使用以地域?yàn)榉诸愵A(yù)測(cè)變量的線性回歸模型。我們可以加入其他相關(guān)的預(yù)測(cè)變量,如長度和年份,以控制它們對(duì)上市價(jià)格的影響。
import statsmodels.api as sm

# 將數(shù)據(jù)子集化,只包含相關(guān)的預(yù)測(cè)變量
monohulls_data = monohulls_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
catamarans_data = catamarans_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()

# 類別特征編碼
monohulls_data = pd.get_dummies(monohulls_data, columns=['Geographic Region'], prefix='region')
catamarans_data = pd.get_dummies(catamarans_data, columns=['Geographic Region'], prefix='region')

# 擬合模型
。。。略,請(qǐng)下載完整代碼

# 擬合雙體船線性回歸模型
catamarans_model = sm.OLS(catamarans_data['Listing Price (USD)'], sm.add_constant(catamarans_data[['Length (ft)', 'Year', 'region_Caribbean', 'region_Europe

2.3 問題三

已更新,請(qǐng)下載完整文檔
2.4 問題四   

已更新,請(qǐng)下載完整文檔
3 完整文檔及代碼下載   


(, 下載次數(shù): 29)

請(qǐng)?zhí)砑訄D片描述

-----------------------------




歡迎光臨 愛鋒貝 (http://m.7gfy2te7.cn/) Powered by Discuz! X3.4