愛鋒貝

標(biāo)題: 二手帆船價值詳解(全網(wǎng)最全) [打印本頁]

作者: 妖貝聊科技    時間: 2023-4-3 23:47
標(biāo)題: 二手帆船價值詳解(全網(wǎng)最全)
(第一時間在知乎分享)
今日有很多同學(xué)要求想要討論交流,為滿足大家要求,給大家準(zhǔn)備了,加入即可下載:
https://qm.qq.com/cgi-bin/qm/qr?k=XucOxHIqpdLCWVGYhaK42kHh3ubkiQ7TF

(, 下載次數(shù): 47)
像許多奢侈品一樣,帆船的價值隨著它們的年齡和市場狀況的變化而變化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括大約3500艘36至56英尺長的帆船的數(shù)據(jù),這些帆船將于2020年12月在歐洲、加勒比海和美國進(jìn)行廣告銷售。

一位劃船愛好者向COMAP提供了這些數(shù)據(jù)。像大多數(shù)真實世界的數(shù)據(jù)集一樣,它可能有丟失的數(shù)據(jù)或其他問題,需要在分析之前進(jìn)行一些數(shù)據(jù)清洗。Excel文件包括兩個選項卡,一個用于單殼帆船,另一個用于雙體船。在每個選項卡中,列標(biāo)記為Make、Variable、Long(以英尺為單位)、地理區(qū)域、國家/地區(qū)/州、價目表價格(以美元為單位)和年份(制造年份)。對于給定的Make、Variant和Year,除了提供的Excel文件之外,還有許多其他來源可能提供特定帆船的詳細(xì)特征描述。

背景分析:以上內(nèi)容引出了問題,核心是需要利用題目所給的數(shù)據(jù)進(jìn)行建模求解。寫到了需要在分析前進(jìn)行數(shù)據(jù)清洗,也就是說,論文的開始必須先寫數(shù)據(jù)預(yù)處理工作。

常見的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約與數(shù)據(jù)的離散化。根據(jù)數(shù)據(jù)指標(biāo)的特性可以針對不同問題做不同的處理。題目中特別提到了數(shù)據(jù)丟失問題,常見的方法為以下三種:(1)刪除元組 也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。(2)數(shù)據(jù)補齊 這類方法是用一定的值去填充空值,從而使信息表完備化。除了常規(guī)方法,也可以使用隨機森林、神經(jīng)網(wǎng)絡(luò)等智能算法進(jìn)行數(shù)據(jù)補全。(3)平均值填充(Mean/Mode Completer) 將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進(jìn)行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對象的取值 的平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計學(xué)中的眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多 的值(即出現(xiàn)頻率最高的值)來補齊該缺失的屬性值。(在附1 數(shù)據(jù)集分析中會給出這道題目具體的預(yù)處理方案,可供參考)

您可以使用您選擇的任何附加數(shù)據(jù)來補充提供的數(shù)據(jù)集;但是,您必須在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的數(shù)據(jù)。確保充分識別并記錄所使用的任何補充數(shù)據(jù)的來源。帆船經(jīng)常通過經(jīng)紀(jì)人出售。為了更好地了解帆船市場,香港的一位帆船經(jīng)紀(jì)人中國委托您的團(tuán)隊編寫了一份關(guān)于二手帆船定價的報告。經(jīng)紀(jì)人希望您:

背景分析:由于可以使用附加數(shù)據(jù)來補充提供的數(shù)據(jù)集,所以這道題目搜集數(shù)據(jù)也是重中之重,群內(nèi)會更新部分?jǐn)?shù)據(jù)給大家。由于是以中國作為帆船經(jīng)紀(jì)人,所以出售地可以選擇亞太地區(qū)為主,可以搜集部分已有的數(shù)據(jù)。

問題一 建立一個數(shù)學(xué)模型,解釋所提供的電子表格中每艘帆船的標(biāo)價。包括任何您認(rèn)為有用的預(yù)測值。你可以利用其他來源來了解一艘帆船的其他特征(如橫梁、吃水、排水量、索具、帆面積、船體材料、發(fā)動機小時數(shù)、睡眠能力、凈空、電子設(shè)備等)。以及按年份和地區(qū)劃分的經(jīng)濟(jì)數(shù)據(jù)。確定并描述所使用的所有數(shù)據(jù)來源。包括您對每個帆船變種的價格估計的精確度的討論。

提示:在做第一問前需要先對題目給的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理。

問題一分析:第一問可以劃分為三小問,首先需要解釋說明其他來源的數(shù)據(jù)集,這需要團(tuán)隊獲取信息的能力,可以多看看國外統(tǒng)計網(wǎng)站,以及在網(wǎng)上搜集好資料。這里最好對數(shù)據(jù)集做一個初步的EDA(探索性數(shù)據(jù)分析),包括一些數(shù)據(jù)可視化。包含但不限于:

數(shù)據(jù)量、特征數(shù)量、數(shù)據(jù)類型
數(shù)據(jù)分布情況(標(biāo)準(zhǔn)差、分位數(shù)、最大最小值)
重復(fù)值處理(保留、刪除):假如你想發(fā)現(xiàn)某個用戶的行為模式,該用戶在不同的時間點進(jìn)行相同的操作,那這個重復(fù)值是不是能幫助你獲取該用戶的行為偏好(你的問題),那可以保留
異常值處理(保留、刪除):假如你正在做異常檢測的任務(wù),那這個信息能幫助你進(jìn)行有效的數(shù)據(jù)標(biāo)注(你的需要)
缺失值處理(刪除、填充)
這里推薦的數(shù)據(jù)可視化方法有:

單變量可視化:查看數(shù)據(jù)分布-直方圖、箱線圖

兩個變量的可視化:相關(guān)性分析-線圖、散點圖、熱力圖,比如:

(, 下載次數(shù): 47)

(, 下載次數(shù): 52)
第二小問需要建立模型,去解釋數(shù)據(jù)集中標(biāo)價的合理性,這里可以簡單一點,可以先使用相關(guān)性分析,提取相關(guān)性高的指標(biāo),然后使用多元線性回歸去擬合,以判斷標(biāo)價的合理性。(小白使用)還可以使用因子分析、關(guān)聯(lián)規(guī)則、一些預(yù)測算法等進(jìn)行判別分析。

第三小問需要討論模型價格估計的精確度,這里可以做置信度、置信區(qū)間分析。還可以劃分訓(xùn)練集、測試集來直接計算精確率。這里還可以可視化ROC曲線等。

1.精確率(precision)

就precision而言有很多版本,各種說法不一,有精確率也有正確率更有甚者把準(zhǔn)確率也搞出來了實在受不了,反正咱們看英文precision。

precision是表示預(yù)測為正樣本中,被實際為正樣本的比例??梢钥闯鰌recision是考慮的正樣本被預(yù)測正確的比例.根據(jù)圖1-1可得其計算公式為:P = TP / (TP + FP)

2. 召回率(recall)

召回率是表示實際為正樣本中,預(yù)測為正樣本的比例。可以看出,召回率考慮的是正樣本的召回的比例.根據(jù)圖1-1可得其計算公式為:P = TP / (TP + FN)

3.準(zhǔn)確率(accuracy)

準(zhǔn)確率表示所有的預(yù)測樣本中,預(yù)測正確的比例.其計算公式為:A = (TP + TN) / (TP + FN + FP + TN)

總結(jié):精確率(accuracy)和召回率(recall)計算公式的分子都是TP也就是正樣本被預(yù)測為正樣本的數(shù)量,可知其為正樣本的精確率和正樣本的召回率.而準(zhǔn)確率(accuracy)主要表征的是整體預(yù)測正確的比例.

這里提供部分?jǐn)?shù)據(jù)集處理建議:

1 根據(jù)年份可以做時間序列分析

2 有很多量化指標(biāo),可以對此類數(shù)據(jù)進(jìn)行歸一化

3 Listing Price (USD)需要先把數(shù)據(jù)格式從$204,921處理為204921

4 Geographic Region可以以國家做聚類分析

5 一些非數(shù)值型數(shù)據(jù),如果需要用到,可以利用one hot編碼轉(zhuǎn)化為數(shù)值型

以上僅為第一問部分思路(后續(xù)完善),剩余部分思路、數(shù)據(jù)集和其他全網(wǎng)具體配套代碼、參考論文,以及其他題目思路,可以看我的這篇文章:

問題二:討論您對給定地理區(qū)域的建模如何在香港(特區(qū))市場有用。

從提供的電子表格中選擇一個信息豐富的帆船子集,分為單體船和雙體船。

從香港(特區(qū))市場查找該子集的可比掛牌價格數(shù)據(jù)。

如果香港(特區(qū))對你所在的帆船的每艘帆船的價格有影響,那么香港(SAR)的地區(qū)影響會是什么?

對雙體船和單殼帆船的影響是一樣的嗎?

問題三:

問題四:

總共不超過25頁的PDF解決方案應(yīng)該包括:

·一頁的摘要表,清楚地描述您解決問題的方法以及您在問題背景下分析得出的最重要的結(jié)論。

·目錄。

·您的完整解決方案。

·向經(jīng)紀(jì)人提交一到兩頁的報告。

·參考文獻(xiàn)列表。

注:MCM大賽以25頁為限。

您提交的所有方面都計入25頁的限制(摘要表、目錄、報告、提交給經(jīng)紀(jì)人的一到兩頁報告、參考列表和任何附錄)。

您必須引用您的想法、數(shù)據(jù)、圖像和報告中使用的任何其他材料的來源

數(shù)據(jù)集說明

數(shù)據(jù)文件輸入說明Make:船的制造商的名稱。Variant:識別船的特定型號的名稱。長度(Ft):船的長度(英尺)。
地理區(qū)域:船只所在的地理區(qū)域(加勒比海、歐洲、美國)。
國家/地區(qū)/州:船只所在的特定國家/地區(qū)/州。掛牌價(美元):以美元計算的購買船只的廣告價格。
年份:該船制造的年份

術(shù)語表:(翻譯不準(zhǔn),下面是原題)

(, 下載次數(shù): 55)

-----------------------------




歡迎光臨 愛鋒貝 (http://m.7gfy2te7.cn/) Powered by Discuz! X3.4