# 模型实验记录

## 1. 实验数据说明

本次实验使用真实公开数据完成技术验证。价格数据来自 Steam Store 公开 API，热度数据来自 Steam Reviews 公开接口与 Hacker News Algolia 公开搜索 API。由于闲鱼、小红书、eBay、Swappa 等平台在当前环境中需要登录或触发反爬挑战，实验阶段不进行绕过，改用可公开访问、可复现的数据源。

- 原始商品数据：`F:\珠海科技学院2025-2026\课程\实践周\data\raw\marketplace_items.csv`
- 原始社交/讨论数据：`F:\珠海科技学院2025-2026\课程\实践周\data\raw\social_posts.csv`
- 融合后数据集：`F:\珠海科技学院2025-2026\课程\实践周\data\processed\merged_dataset.csv`
- 数据质量报告：`F:\珠海科技学院2025-2026\课程\实践周\report\results\data_quality_report.md`
- 有效付费商品样本数：322
- 商品平均价格：17.49 USD
- 商品价格中位数：9.99 USD

## 2. 特征设计

基础商品特征包括最终价格、原价、折扣率、是否折扣、名称长度、发行时间、发行年份、主类别、分类数量、平台支持情况、平台支持数量和年龄限制。融合热度特征包括 Steam 推荐数、推荐数 log 特征、评论数、评论数 log 特征、好评率、评论热度分数、HN 讨论数量、平均点赞和平均评论数。

## 3. 模型对比结果

| experiment               | model             |   n_train |   n_test |     MSE |    RMSE |     MAE |       R2 |
|:-------------------------|:------------------|----------:|---------:|--------:|--------:|--------:|---------:|
| baseline_marketplace     | Linear Regression |       257 |       65 | 20.4974 | 4.52741 | 1.94253 | 0.931792 |
| fused_marketplace_social | Linear Regression |       257 |       65 | 22.7919 | 4.77409 | 2.11955 | 0.924157 |
| baseline_marketplace     | SVR               |       257 |       65 | 24.1514 | 4.91441 | 2.33966 | 0.919633 |
| fused_marketplace_social | SVR               |       257 |       65 | 26.0455 | 5.10348 | 2.72262 | 0.91333  |
| fused_marketplace_social | Decision Tree     |       257 |       65 | 40.0972 | 6.33223 | 1.71361 | 0.866571 |
| baseline_marketplace     | Decision Tree     |       257 |       65 | 41.4154 | 6.43548 | 1.90367 | 0.862184 |

## 4. 最优模型

- 最优实验组：baseline_marketplace
- 最优模型：Linear Regression
- RMSE：4.5274
- MAE：1.9425
- R2：0.9318

## 5. 多源融合效果

同一实验中，基础特征组最佳 RMSE 为 4.5274，融合热度特征组最佳 RMSE 为 4.7741，RMSE 变化值为 -0.2467；基础特征组最佳 R2 为 0.9318，融合热度特征组最佳 R2 为 0.9242，R2 变化值为 -0.0076。

## 6. 可视化结果

- `F:\珠海科技学院2025-2026\课程\实践周\report\figures\price_distribution_by_genre.png`
- `F:\珠海科技学院2025-2026\课程\实践周\report\figures\review_heat_vs_price.png`
- `F:\珠海科技学院2025-2026\课程\实践周\report\figures\model_metrics_comparison.png`
- `F:\珠海科技学院2025-2026\课程\实践周\report\figures\predicted_vs_actual.png`

## 7. 实验结论

实验完成了从真实数据采集、数据预处理、多源特征融合、模型训练、指标对比到图表输出的完整流程。结果可用于课程报告中证明系统具备可运行的技术验证闭环。若后续能获得闲鱼和小红书的合规数据授权，只需要替换采集模块，后续清洗、建模和可视化流程可以继续复用。