加载中...
数学建模思路
发表于:2022-09-16 | 分类: 数据建模
字数统计: 1.9k | 阅读时长: 6分钟 |

问题拆解思路框架


Matlab origin基础

画图上手很快

关键词,用了什么算法,用了什么算法写什么算法。

知网上搜相关论文,用论文提取共同的点,在共同的点分析。

图很精美,但是要高级,图经过精心雕琢。学术,科研感。(总结,整理一篇matlab画图工具箱)

解题思路框架

  1. 针对问题分析与拆解,得出解题思路框架
  2. 建模过程中风险因果思路分析
    展示内容
  3. 公式字母的表达(格式统一)
    word完成paper要看上去和谐。保证所有公式字母字体大小合适排版正确。

    word 公式排版tip

常用统计方法在建模过程中的运用


数据预处理

  1. 数据的预处理

    遇到问题的数据不会很完美,对象是有缺点的,如果不直接去掉,就改造缺点

    • 不良数据

      • 有些以月为单位,有些以天为单位,有些以年为单位。粗暴直接删除(给个理由删除)

      • 有洞就补,线性插值,拉格朗日插值,随机森林差值等。 很多方法去补充。有些数据不能补充,预测问题可以补充。

        • 下篇博客整理
    • 不平衡数据

      • 欠采样。发病人数一定是占总人数比较少的,交通事故的数量和整个一天的车流量是不平衡的。少的那一方是需要研究的对象,有的数据不平衡率就达到%95,这样的数据去做模型,但是实际是无效的数据。

        • 如何预处理?
      • 过采样。变量的个数大于样本量,对所有变量直接进行筛选。变量取值分布特别小(方差)特别小的时候,直接删除,没有替太多的信息量。通过什么方式去,保留有代表的数据。

      • SMOTE

      • 简单的相关性分析,做一个皮尔森相关性分析pearsonSperman秩相关系数,余弦相似度计算

    • 确定建模对象(高维或大于样本量的)

      • 相关度分析

        • 相关度分析博客
      • 关联度分析

        • 灰色
      • PCA降维

      • 因子分析。把变量转化为因子。

        • 先分类再聚类,聚类之后再pca。通常建模的问题不会太简单,本身变量特别多的时候,一定是要对变量所处的类别去进行分类。如,关于人的变量归于一类,关于宏观的归于一类,有些来自外部环境归于一。300*300 的热力图 热力图是什么,怎么划。

    用好,把重要的变量保留下来。变量是有相关性的。只要方法是合理的叙述是清楚的结果明确的,都是对的。表述删除的原因,为什么删除,为什么用插补,为什么不用线性,给一个理由,为什么用相关性分析,为什么用pca。不需要原理,但是要说出来为什么要用。

离散模型

  • 定性因变量(阳性-阴性,发病-不发病的变量)是离散变量?的定性变量
    • 0-1因变量
      • logistic回归,SVM,DT可以作为切入点(集成学习)用的好不好看结果,看准确率。回潮矩阵的结果。
    • 多分类(0-1-2-3)因变量
      • 多分类logistic回归,(偏)比例优势模型 Priority-Model
  • 离散型因变量
    • 发病的人数,死亡的人数,交通事故发生的个数,快递的量,双11快递的分布数量
    • poisson回归、负二项回归
    • hurdel model,tobit model 搜搜搜

连续模型

针对连续的模型。eg,发病时间长度,17天隔离,14天就可以。对

  • 线性回归 y = ——

    • 变量的标准化(变量选择,降维),归一化,标准化,lasso
    • 变量变换:ln,Box-cox变化,对变量进行组合,比值作为增速,变量是可解释的
    • PCA慎用变量组合(主成分就不是变量了,对模型的解读是吃力的,主成分的取值和变量的取值是两回事的,如果用了就要对主成分的原始变量进行解释)
    • 样本聚类or变量聚类
  • 非线性回归 (可加模型,半参数模型,变系数模型)

    • charge boost不如半参数回归模型
  • 关于模型结构(A影响B,B影响C,其实是A影响C)

    • 中介效应模型(A影响B,B影响C,其实是A影响C)

    • SEM(分层数据 不同省份作为区域,不同省份内的人的发病和治疗反应时间,分一个层级结构。进行分层)层分的越多,代码越复杂。在建模过程中加入到思考的过程中

      • random effect model

      • random parameter model

    在建模过程中加入到思考的过程中,不要用卷积网络cnn或者是gbdt梯度决策树参考文献。这是没有内容的文章,没有意义。
    把所有的数据做一个分层,省份作为一个小组,每个省份都是一个模型,但是在数据的结构上进行了层次的划分,面板数据。

    • 时空相关
      • car模型

对数据结构要有一个深入的诊断。要分层处理数据。

机器学习模型

  • 包括但不限于神经网络、集成学习、深度学习(matlab神经网络,调包调参)

    1. 模型训练和测试样本的比例,样本的划分要随机(要早论文中说我的样本随机)
    2. 调整参数的过程(要调整参数,写出参数)
    • 列出最终的模型参数,以BP神经网络为例、权值、偏置、激活函数等参数,可依据这些参数再
      现BP模型
    1. 训练和测试样本的相对误差结果展示
    • 注意过拟合问题(两个数据都要展示,数据要真实)

优化,综合评估

  • 包括但不限于遗传算法、粒子群算法、模拟退火算法等

    1. 约束条件

    2. 调整参数的过程

    3. 基于实际意义的优化结果合理性

  • 评估指标构建

    1. 单一赋权法,综合赋权法
    2. 评估指标的合理性解释

关于检验(why)


不论用什么分析方式,用什么模型。所有的结论,都要对合理性进行描述,为什么要这么描述,模型使用的合理性要论证。为什么用线性回归。不能说因为跑出来的mse数值很小p-value数值很小就可以。
任何一个模型,哪怕是线性模型也是有一定的假定和假设的。在假设中规避掉。
模型的合理性,数据敏感度分析
要去了解,如果我用了方差分析,数据需要有哪些要求,这个要求我的数据满足不满足,你要做验证。用了那就要验证。假定验证是不通过,那么怎么去弥补不足,怎么纠正改进,使得变得合情合理。
数学建模的目的是要投入生产的。是否可以实践,有合理性。
给一定的篇幅去对结果进行描述,我的模型的合理性,可以有落地性。我对模型有检验,我的模型可以被检验

数据预处理的合理性描述(删除变量)

模型使用合理性描述(模型使用的合理性要论证)

结果合理性论证

上一篇:
matlab画图手册(使用PlotPub)
下一篇:
数学建模模版思路
本文目录
本文目录