问题拆解思路框架

Matlab origin基础

画图上手很快

关键词，用了什么算法，用了什么算法写什么算法。

知网上搜相关论文，用论文提取共同的点，在共同的点分析。

图很精美，但是要高级，图经过精心雕琢。学术，科研感。（总结，整理一篇matlab画图工具箱）

解题思路框架

针对问题分析与拆解，得出解题思路框架
建模过程中风险因果思路分析
展示内容
公式字母的表达（格式统一）
word完成paper要看上去和谐。保证所有公式字母字体大小合适排版正确。

word 公式排版tip

常用统计方法在建模过程中的运用

数据预处理

数据的预处理

遇到问题的数据不会很完美，对象是有缺点的，如果不直接去掉，就改造缺点
- 不良数据
  - 有些以月为单位，有些以天为单位，有些以年为单位。粗暴直接删除（给个理由删除）
  - 有洞就补，线性插值，拉格朗日插值，随机森林差值等。很多方法去补充。有些数据不能补充，预测问题可以补充。
    - 下篇博客整理
- 不平衡数据
  - 欠采样。发病人数一定是占总人数比较少的，交通事故的数量和整个一天的车流量是不平衡的。少的那一方是需要研究的对象，有的数据不平衡率就达到%95，这样的数据去做模型，但是实际是无效的数据。
    - 如何预处理？
  - 过采样。变量的个数大于样本量，对所有变量直接进行筛选。变量取值分布特别小（方差）特别小的时候，直接删除，没有替太多的信息量。通过什么方式去，保留有代表的数据。
  - SMOTE
  - 简单的相关性分析，做一个皮尔森相关性分析pearson，Sperman秩相关系数,余弦相似度计算
- 确定建模对象（高维或大于样本量的）
  - 相关度分析
    - 相关度分析博客
  - 关联度分析
    - 灰色
  - PCA降维
  - 因子分析。把变量转化为因子。
    - 先分类再聚类，聚类之后再pca。通常建模的问题不会太简单，本身变量特别多的时候，一定是要对变量所处的类别去进行分类。如，关于人的变量归于一类，关于宏观的归于一类，有些来自外部环境归于一。300*300 的热力图热力图是什么，怎么划。
用好，把重要的变量保留下来。变量是有相关性的。只要方法是合理的叙述是清楚的结果明确的，都是对的。表述删除的原因，为什么删除，为什么用插补，为什么不用线性，给一个理由，为什么用相关性分析，为什么用pca。不需要原理，但是要说出来为什么要用。

离散模型

定性因变量（阳性-阴性，发病-不发病的变量）是离散变量？的定性变量
- 0-1因变量
  - logistic回归，SVM，DT可以作为切入点（集成学习）用的好不好看结果，看准确率。回潮矩阵的结果。
- 多分类（0-1-2-3）因变量
  - 多分类logistic回归，（偏）比例优势模型 Priority-Model
离散型因变量
- 发病的人数，死亡的人数，交通事故发生的个数，快递的量，双11快递的分布数量
- poisson回归、负二项回归
- hurdel model,tobit model 搜搜搜

连续模型

针对连续的模型。eg，发病时间长度，17天隔离，14天就可以。对

线性回归 y = ——
- 变量的标准化（变量选择，降维），归一化，标准化，lasso
- 变量变换：ln，Box-cox变化，对变量进行组合，比值作为增速，变量是可解释的
- PCA慎用变量组合（主成分就不是变量了，对模型的解读是吃力的，主成分的取值和变量的取值是两回事的，如果用了就要对主成分的原始变量进行解释）
- 样本聚类or变量聚类
非线性回归（可加模型，半参数模型，变系数模型）
- charge boost不如半参数回归模型
关于模型结构（A影响B，B影响C，其实是A影响C）
- 中介效应模型（A影响B，B影响C，其实是A影响C）
- SEM（分层数据不同省份作为区域，不同省份内的人的发病和治疗反应时间，分一个层级结构。进行分层）层分的越多，代码越复杂。在建模过程中加入到思考的过程中
  - random effect model
  - random parameter model
在建模过程中加入到思考的过程中，不要用卷积网络cnn或者是gbdt梯度决策树参考文献。这是没有内容的文章，没有意义。
把所有的数据做一个分层，省份作为一个小组，每个省份都是一个模型，但是在数据的结构上进行了层次的划分，面板数据。
- 时空相关
  - car模型

对数据结构要有一个深入的诊断。要分层处理数据。

机器学习模型

包括但不限于神经网络、集成学习、深度学习（matlab神经网络，调包调参）
1. 模型训练和测试样本的比例，样本的划分要随机（要早论文中说我的样本随机）
2. 调整参数的过程（要调整参数，写出参数）
- 列出最终的模型参数，以BP神经网络为例、权值、偏置、激活函数等参数，可依据这些参数再
  现BP模型
1. 训练和测试样本的相对误差结果展示
- 注意过拟合问题（两个数据都要展示，数据要真实）

优化，综合评估

包括但不限于遗传算法、粒子群算法、模拟退火算法等
1. 约束条件
2. 调整参数的过程
3. 基于实际意义的优化结果合理性
评估指标构建
1. 单一赋权法，综合赋权法
2. 评估指标的合理性解释

关于检验（why）

不论用什么分析方式，用什么模型。所有的结论，都要对合理性进行描述，为什么要这么描述，模型使用的合理性要论证。为什么用线性回归。不能说因为跑出来的mse数值很小p-value数值很小就可以。
任何一个模型，哪怕是线性模型也是有一定的假定和假设的。在假设中规避掉。
模型的合理性，数据敏感度分析
要去了解，如果我用了方差分析，数据需要有哪些要求，这个要求我的数据满足不满足，你要做验证。用了那就要验证。假定验证是不通过，那么怎么去弥补不足，怎么纠正改进，使得变得合情合理。
数学建模的目的是要投入生产的。是否可以实践，有合理性。
给一定的篇幅去对结果进行描述，我的模型的合理性，可以有落地性。我对模型有检验，我的模型可以被检验

innoc abroad

真的会忘记的，十年了，他会遇到更倒霉、更糟糕的事，然后发现，其实当时以为罪大恶极不可原谅的很多事，其实并不是真的很糟糕，然后他就忘了。