问题拆解思路框架
Matlab origin基础
画图上手很快
关键词,用了什么算法,用了什么算法写什么算法。
知网上搜相关论文,用论文提取共同的点,在共同的点分析。
图很精美,但是要高级,图经过精心雕琢。学术,科研感。(总结,整理一篇matlab画图工具箱)
解题思路框架
- 针对问题分析与拆解,得出解题思路框架
- 建模过程中风险因果思路分析
展示内容 - 公式字母的表达(格式统一)
word完成paper要看上去和谐。保证所有公式字母字体大小合适排版正确。word 公式排版tip
常用统计方法在建模过程中的运用
数据预处理
数据的预处理
遇到问题的数据不会很完美,对象是有缺点的,如果不直接去掉,就改造缺点
不良数据
有些以月为单位,有些以天为单位,有些以年为单位。粗暴直接删除(给个理由删除)
有洞就补,线性插值,拉格朗日插值,随机森林差值等。 很多方法去补充。有些数据不能补充,预测问题可以补充。
- 下篇博客整理
不平衡数据
欠采样。发病人数一定是占总人数比较少的,交通事故的数量和整个一天的车流量是不平衡的。少的那一方是需要研究的对象,有的数据不平衡率就达到%95,这样的数据去做模型,但是实际是无效的数据。
- 如何预处理?
过采样。变量的个数大于样本量,对所有变量直接进行筛选。变量取值分布特别小(方差)特别小的时候,直接删除,没有替太多的信息量。通过什么方式去,保留有代表的数据。
SMOTE
简单的相关性分析,做一个皮尔森相关性分析pearson,Sperman秩相关系数,余弦相似度计算
确定建模对象(高维或大于样本量的)
相关度分析
- 相关度分析博客
关联度分析
- 灰色
因子分析。把变量转化为因子。
- 先分类再聚类,聚类之后再pca。通常建模的问题不会太简单,本身变量特别多的时候,一定是要对变量所处的类别去进行分类。如,关于人的变量归于一类,关于宏观的归于一类,有些来自外部环境归于一。300*300 的热力图 热力图是什么,怎么划。
用好,把重要的变量保留下来。变量是有相关性的。只要方法是合理的叙述是清楚的结果明确的,都是对的。表述删除的原因,为什么删除,为什么用插补,为什么不用线性,给一个理由,为什么用相关性分析,为什么用pca。不需要原理,但是要说出来为什么要用。
离散模型
- 定性因变量(阳性-阴性,发病-不发病的变量)是离散变量?的定性变量
- 0-1因变量
- logistic回归,SVM,DT可以作为切入点(集成学习)用的好不好看结果,看准确率。回潮矩阵的结果。
- 多分类(0-1-2-3)因变量
- 多分类logistic回归,(偏)比例优势模型 Priority-Model
- 0-1因变量
- 离散型因变量
- 发病的人数,死亡的人数,交通事故发生的个数,快递的量,双11快递的分布数量
- poisson回归、负二项回归
- hurdel model,tobit model 搜搜搜
连续模型
针对连续的模型。eg,发病时间长度,17天隔离,14天就可以。对
线性回归 y = ——
- 变量的标准化(变量选择,降维),归一化,标准化,lasso
- 变量变换:ln,Box-cox变化,对变量进行组合,比值作为增速,变量是可解释的
- PCA慎用变量组合(主成分就不是变量了,对模型的解读是吃力的,主成分的取值和变量的取值是两回事的,如果用了就要对主成分的原始变量进行解释)
- 样本聚类or变量聚类
非线性回归 (可加模型,半参数模型,变系数模型)
- charge boost不如半参数回归模型
关于模型结构(A影响B,B影响C,其实是A影响C)
中介效应模型(A影响B,B影响C,其实是A影响C)
SEM(分层数据 不同省份作为区域,不同省份内的人的发病和治疗反应时间,分一个层级结构。进行分层)层分的越多,代码越复杂。在建模过程中加入到思考的过程中
random effect model
random parameter model
在建模过程中加入到思考的过程中,不要用卷积网络cnn或者是gbdt梯度决策树参考文献。这是没有内容的文章,没有意义。
把所有的数据做一个分层,省份作为一个小组,每个省份都是一个模型,但是在数据的结构上进行了层次的划分,面板数据。- 时空相关
- car模型
对数据结构要有一个深入的诊断。要分层处理数据。
机器学习模型
包括但不限于神经网络、集成学习、深度学习(matlab神经网络,调包调参)
- 模型训练和测试样本的比例,样本的划分要随机(要早论文中说我的样本随机)
- 调整参数的过程(要调整参数,写出参数)
- 列出最终的模型参数,以BP神经网络为例、权值、偏置、激活函数等参数,可依据这些参数再
现BP模型
- 训练和测试样本的相对误差结果展示
- 注意过拟合问题(两个数据都要展示,数据要真实)
优化,综合评估
包括但不限于遗传算法、粒子群算法、模拟退火算法等
约束条件
调整参数的过程
基于实际意义的优化结果合理性
评估指标构建
- 单一赋权法,综合赋权法
- 评估指标的合理性解释
关于检验(why)
不论用什么分析方式,用什么模型。所有的结论,都要对合理性进行描述,为什么要这么描述,模型使用的合理性要论证。为什么用线性回归。不能说因为跑出来的mse数值很小p-value数值很小就可以。
任何一个模型,哪怕是线性模型也是有一定的假定和假设的。在假设中规避掉。
模型的合理性,数据敏感度分析
要去了解,如果我用了方差分析,数据需要有哪些要求,这个要求我的数据满足不满足,你要做验证。用了那就要验证。假定验证是不通过,那么怎么去弥补不足,怎么纠正改进,使得变得合情合理。
数学建模的目的是要投入生产的。是否可以实践,有合理性。
给一定的篇幅去对结果进行描述,我的模型的合理性,可以有落地性。我对模型有检验,我的模型可以被检验