特征矩阵和特征向量¶

Aa=ra
A是矩阵,a是特征向量
r是特征值

模型分类 细分 具体内容
预处理 插值拟合、主成分分析、小波分析
优化模型 单目标、多目标,线性、非线性、整数规划 动态规划、图论、网络流模型,最短路、最大流、最小生成树
背包、指派、抽屉、旅行商TSP、排队论模型 遗传算法、蚁群算法、粒子群算法、模拟退火算法等
预测模型 微分方程预测
线性、非线性回归与拟合,统计回归预测
马尔科夫预测,神经网络预测,模糊预测,灰色预测
分类模型 K-means聚类、层次聚类、模糊聚类、神经网络分类
评价模型 模糊评价,层次分析法,Topsis综合评价模型、主成分分析、数据包络分析模型,神经网络模型

层次分析法¶

一、核心思想¶

层次分析法通过以下步骤将复杂问题层次化、模型化:

  1. 分解问题:将决策目标拆解为多个层次(目标层、准则层、方案层)。
  2. 两两比较:对同一层次的元素进行两两对比,量化其相对重要性。
  3. 综合权重:通过数学计算得出各元素对总目标的综合权重,辅助决策。

二、实施步骤¶

1. 建立层次结构模型¶

  • 目标层:最高层,明确决策的最终目标(如“选择最佳供应商”)。
  • 准则层:中间层,列出影响目标的子准则(如价格、质量、交货期、服务)。
  • 方案层:最底层,列出待评估的方案(如供应商A、B、C)。

示例:

目标层:选择最佳供应商  
准则层:价格、质量、交货期、服务  
方案层:供应商A、供应商B、供应商C

2. 构造判断矩阵¶

  • 两两比较:针对每一准则,比较方案层的元素(如比较供应商A和B在价格上的优劣)。
  • 标度法:使用1-9标度量化相对重要性(1=同等重要,3=稍重要,5=明显重要,7=强烈重要,9=极端重要,2、4、6、8为中间值)。
  • 矩阵形式:以准则层“价格”为例,构造判断矩阵:
A B C
A 1 3 5
B 1/3 1 2
C 1/5 1/2 1

3. 层次单排序与一致性检验¶

  • 计算权重:通过特征值法或和积法求出判断矩阵的特征向量,归一化后得到各方案的权重。
  • 一致性检验:计算一致性比率(CR),确保判断矩阵的逻辑一致性。若CR<0.1,则通过检验;否则需调整判断矩阵。
    • 公式:
      CR = CI/RI,其中 CI = (lambda{max} - n)/(n-1) RI为随机一致性指标(查表可得)。

4. 层次总排序与综合决策¶

  • 综合权重:将准则层的权重与方案层在各准则下的权重相乘,得到各方案对总目标的综合权重。
  • 排序选择:根据综合权重排序,选择最优方案。

示例:
若准则层权重为:价格(0.4)、质量(0.3)、交货期(0.2)、服务(0.1),且方案层在各准则下的权重如下:

准则 A B C
价格 0.6 0.3 0.1
质量 0.2 0.5 0.3
交货期 0.1 0.2 0.7
服务 0.3 0.4 0.3

则综合权重计算为:
( A = 0.4×0.6 + 0.3×0.2 + 0.2×0.1 + 0.1×0.3 = 0.35 )
( B = 0.4×0.3 + 0.3×0.5 + 0.2×0.2 + 0.1×0.4 = 0.35 )
( C = 0.4×0.1 + 0.3×0.3 + 0.2×0.7 + 0.1×0.3 = 0.30 )

结果:供应商A和B综合权重相同,需进一步分析或调整准则权重。

模糊综合评价¶

f分布确定隶属函数

  • 一级模糊综合评价

    • 评语集带有好坏色彩
    • 评语集不带有好坏色彩
  • 多级模糊综合评价

基本步骤

  1. 确定因素集(如果因素过多可以用多级,可以用主成分分析法)确定各因素权重,每一级和为1
    对于已有数据,可以用熵权法的topsis,没有的可以用层次分析法,论文里写上‘根据专家意见’
  2. 确定评语集(有无评价色彩)
  3. 从最后一层开始逐级确定每级因素对评语集的隶属度
  4. 根据隶属度确定相关评语(注意画图,图文并茂效果更好)

一、核心思想¶

模糊综合评价的核心在于利用模糊集合理论处理评价中的模糊性,例如“好”“中”“差”等主观判断。其基本步骤包括:

  1. 确定评价因素集:明确影响评价目标的所有因素(如指标、准则)。
  2. 建立评价等级集:定义评价结果的等级(如“优秀”“良好”“一般”“差”)。
  3. 构造模糊评价矩阵:通过专家打分或统计数据,量化各因素对各等级的隶属度。
  4. 确定权重向量:分配各因素的权重,反映其相对重要性。
  5. 综合评价:通过模糊合成运算(如加权平均、最大最小法)得到最终评价结果。

二、实施步骤¶

1. 确定评价因素集(U)¶

将评价目标分解为多个因素,构成因素集:
U = {u_1, u_2, ..., u_n}
示例:
U = {PM2.5浓度, SO_2浓度, NO_2浓度, 空气湿度}

2. 建立评价等级集(V)¶

定义评价结果的等级,构成等级集:
V = {v_1, v_2, ..., v_m}
示例:
V ={优, 良, 轻度污染, 重度污染}

3. 构造模糊评价矩阵(R)¶

对每个因素 u_i ,确定其对各等级 v_j 的隶属度 r_ij ,形成矩阵 R :

R = [ r_11 r_12 ... r_1m r_21 r_22 ... r_2m ... ... ... ... r_n1 r_n2 ... r_nm ]

隶属度确定方法:

  • 专家打分法:邀请专家对每个因素在各等级上的隶属度进行评分(如0-1之间)。
  • 统计法:通过问卷调查或历史数据统计隶属度。
  • 模糊分布函数:如三角形、梯形分布量化隶属度。

示例:
若PM2.5浓度对“优”“良”“轻度污染”“重度污染”的隶属度分别为0.1、0.3、0.5、0.1:
[0.1, 0.3, 0.5, 0.1]

4. 确定权重向量(W)¶

分配各因素的权重,构成权重向量:
W = [w_1, w_2, ..., w_n] ,且权重和为1
权重确定方法:

  • 层次分析法(AHP):通过两两比较计算权重。
  • 熵权法:根据数据离散程度自动分配权重。
  • 专家评估法:直接由专家给出权重。

示例:
若PM2.5、SO₂、NO₂、湿度的权重分别为0.4、0.3、0.2、0.1,则:
W = [0.4, 0.3, 0.2, 0.1]

5. 模糊综合评价¶

通过模糊合成运算将权重向量 W 与模糊评价矩阵 R 相乘,得到综合评价结果 B :

6. 结果分析¶

  • 最大隶属度原则:选择隶属度最大的等级作为最终评价结果。
    示例:若 B 中最大值为0.35(对应“良”),则评价结果为“良”。

案例示例¶

问题:评估某企业绿色供应链管理水平。
步骤:

  1. 因素集:U = {环保投入, 能源效率, 废弃物回收, 供应商合作}

  2. 等级集:V = {优秀, 良好, 一般, 差}

  3. 模糊评价矩阵(通过专家打分):
    R = 0.2 0.5 0.2 0.1 0.1 0.3 0.4 0.2 0.3 0.4 0.2 0.1 0.1 0.2 0.3 0.4

  4. 权重向量(AHP法):W = [0.3, 0.2, 0.25, 0.25] 。

  5. 综合评价(加权平均型):

    B = W \circ R = [0.185, 0.365, 0.275, 0.175]

  6. 结果:最大隶属度为0.365(“良好”),评价结果为“良好”。

熵权法¶

熵权法是一种客观赋权法,它基于信息论中的“信息熵”概念来确定评价指标(属性)的权重。
其核心思想是:某个指标的数据变异程度(离散程度)越大,它所包含的信息量就越大,在综合评价中所起的作用(权重)也就应该越大;反之,变异程度越小,信息量越小,权重也应越小。

  • 信息量越大,不确定性越小,熵值越小。
  • 信息量越小,不确定性越大,熵值越大。 (想象一个完全随机的事件,预测它最难,熵最大)。

熵权法的核心步骤¶

  1. 数据标准化:

    • 由于不同指标通常具有不同的量纲和数量级,需要先将原始数据矩阵转换为无量纲、可比较的标准化矩阵。
    • 常用方法:
      • 正向指标(越大越好): r_ij = (x_ij - min(x_j)) / (max(x_j) - min(x_j))
      • 负向指标(越小越好): r_ij = (max(x_j) - x_ij) / (max(x_j) - min(x_j))
      • 有时也使用 r_ij = x_ij / sqrt(Σ(x_ij²)) (向量归一化) 或 r_ij = x_ij / Σ(x_ij) (比重法)。
    • 目标: 得到一个标准化决策矩阵 R = (r_ij)_{m×n}, 其中 m 为对象数,n 为指标数,0 <= r_ij <= 1。
  2. 计算指标的熵值:

    • 计算第 j 项指标下,第 i 个对象的特征比重:p_ij = r_ij / Σ(i=1 to m) r_ij。(这可以理解为第 i 个对象在第 j 项指标上的“贡献”比例)
    • 计算第 j 项指标的信息熵:e_j = -k * Σ(i=1 to m) [p_ij * ln(p_ij)]
      • 其中 k = 1 / ln(m),这是一个标准化常数,确保 0 <= e_j <= 1。
      • 当某个 p_ij 为 0 时,规定 p_ij * ln(p_ij) = 0 (因为 lim(x->0+) x*ln(x) = 0)。
  3. 计算信息效用值(差异系数):

    • 信息效用值 d_j 反映指标 j 的信息重要性程度:d_j = 1 - e_j
    • 熵值 e_j 越大,说明该指标数据的变异程度越小(数据越趋同),信息效用 d_j 越小。
    • 熵值 e_j 越小,说明该指标数据的变异程度越大(数据越分散),信息效用 d_j 越大。
  4. 计算指标权重:

    • 将信息效用值归一化,得到各指标的熵权:w_j = d_j / Σ(j=1 to n) d_j
    • 最终权重向量为 W = (w_1, w_2, ..., w_n),满足 Σ w_j = 1。

应用例子:电商平台商家综合竞争力评价¶

某大型电商平台希望对其平台上的1000家店铺进行综合竞争力评价,以便进行资源倾斜、活动推荐或制定不同的管理策略。初步筛选出以下6个评价指标:

  1. X1:近30天销售额 (万元) - (正向指标)
  2. X2:近30天订单量 (单) - (正向指标)
  3. X3:近30天平均客单价 (元) - (正向指标)
  4. X4:近30天好评率 (%) - (正向指标)
  5. X5:近30天纠纷率 (%) - (负向指标) (越低越好)
  6. X6:店铺商品丰富度 (SKU数量) - (正向指标)

建模目标: 计算每家店铺的综合竞争力得分,并进行排名。

面临的挑战¶

  1. 指标赋权难题: 6个指标分别代表了销售规模(X1, X2)、盈利能力(X3)、服务质量(X4, X5)、商品能力(X6)。平台运营人员很难客观地确定哪个指标更重要,以及它们之间的相对重要性(权重)应该是多少。主观赋权容易引起争议。
  2. 数据量纲差异: 指标单位不同(万元、单、元、%、%),数值范围差异巨大(销售额可能几万到几千万,纠纷率可能0.1%到5%)。
  3. 指标性质不同: 有正向指标(越大越好),也有负向指标(越小越好)。
  4. 需要客观评价: 平台希望评价结果尽可能基于数据本身,减少人为干预。

应用熵权法的解决方案¶

  1. 数据收集与标准化:

    • 收集1000家店铺在X1-X6这6个指标上的原始数据。
    • 正向指标标准化 (X1, X2, X3, X4, X6): r_ij = (x_ij - min(x_j)) / (max(x_j) - min(x_j))
    • 负向指标标准化 (X5:纠纷率): r_ij = (max(x_j) - x_ij) / (max(x_j) - min(x_j))
    • 得到一个1000行(店铺) x 6列(指标)的标准化矩阵 R,所有值在[0, 1]区间内。
  2. 计算特征比重 p_ij:

    • 对于每个指标 j,计算每家店铺 i 在该指标标准化值占该指标所有店铺标准化值总和的比例:p_ij = r_ij / Σ(i=1 to 1000) r_ij
    • 确保每列 j 的 p_ij 之和为1。
  3. 计算信息熵 e_j:

    • k = 1 / ln(1000) ≈ 0.1448 (因为 m=1000)
    • 计算每个指标 j 的熵值:e_j = -k * Σ(i=1 to 1000) [p_ij * ln(p_ij)]
    • 示例结果(假设值):
      • e_X1 = 0.85 (销售额熵值)
      • e_X2 = 0.88 (订单量熵值)
      • e_X3 = 0.92 (客单价熵值)
      • e_X4 = 0.95 (好评率熵值)
      • e_X5 = 0.78 (纠纷率熵值 - 注意这是负向指标,但标准化后处理方式已保证一致性)
      • e_X6 = 0.90 (SKU数熵值)
  4. 计算信息效用值 d_j:

    • d_j = 1 - e_j
    • 示例结果:
      • d_X1 = 1 - 0.85 = 0.15
      • d_X2 = 1 - 0.88 = 0.12
      • d_X3 = 1 - 0.92 = 0.08
      • d_X4 = 1 - 0.95 = 0.05
      • d_X5 = 1 - 0.78 = 0.22 (最大)
      • d_X6 = 1 - 0.90 = 0.10
  5. 计算熵权 w_j:

    • 总差异系数 D = Σ d_j = 0.15 + 0.12 + 0.08 + 0.05 + 0.22 + 0.10 = 0.72
    • 各指标权重 w_j = d_j / D:
      • w_X1 = 0.15 / 0.72 ≈ 0.2083
      • w_X2 = 0.12 / 0.72 ≈ 0.1667
      • w_X3 = 0.08 / 0.72 ≈ 0.1111
      • w_X4 = 0.05 / 0.72 ≈ 0.0694
      • w_X5 = 0.22 / 0.72 ≈ 0.3056 (权重最高)
      • w_X6 = 0.10 / 0.72 ≈ 0.1389
    • 权重向量 W = (0.2083, 0.1667, 0.1111, 0.0694, 0.3056, 0.1389)
  6. 计算店铺综合得分:

    • 对于每家店铺 i,其综合竞争力得分 S_i = Σ(j=1 to 6) [w_j * r_ij]
    • 即:S_i = 0.2083*r_i1 + 0.1667*r_i2 + 0.1111*r_i3 + 0.0694*r_i4 + 0.3056*r_i5 + 0.1389*r_i6
    • 计算所有1000家店铺的 S_i。
  7. 结果分析与应用:

    • 排名: 根据 S_i 对店铺进行从高到低排序,得到综合竞争力排名。
    • 权重解读: 在本例的样本数据中:
      • 纠纷率(X5)权重最高(30.56%): 这表明在1000家店铺中,纠纷率这个指标的数据差异最大(熵值e_X5=0.78相对最小)。可能的情况是,大部分店铺纠纷率都很低且接近(集中在低值区),少数店铺纠纷率非常高。这个指标在区分“问题店铺”和“正常店铺”方面提供了最关键的信息。
      • 销售额(X1)权重次之(20.83%): 销售额在不同店铺间差异也较大,是区分店铺规模的重要指标。
      • 好评率(X4)权重最低(6.94%): 这并不意味着好评率不重要!它仅仅说明在这1000家店铺的样本数据中,好评率这个指标的数据非常接近(熵值e_X4=0.95接近最大值1)。可能绝大多数店铺的好评率都在95%-99%之间,差异很小,因此它提供的信息量相对较少,区分度不高。
    • 平台决策: 平台可以根据排名:
      • 对排名靠前的优质店铺给予流量扶持、活动优先参与权等奖励。
      • 对排名靠后,特别是纠纷率高(即使其他指标好,但因w_X5高会拉低总分)的店铺进行重点监控、辅导或处罚。
      • 分析不同类型店铺(如高销售额低好评率、低纠纷率高SKU等)的特征。

熵权法在此例中的价值¶

  1. 提供客观权重: 成功避免了人为设定权重的主观性和争议,权重完全由数据本身的离散程度决定。
  2. 识别关键区分指标: 清晰地指出在当前样本中,纠纷率(X5) 是区分店铺竞争力差异最关键的指标(因为它的数据变异最大),其次是销售额(X1)。这为平台管理提供了数据洞察。
  3. 实现综合评价: 将6个不同量纲、不同性质的指标,通过标准化和熵权法加权求和,得到了一个可比较的综合得分,实现了店铺的综合排序。
  4. 计算高效透明: 算法步骤清晰,易于编程实现,处理1000家店铺的数据效率很高。

Topsis优劣解距离法¶

TOPSIS是一种经典的多属性决策分析(MCDM)或多准则决策(MCDA)方法。它的核心思想非常直观且符合人类常识:
最优的方案应该距离“理想中最好的方案”(正理想解)最近,同时距离“理想中最差的方案”(负理想解)最远。

核心思想¶

  1. 定义理想解:
    • 正理想解(PIS, Positive Ideal Solution): 这是一个虚拟的“最佳方案”,它在每个评价指标上都取所有备选方案在该指标上的最优值。对于正向指标(越大越好),取最大值;对于负向指标(越小越好),取最小值。
    • 负理想解(NIS, Negative Ideal Solution): 这是一个虚拟的“最差方案”,它在每个评价指标上都取所有备选方案在该指标上的最差值。对于正向指标,取最小值;对于负向指标,取最大值。
  2. 计算距离: 计算每个实际的备选方案分别到正理想解(D_i+)和到负理想解(D_i-)的距离。通常使用欧几里得距离(欧氏距离)。
  3. 计算相对接近度: 对于每个备选方案 i,计算其与正理想解的相对接近度 C_i: C_i = D_i- / (D_i+ + D_i-)
    • C_i 的值在 0 到 1 之间。
    • C_i = 1 表示该方案就是正理想解(完美)。
    • C_i = 0 表示该方案就是负理想解(最差)。
  4. 排序: 根据相对接近度 C_i 的大小对所有备选方案进行降序排序。C_i 值越大,表明该方案越接近正理想解、同时越远离负理想解,综合表现就越好。

TOPSIS的关键步骤¶

  1. 构建决策矩阵:

    • 假设有 m 个备选方案(A1, A2, ..., Am)。
    • 假设有 n 个评价指标(C1, C2, ..., Cn)。
    • 构建一个 m x n 的决策矩阵 X,其中元素 x_ij 表示方案 i 在指标 j 上的原始评价值。
    • 明确每个指标是正向指标(效益型,越大越好,如利润、效率)还是负向指标(成本型,越小越好,如成本、污染、耗时)。
  2. 数据标准化(归一化):

    • 消除不同指标量纲和数量级差异的影响。常用方法有向量归一化或极差变换法。这里介绍向量归一化: r_ij = x_ij / sqrt(Σ(i=1 to m) x_ij²) (对所有指标,无论正向负向)
      • 得到一个标准化决策矩阵 R = (r_ij)_{m×n}。
  3. 构建加权标准化决策矩阵(可选但强烈推荐):

    • 如果各指标的重要性不同,需要赋予权重 w_j (Σ w_j = 1)。权重可以通过熵权法、AHP、专家打分等方法确定。
    • 计算加权标准化值:v_ij = w_j * r_ij
    • 得到加权标准化决策矩阵 V = (v_ij)_{m×n}。如果所有指标权重相等,则 V = R。
  4. 确定正理想解(PIS)和负理想解(NIS):

    • 正理想解(A+): A+ = [v1+, v2+, ..., vn+]
      • 其中 vj+ = max(v_ij) 如果指标 j 是正向指标。
      • vj+ = min(v_ij) 如果指标 j 是负向指标。
    • 负理想解(A-): A- = [v1-, v2-, ..., vn-]
      • 其中 vj- = min(v_ij) 如果指标 j 是正向指标。
      • vj- = max(v_ij) 如果指标 j 是负向指标。
  5. 计算各方案到PIS和NIS的距离:

    • 到正理想解的距离:D_i+ = sqrt(Σ(j=1 to n) (v_ij - vj+)²) (i=1, 2, ..., m)
    • 到负理想解的距离:D_i- = sqrt(Σ(j=1 to n) (v_ij - vj-)²) (i=1, 2, ..., m)
    • 这里使用的是欧几里得距离(n维空间中的直线距离)。有时也使用曼哈顿距离,但欧氏距离更常用。
  6. 计算各方案的相对接近度: C_i = D_i- / (D_i+ + D_i-) (i=1, 2, ..., m)

    • 0 <= C_i <= 1
  7. 排序:

    • 根据 C_i 的值从大到小对备选方案进行排序。
    • C_i 最大的方案就是最优方案。

应用例子:城市应急医疗中心选址评估¶

某省卫生部门计划在省内5个候选城市(C1, C2, C3, C4, C5)中选择一个建设新的省级应急医疗中心。决策需综合考虑以下关键因素(指标):

  1. 覆盖人口(万人) - 正向指标 (↑): 中心能够辐射服务的核心人口数量。越大越好。
  2. 到达时间(分钟) - 负向指标 (↓): 从该城市中心到省内其他主要城市的最大交通时间(考虑高速公路和铁路)。越小越好(响应越快)。
  3. 建设成本(亿元) - 负向指标 (↓): 预估的土地、基建、设备等总投入成本。越小越好。
  4. 现有医疗基础(指数 1-10) - 正向指标 (↑): 评估该城市现有大型医院、专科医生、医疗设备等资源水平(专家打分)。越高越好。
  5. 灾害风险(等级 1-5) - 负向指标 (↓): 评估该城市遭受地震、洪水等重大自然灾害的风险等级(1=很低,5=很高)。越低越好。

建模目标: 使用TOPSIS方法对5个候选城市进行综合评估和排序,选出最优选址。

城市 覆盖人口 (↑) 到达时间 (↓) 建设成本 (↓) 现有医疗基础 (↑) 灾害风险 (↓)
C1 850 180 42 8 3
C2 720 150 38 7 2
C3 950 210 50 9 4
C4 680 120 35 6 1
C5 780 170 45 8 3
  1. 构建决策矩阵 X:

    • 如上表所示。
  2. 数据标准化(向量归一化):

    • 计算每个指标列所有数值的平方和,再开方得到分母。
    • 例如,覆盖人口列:
      • 平方和 = 850² + 720² + 950² + 680² + 780² = 722500 + 518400 + 902500 + 462400 + 608400 = 3,214,200
      • 分母 = sqrt(3,214,200) ≈ 1792.53
      • C1标准化值 r11 = 850 / 1792.53 ≈ 0.4742
    • 对其他指标重复计算,得到标准化矩阵 R (保留4位小数):

    | 城市 | 覆盖人口 | 到达时间 | 建设成本 | 现有医疗基础 | 灾害风险 | | :--- | :------: | :------: | :------: | :----------: | :------: | | C1 | 0.4742 | 0.4674 | 0.4707 | 0.4811 | 0.5000 | | C2 | 0.4016 | 0.3895 | 0.4259 | 0.4210 | 0.3333 | | C3 | 0.5299 | 0.5453 | 0.5604 | 0.5413 | 0.6667 | | C4 | 0.3793 | 0.3116 | 0.3922 | 0.3608 | 0.1667 | | C5 | 0.4351 | 0.4415 | 0.5043 | 0.4811 | 0.5000 |

  3. 确定指标权重(假设使用熵权法或其他方法得到):

    • 假设通过熵权法计算,得到各指标权重如下(过程略):
      • 覆盖人口 (W1) = 0.25
      • 到达时间 (W2) = 0.20
      • 建设成本 (W3) = 0.15
      • 现有医疗基础 (W4) = 0.30
      • 灾害风险 (W5) = 0.10
    • Σ Wj = 1。
  4. 构建加权标准化决策矩阵 V:

    • v_ij = w_j * r_ij
    • 例如,C1的覆盖人口:v11 = 0.25 * 0.4742 ≈ 0.1186
    • 计算所有值,得到矩阵 V (保留4位小数):

    | 城市 | 覆盖人口 | 到达时间 | 建设成本 | 现有医疗基础 | 灾害风险 | | :--- | :------: | :------: | :------: | :----------: | :------: | | C1 | 0.1186 | 0.0935 | 0.0706 | 0.1443 | 0.0500 | | C2 | 0.1004 | 0.0779 | 0.0639 | 0.1263 | 0.0333 | | C3 | 0.1325 | 0.1091 | 0.0841 | 0.1624 | 0.0667 | | C4 | 0.0948 | 0.0623 | 0.0588 | 0.1082 | 0.0167 | | C5 | 0.1088 | 0.0883 | 0.0756 | 0.1443 | 0.0500 |

  5. 确定正理想解(A+)和负理想解(A-):

    • 覆盖人口 (↑): 最大值 = max(0.1186, 0.1004, 0.1325, 0.0948, 0.1088) = 0.1325 (C3)
    • 到达时间 (↓): 最小值 = min(0.0935, 0.0779, 0.1091, 0.0623, 0.0883) = 0.0623 (C4)
    • 建设成本 (↓): 最小值 = min(0.0706, 0.0639, 0.0841, 0.0588, 0.0756) = 0.0588 (C4)
    • 现有医疗基础 (↑): 最大值 = max(0.1443, 0.1263, 0.1624, 0.1082, 0.1443) = 0.1624 (C3)
    • 灾害风险 (↓): 最小值 = min(0.0500, 0.0333, 0.0667, 0.0167, 0.0500) = 0.0167 (C4)
    • ∴ 正理想解 A+ = [0.1325, 0.0623, 0.0588, 0.1624, 0.0167]
    • 覆盖人口 (↑): 最小值 = min(...) = 0.0948 (C4)
    • 到达时间 (↓): 最大值 = max(...) = 0.1091 (C3)
    • 建设成本 (↓): 最大值 = max(...) = 0.0841 (C3)
    • 现有医疗基础 (↑): 最小值 = min(...) = 0.1082 (C4)
    • 灾害风险 (↓): 最大值 = max(...) = 0.0667 (C3)
    • ∴ 负理想解 A- = [0.0948, 0.1091, 0.0841, 0.1082, 0.0667]
  6. 计算各方案到PIS (D_i+)和NIS (D_i-)的距离:

    • 使用欧几里得距离公式。
    • C1到A+的距离 (D1+): sqrt( (0.1186-0.1325)² + (0.0935-0.0623)² + (0.0706-0.0588)² + (0.1443-0.1624)² + (0.0500-0.0167)² )
      = sqrt( (-0.0139)² + (0.0312)² + (0.0118)² + (-0.0181)² + (0.0333)² )
      = sqrt(0.000193 + 0.000973 + 0.000139 + 0.000328 + 0.001109) ≈ sqrt(0.002742) ≈ 0.0524
    • C1到A-的距离 (D1-): sqrt( (0.1186-0.0948)² + (0.0935-0.1091)² + (0.0706-0.0841)² + (0.1443-0.1082)² + (0.0500-0.0667)² )
      = sqrt( (0.0238)² + (-0.0156)² + (-0.0135)² + (0.0361)² + (-0.0167)² )
      = sqrt(0.000566 + 0.000243 + 0.000182 + 0.001303 + 0.000279) ≈ sqrt(0.002573) ≈ 0.0507
    • 同理计算其他城市的 D_i+ 和 D_i- (假设结果保留4位小数): | 城市 | D_i+ | D_i- | | :--- | :------- | :------- | | C1 | 0.0524 | 0.0507 | | C2 | 0.0482 | 0.0621 | | C3 | 0.0713 | 0.0421 | | C4 | 0.0639 | 0.0655 | | C5 | 0.0393 | 0.0601 |
  7. 计算各方案的相对接近度 C_i:

    • C_i = D_i- / (D_i+ + D_i-)
    • C1: C1 = 0.0507 / (0.0524 + 0.0507) ≈ 0.0507 / 0.1031 ≈ 0.4918
    • C2: C2 = 0.0621 / (0.0482 + 0.0621) ≈ 0.0621 / 0.1103 ≈ 0.5630
    • C3: C3 = 0.0421 / (0.0713 + 0.0421) ≈ 0.0421 / 0.1134 ≈ 0.3713
    • C4: C4 = 0.0655 / (0.0639 + 0.0655) ≈ 0.0655 / 0.1294 ≈ 0.5062
    • C5: C5 = 0.0601 / (0.0393 + 0.0601) ≈ 0.0601 / 0.0994 ≈ 0.6046
  8. 排序:

    • 根据 C_i 从大到小排序: | 排名 | 城市 | C_i | 解释 | | :--- | :--- | :------ | :----------------------- | | 1 | C5 | 0.6046 | 最优选择 | | 2 | C2 | 0.5630 | | | 3 | C4 | 0.5062 | | | 4 | C1 | 0.4918 | | | 5 | C3 | 0.3713 | |

结果分析与决策建议¶

  • 最优方案: 城市 C5 的相对接近度 C_i 最高(0.6046),被TOPSIS方法推荐为建设省级应急医疗中心的最佳选址。
  • 原因分析 (基于原始数据和权重):
    • C5在覆盖人口(780万,第二)、到达时间(170分钟,中等偏快)、建设成本(45亿,中等偏高)、现有医疗基础(8,良好)、灾害风险(3,中等)方面表现较为均衡,没有特别差的短板。
    • 它成功避开了C3的高成本、高风险和C4的低覆盖人口、较低医疗基础,同时也优于C1和C2的综合表现。
    • 虽然C4在到达时间(最快)、建设成本(最低)、灾害风险(最低)上表现突出,但其覆盖人口(最低)和现有医疗基础(最低)这两个权重较高的指标(W1=0.25, W4=0.30)严重拖累了它的综合评分。
    • 虽然C3在覆盖人口(最高)和现有医疗基础(最高)上表现最好,但其高建设成本(最高)、长到达时间(最长)和高灾害风险(最高)带来的巨大劣势(尤其建设成本W3=0.15,灾害风险W5=0.10),使其综合排名垫底。
  • 决策建议: 卫生部门应优先考虑在 C5 建设省级应急医疗中心。建议进一步对C5进行详细可行性研究,并关注其建设成本控制的优化空间。

灰色关联分析¶

主要用于分析系统中各因素之间的关联程度,特别适合于“贫信息”、“小样本” 的不确定系统(即“灰色系统”)

  1. “灰色”概念: 在系统论中,“黑”表示信息完全未知,“白”表示信息完全明确,“灰”则表示信息部分已知、部分未知。
  2. 关联度: GRA的核心是计算序列之间的关联度。它认为,如果两个因素(或序列)的变化趋势在系统发展过程中具有相对一致的方向、速度和幅度(即几何形状相似),那么它们之间的关联度就大;反之,关联度就小
  3. 量化比较: GRA通过特定的数据处理和公式计算,将这种序列间变化趋势的相似性量化为一个介于0到1之间的数值——灰色关联度。关联度越接近1,表明两个序列的变化趋势越同步,关联性越强;越接近0,则关联性越弱
  4. 综合评价与排序: 在多指标评价问题中,GRA通过计算每个待评价对象(方案)的序列与一个设定的理想参考序列(或负理想序列)之间的关联度,来综合反映该对象与理想状态的接近程度。最后根据关联度大小对所有对象进行排序,关联度最大的被认为是最优的

灰色关联分析的关键步骤¶

  1. 确定分析序列:

    • 参考序列(母序列,X0): 反映系统行为特征或评价基准的序列。在因素分析中,通常是主行为序列(如总产量);在综合评价中,通常是由各指标的最优值(正向指标取最大,负向指标取最小)或期望值构成的理想序列。X0 = (x0(1), x0(2), ..., x0(n))
    • 比较序列(子序列,Xi): 影响系统行为的因素序列或被评价对象的指标序列。Xi = (xi(1), xi(2), ..., xi(n)) (i=1, 2, ..., m)。每个比较序列代表一个因素或一个评价对象在所有指标上的值(通常需要先进行指标数据收集和整理)。
  2. 数据标准化(无量纲化):

    • 由于各指标(因素)通常具有不同的量纲和数量级,需要进行标准化处理以消除影响。常用方法:
      • 初值化: 每个序列的所有元素都除以该序列的第一个元素。xi'(k) = xi(k) / xi(1)
      • 均值化: 每个序列的所有元素都除以该序列的平均值。xi'(k) = xi(k) / mean(xi)
      • 区间相对化(常用):
        • 对于正向指标(越大越好):xi'(k) = [xi(k) - min(xi)] / [max(xi) - min(xi)]
        • 对于负向指标(越小越好):xi'(k) = [max(xi) - xi(k)] / [max(xi) - min(xi)]
    • 得到一个标准化后的参考序列 X0' 和比较序列 Xi'。
  3. 计算关联系数:

    • 计算比较序列 Xi' 在 每个点 k 上与参考序列 X0' 的关联系数 ξi(k): ξi(k) = [min min |x0'(k) - xi'(k)| + ρ * max max |x0'(k) - xi'(k)|] / [|x0'(k) - xi'(k)| + ρ * max max |x0'(k) - xi'(k)|]
    • 其中:
      • |x0'(k) - xi'(k)| 是第 k 个点上两个序列的绝对差。
      • min min |x0'(k) - xi'(k)| 是两级最小差。第一级最小差指 min |x0'(k) - xi'(k)|(固定 k,遍历 i 找最小差),第二级最小差指在 k=1 to n 上找这些最小差中的最小值。即全局最小绝对差。
      • max max |x0'(k) - xi'(k)| 是两级最大差。第一级最大差指 max |x0'(k) - xi'(k)|(固定 k,遍历 i 找最大差),第二级最大差指在 k=1 to n 上找这些最大差中的最大值。即全局最大绝对差。
      • ρ 是分辨系数,取值在 (0, 1) 之间,通常取 0.5。其作用是调节关联系数之间的差异大小,ρ 越小,关联系数间的差异越大,区分能力越强。
  4. 计算关联度:

    • 关联系数 ξi(k) 反映的是序列 Xi' 与 X0' 在 每个点 k 上的关联程度。为了得到序列整体的关联程度,需要计算平均值: ri = (1/n) * Σ(k=1 to n) ξi(k)
    • ri 就是比较序列 Xi 与参考序列 X0 的 灰色关联度。0 < ri <= 1。
  5. 关联度排序与分析:

    • 根据计算出的关联度 r1, r2, ..., rm 的大小进行排序。
    • 在因素分析中: 关联度越大,表明该因素 Xi 对参考因素 X0 的影响越大,是关键因素。
    • 在综合评价中: 关联度越大,表明该被评价对象 Xi 与理想参考对象 X0 越接近,综合表现越好。

应用例子:区域水资源利用效率综合评价¶

某省水利部门希望对省内7个主要地级市(A1-A7)的水资源利用效率进行综合评价和排序,为制定差异化水资源管理政策提供依据。选取了以下4个关键效率指标:

  1. X1:万元GDP用水量(立方米/万元) - 负向指标 (↓): 创造每万元GDP所消耗的水量,越低越好,反映经济用水效率。
  2. X2:农业灌溉水有效利用系数 - 正向指标 (↑): 衡量农业灌溉用水的有效利用程度,0到1之间,越高越好。
  3. X3:工业用水重复利用率(%) - 正向指标 (↑): 工业用水中重复利用部分所占比例,越高越好。
  4. X4:管网漏损率(%) - 负向指标 (↓): 城市供水管网中损失的水量比例,越低越好。

收集到的原始数据如下:

城市 X1: 万元GDP用水量 (↓) X2: 农业灌溉系数 (↑) X3: 工业重复利用率 (↑) X4: 管网漏损率 (↓)
A1 85 0.52 75 18
A2 68 0.58 82 15
A3 92 0.48 68 22
A4 78 0.55 78 16
A5 105 0.45 60 25
A6 62 0.61 85 12
A7 88 0.50 72 20

建模目标: 使用灰色关联分析法计算各城市水资源利用效率的综合得分(关联度),并进行排名。

  1. 确定参考序列(理想序列 X0):

    • 对于负向指标X1(万元GDP用水量)和X4(管网漏损率),理想值取 最小值。
    • 对于正向指标X2(农业灌溉系数)和X3(工业重复利用率),理想值取 最大值。
    • 从表中找出各指标的最优值:
      • X1_min = min(85, 68, 92, 78, 105, 62, 88) = 62 (A6)
      • X2_max = max(0.52, 0.58, 0.48, 0.55, 0.45, 0.61, 0.50) = 0.61 (A6)
      • X3_max = max(75, 82, 68, 78, 60, 85, 72) = 85 (A6)
      • X4_min = min(18, 15, 22, 16, 25, 12, 20) = 12 (A6)
    • ∴ 参考序列 X0 = [62, 0.61, 85, 12]
  2. 数据标准化(区间相对化):

    • 由于指标有正向有负向,使用区间相对化方法。
    • 公式:
      • 正向指标:xi'(k) = [xi(k) - min(xi)] / [max(xi) - min(xi)]
      • 负向指标:xi'(k) = [max(xi) - xi(k)] / [max(xi) - min(xi)]
    • 计算每个指标的最大最小值范围:
      • X1: min=62, max=105 → Range = 43
      • X2: min=0.45, max=0.61 → Range = 0.16
      • X3: min=60, max=85 → Range = 25
      • X4: min=12, max=25 → Range = 13
    • 标准化计算示例 (A1):
      • X1' (负向) = (105 - 85) / (105 - 62) = 20 / 43 ≈ 0.4651 (注:负向指标公式)
      • X2' (正向) = (0.52 - 0.45) / (0.61 - 0.45) = 0.07 / 0.16 = 0.4375
      • X3' (正向) = (75 - 60) / (85 - 60) = 15 / 25 = 0.6000
      • X4' (负向) = (25 - 18) / (25 - 12) = 7 / 13 ≈ 0.5385 (注:负向指标公式)
    • 同理计算所有城市标准化后的值。参考序列 X0 也需要标准化:
      • X0_X1' (负向) = (105 - 62) / 43 = 43 / 43 = 1.0000 (理想值是最小值62)
      • X0_X2' (正向) = (0.61 - 0.45) / 0.16 = 0.16 / 0.16 = 1.0000 (理想值是最大值0.61)
      • X0_X3' (正向) = (85 - 60) / 25 = 25 / 25 = 1.0000 (理想值是最大值85)
      • X0_X4' (负向) = (25 - 12) / 13 = 13 / 13 = 1.0000 (理想值是最小值12)
    • 标准化后的矩阵 (保留4位小数):

    | 城市 | X1' (↓) | X2' (↑) | X3' (↑) | X4' (↓) | 参考序列 X0' | | :--- | :-----: | :-----: | :-----: | :-----: | :--------------: | | A1 | 0.4651 | 0.4375 | 0.6000 | 0.5385 | [1,1,1,1] | | A2 | 0.8605 | 0.8125 | 0.8800 | 0.7692 | [1,1,1,1] | | A3 | 0.3023 | 0.1875 | 0.3200 | 0.2308 | [1,1,1,1] | | A4 | 0.6279 | 0.6250 | 0.7200 | 0.6923 | [1,1,1,1] | | A5 | 0.0000 | 0.0000 | 0.0000 | 0.0000 | [1,1,1,1] | | A6 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | [1,1,1,1] | | A7 | 0.3953 | 0.3125 | 0.4800 | 0.3846 | [1,1,1,1] |

    (注意:A5各项标准化值最低,A6各项标准化值最高且等于参考序列X0')

  3. 计算绝对差序列:

    • 计算每个比较序列 Ai' 在 每个指标 k 上与参考序列 X0' (即 [1,1,1,1]) 的绝对差:Δi(k) = |X0'(k) - Ai'(k)|
    • 结果 (Δi(k)):

    | 城市 | ΔX1 | ΔX2 | ΔX3 | ΔX4 | | :--- | :----- | :----- | :----- | :----- | | A1 | 0.5349 | 0.5625 | 0.4000 | 0.4615 | | A2 | 0.1395 | 0.1875 | 0.1200 | 0.2308 | | A3 | 0.6977 | 0.8125 | 0.6800 | 0.7692 | | A4 | 0.3721 | 0.3750 | 0.2800 | 0.3077 | | A5 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | | A6 | 0.0000 | 0.0000 | 0.0000 | 0.0000 | | A7 | 0.6047 | 0.6875 | 0.5200 | 0.6154 |

  4. 确定两级最小差和最大差:

    • 找出所有 Δi(k) 中的 最小值 (min min Δ) 和 最大值 (max max Δ)。
    • 从上面表格中:
      • 全局最小差 min min Δ = min(所有值) = 0.0000 (A6的所有指标差)
      • 全局最大差 max max Δ = max(所有值) = 1.0000 (A5的所有指标差)
  5. 计算关联系数:

    • 取分辨系数 ρ = 0.5。
    • 关联系数公式:ξi(k) = (min min Δ + ρ * max max Δ) / (Δi(k) + ρ * max max Δ) = (0.0000 + 0.5 * 1.0000) / (Δi(k) + 0.5 * 1.0000) = 0.5 / (Δi(k) + 0.5)
    • 计算示例 (A1, X1): ξA1(X1) = 0.5 / (0.5349 + 0.5) ≈ 0.5 / 1.0349 ≈ 0.4832
    • 计算所有关联系数 (保留4位小数):

    | 城市 | ξX1 | ξX2 | ξX3 | ξX4 | | :--- | :----- | :----- | :----- | :----- | | A1 | 0.4832 | 0.4706 | 0.5556 | 0.5200 | | A2 | 0.7819 | 0.7273 | 0.8065 | 0.6842 | | A3 | 0.4175 | 0.3810 | 0.4237 | 0.3942 | | A4 | 0.5732 | 0.5714 | 0.6410 | 0.6190 | | A5 | 0.3333 | 0.3333 | 0.3333 | 0.3333 | | A6 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | | A7 | 0.4525 | 0.4211 | 0.4902 | 0.4483 |

  6. 计算关联度:

    • 关联度 ri = (1/4) * (ξX1 + ξX2 + ξX3 + ξX4) (因为有4个指标)
    • 计算示例 (A1): rA1 = (0.4832 + 0.4706 + 0.5556 + 0.5200) / 4 ≈ 2.0294 / 4 ≈ 0.5074
    • 所有城市关联度:

    | 城市 | 关联度 (ri) | 计算过程 (Σξ/4) | | :--- | :--------- | :-------------------- | | A1 | 0.5074 | (0.4832+0.4706+0.5556+0.5200)/4 | | A2 | 0.7500 | (0.7819+0.7273+0.8065+0.6842)/4 | | A3 | 0.4041 | (0.4175+0.3810+0.4237+0.3942)/4 | | A4 | 0.6012 | (0.5732+0.5714+0.6410+0.6190)/4 | | A5 | 0.3333 | (0.33334)/4 | | A6 | 1.0000* | (1.00004)/4 | | A7 | 0.4530* | (0.4525+0.4211+0.4902+0.4483)/4 |

  7. 关联度排序与分析:

    • 根据关联度 ri 从大到小排序: | 排名 | 城市 | 关联度 (ri) | 解释 | | :--- | :--- | :--------- | :--------------------------------------- | | 1 | A6 | 1.0000 | 最优,与理想参考序列X0'完全一致 (所有关联系数=1) | | 2 | A2 | 0.7500 | 综合表现优秀,接近理想状态 | | 3 | A4 | 0.6012 | 综合表现良好 | | 4 | A1 | 0.5074 | 综合表现中等 | | 5 | A7 | 0.4530 | 综合表现中等偏下 | | 6 | A3 | 0.4041 | 综合表现较差 | | 7 | A5 | 0.3333 | 最差,与理想参考序列X0'差距最大 (所有关联系数最低) |
  • 最优城市: A6 的关联度高达 1.0000,意味着它在所有4个水资源利用效率指标上都达到了样本中的最优值(万元GDP用水量最低62,农业灌溉系数最高0.61,工业重复利用率最高85%,管网漏损率最低12%),是当之无愧的标杆城市。其数据也恰好构成了我们设定的参考序列。
  • 次优城市: A2 排名第二(关联度0.7500),表现也非常出色,尤其在万元GDP用水量(68,仅次于A6)和工业重复利用率(82%)方面接近最优。
  • 表现尚可城市: A4 排名第三(关联度0.6012),各项指标处于中上水平,没有明显短板。
  • 中下游城市: A1 和 A7 分别排第四、五位,关联度在0.45-0.51之间,存在提升空间。A1主要在农业灌溉系数(0.52)和万元GDP用水量(85)上落后;A7则在所有指标上都表现平平。
  • 落后城市: A3 和 A5 排名垫底(关联度<0.41),水资源利用效率问题突出。A5 是所有指标中最差的(万元GDP用水量高达105,农业灌溉系数最低0.45,工业重复利用率最低60%,管网漏损率最高25%),急需重点整治。A3 在农业灌溉系数(0.48)和管网漏损率(22%)上尤其薄弱。
  • 决策建议:
    • 推广 A6 的成功经验至全省。
    • 对 A2、A4 给予鼓励,支持其向A6看齐。
    • 对 A1、A7 进行针对性诊断,找出效率瓶颈(如A1的农业灌溉效率、A7的工业用水效率),提供技术和管理支持。
    • 将 A3 和 A5 列为水资源管理重点监控和帮扶对象,投入资源进行升级改造(如更新农业灌溉设施、推广工业节水技术、改造老旧管网)。对A5需采取最严厉的管控措施和最优先的改造计划。

线性规划¶

拉格朗日乘子法
f(x,y),g(x,y)=c
F(x,y,r)=f(x,y)+r(g(x,y)-c)
对xyr分别求导,等于0得驻点,带入目标函数得最值

matlab标准型:
min f(x)
s.t.{

  • A*x <= b  
    
  • Aeq*x = beq   
    
  • lb<=x<=ub   
    

}
[x,val]=linprog(f,A,b,Aeq,beq,lb,ub)
某一项不存在填[]
无穷+inf,-inf

整数规划¶

[x,val]=intlinprog(f,intcon,A,b,Aeq,beq,lb,ub)
intcon指定哪些参数取整

01规划¶

单目标,有或无,单下标
lb=0,ub=1

指派问题¶

多目标,先选再干,双下标

蒙特卡洛算法¶

非线性规划¶

目标函数或者约束有一个不是线性的(最高次幂不是一次)
[x,val]=fmincon(@f,x0,A,b,Aeq,beq,lb,ub,@nonlfun,option)

  • @f 引用定义在外部的目标函数
  • x0 初始值x0必须有,因为求出来的是局部最优解
  • option 表示求解所用的方法(interior-point 内点法,sqp 序列二次规范法,active-set 有效集法,trust-region-reflective 信赖域反射算法)
  • @nonlfun 调用一个定义在外部的非线性部分的约束(也可以定义在脚本内部)

示例¶

min f(x) = x(1)^2+x(2)^2+x(3)^2+8
s.t.{

  • -x(1)+x(2)-x(3) <= 0
  • x(1)+x(2)^2+x(3)^3-20 <= 0
  • -x(1)-x(2)^2+2 = 0

}

f1.m文件

function f=f1(x)  
    f = x(1)^2+x(2)^2+x(3)^2+8;  
end  

nonlfun1.m文件

function[c,ceq] = nonlfun(x)
    %c表示非线性不等约束
    c = [x(1)+x(2)^2+x(3)^3-20];
    %ceq表示非线性等式约束
    ceq = [-x(1)-x(2)^2+2];

[x,val]=fmincon(@f1,x0,A,b,[],[],[],[],@nonlfun1,option)

图论与最短路径¶

G(v(G),E(G)) V={},E={} 邻接矩阵

迪杰斯特拉算法(贪心) 对于负权值问题,无法解决,采用贝尔曼福特算法,弗洛伊德算法

[P,d] = shortestpath(G,start,end,['method',algorithm])

  • G 要求解的图
  • start
  • end
  • ['method',algorithm] 求解方法
    • 'auto' 默认自动选择
    • 'unweighted' 广度优先求解,适用无权图
    • 'positive' 迪杰斯特拉算法
    • 'mixed 贝尔曼福特算法
  • P 最短路径经过的结点序列
  • d 最短距离

网络最大流¶

(最大容量,当前负载)
可行流( 0 < x < 最大负载 , 平衡条件) 增广链
可行流是最大流的充要条件是找不到一条增广链

最大流解法Ford Fulkerson¶

(+V,∆)
+表示前向弧,-表示反向弧
∆表示改变量
对于发点记作(0,+∞)

[MaxFlow,FlowMatrix,Cut] = graphmaxflow(matrix,vs,vt)

  • matrix 要求解的有向图的稀疏矩阵
  • vs 起始节点
  • vt 目标节点
  • MaxFlow 最大流量
  • FlowMatrix 包含每条边所有流量值的稀疏矩阵
  • Cut 计算发点与终点的最小切割后连接到起点的逻辑行向量,如果有多个解则表示为一个矩阵

最小费用最大流问题¶

加反向弧

TSP¶

  • 改良圈算法
  • 整数规划求解

插值算法¶

  • 分段线性插值
  • 拉格朗日插值法
  • 牛顿插值法
  • 埃尔米特插值法
  • 样条插值法

分段三次埃尔米特插值算法¶

p = pchip(x,y,new_x)

  • x 已知样本点横坐标
  • y 已知样本点纵坐标
  • new_x 要插入处对应的横坐标
  • p 与new_x中的插入点对应的插值向量

三次样条插值法¶

p = spline(x,y,new_x)

二维插值¶

p = interp2(x,y,z,new_x,new_y,method)

  • method
    • 'linear'线性插值
    • 'cublic'三次插值
    • 'spline'三次样条插值
    • 'nearest'最近邻插值

n维插值时,把2换成对应的n

拟合算法¶

不一定要经过所有点,满足某种准则就可以
拟合工具箱

微分方程¶

以最高阶为微分方程的阶 通解,特解 根据题目的初始值求特解

dsolve('方程1','方程2',...,'方程n','初始条件')

  • syms y(x)
    • 定义符号变量,y(x)是关于x的函数
  • eq = y-diff(y , x) == 2*x
    • diff(y , x) 表示y对x的一阶导数
    • diff(y , x , 2) 表示y对x的二阶导数
  • dsolve(eq)
    • 求通解
  • dsolve(eq , y(0) == 3)
    • 求特解

只能求解简单的微分方程

示例:
syms y(x);
eq = diff(y,x,2) + 4 * diff(y,x) + 29 * y == 0;
Dy = diff(y,x);
conds = [y(0)==0,Dy(0)==1];
ySol(x) = dsolve(eq,conds);

非刚性问题:未知函数随自变量变化缓慢
刚性问题:未知函数随自变量变化剧烈
前者用ode45,后者用ode15s

[x,y]=ode45('函数名',[求解范围],[初值]) 通过函数名调用,定义为dydt = odefun(t,y)格式,即使只用了一个参数,也必须定义为接受两个参数的形式
微分方程必须定义为 y' = f(y1,y2,...,yn,x)的标准型

示例: y''+y+sin2x = 0 , 其中y在[Π,2Π] , y(Π)=1 , y'(Π)=1

function dydt = df4(x,y) dydt = zeros(2,1); dydt(1) = y(2); dydt(2) = -y(1)-sin(2x); end [x,y] = ode('df4',[pi,2pi],[1,1])

增长阻滞模型¶

鱼饵捕食者模型¶

传染病模型SI SSI SIR¶

时间序列¶

  • 加法模型
    • 移动平均法MA(求平均值)
      • 一次移动平均值
      • 二次移动平均值
    • 指数平滑法(越接近当期数据,权重越大)
  • 乘法模型
    • 适用于不含趋势和季节变化的数据

  • 趋势预测
    • 霍特线性趋势模型
      • 可以适用于趋势
      • 往往预测过度
    • 阻尼趋势模型

  • 季节性模型
    • 简单季节性模型

  • 季节性趋势模型
    • 霍特-温特季节性加法模型
    • 霍特-温特季节性乘法模型
      • 适用于有趋势和不稳定季节成分的数据
    • 霍特-温特季节性阻尼趋势模型

常见时间序列模型¶

时间序列的平稳性:与观测时间无关。周期性也是平稳的,趋势和季节性不是平稳的。满足三个条件。 平稳性评估:ACF自相关系数,PACF偏自相关系数
如果平稳,ACF和PCAF应该很快下降到0,并在0附近波动,否则ACF和PCAF会表现出明显的趋势和周期性
通过差分方程将不平稳数据变为平稳
滞后算子

  • 自回归模型AR(p)
  • 移动平均模型MA(q)
  • 自回归移动平均模型ARMA(p,q)
  • ARIMA(p,d,q)模型
    • 加入了I(差分方程),使数据变为稳定
  • SARIMA(p,d,q)模型
    • 加入了季节性趋势

判断阶数:MA:ACF q阶截尾,AR;PACF p阶截尾
为了判断ARMA模型的阶数,引入AIC和BIC准则
AIC赤池信息准则 = 2参数格式-2ln极大似然函数值
BIC贝叶斯信息准则 = ln样本个数
参数个数-2ln极大似然函数值
参数越多,拟合越好,可能过拟合,AIC和BIC就是为了寻求平衡的
BIC的惩罚力度更大,更简洁,二者都是越小越好
先预设最大阶数的范围,对每个阶数遍历,取AIC或BIC最小时的阶数

效果评估:对残差进行白噪声检验

聚类分析¶

最短距离系统聚类法
kmeans聚类
kmeans++
DBSCAN聚类

----------------¶

非线性规划¶

无约束问题¶

一维搜索¶

裴波那切法
0.618法(以0.618,代替斐波那契法每次不同的缩短率)

二次插值¶

求解极值¶

最速下降法
牛顿法
变尺度法 直接法(powell)

函数¶

[X,FVAL]=FMINUNC(FUN,X0,OPTIONS,P1,P2, ...)

  • X 所求得的极小点
  • FVAL 是函数的极小值
  • 当 FUN 只有一个返回值时,它的返回值是函数 f (x);当 FUN 有两个返回值时,它的第二个返回值是 f (x)的梯度向量;当 FUN 有三个返回值时,它的第三个返回值是 f (x)的二阶导数阵(Hessian 阵)
  • X0 向量 x 的初始值,
  • OPTIONS 是优化参数,可以使用缺省参数。
  • P1,P2 是可以传递给 FUN 的一些参数

[X,FVAL,EXITFLAG,OUTPUT]=FMINSEARCH(FUN,X0,OPTIONS,P1,P2,...)

有约束问题¶

库恩—塔克条件,是确定某点为最优点的必要条件,但并不是充分条件

二次规划¶

目标函数为自变量 x 的二次函数,约束条件又全是线性的,就称这种规划为二次规划 min 1/2xTHx+fTx
s.t.{ Ax<=b
Aeq*x=beq } H 是实对称矩阵, f ,b 是列向量, A 是相应维数的矩阵
[X,FVAL]= QUADPROG(H,f,A,b,Aeq,beq,LB,UB,X0,OPTIONS)

罚函数法

  • 利用问题中的约束函数作出适当的罚函数,由此构造出带参数的增广目标函数,把问题转化为无约束非线性规划问题。主要有两种形式外罚和内罚

函数¶

[X,FVAL] = FMINBND(FUN,x1,x2,OPTIONS)

min {F(x) | C(x) ≤ 0,Ceq(x) = 0, PHI(x,w) ≤ 0}
s.t.{ Aeq * x = Beq A * x <= B } X=FSEMINF(FUN,X0,NTHETA,SEMINFCON,A,B,Aeq,Beq)

  • NTHETA 是半无穷约束PHI(x,w)的个数;
  • 函数 SEMINFCON 用于定义非线性不等式约束C(x) ,非线性等式约束Ceq(x) 和半无穷约束 PHI(x,w)的每一个分量函数,函数 SEMINFCON 有两个输入参量 X 和 S,S 是推荐的取样步长,也许不被使用

X=FMINIMAX(FUN,X0,A,B,Aeq,Beq,LB,UB,NONLCON)

动态规划¶

在研究多阶段决策过程的优化问题时,把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法—动态规划
动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便
虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解
应指出,动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)
因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理
因此,在学习时,除了要对基本概念和方法正确理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解

排队论¶

排队过程由输入过程、排队规则、服务过程三部分组成

符号表示¶

X /Y / Z / A/ B /C

  • X 表示顾客到达流或顾客到达间隔时间的分布;
  • Y 表示服务时间的分布;
  • Z 表示服务台数目
  • A 是系统容量限制;
  • B 是顾客源数目;
  • C 是服务规则

我们只讨论先到先服务 FCFS的情形,所以略去第六项

  • M 指数分布( M 是 Markov 的字头,因为指数分布具有无记忆性,即 Markov性);
  • D 确定型(Deterministic);
  • Ek k 阶爱尔朗(Erlang)分布;
  • G 一般(general)服务时间的分布;
  • GI 一般相互独立(General Independent)的时间间隔的分布

例如, M / M /1表示相继到达间隔时间为指数分布、服务时间为指数分布、单服务台、等待制系统。

输入过程与服务时间的分布¶

最常用的分布有泊松分布、确定型分布,指数分布和爱尔朗分布

泊松流
期望和方差分别是 E[N(t)] = λt ; Var[N(t)] = λ 当输入过程是泊松流时,那么顾客相继到达的时间间隔T 必服从指数分布

Weibull 分布是双参数α,β 的非对称分布,记作W(α, β ) 。α = 1时蜕化为指数分布。

Beta 分布是区间(0,1) 内的双参数、非均匀分布,记作 B(α, β )

常用的连续型概率分布¶

均匀分布 正态分布 指数分布

常用的离散型概率分布¶

生灭系统¶

对策论¶

零和对策(矩阵对策)¶

G = {S1,S2;A}

A=[
12 -6 30 -22
14 2 18 10
-6 0 -10 16 ]
从 A 中可以看出,若局中人Ⅰ希望获得最大赢利 30,需采取策略α1,但此时若局中人Ⅱ采取策略 β 4 ,局中人Ⅰ非但得不到 30,反而会失去 22。为了稳妥,双方都应考虑到对方有使自己损失最大的动机
在最坏的可能中争取最好的结果
min{12,−6,30,−22} = −22
min{14,2,18,10} = 2
min{−6,0,−10,16} = −10
其中最好的可能为 max{−22,2,−10} = 2 。如果局中人Ⅰ采取策略α2 ,无论局中人Ⅱ采取什么策略,局中人Ⅰ的赢得均不会少于 2

局中人Ⅱ采取各方案的最大损失为
max{12,14,−6} = 14 , max{−6,2,0} = 2 ,max{30,18,−10} = 30 ,和 max{−22,10,16} =16
当局中人Ⅱ采取策略 β 2 时,其损失不会超过 2
注意到在赢得矩阵中,2 既是所在行中的最小元素又是所在列中的最大元素
此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减少损失,称这样的局势为对策的一个稳定点或稳定解
赢得矩阵的鞍点

极大极小原理
G = {S1,S2;A} ,记 μ = maxi minj aij ,ν = −minj maxi aij ,则必有μ +ν ≤ 0
零和对策G 具有稳定解的充要条件为 μ +ν = 0
当解不唯一时,解之间的关系具有下面两条性质:

  1. 无差别性:
  2. 可交换性:

零和对策的混合策略¶

μ +ν ≠ 0的情况

零和对策的线性规划解法¶

当m > 2 且n > 2时,通常采用线性规划方法求解零和对策问题

二人非常数和对策¶

常数和对策是指局中人I和局中人II所赢得的值之和为一常数
对于二人常数和对策,有纯策略对策和混合策略对策,其求解方法与二人零和对策是相同的

插值与拟合¶

插值:求过已知有限个数据点的近似函数
拟合:已知有限个数据点,求近似函数,不要求过已知数据点,只要求在某种意义下它在这些点上的总偏差最小

插值方法¶

拉格朗日多项式插值、牛顿插值、分段线性插值、Hermite 插值和三次样条插值

B 样条函数插值方法¶

既要求近似函数(曲线或曲面)有足够的光滑性,又要求与实际函数有相同的凹凸性
如果对于一个特殊函数进行磨光处理生成磨光函数(多项式),则用磨光函数构造出样条函数作为插值函数,既有足够的光滑性,而且也具有较好的保凹凸性

二维插值¶

z=interp2(x0,y0,z0,x,y,'method')
pp=csape({x0,y0},z0,conds,valconds),z=fnval(pp,{x,y})
插值节点为散乱节点
ZI = GRIDDATA(X,Y,Z,XI,YI)

拟合方法¶

线性最小二乘法 多项式拟合方法 选取函数,常用的曲线有 (i)直线 y = a1 x + a2 (ii)多项式 = a1 * xm + ... + am * x + am+1 (一般m = 2,3,不宜太高) (iii)双曲线(一支) y=a1 / x + a2 (iv)指数曲线 y = a1 * e^(a2 * x)

最小二乘优化¶

函数:lsqlin、lsqcurvefit、lsqnonlin、lsqnonneg

曲线拟合与函数逼近¶

与曲线拟合的最小二乘准则相对应,函数逼近常用的一种准则是最小平方逼近

图论¶

邻接矩阵表示法 关联矩阵表示法

最短路问题¶

迪克斯特拉(Dijkstra)算法

树¶

连通的无圈图叫做树,记之为T 若图G 满足V (G) =V (T ) , E(T ) ⊂ E(G) ,则称T 是G 的生成树。图G 连通的充分必要条件为G 有生成树 prim 算法构造最小生成树
Kruskal 算法构造最小生成树

匹配问题¶

人员分派问题:匈牙利算法 库恩—曼克莱斯(Kuhn-Munkres)算法

最大流¶

最小费用流¶

计划评审方法和关键路线法¶

数据统计描述与分析¶

握参数估计和假设检验
Matlab 的统计工具箱(Statistics Toolbox)

  1. 频数表和直方图

(i) 数据输入
(ii)作频数表及直方图
2. 统计量
3. 概率分布
(i)正态分布
(ii)卡方分布
(iii)t 分布
(iv) F 分布

Matlab 统计工具箱(Toolbox\Stats)中的概率分布

  • norm 正态分布;
  • chi2 卡方分布;
  • t t 分布
  • f F 分布

工具箱对每一种分布都提供 5 类函数,其命令的字符是:

  • pdf 概率密度;
  • cdf 分布函数;
  • inv 分布函数的反函数;
  • stat 均值与方差;
  • rnd 随机数生成

如:p=normpdf(x,mu,sigma) 均值 mu、标准差 sigma 的正态分布在 x 的密度函数(mu=0,sigma=1 时可缺省)

  1. 正态总体统计量的分布

用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。
当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量(均值、标准差)的分布才有便于使用的结果。
另一方面,现实生活中需要进行统计推断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的假定下研究统计量的分布,是必要的与合理的

参数估计

  • 点估计

用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、最小方差性、有效性等,估计的方法有矩法、极大似然法等。

  • 区间估计

置信区间

参数估计的 Matlab 实现
对于正态总体,命令是 [mu,sigma,muci,sigmaci]=normfit(x,alpha)

  • x 为样本(数组或矩阵)
  • alpha 为显著性水平α (alpha 缺省时设定为 0.05)
  • 返回总体均值 μ 和标准差σ 的点估计 mu 和 sigma
  • 总体均值 μ 和标准差σ 的区间估计muci 和 sigmaci

当 x 为矩阵时,x 的每一列作为一个样本

假设检验

方差分析¶

我们已经作过两个总体均值的假设检验,如两台机床生产的零件尺寸是否相等,病人和正常人的某个生理指标是否一样
如果把这类问题推广一下,要检验两个以上总体的均值彼此是否相等,仍然用以前介绍的方法是很难做到的
而你在实际生产和生活中可以举出许多这样的问题:从用几种不同工艺制成的灯泡中,各抽取了若干个测量其寿命,要推断这几种工艺制成的灯泡寿命是否有显著差异
用几种化肥和几个小麦品种在若干块试验田里种植小麦,要推断不同的化肥和品种对产量有无显著影响
可以看到,为了使生产过程稳定,达到优质、高产,需要对影响产品质量的因素进行分析,找出有显著影响的那些因素,除了从机理方面进行研究外,常常要作许多试验
对结果作分析、比较,寻求规律。用数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分析(Analysis Of Variance),记作 ANOVA
人们关心的试验结果称为指标,试验中需要考察、可以控制的条件称为因素或因子,因素所处的状态称为水平
上面提到的灯泡寿命问题是单因素试验,小麦产量问题是双因素试验
处理这些试验结果的统计方法就称为单因素方差分析和双因素方差分析

单因素方差分析
Matlab 统计工具箱中单因素方差分析的命令是 anoval
处理均衡数据的用法为:p=anoval(x)
处理非均衡数据的用法为:p=anova1(x,group)
多重比较

双因素方差分析
无交互影响的双因素方差分析 如果根据经验或某种分析能够事先判定两因素之间没有交互影响,每组试验就不必重复,即可令t = 1,过程大为简化 关于交互效应的双因素方差分析

统计工具箱中用 anova2 作双因素方差分析
p=anova2(x,reps)
数据非均衡的双因素方差分析的 Matlab 命令要使用多因素方差分析的命令anovan

正交试验设计与方差分析

回归分析¶

拟合:我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的
另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价
回归分析就是对拟合问题作的统计分析

具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量 y 与自变量 x1,x2,...,xm 之间的回归模型(经验公式)
(ii)对回归模型的可信度进行检验
(iii)判断每个自变量 xi 对 y 的影响是否显著
(iv)诊断回归模型是否适合这组数据
(v)利用回归模型对 y 进行预报或控制

微分方程¶

三级火箭模型
人口模型
正规战模型
游击战模型
混合战模型
废料桶模型

稳定状态模型¶

动态过程的变化规律一般要用微分方程建立的动态模型来描述,但是对于某些实际问题,建模的主要目的并不是要寻求动态过程每个瞬时的性态
而是研究某种意义下稳定状态的特征,特别是当时间充分长以后动态过程的变化趋势
譬如在什么情况下描述过程的变量会越来越接近某些确定的数值,在什么情况下又会越来越远离这些数值而导致过程不稳定
为了分析这种稳定与不稳定的规律常常不需要求解微分方程,而可利用微分方程稳定性理论,直接研究平衡状态的稳定性就行了

定义

  • 自治,自治系统
  • 相空间,相图

资源增长模型
资源开发模型
经济效益模型
种群竞争模型
Volterra 模型

常微分方程¶

建立微分方程只是解决问题的第一步,通常需要求出方程的解来说明实际现象,并加以检验
如果能得到解析形式的解固然是便于分析和应用的,但是我们知道,只有线性常系数微分方程,并且自由项是某些特殊类型的函数时,才可以得到这样的解
而绝大多数变系数方程、非线性方程都是所谓“解不出来”的,即使看起来非常简单的方程
于是对于用微分方程解决实际问题来说,数值解法就是一个十分重要的手段
所谓数值解法,就是求问题(1)的解 y(x) 在若干点a = x0 < x1 < x2 < ... < xn = b处的近似值 y (n 1,2, ,N) n = L 的方法

常微分方程的离散化
(i)用差商近似导数
(ii)用数值积分方法
(iii)Taylor 多项式近似

欧拉(Euler)方法
Euler 方法的误差估计
改进的 Euler 方法

龙格—库塔(Runge—Kutta)方法

线性多步法

一阶微分方程组与高阶微分方程的数值解法

初值问题的 Matlab 解法和符号解
Matlab 的工具箱提供了几个解非刚性常微分方程的功能函数,如 ode45,ode23,ode113
ode45 采用四五阶 RK 方法,是解非刚性常微分方程的首选方法
ode23采用二三阶 RK 方法
ode113 采用的是多步法,效率一般比 ode45 高。 Matlab 的工具箱中没有 Euler 方法的功能函数,自己编写

Matlab的工具箱提供了几个解刚性常微分方程的功能函数,如ode15s,ode23s,ode23t,ode23tb,这些函数的使用同上述非刚性微分方程的功能函数

差分方程¶

马氏链模型¶

随机过程的概念
一个随机试验的结果有多种可能性,在数学上用一个随机变量(或随机向量)来描述。在许多情况下,人们不仅需要对随机现象进行一次观测,而且要进行多次,甚至接连不断地观测它的变化过程。这就要研究无限多个,即一族随机变量。随机过程理论就是研究随机现象变化过程的概率规律性的。

马尔可夫链
某一系统在已知现在情况的条件下,系统未来时刻的情况只与现在有关,而与过去的历史无直接关系

动态优化模型¶

动态过程的另一类问题是所谓的动态优化问题,这类问题一般要归结为求最优控制函数使某个泛函达到极值。
当控制函数可以事先确定为某种特殊的函数形式时,问题又简化为求普通函数的极值。
求解泛函极值问题的方法主要有变分法和最优控制理论方法。

变分法

偏微分方程的数值解¶

只含有未知多元函数及其偏导数的方程,称之为偏微分方程
未知函数偏导数的最高阶数称为偏微分方程的阶
如果方程中对于未知函数和它的所有偏导数都是线性的,这样的方程称为线性偏微分方程,否则称它为非线性偏微分方程

偏微分方程的定解问题

偏微分方程的差分解法
基本思想是:
先对求解区域作网格剖分,将自变量的连续变化区域用有限离散点(网格点)集代替;将问题中出现的连续变量的函数用定义在网格点上离散变量的函数代替;通过用网格点上函数的差商代替导数,将含连续变量的偏微分方程定解问题化成只含有限个未知数的代数方程组(称为差分格式)。如果差分格式有解,且当网格无限变小时其解收敛于原微分方程定解问题的解,则差分格式的解就作为原问题的近似解(数值解)
(i)选取网格; (ii)对微分方程及定解条件选择差分近似,列出差分格式; (iii)求解差分格式; (iv)讨论差分格式解对于微分方程解的收敛性及误差估计。

一维状态空间的偏微分方程的 MATLAB 解法

二维状态空间的偏微分方程的 MATLAB 解法

偏微分方程的 pdetool 解法

多目标规划¶

线性规划的局限性
只能解决一组线性约束条件下,某一目标只能是一个目标的最大或最小值的问题
多个目标求解思路
(1)加权系数法
为每一目标赋一个权系数,把多目标模型转化成单一目标的模型。但困难是要确定合理的权系数,以反映不同目标之间的重要程度。
(2)优先等级法
将各目标按其重要程度不同的优先等级,转化为单目标模型。
(3)有效解法
寻求能够照顾到各个目标,并使决策者感到满意的解。由决策者来确定选取哪一个解,即得到一个满意解。但有效解的数目太多而难以将其一一求出

正、负偏差变量
绝对(刚性)约束和目标约束
优先因子(优先等级)与权系数

求解目标规划的序贯式算法
序贯式算法是求解目标规划的一种早期算法,其核心是根据优先级的先后次序,将目标规划问题分解成一系列的单目标规划问题,然后再依次求解

包络分析¶

多指标输入和多指标输出的问题
数据包络分析的(C^2)R模型

模糊数学¶

模糊集和隶属函数
模糊集的表示方法
模糊集的运算
隶属函数的确定方法
模糊关系 模糊矩阵
模糊矩阵的性质和运算

模糊模式识别
贴近度:对两个模糊集接近程度的一种度量
格贴近度
模糊模式识别规则:一是直接方法,按“最大隶属原则”归类,主要应用于个体的识别;另一是间接方法,按“择近原则”归类,一般应用于群体模型的识别

模糊聚类
模糊等价矩阵
模糊相似矩阵
模糊聚类分析法的步骤:1.标准化 2.建立模糊相似矩阵 3.聚类

模糊决策:研究在模糊环境下或者模糊系统中进行决策的数学理论和方法。模糊决策的目标是把决策论域中的对象在模糊环境下进行排序,或按某些模糊限制条件从决策域中选择出最优对象
模糊综合评价
多目标模糊综合评价
多层次模糊综合评价
模糊多属性决策

现代优化算法¶

模拟退火算法
遗传算法
禁忌搜索算法
改进的遗传算法
matlab遗传算法工具
蚁群算法

时间序列模型¶

时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列

时间序列根据所研究的依据不同,可有不同的分类

  1. 按所研究的对象的多少分,有一元时间序列和多元时间序列
  2. 按时间的连续性可将时间序列分为离散时间序列和连续时间序列两种
  3. 按序列的统计特性分,有平稳时间序列和非平稳时间序列

如果一个时间序列的概率分布与时间t 无关,则称该序列为严格的(狭义的)平稳时间序列
如果序列的一、二阶矩存在,而且对任意时刻t 满足:
(1)均值为常数
(2)协方差为时间间隔τ 的函数
则称该序列为宽平稳时间序列,也叫广义平稳时间序列
我们以后所研究的时间序列主要是宽平稳时间序列
4. 按时间序列的分布规律来分,有高斯型时间序列和非高斯型时间序列

时间序列分析方法概述
一个时间序列往往是以下几类变化形式的叠加或耦合
(1)长期趋势变动:时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势
(2)季节变动
(3)循环变动:周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动
(4)不规则变动通常它分为突然变动和随机变动
常见的时间序列模型有以下几种类型:
(1)加法模型
(2)乘法模型
(3)混合模型

移动平均法 是根据时间序列资料逐渐推移,依次计算包含一定项数的时序平均数,以反映长期趋势的方法
当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析、预测序列的长期趋势
移动平均法有简单移动平均法,加权移动平均法,趋势移动平均法等

简单移动平均法:适合做近期预测,而且是预测目标的发展趋势变化不大的情况
加权移动平均法:近期数据包含着更多关于未来情况的信息。因此对近期数据给予较大的权重
趋势移动平均法:在时间序列有明显的趋势变动时,需要进行修正,修正的方法是作二次移动平均,利用移动平均滞后偏差的规律来建立直线趋势的预测模型
二次移动平均:在一次移动平均的基础上再进行一次移动平均
趋势移动平均法对于同时存在直线趋势与周期波动的序列,是一种既能反映趋势变化,又可以有效地分离出来周期变动的方法

指数平滑法
二次及更高次移动平均数的权数次数越高,权数的结构越复杂,但永远保持对称的权数,即两端项权数小,中间项权数大,不符合一般系统的动态性。
一般说来历史数据对未来值的影响是随时间间隔的增长而递减的。
所以,更切合实际的方法应是对各期观测值依时间顺序进行加权平均作为预测值。
指数平滑法可满足这一要求,而且具有简单的递推形式。
指数平滑法根据平滑次数的不同,又分为一次指数平滑法、二次指数平滑法和三次指数平滑法等

一次指数平滑法

  • 预测模型
  • 加权系数的选择
  • 初始值的确定

二次指数平滑法
一次指数平滑法虽然克服了移动平均法的缺点。但当时间序列的变动出现直线趋势时,用一次指数平滑法进行预测,仍存在明显的滞后偏差。因此,也必须加以修正。
修正的方法与趋势移动平均法相同,即再作二次指数平滑,利用滞后偏差的规律建立直线趋势模型

三次指数平滑法 当时间序列的变动表现为二次曲线趋势时,则需要用三次指数平滑法。三次指数平滑是在二次指数平滑的基础上,再进行一次平滑

差分指数平滑法
从数据变换的角度来,运用指数平滑法以前先对数据作一些技术上的处理,使之能适合于一次指数平滑模型,以后再对输出结果作技术上的返回处理,使之恢复为原变量的形态
差分方法是改变数据变动趋势的简易方法

一阶差分指数平滑法
二阶差分指数平滑模型

自适应滤波法
它要寻找一组“最佳”的权数,其办法是先用一组给定的权数来计算一个预测值,然后计算预测误差,再根据预测误差调整权数以减少误差。这样反复进行,直至找出一组“最佳”权数,使误差减少到最低限度

趋势外推预测方法
根据事物的历史和现时资料,寻求事物发展规律,从而推测出事物未来状况的一种比较常用的预测方法。利用趋势外推法进行预测,主要包括六个阶段:
(a)选择应预测的参数;(b)收集必要的数据;(c)利用数据拟合曲线;(d)趋势外推;(e)预测说明;(f)研究预测结果在进行决策中应用的可能性。
趋势外推法常用的典型数学模型有:指数曲线、修正指数曲线、生长曲线、包络曲线等

平稳时间序列
平稳是指宽平稳,其特性是序列的统计特性不随时间的平移而变化,即均值和协方差不随时间的平移而变化
平稳性检验及自协方差函数、自相关函数的估计
ARMA 时间序列及其特性
1)AR 模型,即自回归序列
2)MA 序列,即滑动平均序列
3)ARMA 序列,即自回归滑动平均序列
ARMA 序列的相关特性

ARMA 时间序列的建模与预报

  1. 首先要进行模型的识别与定阶,即要判断是AR( p), MA(q) ,ARMA( p, q) 模型的类别,并估计阶数 p, q
  2. 对模型参数 ϕ,θ 进行估计
  3. 对模型进行检验,即要检验 t ε 是否为平稳白噪声

ARMA 序列参数的矩估计
ARMA( p, q) 序列参数的逆函数估计法
ARMA( p, q) 序列参数的最小二乘估计
ARMA 序列参数的精估计
ARMA 模型的定阶与检验(AIC 准则)
平稳线性最小均方预报
ARMA( p, q) 序列的预报

ARIMA 序列与季节性序列
趋势性、季节性与非平稳性

异方差性

灰色系统¶

关联分析
优势分析
生成数
灰色模型 GM
灰色预测
利用 GM 模型对系统行为特征的发展变化规律进行估计预测
灰色预测的方法与步骤
道路交通事故灰色 Verhulst 预测模型
目前应用较多的灰色预测模型是 GM(1,1)模型、灰色马尔可夫预测模型
GM(1,1)模型适用于具有较强指数规律的序列,只能描述单调的变化过程
灰色马尔可夫预测模型的应用难点是如何进行状态划分
故对于非单调的摆动发展序列或具有饱和状态的 S 形序列, Verhulst 模型,GM(2,1)模型等更适用。
Verhulst 模型主要用来描述具有饱和状态的过程,即 S 形过程,常用于人口预测、生物生长、繁殖预测及产品经济寿命预测等

GM(2,1)和 DGM 模型
GM(1,1)模型适用于具有较强指数规律的序列,只能描述单调的变化过程,对于非单调的摆动发展序列或有饱和的 S 形序列,可以考虑建立 GM(2,1),DGM 和 Verhulst模型
GM(1, N) 和GM(0, N) 模型

总结 传统统计方法与灰色预测法的比较

多元分析¶

聚类¶

相似性度量 系统聚类法 变量聚类法

主成分分析¶

因子分析¶

判别分析¶

根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法

典型相关分析¶

对应分析¶

多维标度法¶

偏最小二乘回归分析¶

在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系
并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量)
除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法
偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,
用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点
偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点
因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息

存贮论¶

无约束的确定型存贮模型
有约束的确定型存贮模型
单周期随机库存模型
需求量是随机的。随机需求模型可以分为周期观测与连续观测两类。周期观测模型又可分为单周期、多周期及无穷周期等模型

经济与金融中的优化问题¶

生产与服务运作管理中的优化问题¶

支持向量机¶

支持向量分类机的基本原理 支持向量回归机

作业计划¶