!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!

 💕💕作者:优创学社
💕💕个人简介:本人在读博士研究生,拥有多年程序开发经验,辅导过上万人毕业设计,支持各类专业;如果需要论文、毕设辅导,程序定制可以联系作者
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。

基于决策树和聚类分析的古代玻璃成分分析与鉴别

摘要

古代玻璃易受埋藏环境的影响而风化,风化程度的不同,导致其化学成分比例发生不同程度的改变。本文通过建立玻璃分类模型、风化预测模型,利用统计学习方法,对玻璃类型的鉴别以及风化程度的判断进行分析,并对玻璃类型进行亚类划分。

问题求解前,对附件进行数据预处理。对于表单2,需要把比例和不在有效范围内的15、17号剔除,对其中的空值用0填充,并对数据归一化处理;对于表单三,采取同表单2一样的预处理;对于表单1,颜色维度存在空值,利用表单2数据,采用聚类分析,对空值进行填充。

针对问题一,本文基于频数为统计信息,以建立在误差消减理论

系数测定法[3]为衡量相关性大小的指标,得出纹饰、颜色与表面风化在总体上不存在相关关系,而类型与表面风化存在弱相关关系,且总体上是显著存在的;采用决策树算法,结合玻璃类型,总结出表面有无风化的统计规律;以玻璃类型、纹饰、颜色三个维度为指标,采用加权求和,计算出风化点和所有未风化点的相似度,再将归一化后的相似度与对应的化学成分比例加权求和,得出风化点风化前的化学成分占比预测值,如风化前二氧化硅百分比预测值分布在[56%,69%],详细结果见表10和附录5。

针对问题二,基于决策树算法分析高钾、铅钡玻璃的分类规律,得知当氧化铅占比

0.016时,该文物为高钾玻璃,反之为铅钡玻璃;只用单因素分类,模型的容错率不高,需利用将氧化铅剔除后的决策树再次分类,验证分类结果,提高模型容错率。亚类划分是无标记分类问题,先利用方差分析,选取方差大且方差贡献率达到80%以上的五类化学成分作为特征值,选用层次聚类方法进行分类;参照岩石风化分类[4],亚类划分可分为四类:无风化、微风化、中风化以及强风化。文物中的部分化学成分会根据风化程度出现递减或递增的变化趋势,且各亚分类在数值上有明显的层次性,推定该亚类划分是合理的。最后,通过添加扰动进行了敏感性分析,模型结果表明分类结果是可靠的

针对问题三,利用问题2的玻璃分类模型,对表3依据其化学成分比例进行玻璃类型分类和亚分类,结果为:A1、A6、A7为高钾玻璃,其中A1细分为中风化;A6细分为强风化,A7细分为强风化;A2、A3、A4、A5、A8为铅钡玻璃,其中,A2、A3细分为中风化;A4、A5、A8细分为无风化。最后,对总体施加-1%~1%,-5%~5%,-10%~10%的随机扰动值,经过1000次实验,得到在-1%~1%的误差范围内稳定,在-5%~5%的误差范围内较为稳定,当误差达到-10%~10%时,模型的分类结果就不太稳定了。

针对问题四,对数据进行正态性检验,发现大部分化学成分不符合正态分布,故而选用Spearman相关系数作为衡量两化学成分之间相关性程度的指标,并进行显著性检验,检验变量之间是否存在相关性。发现在一个类别中表现为正相关的两类化学物质,在另一个类别中可能表现为负相关最后,利用Friedman检验对相关系数矩阵进行检验,来衡量两类别化学成分关联关系的差异性。结果表明原分类之间化学成分关系存在显著性差异,而本文所划分的亚分类之间不存在显著性差异。

关键词:

系数测定法;决策树;聚类分析;卡方检验;Friedman检验

目录

一、 引言..................................................................................................................... 1

1.1 研究背景............................................................................................................. 1

1.2 数据情况............................................................................................................. 1

1.3 问题提出............................................................................................................. 1

二、 研究思路............................................................................................................. 2

2.1 问题一的分析..................................................................................................... 2

2.2 问题二的分析..................................................................................................... 2

2.3 问题三的分析..................................................................................................... 3

2.4 问题四的分析..................................................................................................... 3

三、 符号说明............................................................................................................. 3

四、 模型的建立与问题求解..................................................................................... 3

4.1 数据预处理......................................................................................................... 3

4.1.1 表单2的预处理......................................................................................... 4

4.1.2 表单1的预处理......................................................................................... 4

4.1.3 表单3的预处理......................................................................................... 5

4.2 问题一模型的建立与求解................................................................................. 6

4.2.1 关联性分析................................................................................................. 6

4.2.2 显著性检验................................................................................................. 7

4.2.3 基于决策树算法分析有无风化化学成分含量的统计规律..................... 8

4.2.4 预测其风化前的化学成分含量............................................................... 10

4.3 问题二模型的建立与求解............................................................................... 11

4.3.1 基于决策树算法的玻璃分类.................................................................... 11

4.3.2 基于层次聚类分析的玻璃亚类划分....................................................... 13

4.3.3 亚类划分模型........................................................................................... 15

4.3.4 划分结果的合理性和敏感性分析........................................................... 16

4.4 问题三模型的求解........................................................................................... 17

4.4.1 基于问题二划分模型的玻璃文物分类................................................... 17

4.4.2 敏感性分析............................................................................................... 18

4.5 问题四模型的求解........................................................................................... 18

4.5.1 基于Spearman相关系数的相关性分析................................................. 18

4.5.2 差异性分析............................................................................................... 24

五、 参考文献........................................................................................................... 26

六、 附录................................................................................................................... 27

玻璃是中西方早期贸易往来的宝贵物证,在生活中具有重要的使用价值。玻璃在炼制时,需要添加助熔剂,添加的助熔剂不同,导致其主要化学成分也不同。埋藏环境易于对玻璃产生风化影响,从而使得玻璃的内部元素成分比例发生改变,进而影响对玻璃所属类别的正确判断。表面标记为无风化的文物,其局部可能存在风化点;部分风化的文物,其表面也存在风化点。因此探究古代玻璃制品风化前和风化后的化学成分变化,对判断玻璃所属类型和对玻璃进行分类有重要意义。

    1. 数据情况

数据集来源于kaggle网站,是关于我国古代玻璃制品的相关数据,考古工作者依据这些文物样品的化学成分和其他检测手段已将其分为高钾玻璃和铅钡玻璃两种类型。附件表单 1 给出了这些文物的分类信息,附件表单 2 给出了相应的主要成分所占比例(空白处表示未检测到该成分)。这些数据的特点是成分性,即各成分比例的累加和应为 100%,但因检测手段等原因可能导致其成分比例的累加和非 100%的情况。本题中将成分比例累加和介于 85%~105%之间的数据视为有效数据。

附件数据的解释:

  1. 表单 1 玻璃文物的基本信息
  2. 表单 2 已分类玻璃文物的化学成分比例,其中

(1) 文物采样点为该编号文物表面某部位的随机采样,其风化属性与附件表单 1 中相应文物一致。

(2) 部位 1 和部位 2 是文物造型上不同的两个部位,其成分与含量可能存在差异。

(3) 未风化点是风化文物表面未风化区域内的点。

(4) 严重风化点取自风化层。

  1. 表单 3 未分类玻璃文物的化学成分比例
    1. 问题提出

根据所给的玻璃文物基本信息以及已分类与未分类玻璃文物的化学成分比例数据,解决下列问题:

(1)分析玻璃文物的表面风化与其类型、纹饰和颜色的相关性;结合玻璃类型,对文物样品表面有无风化化学成分含量进行量化统计,寻找其存在的数量规律,并根据附件数据,预测风化点风化前的化学成分含量。

(2)探寻分类高钾玻璃和铅钡玻璃存在的规律,再对其中每个类别,选取合适的特征值,进而对其进行亚类划分,最后,分析分类模型的敏感性。

(3)利用问题二的分类模型,对表单3中未知类型的文物进行分类,并分析分类结果的敏感性。

(4)对不同类别的玻璃文物的化学成分,分析当中存在的关联关系,并对不同类别之间的化学成分关联关系的差异性进行比较。

更多项目:

另有10000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!

!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐