数据挖掘中分类属性数据的聚类研究

数据挖掘中分类属性数据的聚类研究

一、数据挖掘中分类属性数据聚类研究(论文文献综述)

高晓楠[1](2021)在《面向决策支持的分类属性数据深度无监督挖掘研究》文中研究说明数据驱动的决策支持是管理决策过程的重要环节,包含三个核心阶段:决策空间表征、决策分析过程和决策结果评价。结构化的未标记分类属性数据是决策支持过程中面临的主要数据类型之一,具有属性取值为枚举型,不可微且无法进行代数运算的特点,导致面向此类型数据的已有挖掘方法存在数据间关系度量不精准的缺陷,影响挖掘结果准确性。由此,目前针对分类属性数据的决策支持过程面临着有效分析方法匮乏等困境,仅能选择少数且挖掘效果有限的方法,限制了最终管理决策过程的正确性和科学性。深度学习理论在结构化的数值属性数据和非结构化数据的无监督挖掘中取得了显着优于传统数据挖掘方法的成果,为解决分类属性数据无监督挖掘问题提供了新的研究思路。本文面向决策支持过程的三个核心阶段,将深度学习相关理论引入分类属性数据无监督挖掘研究中,提出分类属性数据深度无监督挖掘系列方法,解决传统方法无法有效处理的分类属性数据无监督挖掘难点,为面向分类属性数据的决策支持过程提供理论支撑及有效解决方案。本文研究主要解决如下三个实际问题:(1)决策空间表征阶段,将待分析数据从原始特征空间映射到决策空间中,获得其决策空间表征,以便更好地服务于后续分析过程。对于分类属性数据,现有方法难以深入挖掘数据的潜在特征,导致无法获得能够准确反映数据间关系的决策空间表征,影响决策分析过程的准确性。(2)决策分析过程阶段,基于待分析数据的决策空间表征,选择或开发合适的分析方法,从中发现潜在有用的知识模式,为管理决策提供高质量的方案支持。对于分类属性数据,现有方法难以精准度量数据间关系,造成基于此类型数据的决策分析结果准确性较差。(3)决策结果评价阶段,对决策分析结果的有效性进行定量评价,并从中识别出最优结果,以确保依据科学的分析结果支持管理决策过程。对于分类属性数据,现有方法未充分衡量决策分析结果中全部相关信息的有效性,影响评价结果的准确性,难以保证决策支持过程的科学性。基于上述实际问题,本文开展面向决策支持的分类属性数据深度无监督挖掘研究,主要创新性成果包括:(1)提出面向决策空间表征的分类属性数据深度特征学习方法,借鉴深度无监督特征学习和网络嵌入基本思想,能够深入挖掘分类属性数据中隐含的实际意义及其相关关系,并将其显示地表达在决策空间表征中,为决策支持过程奠定数据基础。现有相关研究存在分类属性数据潜在特征挖掘能力不足及特征学习结果受参数影响敏感的缺陷,并且受制于分类属性数据不可微且不可进行代数运算的限制,深度学习方法无法直接应用于分类属性数据挖掘。本文将结构化的分类属性数据转化为网络数据,打破应用深度学习相关方法解决分类属性数据挖掘问题的障碍,能够获得蕴含着原始分类属性数据潜在有用信息的决策空间表征,为后续决策分析过程提供数据基础。(2)提出面向决策分析过程的分类属性数据深度聚类方法,借鉴深度聚类和网络嵌入基本思想,能够充分挖掘分类属性数据间关系,获得更加精确的聚类划分结果,为决策支持过程处理分类属性数据提供有效的分析方法。现有相关研究存在分类属性数据间关系度量不精准影响聚类结果准确性的不足。本文基于深度聚类和网络嵌入基本思路,构建并融合聚类目标和特征学习目标,可以更精准地度量分类属性数据间关系,提升此类型数据的聚类划分效果,为决策支持过程中分析分类属性数据提供更准确的挖掘方法。(3)提出面向决策结果评价的分类属性数据聚类内部有效性评价指标,能够深入衡量分类属性数据聚类结果中数据对象间的细节分布信息,得到更准确的聚类评价结果,适用于具有深度特征的深度聚类结果评价任务,为科学地支持管理决策过程提供保障。现有相关研究基于分类属性取值的独立性假设,仅能衡量聚类结果中类的整体表现,忽略了数据对象的细节分布情况。本文通过构建符合距离定义的分类属性数据距离度量,结合具有设计优势的评价框架,能够尽可能考虑聚类结果中的全部细节分布信息,更加精确地对分类属性数据聚类结果进行评价,保障决策支持过程的科学性。(4)建立面向决策支持的分类属性数据深度无监督挖掘系列方法,可以作为一整套解决方案处理决策支持过程中面临的未标记分类属性数据。应用本文提出的分类属性数据深度特征学习方法、深度聚类方法、聚类内部有效性评价指标,支持某数据科学领域企业的人才招聘决策过程,将人才数据细分到不同类中,识别出最优人才细分结果,通过分析各类别人才特征,总结出支持人才招聘决策的管理建议,表明本文研究成果能够作为一整套解决方案用于面向未标记分类属性数据的决策支持过程。

田真真[2](2020)在《基于耦合度量的多尺度聚类挖掘方法》文中进行了进一步梳理随着多尺度数据挖掘领域研究的深入,多尺度分析在遥感图像识别、疾病检测、故障诊断以及聚类分析等领域的应用越来越成熟。然而已有的多尺度数据挖掘主要是针对数值型数据集进行定量分析与预测,对具有多尺度分类属性型数据集研究很少,尤其对于非独立同分布的分类型数据集的内在相似性度量没有得到实质性的解决。论文结合多尺度聚类数据挖掘理论与相似性度量方法,从多尺度聚类数据挖掘任务入手,构造分类属性型多尺度数据集聚类模型;利用无监督耦合度量相似性方法,提出针对非独立同分布的分类属性型数据集的基准尺度聚类挖掘算法;依据层次聚类中凝聚层次聚类思想及Lanczos插值理论,构建尺度转换模型,有效降低多尺度聚类数据挖掘中的尺度效应。本文以非独立同分布的分类属性型多尺度数据集为研究核心进行聚类分析,完成的工作主要包括以下几个方面:(1)研究分类属性型数据集的多尺度聚类理论基础。以耦合度量相似性理论为基础,通过综合考虑属性内和属性间的相似性,提出用于分类属性型数据集的多尺度聚类方法,将多尺度聚类方法扩展到分类型数据领域,完善多尺度聚类方法,为后续分类型数据集的多尺度聚类分析提供理论基础。(2)构建基于耦合度量的多尺度聚类算法框架。基于耦合度量相似性方法提出用于分类属性型数据集的多尺度聚类挖掘方法。首先,对非独立同分布的分类型数据集进行预处理;然后,基于尺度划分及基准尺度选择方法选择最合适的基准尺度;最后,结合耦合度量相似性方法构建多尺度聚类体系结构。(3)提出多尺度聚类算法。结合数据集划分与基准尺度选择方法,提出基于耦合度量的基准尺度聚类方法;基于凝聚层次聚类思想,提出多尺度聚类尺度上推算法;分析Lanczos插值的实质,从不同层面考虑已知样本点对待估样本的贡献率,结合基于三次卷积的尺度上推思想,提出多尺度聚类尺度下推算法。(4)验证与分析基于耦合度量的多尺度聚类算法。利用UCI和Kaggle公共数据集以及H省真实全员人口数据集对本文提出的算法和模型进行验证与分析。以CMS、IOF、HM等相似性度量方法与谱聚类相结合为对比算法进行实验。结果表明,构建的基于耦合度量的基准尺度聚类算法、基于单链的尺度上推算法和基于Lanczos插值的尺度下推算法在尺度转换过程中,在NMI、MSE和F-score等指标中分别有不同程度的提高,且具有较短的运行时间。实验证明,所提出的基于耦合度量的多尺度聚类算法具有有效性和可行性。

严宣辉[3](2019)在《符号数据核学习方法的研究与应用》文中认为在现实世界的应用中,通常包含大量复杂类型的数据,其中符号数据(Symbolic Data)是很典型的一种数据类型。在过去的三十多年间,数据挖掘和机器学习许多领域的研究都取得了长足的发展和进步,但绝大多数集中于对数值型数据的分析,如何对符号数据进行有效的分析并服务于实际应用,是目前数据挖掘和机器学习领域亟待加强研究的重要问题之一。在机器学习与数据挖掘领域,对符号数据的主流分析方法是改进已成功应用于数值型数据的现有算法。由于符号数据的取值通常没有数字或序数意义,这个特点决定了其无法直接应用适用于数值型数据的距离、内积、均值和中心等度量工具,因此广泛应用于数值型数据的机器学习和数据挖掘算法,如K-Means、DBSCAN、KNN和SVM等,均无法直接应用于符号数据分析,这使得符号数据的分析和挖掘相对于数值型数据更为困难,也更具有挑战性。本文结合“核平滑”与“Mercer核”两种核学习方法,构建符号数据分析与挖掘的核学习框架,开展符号数据的分类分析、聚类分析和稀有类挖掘问题的研究,提出了解决符号数据相似/相异性度量、内积计算、Mercer核映射、簇中心表示和聚类数目估计等若干基础性、关键性问题的新方法。论文的主要研究内容包括:首先,针对符号数据的概率分布估计问题,本文基于核平滑方法建立符号数据的核估计模型,证明了核概率一致估计的充分条件,给出了核带宽最优估计方法,为进一步开展符号数据分析的相关研究提供了理论与模型基础。其次,针对符号数据的相似性度量和内积计算问题,提出核数据自表达空间转换模型KDTM,定义了新的符号数据内积、相似性和距离度量方法,并进行理论性质的深入分析。这些成果具有普遍性意义,为解决符号数据分析的相似性/相异性度量这一基础性问题给出了新途径。第三,开展面向符号数据非线性分类的研究。基于新的符号数据内积和距离计算方法,提出了符号数据Mercer核计算问题的有效解决方案,设计并实现了符号数据非线性分类算法SVM-S,在多个数据集的测试表明SVM-S算法具有很好的分类效果。第四,针对符号数据聚类、簇中心表示和聚类数目估计等问题,应用核学习模型定义了一种以贝叶斯型概率表示的符号数据簇中心表示法,解决了无法以均值来表示符号数据簇中心的难题。接着提出面向符号数据的软子空间聚类算法KCC,并给出一种新的聚类有效性指标,用以评价算法的聚类质量以及确定数据集的聚类数目,充分的测试表明KCC算法具有良好的聚类效果和时间性能。第五,开展符号数据稀有类挖掘问题的研究。将核学习方法应用于符号数据的稀有类检测(RCD)问题,提出基于符号频率差异的距离度量方法FDDM,对于不平衡符号数据集的挖掘具有特别的意义,并提出基于数据密度和类簇间数据分布差异性准则的符号数据稀有类识别算法RCDCS,在多种数据集上的测试表明其具有良好的效果和性能。最后,对论文的研究工作进行总结,展望了之后的研究前景。

谢璐璐[4](2019)在《混合属性数据的几种聚类算法的研究及应用》文中研究表明在数据挖掘中,如何提取出我们有用的信息,是学者们的研究重点,而聚类分析就是其中一种占比很大的分析方法,对于数据的可视化有较为重要研究意义.由于数据的复杂性及多样性,混合属性数据的聚类成为聚类分析研究中的热点问题之一.在混合属性数据的聚类研究中,现有的很多聚类算法虽然能够得到较好的聚类结果,但其严重依赖初始值以及聚类数目的选择,需要人为的选择参数,可能会使聚类得到一个较坏的结果;并且对于混合属性数据对象之间的距离的计算,一般都是把数据看成两部分,数值型和分类型,之后对同属性的数据进行计算,在把两者进行加和求解,这样可能会导致部分信息的缺失;对于具有复杂形状的数据,某些算法会得到较差的聚类结果,针对这些问题,本文做了以下的一些研究.(1)针对K-means算法依赖初始值及聚类数目的问题,采用了ACC算法确定初始值及聚类数目,用来调节K-means算法.并在UCI数据集上进行实验验证,结果表明ACC-K-means算法有更高的准确率以及更好地稳定性.(2)针对混合数据是一个整体性数据的问题,本文采用Gower系数处理混合属性数据.又K-prototype算法依赖初始值、聚类数目的问题,本文采用ACC算法,再基于有限覆盖的思想对数据进行全局优化,以到达较优的聚类效果.实验证明,改进的算法CBDO算法相对于K-means算法以及K-prototype有较好的实验结果.(3)针对处理复杂形状数据的问题,本文采用谱聚类算法进行聚类.而由于谱聚类中的相似性矩阵中的距离是基于欧式距离,会损失数据之间的信息,所以我们采用基于信息熵赋权的流形距离.实验验证,本文算法有较好的聚类性能.

孙艳阳[5](2019)在《基于数据挖掘的保险公司CRM客户价值研究》文中进行了进一步梳理近年来,由于垄断行业的冲击,保险产品差异化越来越小,保险业所面对的竞争压力越来越大;加之“互联网+”和大数据时代的双重潮流,保险企业正在从“以产品为理念”的模式向“以客户为理念”转型。数据挖掘是当下大数据时代的大势所趋,而现阶段关于客户关系管理的数据挖掘应用研究仍处于起步阶段,相关领域存在大量值得探索的空间。CRM(Customer Relationship Management,客户关系管理),其基础是信息技术平台及其体系上的业务处理、决策分析系统,应用数据仓库和数据挖掘技术,分析与客户相关的各项指标如成本、需求、风险等,从而最大化企业整体经济效益。CRM积淀的数据,结合数据挖掘后,可以让保险公司从了解现有客户相关信息的阶段,升级到发展新客户、保留老客户的阶段,进而提升公司利益。近年来,数据挖掘在技术层面和实践方面都有大幅度的发展,使得近现代的许多概念与学科都萌发了新生机。现代计算机强大的算力,层出不穷的新算法,是许多过去的设想再次生根发芽的肥沃土壤。结合CRM的数据与数据挖掘技术,研究如何挖掘应用CRM的数据,对保险行业发展具有重要意义,主要体现在依据数据挖掘技术做客户满意度分析、客户信用分析、客户流失和保持分析、客户分类分析、交叉销售分析等。CRM日益成为企业管理决策的关键所在,数据挖掘则为CRM的更好利用提供了技术支持。本文主要研究数据挖掘在保险公司CRM客户价值数据上的应用。由于保险公司A是我国规模较大的保险公司之一,而且CRM数据较为规范合理,因此选择使用保险公司A自2012年起到2016年共5年的CRM数据作为研究数据。首先从多个角度对原始数据进行描述性统计分析,其中包括:城市分析、客户分析、保险产品分析。并分析数据特点,选取了合适的数据挖掘聚类算法。然后对原始数据进行数据清洗,根据数据说明剔除掉明显异常的数据,最终得到366,983条观测值,25个变量的数据集。运用Python,对数据集做数据挖掘处理。分别对每年数据进行聚类分析,对得到的每年聚类结果进行详细的对比与分析。最后联结五年的结果,从整体进行分析。结果显示:保险公司A的客户主要是新一线到四线城市的中年小康家庭,主要类别可以分为四类:一是中年客户为自己购买重大疾病和意外类保险,即常规类客户;二是中年夫妻为子女购买重大疾病和子女教育类保险,即子女教育类客户;三是高收入中老年客户为家庭成员购买养老年金和寿险保障类保险,即寿险养老类客户;四是2014年开始涌现的较为年轻客户,保险覆盖面广,教育水平均衡,结合九零后也逐步进入职场、组建家庭,推测这部分客户为九零后客户。2012年,由于保险公司A未推出重大疾病主险,常规类客户和寿险养老类客户区分不大,两类客户的需求基本一致,可以视为一类客户。2013年,常规类客户和寿险养老类客户在附加险种有了区分,已经不能够再视为同一类客户。2014年保险公司A推出重大疾病后,常规类客户、子女教育类客户和寿险养老类客户明显区分开来,九零后客户也崭露头角。常规类客户和子女教育类占比较多,寿险养老客户在2014年时占比较少。2015年之后,老龄化加重使得寿险养老类客户占比逐年攀升。新生人口总数滑落,二胎政策尚未放开等因素子女教育类客户占比虽然有波动,但是总体趋势是下降的;逐渐步入社会和职场的九零后客户会撑起来保险产品新的细分市场。本文实证分析部分,对比了数据挖掘中的聚类算法,选出了算法思想上契合保险公司A的CRM数据集的聚类算法,并针对实证数据既有连续属性又有分类属性数据,最终采用了适用于混合属性数据的k-prototype聚类算法。为了更加客观准确的选取聚类个数,本文采用了一种基于方差性质聚类有效性评价的新型指标STDI来指导每年CRM数据聚类个数。对保险公司A五年的客户进行了更为有效且合理的市场细分,描述了客户对保险产品的偏好与客户的演化过程,对保险公司A后续保险产品提供了建议。聚类分析是近年来数据挖掘比较常用的算法,本文将其应用到保险公司的CRM客户数据中。一方面增加了 CRM客户数据的价值挖掘;另一方面扩展了数据挖掘的应用范围。随着数据挖掘的持续发展,相信会有更多的价值被挖掘。

张楠[6](2018)在《基于数据挖掘技术的高校图书需求聚类分析》文中研究说明随着外部环境的深刻变革,高校图书馆的服务模式正由以资源建设为中心向以读者服务为中心进行转变,个性化主动服务得到发展。个性化服务要求图书馆能够根据读者的信息使用行为特征和信息需求偏好,主动地有的放矢地向读者开展信息服务工作。因此,跟踪和学习读者的兴趣和行为成为图书馆个性化服务开展的重要前提。在高校的图书馆管理系统中,存储着大量的读者借阅行为数据,这些数据中蕴含着读者的借阅特征和需求偏好,对图书馆的个性化主动服务的开展具有重要的指导价值。而聚类分析作为数据挖掘的一项重要技术,能够发现蕴含于海量数据中的隐藏模式和有价值的信息。因此,本文基于聚类算法对高校图书馆读者的借阅行为记录进行数据挖掘。文章的核心工作分为两个部分:对K-Means聚类算法进行分析研究及其在图书馆读者借阅记录数据聚类分析中的应用研究。鉴于数据在分布上可能存在离群数据和多维性特征,针对K-Means聚类算法在多属性数据分析上易陷入“维度灾难”的问题和对初始中心敏感性问题使得算法在聚类精准性和模型通用性等方面存在不足,从修正相似度准则函数和优化聚类中心选取机制两个角度对算法进行了改进,并通过试验证明了改进算法在聚类准确性和收敛速度等方面都有较大的提升。最后,本文以H大学图书馆读者借阅行为记录数据进行了聚类分析,认识读者的阅读兴趣和喜爱类型,以期帮助图书馆根据读者的借阅行为来确定差异化的服务策略和合理配置馆藏资源,推动个性化主动服务的开展。通过对读者按借读量等进行聚类划分,将读者分为不同的需求层次,指导图书馆开展差异化借阅服务工作;对读者按借阅兴趣进行群体划分,将其分为不同的兴趣群,掌握其借阅偏好,支持图书馆阅读推荐工作等开展;对图书按被借阅情况进行聚类,掌握读者总体借阅趋向,可作为图书馆图书采购、优化馆藏配置的参考。

李亚平[7](2018)在《基于改进萤火虫算法的元数据聚类与集成方法研究》文中研究表明信息技术的不断发展,使得传统信息系统、商务智能系统得到了越来越广泛的应用。随着数据资源不断的生成和累积,数据资源中蕴含的价值得到了越来越多的重视,数据挖掘技术也应运而生。元数据作为数据库、数据仓库构建的核心工具,在数据库的组织管理、数据仓库构建,以及在此基础上的数据挖掘中扮演着十分关键的角色。聚类作为数据挖掘的重要手段之一,元数据的聚类与集成同样为面向数据仓库的数据挖掘提供了一个更为有效的途径。然而,目前针对元数据聚类与集成的研究并不多见。大数据环境下,尤其是面向数据流环境,数据结构更为复杂、数据规模更为庞大,数据生成也更为动态化,这使得元数据的聚类与集成面临新的挑战。因此,本文针对元数据的聚类与集成问题,将具有全局寻优能力的群智能优化算法引入到元数据聚类问题的求解中,提高数据仓库构建和管理中元数据聚类的准确率和元数据集成管理的有效性。围绕元数据的聚类与集成,本文将改进的群智能萤火虫算法引入到元数据的聚类问题求解和集成方案设计中,并从元数据记录、元数据树两个层面研究了相应的聚类方法,从同构、异构两个角度研究相应的元数据集成方法。本文的主要研究工作和创新点可以简要概括如下:(1)基于动态索引树的思想,设计了一种面向静态元数据管理的集成方法。针对传统的静态元数据集的集成问题,着重研究了多属性异构元数据的集成策略。首先,设计了一种基于动态索引树的同构元数据集成方法,并在元数据集成的同时实现相应的清洗操作。在此基础上,通过设计多层次的元数据相似度度量方法,构建面向多属性异构元数据的集成方法。(2)面向元数据记录,设计了基于改进萤火虫算法(Glowworm Swarm Optimization,GSO)的元数据记录聚类方法。依据对象的不同,本文将元数据的聚类问题,划分为元数据记录聚类和元数据树聚类两个层面。在元数据记录的聚类方法研究中,将佳点集理论引入GSO算法中,优化GSO算法的初始种群分布,提高GSO算法的聚类效果,将改进的GSO算法与K-means算法、K-prototyp es算法相结合,设计新的元数据记录聚类算法GSOK(Optimization algorithm based on GSO and K-means),以及算法 GS OkP(Optimizatlon algorithm based on GSO and K-prototypes)。(3)面向元数据树,设计了基于CS CKo算法的元数据树聚类方法。针对元数据树的结构化特征,通过将GSOKP算法与最大频繁路径技术相结合,采用最大频繁路径的相似度实现对元数据树相似度的度量,以提升计算效率,并对最大频繁路径的特征向量进行新的设计,以提升聚类准确率。在此基础上,设计新的元数据树聚类算法 GSOKP-FP(Optimization algorithm based on GSOKP and maximum frequent path)。(4)面向动态元数据管理的聚类与集成,基于对元数据记录、元数据树聚类方法的研究,并结合静态元数据集成中动态索引树的基本思想,面向数据流环境,研究基于增量式决策树的动态元数据聚类与集成方法。首先,设计面向元数据的增量式决策树的构建方法;其次,设计增量式元数据决策树的聚类、分枝、剪枝等操作的具体实现方法;第三,在聚类操作中引入GSOKP算法、GSOKP-FP算法用以求解元数据记录和元数据树的聚类问题,并通过信息增益以及类别标记错误率来实现分枝、剪枝操作,控制增量式元数据决策树的规模,实现对元数据更加有效的集成管理。

马辉[8](2018)在《可拓室内设计数据挖掘研究》文中认为可拓室内设计数据挖掘研究是国家自然科学基金项目《面向可拓建筑策划与设计的可拓数据挖掘理论及其方法研究》(51178132)的重要组成部分,是建筑学、可拓学和数据挖掘领域的交叉研究课题。研究建立在以数据为新能源的数据时代发展初期,探索智能化实现室内设计的新路径。是对现有室内设计理论与方法体系的扩充。研究目的在于利用计算机可以识别并运行的可拓设计语言,将可拓学的学理思想充分嵌入到数据挖掘全链条过程中,优解室内设计问题,发现优选模式下的室内设计知识规律,用于数据化实现可拓室内设计,推动室内设计研究向更理性、更科学、更智能、更高效的方向发展。论文运用跨学科交叉研究、可拓创新研究等方法,将可拓建筑学理论和可拓数据挖掘方法融入到室内设计数据挖掘研究中,构筑了可拓室内设计数据挖掘的基础研究、理论研究、方法研究、应用研究的框架结构。可拓室内设计数据挖掘的基本理论研究,是在可拓建筑设计研究和可拓数据挖掘研究的基础上,深度思考可拓室内设计数据挖掘的基本理论问题,提出支撑后续方法和应用研究的基本理论,为研究展开奠定基础。论文提出了可拓室内设计的概念;提出了描述室内精神感受的感元系统;阐述了计算机可以识别的可拓室内设计基元表达理论;阐述了可拓室内设计思维模式理论和可拓集理论;辨析了可拓室内设计数据挖掘的涵义和修辞关系;明确了研究的方向和任务。可拓室内设计数据仓库的设计研究,是在充分思考可拓学的核心优势和充分考虑设计数据特点的基础上,为设计策略输出建立的可拓数据挖掘操作平台研究,是面向可拓室内设计的,适合可拓数据挖掘结构型质的仓库设计指导。研究建立了处理数据和可拓数据的准入端口;确立了仓库的构成内容;提出了符合可拓数据特点和可拓数据挖掘特点的拓点结构;提出了三项重要的建库逻辑:即指导仓库目标系统设计的面向主题性原则、指导仓库动力系统设计的双轮驱动原则、指导仓库结构系统设计的原型设计原则,为可拓室内设计数据挖掘操作提供平台支持。可拓室内设计数据挖掘的方法研究,是在现有数据挖掘方法研究和可拓数据挖掘方法研究的基础上,按照可拓室内设计问题模式建立的挖掘操作方法研究。本质上是在挖掘到的普遍规律约束下寻找设计最优解或最优区间,以灵活的方式提供满足不同需求下的个性化设计对策。研究建立了以技术路线为依据,以挖掘步骤为展开方式,以实例解析为佐证的挖掘方法体系,详细论述了可拓室内设计数据挖掘的三种基本方法和一种创新方法。其中,有监督的可拓分类挖掘方法、无监督的可拓聚类挖掘方法、描述数据依赖关系的可拓关联挖掘方法,是针对剔除数据雍余后的多数模式的数据分析方法,而代表少数模式的离群数据在设计创新中具有非常重要的意义,研究针对这部分异常模式提出了可拓室内设计离群点挖掘方法,是针对设计数据的创新的挖掘方法。可拓室内设计数据挖掘的知识类型及其应用研究,是在可拓室内设计数据挖掘方法研究的基础上进行的挖掘成果研究,以及基于挖掘成果的应用方式研究。数据挖掘也被称作知识发现,此部分研究是自动处理数据工具的最后一环,是可拓数据挖掘技术与专业内容的衔接与落地。研究呈现了通过可拓数据挖掘方法可以生成的具体的室内设计知识内容,囊括了四种主要的知识类型,并分别阐述了不同类型知识的直接应用和可拓应用模式,完成了面向可拓室内设计的可拓数据挖掘的全过程。总之,研究旨在以数据为基础,以模型为工具,以方法为指导,在可拓室内设计数据仓库的平台上,进行可拓数据挖掘研究,发现以预测、优选、创新为核心的室内设计知识规律,探索一条以数据和需求共同驱动,智能化解决设计问题的数据化设计创新之路。为此,研究建立了可拓室内设计数据挖掘的理论体系、数据仓库设计体系、挖掘操作的方法体系、挖掘结果及其应用体系,形成了完整的可拓室内设计数据挖掘的研究结构。研究工作为数据时代设计发展提供了应对的新策略,为室内设计智能化实现提供了逻辑基础,研究成果拓展了可拓建筑学的学术边界。

李进讷[9](2018)在《基于DSCAN优化算法与决策树优化算法的气象时空数据挖掘技术研究》文中提出DBSCAN算法与决策树算法是GIS进行时空数据挖掘的重要技术方法。数据挖掘技术可以从大量纷杂的看似无关的数据当中分析、总结、揭示出隐藏的有价值信息。GIS技术在处理时间、空间数据方面有着强大的存储、管理、分析、处理能力。与传统数据挖掘技术只能在气象要素维度上进行挖掘不同,基于GIS的时空气象挖掘可以对气象数据的时间、空间、属性特征进行分析和应用。即两种技术的结合可以挖掘出气象要素时间维度和空间维度的潜在规律。但目前已有的时空聚类算法和时空关联规则挖掘算法尚未充分发挥GIS的空间分析能力,而且冗余计算较严重,计算效率有待提高。在分析现有时空数据挖掘技术、时空数据挖掘与GIS数据的结合状况、以及时空数据挖掘技术在气象数据处理的基础上,以中国西南部分地区气象要素为研究对象,提出将时空关联规则挖掘、时空聚类规则挖掘与栅格图像处理技术、矢量数据处理技术相结合的研究方法。并用此方法对云、贵、川、渝地区数万组数据进行了分析和处理,提高历史气象记录数据的利用率,提高GIS在气象预报、气候研究邻域的可用性。主要从以下几个方面开展研究:(1)在时空数据挖掘理论基础上,对气象时空数据的时空关联规则挖掘、时空聚类规则挖掘、关键技术、算法进行了深入分析。(2)对比分析了常用的气温空间插值方法,使用考虑了研究区气温与海拔、坡度、坡向等因子相关的多元回归空间插值模型。(3)在分析、比较现有经典聚类算法的基础上,提出了一种将经典的DBSCAN聚类算法与扩展的Raster查询方法、扫描计量相结合的扫描DBSCAN算法,该算法有效解决了温度要素的时空分区、合并的聚类问题,通过研究分析证明了该算法有较高的有效性和可用性。(4)在分析、比较现有决策树算法的基础上,提出了一种将经典的C4.5决策树关联规则挖掘算法与空间拓扑关系查询相结合的拓扑决策树算法,该算法有效解决了温度要素的时空分区关联关系的挖掘问题,通过研究分析和实例研究证明了该算法有较高的有效性和可用性。(5)基于ArcEngine开发组件结合C#编程语言,用SQL Server ArcSDE作为空间数据库管理软件,完成了气象资料数据的预处理、空间插值、规则挖掘,以及知识的存储和可视化表达的必要程序插件的开发。研究深入探索了基于GIS技术的气象时空数据挖掘技术,完善了气象时空数据挖掘的技术手段,提高了挖掘效率,剖析了中国西南部分地区气象要素的空间分布、关联规律。研究成果一方面丰富和完善了数据挖掘的理论体系和技术框架,另一方面为该地区开展相关研究提供了参考。

邵晓晨[10](2018)在《基于稀疏表示的混合属性数据聚类关键技术研究》文中研究说明数据挖掘是协助管理决策的最重要工具之一,随着数据挖掘的应用范围不断扩大,数据挖掘所处理的数据逐渐由单一的数值型或者分类型数据逐渐呈现出混合属性类型。对混合属性数据的挖掘研究是一个热点问题,其中数据聚类是属于其中的重要内容。传统的聚类算法只是针对单一的数值属性或者分类属性,而越来越多的研究显示,大多数真实数据是以混合属性呈现的,而这使得大多数传统聚类算法处理起来相对困难。所以,设计出能够处理混合属性数据的高效的聚类算法已成为聚类分析中一个很有吸引力的问题。本文针对混合属性数据聚类的相关问题,研究基于稀疏表示的数据聚类方法,具体研究包括如下内容:(1)针对未标记混合属性数据的缺失问题,研究提出了基于稀疏表示的混合属性数据填补方法。通过将局部约束线性编码和局部约束稀疏表示引入到K最近邻字典构建过程,更好的保留了数据的局部结构特征,同时一定程度上解决了相似对象难于确定的问题。将提出的填补方法应用在六个混合属性数据集中,实验结果验证了该算法在填补效果上的优势。(2)针对混合属性数据的相似性度量变得难于计算导致的聚类困难,提出了基于K-SVD的混合属性数据谱聚类算法。该算法通过将稀疏表示中的字典学习过程引入谱聚类中,得到带有判别信息的稀疏系数矩阵,并据此作为谱聚类算法中的权重矩阵输入,这样既能克服数据点间距离难于计算的劣势,又能发挥谱聚类简单高效的优势。利用真实数据的实验验证了该方法在聚类准确率上面的优势。(3)针对混合属性数据的簇中心初始化问题,研究提出了基于密度的簇中心初始化方法。该方法通过将密度的概念引入,并据此选择簇中心,一定程度上避免了以随机的方式选择簇中心导致出现不稳定的聚类结果。通过配合前面提出的基于K-SVD的混合属性数据谱聚类算法进行实验,实验结果表明该方法在处理混合属性数据集表现出了一定的优越性。

二、数据挖掘中分类属性数据聚类研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据挖掘中分类属性数据聚类研究(论文提纲范文)

(1)面向决策支持的分类属性数据深度无监督挖掘研究(论文提纲范文)

致谢
摘要
Abstract
1 引言
    1.1 研究背景
    1.2 研究意义
    1.3 研究内容
    1.4 创新点
    1.5 文章结构
2 理论基础和文献综述
    2.1 数据挖掘与决策支持
        2.1.1 决策支持中的数据特征
        2.1.2 决策支持中的数据挖掘方法
    2.2 分类属性数据的无监督挖掘
        2.2.1 决策空间表征中的分类属性数据特征学习
        2.2.2 决策分析过程中的分类属性数据聚类分析
        2.2.3 决策结果评价中的分类属性数据聚类结果有效性评价
    2.3 深度学习相关理论基础
        2.3.1 深度无监督特征学习
        2.3.2 深度聚类
        2.3.3 网络嵌入
    2.4 本章小结
3 面向决策空间表征的分类属性数据深度特征学习
    3.1 分类属性数据特征学习在决策支持中的实际需求
    3.2 分类属性数据深度特征学习的概念准备
        3.2.1 分类属性数据深度特征学习的问题定义
        3.2.2 分类属性数据深度特征学习的两个基本定义
        3.2.3 分类属性数据深度特征学习的基本思想
    3.3 基于分类属性数据的加权异构网络构建方法
        3.3.1 基于分类属性间关系的网络构建
        3.3.2 基于分类属性内关系的网络构建
    3.4 基于网络嵌入的分类属性数据深度特征学习方法
        3.4.1 分类属性取值的深度特征学习
        3.4.2 分类属性数据的深度特征学习
        3.4.3 特征分析
    3.5 实验分析
        3.5.1 实验数据集及设计
        3.5.2 深度特征学习结果准确性分析
        3.5.3 深度特征对后续聚类效果的提升程度分析
        3.5.4 参数敏感性分析
    3.6 本章小结
4 面向决策分析过程的分类属性数据深度聚类
    4.1 分类属性数据聚类分析在决策支持中的实际需求
    4.2 分类属性数据深度聚类的概念准备
        4.2.1 分类属性数据深度聚类的问题定义
        4.2.2 分类属性数据深度聚类的基本思想
    4.3 基于网络嵌入的分类属性数据深度聚类方法
        4.3.1 分类属性数据加权异构网络中的对齐编码
        4.3.2 分类属性数据聚类损失及类中心初始化
        4.3.3 分类属性数据深度聚类过程
        4.3.4 特征分析
    4.4 实验分析
        4.4.1 实验数据集及设计
        4.4.2 引入聚类损失对聚类效果的提升程度分析
        4.4.3 深度聚类结果准确性分析
        4.4.4 参数敏感性分析
    4.5 本章小结
5 面向决策结果评价的分类属性数据聚类结果有效性评价
    5.1 分类属性数据聚类结果评价在决策支持中的实际需求
    5.2 分类属性数据聚类内部有效性评价的概念准备
        5.2.1 分类属性数据聚类内部有效性评价的问题定义
        5.2.2 分类属性数据聚类内部有效性评价的相关讨论
        5.2.3 分类属性数据聚类内部有效性评价的基本思想
    5.3 分类属性数据聚类内部有效性评价指标
        5.3.1 分类属性数据的距离度量
        5.3.2 分类属性数据的聚类内部有效性评价指标构建
        5.3.3 特征分析
    5.4 实验分析
        5.4.1 实验数据集及设计
        5.4.2 聚类评价结果准确性分析
        5.4.3 在深度聚类结果评价任务中的适用性分析
        5.4.4 参数敏感性分析
    5.5 本章小结
6 支持人才招聘决策的分类属性数据深度无监督挖掘应用
    6.1 人才招聘中的分类属性数据无监督挖掘需求
    6.2 人才招聘数据准备
        6.2.1 人才招聘决策支持的数据来源
        6.2.2 人才数据属性描述及预处理
        6.2.3 人才数据基本特征分析
    6.3 人才数据深度特征学习
        6.3.1 人才数据深度特征学习过程
        6.3.2 人才数据深度特征学习结果分析
    6.4 人才数据深度聚类及有效性评价
        6.4.1 人才数据深度聚类过程
        6.4.2 人才数据深度聚类结果的有效性评价
    6.5 基于人才数据聚类结果的人才招聘决策支持
        6.5.1 不同类型人才的特征
        6.5.2 支持人才招聘的决策建议
    6.6 本章小结
7 结论与展望
    7.1 研究结论
    7.2 研究展望
参考文献
作者简历及在学研究成果
学位论文数据集

(2)基于耦合度量的多尺度聚类挖掘方法(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 选题背景及研究意义
    1.2 国内外研究现状
        1.2.1 多尺度数据挖掘
        1.2.2 相似性度量方法
        1.2.3 聚类数据挖掘
    1.3 论文主要研究内容
    1.4 论文组织架构
2 多尺度聚类及相关研究
    2.1 多尺度数据挖掘
        2.1.1 多尺度聚类数据挖掘相关定义
        2.1.2 多尺度聚类数据挖掘过程
        2.1.3 多尺度数据挖掘分类
    2.2 聚类算法
        2.2.1 层次聚类
        2.2.2 划分聚类
        2.2.3 网格聚类
        2.2.4 基于密度的聚类方法
    2.3 相似性度量
        2.3.1 数值属性的相似性度量
        2.3.2 分类属性的相似性度量
    2.4 本章小结
3 耦合度量相似性
    3.1 理论基础
    3.2 基本框架
        3.2.1 属性内相似性
        3.2.2 属性间相似性
        3.2.3 耦合度量相似性
    3.3 理论分析
        3.3.1 度量的有效性
        3.3.2 时间复杂度
    3.4 本章小结
4 基于耦合度量的多尺度聚类理论
    4.1 多尺度数据集
        4.1.1 理论基础
        4.1.2 多尺度划分方法
        4.1.3 构建多尺度数据集
    4.2 尺度选择
    4.3 多尺度聚类
        4.3.1 基于耦合度量的多尺度聚类实质
        4.3.2 多尺度聚类架构
    4.4 尺度转换
        4.4.1 尺度转换分类
        4.4.2 尺度转换的尺度效应
    4.5 本章小结
5 多尺度聚类算法
    5.1 构建多尺度数据集
        5.1.1 理论基础
        5.1.2 构建方法
    5.2 基准尺度聚类算法
        5.2.1 理论基础
        5.2.2 算法描述
        5.2.3 算法伪代码
    5.3 尺度上推算法
        5.3.1 理论基础
        5.3.2 算法过程
        5.3.3 算法伪代码
    5.4 尺度下推算法
        5.4.1 理论基础
        5.4.2 算法过程
        5.4.3 算法伪代码
    5.5 实验与分析
        5.5.1 数据准备
        5.5.2 实验结果评价标准
        5.5.3 尺度上推实验结果与分析
        5.5.4 尺度下推实验结果与分析
    5.6 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
攻读学位期间取得的科研成果清单

(3)符号数据核学习方法的研究与应用(论文提纲范文)

中文摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 机器学习中的核学习方法
        1.2.1 机器学习的主要方法
        1.2.2 核学习方法
    1.3 符号数据的分析与挖掘
    1.4 符号数据分析和挖掘中存在的主要问题
    1.5 本文主要工作内容与创新点
        1.5.1 本文的主要研究工作
        1.5.2 本文主要创新点
    1.6 本文组织结构
第2章 符号数据的基本概念与挖掘方法
    2.1 背景知识和表示记号
        2.1.1 符号数据类型
        2.1.2 符号数据相关的表示记号
    2.2 符号数据的统计分析
        2.2.1 符号数据的统计特征量
        2.2.2 符号数据的统计推断
    2.3 符号数据相似性/相异性度量
    2.4 符号数据的核估计与带宽优化
    2.5 符号数据挖掘的研究现状
        2.5.1 符号数据的分类分析
        2.5.2 符号数据的聚类分析
        2.5.3 符号数据流的挖掘
    2.6 本章小结
第3章 符号数据的核估计模型与分类方法研究
    3.1 引言
    3.2 面向符号属性的核估计模型
    3.3 核函数带宽的优化方法
    3.4 核数据自表达空间转换模型
    3.5 符号数据的内积与距离度量
        3.5.1 符号数据的内积与相似性度量
        3.5.2 由KDTM模型导出的符号数据距离度量
        3.5.3 距离度量的内禀属性权重
        3.5.4 新的距离度量对样本差异的辨别能力
    3.6 面向符号数据的支持向量机分类算法
    3.7 测试与评价
        3.7.1 实验设置与评价标准
        3.7.2 测试结果
    3.8 本章小结
第4章 符号数据软子空间中心聚类方法研究
    4.1 引言
    4.2 相关工作
    4.3 基于核平滑方法的距离度量
    4.4 符号数据的软子空间聚类算法
        4.4.1 符号数据的中心聚类模型
        4.4.2 聚类评价标准
        4.4.3 聚类算法
        4.4.4 聚类有效性评价
    4.5 测试与评价
        4.5.1 实验设置与评价标准
        4.5.2 合成数据的实验
        4.5.3 真实数据实验
    4.6 本章小结
第5章 基于簇间分离性的符号数据稀有类检测方法
    5.1 引言
    5.2 相关工作
    5.3 稀有类检测问题的模型和相关定义
    5.4 基于频率差异的符号数据距离度量方法
    5.5 紧实簇的发现
    5.6 簇间分离性判别准则
        5.6.1 簇周样本集
        5.6.2 簇间分离性度量
    5.7 算法流程
    5.8 类簇间可分性的讨论
    5.9 测试与评价
        5.9.1 实验数据
        5.9.2 询问次数比较
        5.9.3 时间效率比较
    5.10 本章小结
第6章 总结与展望
    6.1 本文工作总结
    6.2 未来工作展望
参考文献
攻读学位期间承担的科研任务与主要成果
致谢
个人简历

(4)混合属性数据的几种聚类算法的研究及应用(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 文章主要内容及章节安排
第2章 相关理论知识
    2.1 数据对象间的距离度量
        2.1.1 数据的结构和表示
        2.1.2 数据属性类型
        2.1.3 数据对象间的距离度量
    2.2 ACC算法
        2.2.1 ACC算法的主要思想
        2.2.2 ACC算法流程与步骤
    2.3 谱聚类算法
        2.3.1 数据的图的表示
        2.3.2 拉普拉斯矩阵
        2.3.3 谱聚类算法
    2.4 本章小结
第3章 基于自动确定初始值的混合属性数据聚类算法
    3.1 问题的提出
    3.2 混合属性数据的距离度量
    3.3 ACC-K-MEANS聚类算法
        3.3.1 ACC-K-means算法的思想
        3.3.2 ACC-K-means的步骤及流程图
    3.4 实验结果与分析
    3.5 本章小结
第4章 基于有限覆盖的混合属性数据聚类算法
    4.1 问题的提出
    4.2 混合属性数据的距离度量
    4.3 CBDO聚类算法
        4.3.1 CBDO算法的思想
        4.3.2 CBDO算法的步骤
    4.4 实验结果与分析
    4.5 本章小结
第5章 基于信息熵赋权的混合属性数据的谱聚类算法
    5.1 问题的提出
    5.2 基于流形距离的距离度量
        5.2.1 流形距离的定义
        5.2.2 基于信息熵属性赋权的流形距离
        5.2.3 流形距离核参数的选取
        5.2.4 基于信息熵属性赋权的流形距离的计算
    5.3 基于改进的流形距离的谱聚类算法
    5.4 实验结果及分析
    5.5 本章小结
结论
参考文献
附录 读研期间发表学术论文和参与科研项目
致谢

(5)基于数据挖掘的保险公司CRM客户价值研究(论文提纲范文)

摘要
ABSTRACT
1 绪论
    1.1 研究背景与研究意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 文献综述
        1.2.1 国外学者研究现况
        1.2.2 国内学者研究现况
    1.3 研究内容
2 数据挖掘的理论概述
    2.1 数据挖掘概论
    2.2 聚类算法在CRM中的应用概述
    2.3 数据挖掘中的聚类算法比较
        2.3.1 层次聚类法
        2.3.2 DBSCAN聚类算法
        2.3.3 k-means聚类算法
    2.4 K-PROTOTYPE算法介绍
    2.5 聚类有效性评价指标
3 数据描述
    3.1 数据的获取与结构
        3.1.1 数据的获取
        3.1.2 数据的结构
    3.2 描述性统计分析
        3.2.1 城市分析
        3.2.2 客户分析
    3.3 适用于本文数据的挖掘方法
4 CRM数据实证分析
    4.1 数据的预处理
        4.1.1 变量设计
        4.1.2 连续变量数据的标准化
    4.2 K-PROTOTYPE聚类算法和STDI指标的应用
        4.2.1 2016年CRM数据挖掘
        4.2.2 2015年CRM数据挖掘
        4.2.3 2014年CRM数据挖掘
        4.2.4 2013年CRM数据挖掘
        4.2.5 2012年CRM数据挖掘
    4.3 2012-2016年客户聚类分析
5 结论与展望
    5.1 结论
    5.2 建议
参考文献
后记

(6)基于数据挖掘技术的高校图书需求聚类分析(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 数据挖掘研究现状
        1.2.2 基于聚类技术的读者借阅需求研究
    1.3 研究内容及创新点
        1.3.1 论文的研究内容
        1.3.2 论文的创新点
第二章 相关理论与技术
    2.1 聚类分析
        2.1.1 聚类分析法简介
        2.1.2 聚类算法分类
    2.2 K-Means算法分析
        2.2.1 算法简介
        2.2.2 算法特点分析
    2.3 离差最大化赋权算法
    2.4 自然最近邻居搜索算法
    2.5 最大最小距离算法
    2.6 本章小结
第三章 读者借阅行为数据特征分析
    3.1 读者借阅数据聚类分析背景
    3.2 读者借阅行为数据特点分析
    3.3 本章小结
第四章 基于K-Means算法聚类模型构建
    4.1 K-Means算法的改进及验证
        4.1.1 加权改进
        4.1.2 聚类中心初始化过程优化
    4.2 改进后K-Means聚类模型
    4.3 本章小结
第五章 实例应用
    5.1 图书分类法简介
    5.2 数据预处理
    5.3 K-Means改进算法的应用
    5.4 本章小结
结论与展望
参考文献
附录 A 计算权重的代码及相关说明
附录 B 基于自然最近邻计算点密度的代码及相关说明
附录 C “D~2 weight”实现代码及相关说明
附录 D K-Means聚类算法代码及相关说明
攻读学位期间所取得的相关科研成果
致谢

(7)基于改进萤火虫算法的元数据聚类与集成方法研究(论文提纲范文)

致谢
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 主要研究方法
        1.2.1 GSO算法
        1.2.2 K-means和K-prototypes聚类算法
    1.3 主要研究内容与结构安排
        1.3.1 主要研究内容
        1.3.2 论文结构安排
第二章 萤火虫算法及元数据聚类与集成的研究概述
    2.1 GSO算法的研究现状
        2.1.1 GSO算法的优化研究
        2.1.2 GSO算法在聚类研究中的应用
    2.2 元数据聚类与集成的研究现状
        2.2.1 静态元数据的聚类与集成
        2.2.2 动态元数据的聚类与集成
    2.3 聚类方法的研究现状
        2.3.1 聚类的主要方法
        2.3.2 基于群智能的聚类算法改进
        2.3.3 数据流聚类方法
    2.4 国内外研究现状述评
    2.5 本章小结
第三章 多属性异构元数据的集成与清洗算法
    3.1 引言
    3.2 问题的形式化描述
    3.3 数据集成与清洗算法
        3.3.1 相似度度量方法
        3.3.2 同构元数据集的清洗算法
        3.3.3 多属性异构元数据的动态集成与清洗算法
    3.4 数值实验
        3.4.1 数据集的选取
        3.4.2 实验结果与分析
    3.5 本章小结
第四章 基于改进GSO算法的混合属性元数据记录聚类
    4.1 引言
    4.2 K-means与K-prototypes算法的基本思想
        4.2.1 K-means聚类算法思想与流程
        4.2.2 K-prototypes聚类算法思想与流程
        4.2.3 K-means算法与K-prototypes算法的不足与优化
    4.3 面向数值型聚类的GSOK算法设计
        4.3.1 基于佳点集的初始种群优化
        4.3.2 GSOK算法流程设计
        4.3.3 GSOK算法中的关键策略改进
    4.4 面向混合型聚类的GSOKP算法设计
        4.4.1 GSOKP算法流程设计
        4.4.2 GSOKP算法中的关键策略改进
    4.5 实验分析
        4.5.1 GSOK算法的实验分析
        4.5.2 GSOKP算法的实验分析
        4.5.3 GSOKP算法在元数据集DBLP上的实验分析
    4.6 本章小结
第五章 基于GSOKP算法与最大频繁路径的元数据树聚类
    5.1 引言
    5.2 元数据树的聚类问题
    5.3 元数据树的频繁项与频繁路径
        5.3.1 频繁项
        5.3.2 最大频繁路径的特征向量
    5.4 元数据树的相似度计算
        5.4.1 关键特征参量的引入
        5.4.2 异构元数据树的相似度计算
    5.5 GSOKP算法在元数据树聚类中的应用
        5.5.1 基于最大频繁路径的GSOKP-FP算法设计
        5.5.2 实验数据与实验结果分析
    5.6 本章小结
第六章 基于增量式决策树的动态元数据聚类与集成
    6.1 引言
    6.2 数据流环境下动态元数据聚类与集成
        6.2.1 数据流与数据流处理
        6.2.2 动态元数据聚类与集成
    6.3 增量式动态元数据树的构建
        6.3.1 增量式决策树构建方法
        6.3.2 增量式动态元数据树的聚类
        6.3.3 增量式动态元数据树的分枝与剪枝
    6.4 增量式动态元数据树聚类与集成
        6.4.1 算法流程设计
        6.4.2 实验数据与实验结果分析
    6.5 本章小结
第七章 总结与展望
    7.1 论文总结
    7.2 研究展望
参考文献
攻读博士学位期间的学术活动及成果情况

(8)可拓室内设计数据挖掘研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景及研究的目的与意义
        1.1.1 研究背景
        1.1.2 研究的目的与意义
    1.2 国内外研究现状
        1.2.1 建筑及室内设计人工智能的相关研究
        1.2.2 可拓学与可拓建筑学的相关研究
        1.2.3 数据挖掘与可拓数据挖掘的相关研究
        1.2.4 研究综述
    1.3 研究的内容与方法
        1.3.1 研究的内容
        1.3.2 研究的方法
    1.4 论文研究框架
第2章 可拓室内设计数据挖掘的基本理论
    2.1 可拓室内设计的理论基础
        2.1.1 可拓室内设计的概念与模型表达
        2.1.2 可拓室内设计的思维模式
        2.1.3 可拓室内设计的分析方法
    2.2 可拓数据挖掘的理论基础
        2.2.1 可拓集理论
        2.2.2 可拓室内设计数据挖掘的内涵
    2.3 可拓室内设计数据挖掘的特点
        2.3.1 面向可拓室内设计的可拓数据挖掘的特点
        2.3.2 基于可拓数据挖掘的可拓室内设计的优势
    2.4 可拓室内设计数据挖掘的任务与目标知识类型
        2.4.1 描述性任务
        2.4.2 预测性任务
        2.4.3 目标知识类型
    2.5 本章小结
第3章 可拓室内设计数据仓库的设计
    3.1 建构可拓室内设计数据仓库的基础
        3.1.1 可拓室内设计数据仓库与现有数据库的区别
        3.1.2 数据库和数据仓库的平台选择
        3.1.3 数据仓库的数据基础
        3.1.4 数据仓库与联机分析处理技术
    3.2 可拓室内设计数据仓库设计的原则
        3.2.1 面向主题原则
        3.2.2 双轮驱动原则
        3.2.3 原型设计原则
    3.3 可拓室内设计数据仓库的构成
        3.3.1 基础数据仓库
        3.3.2 可拓数据仓库
        3.3.3 知识仓库
    3.4 可拓室内设计数据仓库的拓点结构
        3.4.1 量值拓点的关系体系
        3.4.2 特征拓点的关系体系
    3.5 本章小结
第4章 可拓室内设计数据挖掘方法
    4.1 可拓室内设计分类挖掘方法
        4.1.1 可拓室内设计分类挖掘方法阐释
        4.1.2 确立分类挖掘设计问题
        4.1.3 基于设计问题类别数据域的建立
        4.1.4 基于可拓分析的可拓集建立与可拓挖掘
        4.1.5 实例解析
    4.2 可拓室内设计聚类挖掘方法
        4.2.1 可拓室内设计聚类挖掘方法阐释
        4.2.2 确立聚类挖掘设计问题
        4.2.3 基于设计问题聚类特征树的建立
        4.2.4 基于聚类分析的叶节点聚类与可拓挖掘
        4.2.5 实例解析
    4.3 可拓室内设计关联挖掘方法
        4.3.1 可拓室内设计关联挖掘方法阐释
        4.3.2 确立关联挖掘设计问题
        4.3.3 基于设计问题数据项集的建立
        4.3.4 基于关联分析的频繁项集发现与可拓挖掘
        4.3.5 实例解析
    4.4 可拓室内设计离群点挖掘方法
        4.4.1 发散式挖掘
        4.4.2 传导式挖掘
        4.4.3 共轭式挖掘
        4.4.4 转换桥式挖掘
    4.5 本章小结
第5章 可拓室内设计数据挖掘的知识成果及其应用
    5.1 可拓室内设计数据挖掘的形态要素型知识及其应用
        5.1.1 挖掘的形态要素型知识
        5.1.2 挖掘的形态要素型知识直接应用
        5.1.3 挖掘的形态要素型知识可拓应用
    5.2 可拓室内设计数据挖掘的主题风格型知识及其应用
        5.2.1 挖掘的主题风格型知识
        5.2.2 挖掘的主题风格型知识直接应用
        5.2.3 挖掘的主题风格型知识可拓应用
    5.3 可拓室内设计数据挖掘的文化特征型知识及其应用
        5.3.1 挖掘的文化特征型知识
        5.3.2 挖掘的文化特征型知识直接应用
        5.3.3 挖掘的文化特征型知识可拓应用
    5.4 可拓室内设计数据挖掘的行为与情境体验型知识及其应用
        5.4.1 挖掘的行为体验型知识
        5.4.2 挖掘的情境体验型知识
        5.4.3 挖掘的行为与情境体验型知识直接应用
        5.4.4 挖掘的行为与情境体验型知识可拓应用
    5.5 本章小结
结论
参考文献
攻读学位期间发表的学术论文及其它成果
致谢
个人简历

(9)基于DSCAN优化算法与决策树优化算法的气象时空数据挖掘技术研究(论文提纲范文)

摘要
abstract
1.绪论
    1.1 选题背景
    1.2 研究目的及意义
        1.2.1 研究目的
        1.2.2 研究意义
    1.3 国内外研究现状
        1.3.1 时空数据挖掘研究现状
        1.3.2 时空数据挖掘在气象研究中的应用
        1.3.3 时空数据挖掘与GIS的结合
        1.3.4 DBSCAN算法及决策树算法优化研究现状
    1.4 研究内容及技术路线
    1.5 研究成果
    1.6 论文创新点
    1.7 论文导读
2.相关理论与关键技术
    2.1 时空模式发掘
        2.1.1 时空周期模式
        2.1.2 时空频繁模式
        2.1.3 时空共现模式
        2.1.4 时空关联模式
    2.2 时空聚类
        2.2.1 时空模式聚类
        2.2.2 层次聚类
        2.2.3 网格聚类
        2.2.4 密度聚类
    2.3 时空关联
        2.3.1 时空拓扑谓词
        2.3.2 时空关联模式
        2.3.3 时空关联规则分类
    2.4 时空预测
        2.4.1 位置和轨迹
        2.4.2 密度和事件
        2.4.3 空间和时间序列
    2.5 基于栅格的多维时空数据分析及挖掘
    2.6 拓扑关系查询技术
    2.7 格网分区及哈希格网索引技术
    2.8 基于COM插件式开发及ArcEngine技术
    2.9 本章小结
3.时空数据挖掘算法的优化
    3.1 DBSCAN算法的改进
        3.1.1 现存问题
        3.1.2 改进策略
        3.1.3 算法描述
        3.1.4 扫描块DBSCAN算法分析
    3.2 基于拓扑关系的决策树算法改进
        3.2.1 现存问题
        3.2.2 改进策略
        3.2.3 拓扑关系决策树算法分析
    3.3 本章小结
4.改进的时空数据挖掘算法在气象中的应用
    4.1 研究区简介
    4.2 数据简介
    4.3 数据预处理
        4.3.1 数据格式转换及入库
        4.3.2 数据质量控制
        4.3.3 空间插值方法选择及参数设置
    4.4 基于GIS的时空数据挖掘插件式系统架构设计
        4.4.1 软硬件支撑层
        4.4.2 数据资源层
        4.4.3 业务层
        4.4.4 表现层
    4.5 扫描块DBSCAN算法应用
        4.5.1 算法应用策略
        4.5.2 基于时序栅格的扫描块DBSCAN的编程实现与插件开发
        4.5.3 扫描块DBSCAN在西南地区气温分区研究中的应用
    4.6 拓扑关系决策树算法应用
        4.6.1 算法应用策略
        4.6.2 拓扑关系的决策树算法编程实现与插件开发
        4.6.3 拓扑关系决策树算法在气温分区关联规则中的应用
        4.6.4 时空关联规则在气温预测中的应用
    4.7 本章小结
5.结论与展望
    5.1 结论
    5.2 展望
6 参考文献
7 致谢

(10)基于稀疏表示的混合属性数据聚类关键技术研究(论文提纲范文)

致谢
摘要
Abstract
1 引言
    1.1 选题及研究背景
    1.2 研究问题的范围
    1.3 研究思路和框架
2 文献综述
    2.1 数据挖掘
    2.2 高维数据挖掘
        2.2.1 高维数据特点
        2.2.2 高维数据之间的相似性度量
        2.2.3 高维数据的属性类型
        2.2.4 高维数据的降维方法
        2.2.5 高维数据挖掘应用
    2.3 聚类分析
        2.3.1 传统聚类方法
        2.3.2 高维空间聚类分析
        2.3.3 混合属性数据聚类
        2.3.4 聚类簇中心初始化
    2.4 稀疏表示理论及应用
        2.4.1 稀疏表示理论
        2.4.2 局部约束线性编码
        2.4.3 局部约束稀疏表示
        2.4.4 稀疏表示应用
    2.5 数据缺失问题
        2.5.1 缺失数据的产生及原因
        2.5.2 缺失数据的主要填补方法
        2.5.3 已有方法的主要问题
3 基于稀疏表示的混合属性缺失数据填补方法
    3.1 算法理论框架
    3.2 缺失数据填补估计方法
    3.3 实验设计及分析
        3.3.1 字典大小对填补结果的影响
        3.3.2 字典大小对计算时间的影响
        3.3.3 正则化参数敏感性分析
    3.4 本章小结
4 基于K-SVD的混合属性数据谱聚类算法
    4.1 相关算法理论基础
    4.2 K-SVD算法
    4.3 实验设计及分析
    4.4 本章小结
5 基于密度的混合属性数据聚类中心初始化方法
    5.1 基于密度的混合属性数据聚类中心初始化方法
    5.2 实验设计及分析
        5.2.1 字典大小对聚类准确率的影响
        5.2.2 ADCC方法对聚类准确率的影响
        5.2.3 不同种类的混合属性数据对ADCC方法的影响
        5.2.4 算法运行时间分析
        5.2.5 ADCC和MTDimpute对聚类准确率的影响
    5.3 本章小结
6 结论
参考文献
作者简历及在学研究成果
学位论文数据集

四、数据挖掘中分类属性数据聚类研究(论文参考文献)

  • [1]面向决策支持的分类属性数据深度无监督挖掘研究[D]. 高晓楠. 北京科技大学, 2021(08)
  • [2]基于耦合度量的多尺度聚类挖掘方法[D]. 田真真. 河北师范大学, 2020(07)
  • [3]符号数据核学习方法的研究与应用[D]. 严宣辉. 福建师范大学, 2019(12)
  • [4]混合属性数据的几种聚类算法的研究及应用[D]. 谢璐璐. 湖南大学, 2019(07)
  • [5]基于数据挖掘的保险公司CRM客户价值研究[D]. 孙艳阳. 东北财经大学, 2019(08)
  • [6]基于数据挖掘技术的高校图书需求聚类分析[D]. 张楠. 河北工业大学, 2018(06)
  • [7]基于改进萤火虫算法的元数据聚类与集成方法研究[D]. 李亚平. 合肥工业大学, 2018(01)
  • [8]可拓室内设计数据挖掘研究[D]. 马辉. 哈尔滨工业大学, 2018(01)
  • [9]基于DSCAN优化算法与决策树优化算法的气象时空数据挖掘技术研究[D]. 李进讷. 云南大学, 2018(01)
  • [10]基于稀疏表示的混合属性数据聚类关键技术研究[D]. 邵晓晨. 北京科技大学, 2018(07)

标签:;  ;  ;  ;  ;  

数据挖掘中分类属性数据的聚类研究
下载Doc文档

猜你喜欢