【摘要】 通常,聚类的对象要么是离散元素,要么是概率密度函数。

聚类是数据挖掘的主要问题,也是统计数据分析的常用技术。聚类可以将数据组织到子组或“簇”中,这些子组或“簇”的成员在某些方面是相似的,或者可以在未标记的数据集合中找到一个结构。由于这些重要的特征,聚类在交通、信息技术、经济、教育等各个领域得到了广泛的应用。如今,随着这类领域的快速发展,开发高效、准确的聚类计算算法势在必行。

 

通常,聚类的对象要么是离散元素,要么是概率密度函数。基于这些目标,开发了以下两种方法。第一个是CDE,另一个是CDF。在某些情况下,CDF比CDE更有效,因为它能够提供复杂数据的完整分布,因此在最近的一些研究中被首选。[1]例如,Goh和Vidal[2]将聚类问题简化为在单位希尔伯特球上聚类多个子流形的问题,然后通过pdf的低维表示来解决这一问题Nguyentrang和Vovan[1]在CDF中贡献了三种不同的模糊分层和非分层算法。此外也提出了一种基于进化方法的pdf聚类问题,即在聚类图像中应用遗传算法(genetic algorithm, GA)进行一些修改。然而,该措施面临遗传算法的局部最优解和计算负担。

 

图1 二维流形的一个例子。[2]

 

与进化方法平行,由于两个主要原因,很难否认目标函数在这种方案中的作用。进化方法一方面是将聚类问题转化为最优问题,利用进化技术求解聚类问题;在这个问题中,目标函数的出现肯定是找到最优值的判据。另一方面,从众多的目标函数中选择一个作为候选函数也是一个至关重要的动作。这是因为一旦我们画出一个合适的目标函数;技术会找到更好的解决方案。相反,一旦我们选择了一个不合适的目标函数,即使有一个好的搜索算法,结果也不一定是确定的。因此,如何找到一个好的效度度量指标作为目标函数,是分类学家们一直在努力解决的问题。

 

虽然有效性度量指标主要有外部和内部两种类型,但由于后者捕获的是“运行中”数据的结构而没有参考分区,因此被广泛使用。因此,为了提高聚类结果的质量,大量致力于推导更有效的内部效度指标的研究可以列举为。这些指标是通过多方面建立的,如一些基于方差比标准的工作;还有一些人更喜欢图结构。然而,这些指数几乎服务于CDE;同时,该指数在CDF中的数量很可能受到限制。提出了Intra和SF两个内部度量指标。认识到顺势函数优于其他函数,因为它涉及聚类的两个方面:紧凑性-一个聚类中元素之间的紧密性和分离性-聚类之间的区别,结合证明的有效性,因此顺势函数被用作本工作的目标函数。

 

图2 100个具有单变量正态分布的pdf图被分成3个簇。

 

图3 200个具有单变量正态分布的pdf图分成3个簇。

 

基于以上考虑,HO KIEU DIEM等人[3]以SF索引为目标函数,采用DE算法处理pdf文件的聚类问题。为了解决当前的问题,本文提出了两个主要的过程。首先,将初始pdf聚类问题转化为适当的优化问题,目标函数为最小化SF指数,设计变量为分配概率密度函数的聚类名称。本文采用染色体表示概念,对原有的聚类方案进行了改进。其次,提出了一种基于不同进化的概率密度函数聚类算法(DE-CDF),用于求解公式化优化问题。在该算法中,利用四舍五入技术,使微分方程适应于处理离散变量。针对基准和实际问题执行了几个示例,并将获得的结果与其他最先进算法的结果进行了比较,以证明DE-CDF的效率和可行性。

 

[1]. Nguyen-Trang, T.; Vovan, T., Fuzzy clustering of probability density functions. Journal of Applied Statistics 2017, 44, 583 - 601.

[2]. Goh, A.; Vidal, R. In Unsupervised Riemannian Clustering of Probability Density Functions, Machine Learning and Knowledge Discovery in Databases, Berlin, Heidelberg, 2008//; Daelemans, W.;  Goethals, B.; Morik, K., Eds. Springer Berlin Heidelberg: Berlin, Heidelberg, 2008; pp 377-392.

[3]. Diem, H. K.;  Trung, V. D.;  Trung, N. T.;  Tai, V. V.; Thao, N. T., A Differential Evolution-Based Clustering for Probability Density Functions. IEEE Access 2018, 6, 41325-41336.

 

科学指南针在全国建立31个办事处和20个自营实验室,拥有价值超2.5亿元的高端仪器。检测项目达4000+项,覆盖材料测试、环境检测、生物服务、行业解决方案、模拟计算等九大业务。累计服务1800+个高校、科研院所及6000+家企业,获得了60万科研工作者的信赖。

 

免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。