教师登录 English 返回首页
答辩公告
我的位置在: 首页 > 答辩公告 > 正文
卓林琳预答辩公告
浏览次数:威尼斯app下载:2020-05-22编辑:研究生教务办1

预答辩公告

 

论文题目

面向高维数据的聚类算法设计和张量低秩表示研究

答辩人

卓林琳

指导教师

李克勤

答辩委员会

主席

阳王东

学科专业

计算机科学与技术

学院

信息科学与工程学院

答辩地点

视频答辩

答辩时间

2020525日  上午1000

学位论文简介

工业生产活动中产生了大量无标签的数据,对这些数据进行聚类具有重要意义。当前聚类算法通常会面临着参数增加或聚类精度下降的问题。此外,在实际互联网数据中,数据通常还具有特征维度高、样本稀疏的特性,导致真实簇结构通常存在于样本对应的低秩子空间中。另外,先验概率分布的多样化,张量数据的增量式更新,会导致张量低秩表达的分析过程变得复杂。针对上述问题,本文的主要研究工作如下:

  1. 针对数据集中簇内分布不均匀的问题,本研究提出了一种基于层次化策略的密度峰值算法(HCFS)。一方面本文选择多个备选中心点,规避了选择“符合条件”的中心点带来的困难和因选择错误的中心点而出现的误分类;另一方面提出一种改进的能同时度量相邻子簇间连通性与相似性的方法,降低了参数设置的难度。综上两者,较好地解决了数据集中簇内不均匀分布的问题。

  2. 针对高维数据集中簇内分布不均匀的问题,本文提出了一种改进的基于多视图和张量低秩表达的子空间聚类算法。本文把多视图的相关数据堆叠成张量,并把求解多视图子空间表达的优化问题转化成为求解张量的低秩表达问题,以充分考虑视图间的互补性,得到了更加准确的相似度矩阵。此外,本文结合HCFS算法,解决了高维数据集中簇内不均匀分布的问题。

  3. 数据分布多样性普遍存在,需要独立推导基于不同数据分布的因子矩阵更新规则,这给稀疏非负张量分解分析带来了困扰。针对这种情况,本文分析和推导了不同数据分布下因子矩阵的更新规则,并提出了一种通用的因子矩阵的更新规则,以适应多种不同的数据分布。

  4. 随着数据量的不断增加,单个GPU不能加载和处理整个数据集。另外,随着互联网的迅速发展,数据更新的速度也随之加快,重新处理整个数据集又将会造成大量的资源浪费。针对第一个问题,本文通过研究多个GPU之间的通讯原理,提出了一种基于多核GPU的因子矩阵更新规则。针对第二个问题,本文结合在线学习的策略,提出了针对实时数据的因子矩阵更新规则。

主要学术成果

  1. Linlin Zhuo, Kenli Li, Hao Li, Jiwu Peng, Keqin Li, An online and generalized non-negativity constrained model for large-scale sparse tensor estimation on multi-GPU, Neurocomputing, Volume 399, 2020, Pages 18-36, ISSN 0925-2312. (SCI, 第一作者)

  2. L. Zhuo, K. Li, B. Liao, H. Li, X. Wei and K. Li, HCFS: A Density Peak Based Clustering Algorithm Employing A Hierarchical Strategy, in IEEE Access, vol. 7, pp. 74612-74624, 2019, doi: 10.1109/ACCESS.2019.2918772. (SCI, 第一作者)

     

XML 地图 | Sitemap 地图