注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

纷纷红紫已成尘·布谷声中夏令新

山西财院78jitong 19781017--19820715

 
 
 

日志

 
 
关于我

78jitong.......................................................... 高三李五七弓长,三赵九刘七大王,阎吴谢孙崔氏双,柴米余侯箩万堂, 毛邓陈宋任申杭,曾肖徐翁程董梁,储曲祁解韦国强,男女七十学跟党。

网易考拉推荐

2016年2月26日  

2016-02-26 09:41:51|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
2016年2月日 - 78jitong - 春节快乐
 拓扑与数据--------------斯坦福大学,数学系
2016年2月日 - 78jitong - 春节快乐

1.     导言

   现代科学与工程的一个重要的特征之一是各种数据以前所未有的比率产生出来。之所以如此部分是因为新的试验方法,以及部分是因为强力计算的适用性的增加。很明显我们将得到的数据的性质是明显的不同。例如,现在我们是以非常长的向量形式给出数据,这里除了感兴趣的问题的几个坐标呈现出相关之外,并且进一步而言,我们不必知道哪个坐标是有意义的。一个相关的事实是数据通常是非常高维的,其严重的限制了我们对它的可视化。通常所得到的数据噪声比过去多得多,而且有许多丢失的信息(丢失数据)。在生物数据情形中很严重,特别是在微观列阵与其它来源的高生产量数据。我们分析这些数据的能力,以数据的数量与性质的形式,很明显不能与产生的数据同步。对于各种各样的数据分析,我们将讨论几何学与拓扑如何适用于他们并做出有益的贡献。几何学与拓扑在这个方向的应用是非常自然的,因为几何学关注到距离函数,而且我们通常与之相关的工作就是数据的大的有限集合上的距离函数。就作为已经合并的几何学与拓扑学技术而显示的数学公式系统处理点云,亦即,由某个距离函数而装备的点的有限集合。进而对于点云的研究所采用的工具来自几何学的各个分支。点云被确定考虑为取自某个几何对象的有限样本,可能带有噪声。在对数据分析应用这些几何方法时,这里是某些提到的关键点。

2016年2月日 - 78jitong - 春节快乐
2016年2月日 - 78jitong - 春节快乐

质量信息是必须的:数据分析的一个重要目标是允许使用者得到关于数据的知识,亦即,理解它是如何在一个大规模范围组织的。例如,我们要想象我们正在考察以某种方式的来自糖尿病人而构架的一个数据集合,显示理解疾病的两种类型是重要的,亦即,幼年与成年人的发病形式。一旦这个建立起来,区别它们的课程之一要求显示数量方法,而且第一个关于疾病的相异形式的洞察是关键。

·度量不是以理论方式被判断的:在物理学中,研究的现象通常支持清楚地探索理论其能准确地告诉我们什么度量被使用。在生物学问题中,在另一方面,这个可就太不清楚了。在生物学的范围,距离的概念是使用某些相似的直觉方式吸引人的度量(诸如BLAST得分与它们的相关性),然而这是远远不清楚有多少显著性固有在实际的距离上,特别是在大规模范围。

·坐标不是自然的:尽管我们通常以实数的向量形式接受数据,然而通常的情形是坐标,就像前面所关注到的,在任何意义上是不自然的,这样尽管我们不能约束我们自己去研究依赖坐标的任何特定选择的数据的性质。注意坐标选择的变化(变分)不要求坐标改变是严格的欧几里得空间的概念。这通常是一个心照不宣的假定即在数据研究中坐标比他们实际做的带有更多的内在意义。

·汇总比单个的参数选择具有更多的价值:聚集某个点云的一个方法是所谓的单联接聚集,这里一个图形被构架且它的顶点的集合是云中点的集合,而且这里两个这样的点是通过一个边来连接的假如它们的距离? e,这里e是一个参数。在试图确定e的优化选择上聚类理论中某些工作已经做了,但是现在很好理解它是更多的提供信息以保留集合的完整的系统树图(dendrogram,它在参数e的所有可能值的情况下一起提供了聚类行为的一个汇总。显然这在显示其他机制方面是富有成效的,这里在参数改变的情况下不变的行为或构架能够被有效的汇总。

在本篇论文,我们将讨论处理以上关注的问题与性质的方法。基础的理念是由拓扑所启迪的这个方法将与它们说话。作为以上的每一个点我们描述为什么拓扑方法适合处理它们。

2016年2月日 - 78jitong - 春节快乐
         ·作为处理质量性几何信息的数学分支的拓扑学是精确。这包括研究一个空间被连接的要素(分量)是什么,但是更一般的它是连通性信息的研究,其包括环(回路)的分类与空间内的高维曲面。这提出了拓扑方法论的一个扩张,诸如同调,对点云而言在以定性的方式研究它们将是有帮助的。

·相较于直接的几何学方法而言其包括敏感的几何学性质诸如曲率,拓扑学在一个实际的度量非常不敏感的方法中研究几何学的性质。实际上,拓扑忽视了距离函数的数量值,并且在基础空间中用一个点对一个子集的无限靠近的概念来替换它。在研究状态中我们仅仅确信我们理解在这个粗糙的方式中的度量,这个不敏感对于度量空间是有用的。

·拓扑仅仅研究几何对象的性质其不依赖选择的坐标,相反地是对象的内在的几何学性质。因此,它是无坐标的。

·对于参数值的全域而构架汇总的理念包括理解来自使用不同参数值的数据而构架的几何对象之间的关系。这个有用的关系包括不同几何对象之间的连续映射,并且成为函子性概念的表现,亦即,这个不变性的概念不仅仅恰好与被研究的对象有关,而且与这些对象之间的映射有关。函子性在代数拓扑中是核心的,其中同调不变性的函子性是所谓的允许我们从局部的信息来计算它们,而且这个函子性在数学中的大部分有意义的应用中居于核心地位。这样,可以理解关于拓扑空间的大部分信息可以通过离散集合的图得到,通过一个单形趋近的程序。

2016年2月日 - 78jitong - 春节快乐

 2016年2月日 - 78jitong - 春节快乐

以上最后一点,涉及到函子性,是关键的。在展示的方法中涉及到前两点,我们发现即便得到关于单个点云的信息我们却集中于做一个函子性的几何学的构架并且分析他们在映射上的行为。函子性已经证明自己在数学各个部分的开发中是一个有力的工具,诸如代数中的伽罗华理论,调和分析中傅里叶级数的理论,以及在拓扑学中代数拓扑对不动点问题的应用。我们表明,亦如【46】所建议的,它有一个作用也发挥在点云数据的研究中,并且我们给出这个将如何发生的两点说明,在聚类的环境中。

非正式的说,聚类涉及到分割一组数据成为许多部分或聚类,其以可识别的方式而彼此相区别。在有限度量空间的情况下,这粗略地意味着聚类中的点彼此要比在不同聚类中它们的点更接近。聚类可以被考虑为一个空间的连通的路径的分量的几何学构架的统计的副本,它是代数拓扑所依据的基本的构架模块。存在许多根据度量信息构架聚类的概型,诸如单个(single),平均,以及完全连接的聚类,k-均值聚类,谱聚类等【31】。尽管聚类很明显是数据分析的一个非常重要的部分,然而构造并实施的方法是充满着歧义。特别是,许多阈值选择的任意性与稳健性的缺乏是我们面临的困难。现在更多的研究努力是集中在这个方向(【43】【39】),而对于陈述它们而言函子性提供了一个恰当的一般的数学框架。例如,我们能够构架数据集合其在两个不同的值上具有阈值,而且在具有比较紧密的阈值的集合的包含物成为具有较松散阈值的集合的包含物条件之下聚类的行为能够提供数据集合中什么将发生的信息的。我们提供两个函子性如何被用来分析相关聚类问题的两个额外的例子。

2016年2月日 - 78jitong - 春节快乐
例子:在非常大的X的情形中,对一个完整的数据集合使用聚类算法通常是困难的,这样我们发现来自X的聚类的子样本是可取的。那么我们面临证明一个子样本的聚类是一个完整数据集合X的聚类的实际意义的代表性。程序的一个方法是从X中构架两个样本,而且希望它们在合适的意义上一致。这个理念的一个版本是考虑子样本X1X2,连带它们的并

 X1?X2。我们将以单个的方式对这些集合的每一个应用聚类概型(scheme),而且假定对这三个集合X1X2 ,以及X1?X2我们由CX1),CX2),以及CX1?X2)来标记聚类的集合。假如聚类概型是函子的,亦即,假如数据集合的包含物引致聚类的集合的映射,那么我们可以有一个集合的图形

               2016年2月日 - 78jitong - 春节快乐

  

假如聚类是一致性的,亦即,假如CX1)中的聚类与CX1?X2)中的CX2)在这些映射的条件下对应的很好。我们能够视其为证据即子样本的聚类实际上对应完整数据集合X上的聚类。当然,这里的所谓短语“很好的对应”的意思是没有很好的被定义。本文的稍后,对这类问题我们将讨论一个伴随更多数量性信息的方法。

2016年2月日 - 78jitong - 春节快乐
2016年2月日 - 78jitong - 春节快乐

例子:假定我们有一个随时间变化的数据集合X。这样我们可能寻找涉及聚类随时间而产生的聚类的行为。聚类可能出现,消失,合并,或者分成分开的聚类。这个行为的分析可以由函子性来研究。对于2016年2月日 - 78jitong - 春节快乐 ,我们令2016年2月日 - 78jitong - 春节快乐

 来标记数据集合中在时间t0t1之间发生的点的集合。假如我们有2016年2月日 - 78jitong - 春节快乐,那么我们有点云数据集合的图形

2016年2月日 - 78jitong - 春节快乐

 

假如聚类概型在前面的例子的意义中是函子性的,那么我们得到对应集合的图形

2016年2月日 - 78jitong - 春节快乐

 

这个集合包含聚类的伴随时间的行为的信息,例如,图形

2016年2月日 - 78jitong - 春节快乐

 

可能在时间t0对应一个单个的聚类,在区间[t1,t2]中它掰成两个聚类,其又依次返回在区间[t2,t3]呈现出合并。

2016年2月日 - 78jitong - 春节快乐

 本篇文章处理大量考虑数据的方法,这些是以拓扑方式使用的触及灵感的方法。我们由持续同调开始,这是一个数学公式体系其允许我们从来自一个几何对象的某个样本中推断拓扑的信息,并且表明它如何能应用到一个特定的源于自然镜像的统计学的数据集合以及神经系统科学。其次,我们表明拓扑方法并能够产生一种数据集合的镜像,不是基于欧氏空间的嵌入,相反是基于与某些数据集合的某种最初的信息相关而产生单纯复形。我们证明持续性可以一般化几种不同的方向,为所论问题中的数据集合提供更多的结构与信息。我们进而表明函子性的哲学能够被用来推出聚类方法的性质,而且由推断我们可能希望证明与讨论对象如何能更一般的发展的定理而结束。

 

 


 

 

 

 

 
  评论这张
 
阅读(33)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017