当前位置: 首页 > news >正文

网站开发技术背景介绍桂林生活网二手房

网站开发技术背景介绍,桂林生活网二手房,创业项目,佛山微商网站建设1.算法简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法#xff0c;簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点#xff0c;因此DBSCAN聚类的方式也可以用于异常点的检测。 2.算法原…1.算法简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点因此DBSCAN聚类的方式也可以用于异常点的检测。 2.算法原理 2.1 基本原理 算法的关键在于样本的‘聚集程度’这个程度的刻画可以由聚集半径和最小聚集数两个参数来描述。如果一个样本聚集半径领域内的样本数达到了最小聚集数那么它所在区域就是密集的就可以围绕该样本生成簇落这样的样本被称为核心点。如果一个样本在某个核心点的聚集半径领域内但其本身又不是核心点则被称为边界点既不是核心点也不是边界点的样本即为噪声点。其中最小聚集数通常由经验指定一般是数据维数1或者数据维数的2倍。 通俗地讲核心点就是构成一个簇落的核心成员边界点就是构成一个簇落的非核心成员它们分布于簇落的边界区域噪声点是无法归属在任何一个簇集的游离的异常样本。如图所示。 对于聚成的簇集这里有三个相关的概念密度直达密度可达密度相连。 密度直达对一个核心点p它的聚集半径领域内的有点q那么称p到q密度直达。密度直达不具有对称性。密度可达 有核心点p1,p2,…,pn非核心点q如果pi到pi1i1,2,…,n-1是密度直达的pn到q是密度直达的那么称核心点pi(i1,2,…,n)到其他的点是密度可达的。密度可达不具有对称性。密度相连如果有核心点P到两个点A和B都密度可达那么称A和B密度相连。密度相连具有对称性。 简单地讲核心点到其半径邻域内的点是密度直达的核心点到其同簇集内的点是密度可达的同一个簇集里的成员间是密度相连的。 由定义易知密度直达一定密度可达密度可达一定密度相连。密度相连就是对聚成的一个簇集最直接的描述。 2.2 算法描述 输入样本集D聚集半径r最小聚集数MinPts 输出簇集C1C2…,Cn噪声集O. 根据样本聚集程度传播式地划定聚类簇并将不属于任何一个簇的样本划入噪声集合。 1随机搜寻一个核心点p 2在核心点p处建立簇C将r邻域内所有的点加入簇C.3对邻域内所有未被标记的点迭代式进行考察扩展簇集.若一个邻域点q为核心点则将它领域内未归入集合的点加入簇C中.4重复以上步骤直至所有样本划入了指定集合5输出簇集C1C2…Cn和噪声集合O。 3.优缺点 3.1 优势 1.可以发现任意形状的簇适用于非凸数据集 2.可以进行异常检测 3.不需要指定簇数根据样本的密集程度适应性地聚集。 3.2 不足 1.当样本集密度不均匀不同簇中的平均密度相差较大时效果较差 2.聚集半径和最小聚集数两个参数需人工指定。 4.示例 假设二维空间中有下列样本坐标为(1,2),(1,3),(3,1),(2,2),(9,8),(8,9),(9,9),(18,18) 由DBSCAN算法完成聚类操作。 过程演算 由经验指定参数聚集半径r2最小聚集数MinPts3。 1随机搜寻一个核心点若不存在返回噪声集合。考察点(1,2)它到各点的距离分别为 在它的r邻域内包括了自身在内的共三个样本点达到了MinPts数因此(1,2)为核心点。 2在核心点(1,2)处建立簇C1原始簇成员为r邻域内样本(1,2)、(1,3)、(2,2)。3对簇落C1成员迭代式进行考察扩展簇集。先考察(1,3)它到各点的距离分别为 在它的r邻域内包括了自身在内的共三个样本点达到了MinPts数因此(1,3)为核心点它邻域内的样本均已在簇C1中无需进行操作。 再考察(2,2)它到各点的距离分别为 在它的r邻域内包括了自身在内的共四个样本点达到了MinPts数因此(2,2)为核心点将它领域内尚未归入任何一个簇落的点(3,1)加入簇C1。 再考察(3,1)它到各点的距离分别为 在它的r邻域内包括了自身在内的共两个样本点因此(3,1)是非核心点。 考察结束簇集C1扩展完毕。 4在其余未归簇的样本点中搜寻一个核心点若不存在返回噪声集合。考察点(9,8)它到各点的距离分别为 在它的r邻域内包括了自身在内的共三个样本点达到了MinPts数因此(9,8)为核心点。 5在核心点(9,8)处建立簇C2原始簇成员为r邻域内样本(9,8)、(8,9)、(9,9)。6对簇落C2成员迭代式进行考察扩展簇集。先考察(8,9)它到各点的距离分别为 在它的r邻域内包括了自身在内的共三个样本点达到了MinPts数因此(8,9)为核心点它邻域内的样本均已在簇C2中无需进行操作。 再考察(9,9)它到各点的距离分别为 在它的r邻域内包括了自身在内的共三个样本点达到了MinPts数因此(9,9)为核心点。它邻域内的样本均已在簇C2中无需进行操作。 考察结束簇集C2扩展完毕。 7在其余未归簇的样本点中搜寻一个核心点若不存在返回噪声集合。其余未归簇的样本点集合为{(18,18)}考察(18,18)它到各点的距离分别为 在它的r邻域内包括了自身在内的共一个样本点未达到MinPts数因此(18,18)为非核心点。其余未归簇的样本中不存在核心点因此归入噪声集O{(18,18)}。 8输出聚类结果 簇类C1{(1,2),(1,3),(3,1),(2,2)} 簇类C2{(9,8),(8,9),(9,9)} 噪声集O{(18,18)} 5.Python代码 功能用python实现DBSCAN聚类算法。from sklearn.cluster import DBSCAN import numpy as np import matplotlib.pyplot as plt# 初始化数据 data np.array([(1,2),(1,3),(3,1),(2,2),(9,8),(8,9),(9,9),(18,18)])# 定义DBSCAN模型 dbscan DBSCAN(eps2,min_samples3)# 计算数据获取标签 labels dbscan.fit_predict(data)# 定义颜色列表 colors [b,r,c] T [colors[i] for i in labels]# 输出簇类 print(\n 聚类结果 \n) ue np.unique(labels) for i in range(ue.size):CLS []for k in range(labels.size):if labels[k] ue[i]:CLS.append(tuple(data[k]))print(簇类{}:.format(ue[i]),CLS)# 结果可视化 plt.figure() plt.scatter(data[:,0],data[:,1],cT,alpha0.5) # 绘制数据点 plt.show()
http://www.eeditor.cn/news/121133/

相关文章:

  • 山东建设厅网站网址做网站找那家公司好
  • 网站改版html绵阳网站建设联系电话
  • 电话怎么做网站推广互联网大会
  • 晋中做网站的公司建设网站需要的步骤
  • 女装网站源码 带支付接口百度关键词屏蔽
  • 中企动力网站培训国外网站购物
  • 哪些有名网站是用php做的静态网站设计与制作书籍
  • 网站开发的试用期条款dtc建站服务
  • 遵义花果园网站建设创建一个网站多少钱
  • 政务网站建设及管理搜启网站建设
  • 网站开发的未来发展零基础电商怎么做
  • 爱射影院网站建设中中国最好的建筑公司
  • 网站建设的主要观点软件下载网站怎么赚钱
  • 山西长治做网站公司网站推广计划书具体包含哪些基本内容?
  • 1建设网站的重要性网站建设的一般过程包括哪些方面
  • seo快速排名网站优化昌江区网站建设
  • 通辽网站公司福州优化广告公司
  • 网站怎么样排名自己做网站教学视频教程
  • 专业网站改版网站迁移 域名设置
  • 凡科网网站建设资料织梦做的网站首页幻灯片怎么不能显示
  • 如何做网站海报wordpress加载速度太慢
  • 怎么样制作一个公司网站郑州网站建设网站推广
  • 四川旅游云南网络营销文化优化
  • 银川做网站的公司做网站应该学什么专业
  • iis6.0建立网站网站建设费 科目
  • 网站打开速度电子商城建设
  • 长沙网站建设有限公司物流专线做网站
  • 深圳营销型网站建设公司选择哪家好网络综合设计实验报告
  • 贵州建设监理网站培训通知栏网站创建桌面快捷方式
  • 企业网站策划文案亚马逊跨境电商运营