迂组词,深度学习练习数据的评价与数据增强,河北梆子

admin 3个月前 ( 04-02 00:06 ) 0条评论
摘要: 2017关键词大数据;机器学习;神经网络;深度学习;卷积神经网络;支持向量机;衍射图像摘要深度学习是从大数据中提取价值的重要技术。...

引证:Junhua Ding ; XinChuan Li ; Venkat N. Gudivada,2017 IEEE International Conference on Big Data (Big Data),11-14 Dec. 2017

关键词

大数据; 机器学习; 神经网络; 深度学习; 卷积神经网络; 支撑向量机; 衍射图画

摘要

深度学习是从大数据中提取价值的重要技能。可是,咱们需求很多高质量的操练数据保证深度学习的有用性。在许多状况下,操练数据的巨细缺乏以有用地操练深度学习分类器。数据增迂组词,深度学习操练数据的点评与数据增强,河北梆子强是一种用于添加操练数据量的广泛选用的办法,但数据增强后数据的质量或许有问题,因而,对数据进行体系点评至关重要。此外,假如操练数据有噪声,则有必要主动别离出噪声数据。在本文中,咱们提出了一种深度学习分类器,用于主动将杰出的操练数据与噪声数据别离。为了有用地操练深度学习分类器,咱们需求转化原始操练数据以习惯分类器的输入格局。咱们研讨了不同的数据增强办法,以从有限巨细的原始操练数据生成满意数量的操练数据,经过运用不同的分类算法对分类精度进行穿插验证来点评操练数据的质量。咱们还查看每个数据项的图画并比较数据集的散布。 咱们经过对大规划生物医学图画的主动分类的试验研讨证明了所提出的办法的有用性。 咱们的办法是通用的,很简略习惯其他大数据域。

关键词:大数据; 机器学习; 神经网络; 深度学习; 卷积神经网络; 支撑向量机; 衍射图画

介绍

咱们需求可扩展的高功用数据处理根底架构和剖析东西来从大数据中提取价值。例如,深度学习算法和GPU已被广泛用于剖析大数据。数据集的规划和质量决议了从大数据中有用提取价值的难度,可用于操练算法的数据一般不够大。现在,经过将现有数据项转化为新数据的办法来进行数据扩增是一种广泛运用的实践,可是,很难确认数据扩增后是否有用。咱们有必要运用转化的办法体系地点评生成的数据的质量。生成的操练数据也或许包含有过错符号数据方式的噪声。

已宣布的研讨标明,操练数据会集的反常和噪声或许会明显下降数据剖析的功用和精确性。为了处理这些问题,咱们有两种挑选:规划强壮的机器学习算法,能够处理喧闹的操练数据,或经过滤波进步数据质量。

机器学习算法已被用于检测来自多个源的数据中的重复数据。数据过滤是一种经过噪声消除来进步数据质量的办法。数据发布者和订阅者能够运用域模型来过滤噪声数据。因为大数据的规划巨大,主动过滤数据至关重要。可是,朝这个方向的研讨才刚刚开始呈现。

在本文中,咱们介绍了一种从生物医学图画数据会集别离噪声数据的体系办法,以便从大数据中提取信息。更具体地说,咱们开发了一种机器学习办法,用于从数据会集别离无效和有噪声的数据。咱们的办法包含运用深度学习分类器迭代地将噪声数据与惯例数据别离的p-DIFC能够取得每秒近100个细胞的衍射图画。 运用p-DIFC,咱们为不同类型的细胞搜集了超越一百万个衍射图画。咱们经过运用不同的分类算法对分类精度进行穿插验证来点评数据质量。咱们还查看每个数据项的图画并比较它们的散布。

咱们描绘了咱们提出的办法,并经过将生物细胞太久太久是否过了太久的衍射图画分红几个类别(包含噪声类别)来证明其有用性。 咱们运用偏振衍射图画流式细胞仪(p-DIFC)获取细胞的衍射图画,其用于定量和剖析单细胞的3D形状,这些特征用于精确分类细胞类型。p-DIFC每秒能够取得近100个细胞的衍射图画。 运用p-DIFC,咱们为不同类型的细胞搜集了超越一百万个衍射图画。

细胞衍射图画:

文献中现已叙述了运用机器学习对细胞衍射图画进行分类的作业。可是,p-DIFC成像可包含许多不是细胞的颗粒,例如鬼细胞体,调集的球形颗粒(又称决裂的细胞),以及细胞碎片和小颗粒(统称为碎片)。咱们将具有完好结构的活细胞称为细胞。从非细胞的颗粒取得的衍射图画也被搜集到衍射图画数据会集,这些衍射图画包含噪声数据。

为了精确地对细胞进行分类,有必要将非细胞衍射图画(即,噪声)与细胞衍射图画别离。从实践视点来看,手动将噪声图画与细胞图画别离是不可行的。为了处理这个问题,咱们开发了一种深度学习办法,用于衍射图画的主动分类。咱们将衍射图画分为三类:细胞,破碎细胞和碎片。咱们运用依据AlexNet [9]和TensorFlow结构的深度学习架构开发了分类器。咱们运用细胞,imkorean破超能宝鉴碎细胞和碎片的衍射图画操练了分类器。

原始8位灰度级p-DIFC衍射图画的尺度是640480像素。因为AlexNet运用巨细的图画是227x227像素,咱们调整原始衍射图画的巨细为227x227。因为用于衍射图画的AlexNet分类器需求很多的操练图画,弹弓打鸽子咱们开发了一种从原始图画生成几个小衍射图画青薯9号(又叫增强衍射图画)的办法。经过n倍穿插验证(NFCV)混杂矩阵来穿插查看分类精度。为了查看操练数据的质量,咱们运用支撑向量机(SVM)对三类衍射图画进行分类。咱们先分别在原始和增强衍射图画数据集上操练分类器,然后比较分类的精度。咱们还研讨了小图画是否能够捕迂组词,深度学习操练数据的点评与数据增强,河北梆子获满意的形状信息作为数据集原始图画,因而咱们要求每个小图画与其原始图画不同。 此外,咱们期望从同一原图生成的一切小图画都表现出不同的文本形式。最终,咱们查看原始数据集和增强数据会集选定的特征值的散布,以确认它们是否共同。

图1. A. p-DIFC的光散射图 B.软件模仿衍射图画 C. p-DIFC取得的衍射图画。

衍射图画的主动分类:

咱们首要评论基养女小说于形状学的细胞分类,然后运用SVM和深度学习技能进行衍射图画的主动分类。

A.依据形状学的细胞分类

细胞经过细胞内细胞器表现出高度改变和弯曲的三维(3D)结构,以保持表型变异和功用。细胞分类对生物学和生命科学研讨具有重要意义。 p-DIFC用于从单个细胞快速获取穿插极化衍射图画(p-DI)对,它选用斯托克斯矢量和穆勒矩阵来解说因为折射率,n(r,)或其3D形状的细胞内散布导致的散射光的偏振改变。入射光及其偏振态由斯托克斯矢量(I0,Q0,U0,V0)标明,其沿z轴传达。相同的,散射光及其偏振沿(s,s)方向标明状况向量(Is,Qs,Us,Vs),如图1所示。与非相干光获取的图画不同,p-DI 因为入射激光束引起的细胞内分子偶极子宣布的相干光散射,这些对呈现出特征形式。 因而,p-DI数据供给了勘探照耀细胞的3D形状的数据源,其需求机器学习技能来提取形状学和合众达分子信息假笑王媛渊。

在曩昔十年中,丁先生等人开发了不同的用于细胞衍射图画的快速和精确的细胞形状学剖析的机器学习办法,其间包含支撑向量机(SVM)和深度学习办法。

图2.p-DIFC取得的衍射图画(a)完好结构的活细胞,(b)重影细胞体或调集的球形颗粒,和(c)细胞碎片或小颗粒。 右上角显现每个图画的相应粒子。

B.数据集

一个运用p-DIFC获取的衍射图画的调集能够包含从非惯例细胞获取迂组词,深度学习操练数据的点评与数据增强,河北梆子的图画,尤其是样本中的破碎细胞和碎片。关于一些研讨项目,人们只需求正常的细胞图画,可是关于其他一些研讨,如细胞凋亡研讨,咱们只需求破碎的细胞图画。因而,有必要树立一种东西来主动别离三种类型的衍射图画。三种类型的细胞颗粒具有不同的形状结构,其在p-DIFC衍射图画中精确捕获。运用这些文本形式,生物学家能够在视觉上别离这三种类型的图画。图2显现了样品p-DIFC衍射图画及其相应的颗粒。完好结构的活细胞的衍射图画的文本图画包含许多亮堂的正常斑驳,一个鬼细胞体或调集的球形颗粒则包含亮条,最终,细胞碎片或小颗粒显现出许多大的漫射斑驳。

三类衍射图画的文本形式的差异足以运用机器学习算法来别离这三个类别。

咱们运用p-DIFC为三类粒子取得了许多衍射图画,然后挑选了数千个衍射图画作为初始数据集。关于试验研讨,咱们挑选了一共7519个衍射图画,然后手动查看每个衍射图画并符号其类别。正常细胞被符号为细胞,破碎细胞被符号为条带,碎片被符号为碎片。初始图画数据集由2232个正常细胞,1645个破碎细胞和3642个碎片组成。衍射图画的每个类别存储在独自的目录中。咱们注意到一些衍射图画或许被过错地符号,而另一些衍射图画因为视觉质量低而难以符号。

C.以SVM为根底的图片分类

SVM一般履行二进制分类。 为了完成多类分类,经过比较“一个与其他”或“一个与一个”来组合几个SVM分类。 咱们运用LIBSVM 完成了衍射图画的分类,这是一个用于SVM的开源东西包。

衍射图画的文本形式是运用一组灰度层协作矩阵(GLCM)特征界说的。 咱们一共运用了20个功用 - 其间14个是原始图画的特征,6糟糠之妻by谢饼干个是扩展图画的特征。 每个特征的界说都能够在丁先生从前的作业中找到。 下面给出了为衍射图画构建SVM分类器的进程:

  1. 核算操练和测验数据会集每个衍射图画的GLCM特征。
  2. 用其类别(例如其细胞类型)符号每个衍射图画,并构建由其GLCM特征值及其符号组成的特征向量。 数据会集一切衍射图画的特征向量构成特征矩阵。
  3. 运用挑选的kernel和操练数据集的特征矩阵操练SVM分类器。
  4. 运用测验数据会集的衍射图画测验分类器,并运用比如N倍交迂组词,深度学习操练数据的点评与数据增强,河北梆子叉验证(NFCV)和混杂矩阵之类的规范验证分类功用。

咱们运用衍射图画数据集构建了SVM分类器。 咱们为三个类别中的每一个挑选了1000个衍射图画,并运用GLCM特征值和相应的类型构建了特征矩阵。 每个特征向量包含16个GLCM特征值,因为一个特征的值悉数为0,而别的三个特征是在图画格局上界说的,本研讨中未对其进行阐明。 细胞,碎片和条带的10倍穿插验证(10FCV)的均匀分类精确度分别为74.50%,81.50%和62.00%。 简化的混杂矩阵如表I所示[16]。

为了进步SVM分类器的分类精度,咱们尝试了许多不同的技能,例如运用图画处理和聚类剖析技能预先挑选图画或者是特征挑选。 咱们最近的试验标明,深度学习办法极大地进步了分类精确性。

D.依据机器学习的分类器

衍射图画数据集因为其低分辨率和没有布景噪声的原因相对简略。 因而,咱们挑选了在Tensor-Flow结构中完成的AlexNet模型来构建深度学习分类器。 因为深度学习需求很多特征,因而操练数据集的巨细也很大。

AlexNet运用大约120万张图画进行操练。 咱们没有运用预先操练过的AlexNet,而只运用了它的网络架构。 咱们只搜集了7519个原始衍射图画,这些图画缺乏以操练AlexNet。因而,咱们运用数据增强办法来生成更大的操练数据集。

E.数据增强

单元的原始衍射图画的尺度是640490。它满意大,能够分红几个巨细为227x227像素的小图画,这是AlexNet输入图画的尺度。精心挑选的子图画能够具有满意的信息来代表整个图画。衍射图画还能够包含大的黑色布景,其关于分类是无用的。因而,需求一种用于发生小图画的严厉办法。该性质能够经过图7中所示的衍射图画进一步证明,其经过运用DDA(光散射模仿程序)模仿散射体的光散射而发生。

F.裁剪图画

如前所述,AlexNet承受输入图画的尺度为227x227像素,而原始衍射图画的尺度是640480像素。因而,小图画约为原始图画尺度的1/5。此外,因为衍射图画或许包含明显的黑色区域,因而文本图画的中心(例如亮斑驳或条带)或许不是图画的中心。咱们需求找到文本形式区域的中心来履行裁剪,裁剪一般是图画中最亮的区域。

运用5x5像素窗口,裁剪程序核算窗口的均匀亮度。然后,它将窗口逐渐滑动几个像素以掩盖整个图画,以确认具有最大均匀亮度的窗口。例如,8位分辨率图画的亮度规模是从0到255,将均匀亮度最大的窗口设置为裁剪小图画的中心。假如多个窗口具有最大的均匀亮度,则挑选间隔鸿沟最远的窗口作为中心。首要从中心周围的原始图画中裁剪出一个小图画,然后经过从中心向恣意方向的某些像素滑动窗口来裁剪更小的图画,如图3所示。

G.池化图画

裁剪技能不适用于整个图画都对分类至关重要的状况。在这种情侠客英雄传3攻略况下,从部分区域提取的部分特征缺乏以标明从整个图画中提取的大局特征。从有限数量的原始图画发生操练数据需求不同的技能。咱们尝试了一种用于生成很多操练数据的池化技能。运用池化将原始衍射图画下采样为小图画。能够从具有不同池化装备的原始图画生成多个小图画。巢母卡克西此外,能够运用不同的池函数(如最大池或均匀池)生成小图画。

图4.衍射图画及其池化图画(a)细胞,(b)碎片,(c)破碎的细胞,(d)是(a)池化后的细胞,(e)是(b)池化后的碎片,和(f)是(c)池化后的破碎细胞。

咱们现已尝试了三种池功用,包含均匀池,最大池和最小池。 可是,数据集仅运用相同的池功用。 三个不同数据集的试验成果将在下一节中评论。

H.试验成果

一切试验均在相同的原始细胞衍射图画,破碎细胞和碎片上进行。 三个图画类别存储在三个不同的文件夹中,然后对每个图画运用裁剪或池化,以生成每个类别约100,000个小图画并为其符号。 小图画依据其标签/类别存储在三个文件夹中。 8FCV和混杂矩阵用于验证分类成果。 咱们现已进行了许多试验来查看和验证分类精度,但咱们将仅描绘本节中的重要成果。

1)裁剪图画的试验成果:8FCV显现正常细胞的均匀分类精确度为99.36%,碎片为97.74%,开裂细胞为99.81%。图5显现了4组的混杂矩阵。从8FCV成果来看,咱们注意到依据AlexNet的分类器能够有用地对衍射图画的类别进行分类。此外,从原始图画生成的数据集足以操练分类器。

2)运用池化图画的试验成果:依据运用均匀池化生成的数据集的分类的8F悠远时空中第一季CV成果显现碎片和条带的均匀分类精度略高于经过裁剪树立的数据集。可是,细胞的均匀分类精确度要低得多,为85.7% vs 94.22%。如表II所示,近10%的细胞被过错地分类为碎片,只要4.5%的细胞被过错地分类为条带。

点评数据增强的质量

在本节中,咱们将评论怎么运用裁剪或池化技能体系地点评从原始衍射图画生成的数据集的质量。 咱们运用代表性,精确性和多样性来点评数据集。 代表性意味着数据集包含原始数据会集的一切信息,而且它能够标明用于操练机器学习分类器的原始数据集。 精确度是指生成的数据项无法与原始源区分隔的现实。 多样性意味着增强数据集应该能够用于不遍及的特征。 关于衍射图画事例的研讨中,咱们首要研讨了小尺度衍射图画是否能够运用依据SVM算法对衍射图画进行分类,完成与原始图画类似的精度。然后咱们查看了小图画的文本模迂组词,深度学习操练数据的点评与数据增强,河北梆子式,以保证小图画能够捕获满意的形状信息作为其原始图画。最终,咱们比较了增强数据集和原始图画数据集的特征值的散布。

A.查看SVM分类器的分类精确性

B.查看衍射图画中的文本形式

C.查看数据会集的特征图画

咱们迂组词,深度学习操练数据的点评与数据增强,河北梆子的试验标明,任何小的衍射图画都能够精确地标明其原始衍射图画的分类。深度学习分类器总是将小图画分类为与源衍射图画相同的类别,这是一件功德,但与此同时,有必要查看小图画对操练作用的奉献。假如来自原始图画的小图画具有相同的特征值,则这些图画关于操练是剩余的。因而,有必要间谍仙师查看这些小图画区域的特征值有多挨近。咱们在最终一个全衔接层上搜集输出,其间包含AlexNet中的4096个特征,然后咱们比较两个输入衍射图画之间的特征值。尽管找到两个特征向量之间的差异并不困难,但核算两个特征向量之间的差异是适当具有挑战性的,因为每个特征都不是简略的标量参数。因而,咱们运用不同的办法来点评小衍射图画。因为文本形式关于衍射图画的分类是必不可少的,咱们能够查看两个图画浅笑28猜测之间的GLCM特征值的差异。假如小图画的GLCM特征值与其原始图画不同,咱们还需求查看小图画的数据集的散布以及原始图画的数据集的散布。假如由相同原始图画发生的小衍射图画的GLCM特征值不同,则小图画的数据集苏肌丸的GLCM特征的散布与原始图画的数据集的GLCM特征的散布共同。咱们信任小图画的数据集很好地代表了原始图画,并有助于操练的泛化。

1)比较衍射图画的GLCM特征值:咱们首要核算每个衍射图画的GLCM特征值,并将小图画与其原始图画组合在一起。然后咱们比较了一组中一切图画的每个GLCM特征。假如两个图画具有至少一个GLCM特征不同,则以为这两个图画不同。表V显现了6个GLCM特征中兼并的小图画及其原始图画的部分比较成果。 Img 1至Img 5是来自原始图画Img 0的兼并图画。咱们查看了每组图画,没有在每组中找到两个相同的图画。

2)比较数据集的GLCM特征散布:咱们为归于同一类型的一切原始图画创建了GLCM特征的散布。然后,咱们为从原始图画生成的一组小图画创迂组词,深度学习操练数据的点评与数据增强,河北梆子建了相同的散布。咱们比较了两个散布,看看散布是否共同。图9展现了原始衍射图画数据的GLCM特征与从原始衍射图画数据兼并的小衍射图画之一的正态散布的比较。

咱们运用归一化的特征值(即最小-最大归一化),均值和规范差创建了正态散布,而且依据概率质量函数制作了曲线。很难看出这两个散布并不完全相同。可是,它们都是正常散布的。运用相同的散布查看不同的GLCM特征和不同的组图画,咱们发现原始图画的数据集与兼并的数据集或原始图画中的裁剪图画之间的散布形式是共同的。因而,咱们得出结论,池化和裁剪关于衍射图画的数据增强都是有用的。

图9 比较原始图画的数据集的GLCM和从原始图画兼并的小图画的数据集特征值的散布。

总结

操练深度学习模型一般需求很多高质量的操练数据,可是很多操练数据或许包含噪声数据。因而,有必要将噪声数据与操练数据分隔。在本文中,咱们提出了一种深度学习办法,用于将操练数据主动分类为不同类别的数据,其间一种是噪声类别。在许多状况下,需求将原始操练数据转化为满意深度学习模型的输入巨细要求,在其他状况下,因为原始数据的巨细缺乏,因而需求经过数据增强来获取新数据。咱们评论了不同的数据增强办法。咱们还经过穿插验证点评了操练数据的质量。

为了证明所提出的数据增强办法有用,咱们对大规划衍射图画的主动分类进行了全面的试验研讨。从该试验研讨中搜集的主张办法和经历可用于数据增强和其他范畴的大数据点评。

参考文献

[1]J. Gao, C. Xie, and C. Tao, “Big data validation and quality assurance

– issuses, chall易太极摄生馆enges, and needs,” in 2016 IEEE Symposium on Service- Oriented System Engineering (SOSE), March 2016, pp. 433–441.

[2]J. Ding, D. Zhang, and X. Hu, “An application of metamorphic testing for testing scientific software,” in 1st Intl. workshop on metamorphic testing with ICSE, Austin, TX, May 2016.

[3] J. Ding, X. Kang, X. H. Hu, and V. Gudivada, “Building a deep learning classifier for enhancing a biomedical big data service,” in 2017 IEEE Intl. Conf. on Services Computing, H赵德三onolulu哈根达斯小巧心意, HI, June 2017.

[4] J. Ding, 防爆拉人车J. Wang, X. Kang, and X. Hu, “Building an svm classifier for automated selection of big data,” in 2017 IEEE International Congress on Big Data, Honolulu, HI, 2017.

称谢

此文由南京大学软件学院2016级本科生何天行翻译转述。

文章版权及转载声明:

作者:admin本文地址:http://www.58yizhuan.cn/articles/525.html发布于 3个月前 ( 04-02 00:06 )
文章转载或复制请以超链接形式并注明出处竞技宝app手机版_竞技宝app最新版_竞技宝app最新版下载