基于U型卷积神经网络的羊肋排图像分割

赵世达 王树才 李振强 陈 艳

(华中农业大学工学院,湖北 武汉 430070)

摘要:以羊肋排为研究对象,提出了一种基于U型卷积神经网络的羊肋排图像分割算法。采集羊肋排样本图像,利用图像增广技术扩充图像数据,经归一化后,建立羊肋排图像数据集;建立羊肋排图像分割模型U-Net,以卷积和池化运算提取肋排特征,融合肋排的深层特征和浅层特征,经多次反卷积操作实现融合特征的精准定位,得到肋排区域的二值图像,从而实现端到端的图像语义分割;引入精度(PA)、均像素精度(MPA)、平均交并比(MIoU)3种图像语义分割评判标准判断网络的分割性能。试验结果表明:U-Net分割肋排图像PA、MPA、MIoU分别为92.38%,88.52%,84.26%。比较现有的3种经典图像语义分割方法SegNet、FCN8s、FCN32s,U-Net平均交并比(MIoU)较上述3种方法分别高出6.47%,15.34%,25.86%,且处理单幅肋排图像的时间比次优的SegNet缩短48 ms。针对劈半羊胴体图像数据集,U-Net的MIoU为75.57%。

关键词:羊肋排;图像分割;U-Net;对比试验;分割效果

据统计[1-2],2018年中国羊肉产量与人均年消费量分别为4.75×106 t、3.63 kg,同比增长0.8%和7.7%。其中,羊肋排是羊肉产品生产加工过程中的主要产品之一,与羊肉产品增值存在直接关系。但是现阶段中国家畜屠宰企业大多采用传统的倒挂式手工屠宰加工工艺,自动化程度低、环境恶劣,特别是羊肋排区域识别普遍依赖于操作员的经验完成,不仅劳动强度大且识别精度难以得到保证[3-4]

目前,国内外学者针对羊体检测的研究大多集中在羊体尺测量与羊肉新鲜度分级方面,涉及的方法主要基于图像处理[5-6]、光谱分析[7-8]结合机器学习技术展开。但是针对羊肉产品生产加工过程中,羊胴体特定区域识别的研究鲜有学者涉及,主要原因有:去除内脏、毛皮后的劈半羊胴体,各分体之间,颜色、形状、纹理等特征差异相对较小,导致区分难度增大;传统的图像处理结合多种分类器的目标检测方法虽然能够取得较为准确的结果,但需人工提取目标特征,受人主观性影响大,同时,不具备鲁棒性,较难准确识别具备多尺度特征的羊肋排。孟令峰等[9]通过对比羊背脊肉、羊前腿肉、羊后腿肉颜色特征差异,选择特定特征,结合极限学习机(ELM)、支持向量机(SVM)和BP神经网络,实现了羊体3部位的准确识别。但该方法仍需要人工提取特征,且能否实现羊肋排的准确识别有待验证。

卷积神经网络[10](convloutional neural network,CNN)通过逐层学习,自动提取图像蕴含的深、浅层语义信息,能够克服复杂场景下的多重干扰,使得众多学者将其应用至家畜检测[11-12]方向。高云等[13]以猪只为研究对象,设计了一种包含44层卷积层的PigNet网络,有效实现对群猪图像中黏连猪只的实例分割。杨阿庆等[14]针对哺乳母猪目标与猪仔黏连不易分割的问题,融合图像的深层抽象特征与浅层细节特征并将特征图8倍上采样,开发了一种基于全卷积神经网络的哺乳母猪图像分割方法。

试验拟以羊肋排作为研究对象,提出一种基于U型卷积神经网络的羊肋排图像分割算法,以期实现羊肋排区域的准确分割,为羊胴体智能切割设备的研发提供技术支持。

1 试验数据

1.1 羊肋排图像数据采集

试验样本选自内蒙古美洋洋食品有限公司的6分羊体屠宰生产线,羊体种类为成年波尔山羊。使用华谷动力科技WP-UC600相机,搭配Z4S-LE-SV-1214H欧姆龙镜头,距输送带样本0.6 m,无特定背景,车间节能灯光源下采集羊肋排样本图像,如图1所示。同批次羊体之间大小、质量、年龄相似,为了增大羊肋排之间的差异性以提高后期训练模型的泛化能力,随机采集6批次羊体,每批次包含350个样本,共2 100幅2 448像素×3 264像素的羊肋排图像。

1. 相机 2. 羊肋排 3. 输送带
图1 图像采集装置示意图
Figure 1 Illustration of image acquisition device

1.2 图像数据预处理

由于采集的羊肋排图像数量有限,且肋排样本在输送带上位置不确定,造成羊肋排区域与背景面积比不均匀,影响模型的分割效果,为了满足深度学习任务对大数据的要求,对羊肋排图像样本进行数据增广很有必要。基于Keras深度学习框架ImageDataGenerator图像生成器对羊肋排图像进行翻转、旋转、平移操作,以期模拟不同相机采集多种形态下的肋排图像。最后设定图像扩充数据为原数据的3倍,避免因样本过量增广引发模型的过拟合。另外为了加快模型的收敛速度,将图像等比例缩放至224像素×224像素,并进行归一化处理。增广后的图像样本如图2所示。

图2 图像增广后样本
Figure 2 Examples of augmented images

2 基于卷积神经网络的羊肋排图像分割

基于U-Net卷积神经网络分割羊肋排图像,主要由3步骤组成:① 建立并划分羊肋排数据集;② U-Net训练,得到最优模型;③ 与其他网络对比试验,验证其分割性能,如流程图3所示。

图3 基于U-Net羊肋排区域分割技术流程
Figure 3 Technical flowchart for sheep ribs segementation based on U-Net

2.1 建立羊肋排数据集

利用Labelme图像标注工具,参照Cityscape数据集格式对8 400幅原始羊肋排图像中肋排区域和背景进行标注,得到羊肋排数据集。参考深度学习领域数据集划分原则,随机将原始数据集划分训练集6 720幅、测试集1 460幅、验证集220幅,各数据集之间无重叠。

2.2 羊肋排图像分割模型构建

U-Net[15]是一种改进型全卷积神经网络,最初用于医学图像语义分割,随后在生物体目标检测与识别任务中得到广泛应用[16]。该网络的U形结构及高、低维特征对应级联思想,使其不需要大量训练数据,即能保证较高的分割准确率。考虑到羊肋排的生物特征及有限的羊肋排图像样本,采用U-Net网络实现羊肋排区域分割。U-Net网络结构左右对称,由左侧收缩路径和右侧扩张路径组成,包含19个卷积层,4个最大池化层,4个反卷积层,如图4所示。

其中收缩路径包括卷积层和池化层,卷积层用于羊肋排区域特征提取,池化层用于降低特征维度,减少网络计算量,同时增强模型对肋排特有纹理特征的敏感性,提高泛化能力。扩张路径包括反卷积层和卷积层,用于特征的精准定位。其中,卷积层和池化层的计算公式如式(1)、(2)所示。

(1)

式中:

卷积层l的输入张量;

fm,n——尺寸为H×W的卷积核;

图4 U-Net羊肋排分割模型结构示意图
Figure 4 Network structure of U-Net model for segmentation for sheep ribs

卷积层l的输出张量;

i,j——张量的坐标值;

m,n——卷积核坐标值。

xi,j=Max{xi×s+k,j×s+k}k=0,1,…,K,

(2)

式中:

xi,j——图像坐标(i,j)最大池化后的结果;

s——滑动步长;

K——局部区域边长。

羊肋排区域分割为2分类(羊肋排,背景)问题,在收缩路径阶段首先输入224×224×3的RGB肋排图像,以3×3大小的卷积核,步长为1遍历整副图像提取肋排特征,设置零填充,每次卷积之后接Relu激活函数。然后采用2×2大小的卷积核,步长为2的最大池化层降低特征图维数,减少网络计算量,防止过拟合,同时增强网络对肋排特有纹理特征的敏感性,最后将特征图传输至扩张路径。

扩张路径中每层网格均需要对特征图执行反卷积,侧边合并,卷积3种操作,其中反卷积操作使用步长为2的2×2大小的卷积核进行计算。通过反卷积操作,特征图尺寸以2倍大小扩张,直至恢复至输入图像尺寸大小,以增强细节信息。侧边合并部分,将反卷积结果与收缩路径中与之对应的特征图进行拼接,融合深浅层特征。卷积部分,卷积核大小为3×3,步长为1,作用同样为提取特征。最后通过1×1大小的卷积核将64组特征向量映射为所需类别的标签。U-Net网络各层信息如表1所示。

表1 U-Net网络各层卷积核大小及通道数

Table 1 Details about convolution kernel of U-Net

卷积、池化层卷积核大小特征通道数CONV1_1,CONV1_23×364,64CONV2_1,CONV2_23×3128,128CONV3_1,CONV3_23×3256,256CONV4_1,CONV4_23×3512,512CONV5_1,CONV5_23×31 024,1 024CONV6_1,CONV6_23×3512,512CONV7_1,CONV7_23×3256,256CONV8_1,CONV8_23×3128,128CONV9_1,CONV9_23×364,64CONV101×12Max pooling2×2-Up_CONV2×2-

2.3 评价指标

为量化分析U-Net对图像肋排区域的分割性能,引入当前在图像语义分割任务中常用的3种评判指标:统计像素准确率精度(Pixel Accuracy,PA)、均像素精度(Mean Pixel Accuracy,MPA)和平均交并比(Mean Intersection over Union,MIoU)对分割结果进行评价。假设图像共包括N种语义类别,文中N为2,评判指标定义如下:

(1) 精度PA:正确预测语义类别的像素数量与图像总像素点数量的比值,如式(3)所示。

(3)

式中:

nii——i类语义的真实像素数量(即假正的像素数量);

nij——i类语义被错误识别为j类的像素点数量。

(2) 均像素精度MPA:每个语义类别被正确预测的像素数比例,再求所有类的平均值,如式(4)所示。

(4)

(3) 平均交并比MIoU:语义分割的标准度量,表示预测正确的像素区域与标定该像素区域和所有预测像素区域之比,即两个集合交集与并集之比。得到每个类别的IoU之后,再求其均值。可由式(5)表示。

(5)

式中:

nji——假负的像素数量。

上述评判指标中,平均交并比MIoU与分割效果呈正相关,常作为网络分割性能评估的主要依据。

3 模型训练与试验结果分析

3.1 试验环境及流程

试验均基于Windows10专业版操作系统Tensorflow深度学习框架完成。硬件配置:DELL T5810图像处理工作站,Intel@core 64位操作系统,8核处理器,64 G内存,P4000-8 G显卡,至强W-2145 3.70 GHz。具体流程如图5 所示。

图5 基于U-Net的羊肋排图像分割试验流程图
Figure 5 Flow chart of sheep ribs images segmentation based on U-Net

3.2 模型训练

模型训练实质在于通过反向传播迭代降低损失函数。采用AdaDelta优化算法寻求迭代过程中最优梯度下降方向。训练集、验证集batchsize均设置为2,每迭代600次保存一次模型,当损失函数收敛且趋于平稳时停止训练。之后利用最优模型对验证集进行测试,验证分割效果。如图6所示模型损失函数值在训练初期迅速降低,当迭代500次左右后开始以震荡形势缓慢下降,直至迭代6 000次后损失函数基本收敛,稳定在0.005 4。准确率变化趋势与损失函数相似,迭代6 000次后收敛于0.968 5,训练过程中准确率的变化情况图7所示。

图6 训练过程中损失函数变化情况
Figure 6 Loss function in training process

图7 训练过程中准确率变化情况
Figure 7 Accuracy in training process

3.3 结果与分析

3.3.1 模型分割效果验证 基于训练完成的最优U-Net模型,针对羊肋排图像验证集对模型的分割性能展开测试。同时,获取处理耗时,再求其均值,测试模型能否满足实时要求试验结果及部分示例如图8和表2所示。

图8 U-Net对验证图像分割示例
Figure 8 The example of U-Net on verifying images

表2 U-Net模型语义分割效果

Table 2 Semantic segmentation by U-Net model

精度/%均像素精度/%平均交并比/%单幅图像耗时/ms92.3888.5284.2635

羊肋排图像分割模型MIoU为84.26%,处理单幅耗时为35 ms,可以实现较为准确的实时分割。综合考虑其分割性能与处理速度,结果表明试验用于肋排图像分割的卷积神经网络U-Net具有较强的分割能力和实时性。

3.3.2 不同分割算法性能对比 目前,用于图像语义分割算法多样,但面对不同分割任务,各算法分割效果差异明显。为进一步验证试验算法在处理羊肋排图像分割问题上的优越性,选取图像语义分割任务常用的全卷积神经网络FCN8s、FCN32s[16]以及SegNet[17]3种分割算法进行性能比较。上述算法训练步骤与U-Net相似,分别使用训练效果最优的模型进行分割测试。部分分割结果如图9所示。

图9 试验算法与其他3种分割算法对验证图像的分割结果
Figure 9 Comparison of segmentation results of our method and other methods on verifying images

由测试结果可得出,FCN32s[图9(c)]与FCN8s[图9(d)]存在明显的欠分割和过分割现象,主要表现为将真实的羊肋排区域分割为背景,以及将背景误分割为羊肋排区域,并且分割出的羊肋排边缘细节模糊,与标记图像差异明显,造成生产中难以正确区分图像中羊肋排的实际位置。但是,FCN8s较FCN32s羊肋排边缘特征保存完整,欠分割现象得到优化。其主要原因为FCN网络多次下采样造成目标特征大量丢失,且数倍的上采样跳跃结构使得网络对边缘轮廓等细节信息敏感度下降,从而8倍上采样FCN网络对肋排区域边缘分割效果比32倍上采样FCN网络羊肋排更有效。SegNet[图9(e)]网络结构与FCN不同,由对称的编码、解码网络及像素级分类器组成,且在解码网络中引入了池化索引,保留了相对较多的语义信息,在此基础上,对称结构有利于处理多尺度的目标信息,试验中羊肋排尺寸特征变化并不突出,肋排的边缘细节信息可以得到充分保存,因此该网络对羊肋排区域分割效果较好,在一定程度上减弱了欠分割现象。由图9(e)可以看出,经SegNet分割得到的羊肋排边缘轮廓细节与标记图像相比效果明显。较上述的3种分割方法,基于试验U-Net[图9(f)]的肋排区域分割过分割与欠分割现象并不明显,分割效果最优。其原因可能是U-Net模型采用了类似于编解码结构的收缩与扩张路径,对多尺度目标检测能力增强,同时网络的侧边合并部分,融合收缩路径中经下采样损失细节信息的浅层特征与扩张路径中经反卷积的深层特征,尽可能保留了逐层运算造成的丢失信息,便于后期特征定位。除此之外,U-Net网络较深的网络结构使其不仅能够学习肋排区域的浅层局部特征,还能获取深层更为抽象的语义特征,有利于提高分割准确率。FCN32s、SegNet、FCN8s 3种网络的精度PA、均像素精度MPA、平均交并比MIoU及处理224×224像素单幅图像耗时结果如表3所示。

表3 3种分割方法测试结果

Table 3 Test results of three kinds of segmentation

分割方法精度均像素精度平均交并比耗时/msFCN32s73.2666.1758.401 135SegNet89.6483.2577.7983FCN8s80.1673.3368.921 159

综上,主观上,U-Net不仅可以准确分割出图像中羊肋排区域,且能够较为精确地保留羊肋排边沿特征信息,由图9分割结果可以看出U-Net分割结果与人工标定结果最为接近。表现在分割精度PA和平均交并比MIoU上,由表3可知:基于U-Net的羊肋排区域分割PA与MIoU分别比SegNet、FCN8s与FCN32s高出2.74%,12.22%,19.12%,和6.47%,15.34%,25.86%。另外,FCN8s较FCN32s分割精度与平均交并比高出6.90%,10.52%,有效地保留了肋排细节特征。基于U-Net的模型能否实现对单幅图像的及时分割同样重要,通过对比,U-Net处理单幅图像的时间最少,较同为对称结构的SegNet快48 ms。FCN8s虽然分割性能较FCN32s有所提升,但是处理单幅图像用时稍久。试验结果说明,U-Net较FCN8s、FCN32s、SegNet分割性能最优,能够实现对羊肋排图像的实时准确分割。

3.3.3 劈半羊胴体图像肋排区域分割试验 研究羊肋排图像分割算法的最终目的在于,对未进行切割的劈半羊胴体图像肋排区域准确分割。经证明U-Net针对羊肋排图像数据,分割性能最优,因此选用该算法作为劈半羊胴体图像最终分割算法。为了验证U-Net对劈半羊胴体图像分割效果,随机选取50幅劈半羊胴体图像作为附加验证集,部分分割结果如图10所示。

针对劈半羊胴体图像附加验证集,U-Net平均交并比MIoU为75.57%,虽然较羊肋排数据集下降8.69%,但仍能准确分割出肋排区域。其原因可能为数据集之间语义信息差异较大、且劈半羊胴体背景与羊肋排特征较为相似,提高了分割难度。综上所述,研究的羊肋排区域分割算法,能够处理羊肋排个体差异和背景相似的干扰,具有一定的泛化能力。

图10 劈半羊胴体图像分割结果
Figure 10 The segmentation result of split carcass image

4 结论

(1) 提出了一种基于U-Net的羊肋排图像分割方法。经测试,该方法分割精度PA为92.34%,平均交并比MIoU为84.26%,处理单张图像耗时约35 ms,分割后羊肋排区域细节清晰、轮廓完整,表明该模型能够实现羊肋排区域的准确分割,且具备较高的分割精度以及良好的实时性。

(2) 与FCN8s、FCN32s、SegNet 3种图像分割方法比较,FCN8s、FCN32s过分割、欠分割现象明显,SegNet分割精度较高,但耗时较久。试验分割方法PA与MIoU较次优的SegNet高出2.74%,6.47%,比FCN32s高出19.12%,25.86%,且处理单幅图像平均耗时最少,优于SegNet的83 ms。对比结果表明基于U-Net的羊肋排图像分割方法性能显著。

(3) 更换分割对象为劈半羊胴体,U-Net可以克服目标与背景特征相似带来的干扰,准确分割羊肋排区域,具备一定的多尺度分割与泛化能力。

(4) 试验所研究的方法只适用于特定肋排,无法实现多类多个6分及8分羊胴体分体的目标检测,后续还需进一步研究及改进。此外,可尝试更换特征提取网络为浮点数较小的轻量级神经网络,以便于模型嵌入移动端。

参考文献

[1] 国家统计局. 中华人民共和国2017年国民经济和社会发展统计公报[EB/OL]. [2018-02-28]. http://www.stats.gov.cn/tjsj/zxfb/201802/t20180228_1585631.html.

[2] 中国产业信息网. 2019年中国羊肉行业市场规模及未来发展展望分析[EB/OL]. [2019-10-25]. http://www.chyxx.com/industry/201912/816157.html.

[3] 丁存振, 赵瑞莹. 我国肉羊屠宰加工业现状、问题及对策[J]. 肉类研究, 2014, 28(3): 31-35.

[4] 方梦琳, 张德权, 张柏林, 等. 我国羊肉加工业的现状及发展趋势[J]. 肉类研究, 2008, 22(3): 3-7.

[5] 张丽娜, 杨建宁, 武佩, 等. 羊只形态参数无应激测量系统与试验[J]. 农业机械学报, 2016, 47(11): 307-315.

[6] 周艳青, 薛河儒, 姜新华, 等. 基于多尺度Retinex图像增强的羊体尺参数无接触测量[J]. 中国农业大学学报, 2018, 23(9): 156-165.

[7] 邹昊, 田寒友, 刘飞, 等. 近红外光谱的预处理对羊肉TVB-N模型的影响[J]. 食品科学, 2016, 37(22): 180-186.

[8] 姜新华, 薛河儒, 郜晓晶, 等. 高光谱图像与稀疏核典型相关分析冷鲜羊肉新鲜度无损检测[J]. 光谱学与光谱分析, 2018, 38(8): 2 498-2 504.

[9] 孟令峰, 朱荣光, 白宗秀, 等. 基于手机图像的不同贮藏时间下冷却羊肉的部位判别研究[J/OL]. 食品科学. [2020-02-10]. https://kns.cnki.net/kcms/detail/11.2206.TS.20200207.1755.004.html.

[10] SAON G, PICHENY M. Recent advances in conversational speech recognition using convolutional and recurrent neural networks[J]. IBM Journal of Research and Development, 2017, 61(4): 1-10.

[11] 赵凯旋, 何东健. 基于卷积神经网络的奶牛个体身份识别方法[J]. 农业工程学报, 2015, 31(5): 181-187.

[12] 刘岩, 孙龙清, 罗冰, 等. 基于改进CNN的多目标生猪检测算法[J]. 农业机械学报, 2019, 50(增刊1): 283-289.

[13] 高云, 郭继亮, 黎煊, 等. 基于深度学习的群猪图像实例分割方法[J]. 农业机械学报, 2019, 50(4): 179-187.

[14] 杨阿庆, 薛月菊, 黄华盛, 等. 基于全卷积网络的哺乳母猪图像分割[J]. 农业工程学报, 2017, 33(23): 219-225.

[15] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//International conference on Medical Image Computiong and Computer-Assisted Intervention. Munich: Springer, 2015: 234-241.

[16] EVAN S, JONATHAN L, TREVOR D. Fully convolutional networks for semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston: [s.n.], 2015: 3 431-3 440.

[17] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2 481-2 495.

Image segmentation of sheep ribs based on U-shaped convolutional neural network

ZHAO Shi-da WANG Shu-cai LI Zhen-qiang CHEN Yan

(College of Engineering, Huazhong Agricultural University, Wuhan, Hubei 430070, China)

Abstract Accurate identification of lamb rib area is an important content in the research of sheep carcass intelligent cutting equipment. Aiming at the problem that the color, texture and other characteristics of the carcass of the split half sheep are not obvious, and it is difficult to achieve accurate segmentation of the rib area, this paper takes the sheep rib as the research object, and proposes a sheep rib based on U-shaped convolution neural network Row image segmentation algorithm. First, collect sample images of lamb ribs, used image augmentation technology to expand the image data, and after normalization, established a lamb rib image data set. Then, the U-Net sheep segmentation image segmentation model was established, and the rib features were extracted by convolution and pooling operations, and the deep and shallow features of the rib were merged. After multiple deconvolution operations, accurate positioning of the fused features was achieved. Obtained the binary image of the rib area, so as to achieve end-to-end semantic segmentation of the image. Finally, three image semantic segmentation evaluation criteria, including accuracy (PA), average pixel accuracy (MPA), and average cross merge ratio (MIoU), were introduced to judge the segmentation performance of the network. The experimental results showed that the U-Net segmentation rib images PA, MPA, and MIoU were 92.38%, 88.52%, and 84.26%, respectively. Comparing the existing three classical image semantic segmentation methods SegNet, FCN8s, FCN32s, the U-Net average merge ratio (MIoU) were 6.47%, 15.34%, 25.86% higher than the above three methods, respectively. The image time was 48 ms shorter than the sub-optimal SegNet. For the half-sheep carcass image dataset, the MIoU of U-Net was 75.57%.

Keywords lamb ribs; image segmentation; U-net; comparative experiment; segmentation result

基金项目:国家重点研发计划(编号:2018YFD0700804)

作者简介:赵世达,男,华中农业大学在读博士研究生。

通信作者:王树才(1966—),男,华中农业大学教授,博士生导师,博士。E-mail:Wsc01@mail.hzau.edu.cn

收稿日期:2020-05-18

DOI10.13652/j.issn.1003-5788.2020.09.020