基于YOLOv5s的番茄果實檢測模型改進.pdf
自 動 化 與 儀 表 2025 40 4 基于 YOLOv5s 的番茄果實檢測模型改進 DOI 10 19557 ki 1001 9944 2025 04 022 趙 真 青島大學(xué) 自動化學(xué)院 青島 266000 摘要 為了提升采摘機器人采摘番茄果實的識別準確率 減少誤判和漏檢的情況 該文提 出一種基于 YOLOv5s的番茄檢測改進模型 首先將 CA注意力機制加入到 YOLOv5s模型的 特征提取環(huán)節(jié) 為了進一步提高模型的泛化能力 實現(xiàn)多尺度特征融合 引入了 BiFPN結(jié)構(gòu) 替換原有的 PANet結(jié)構(gòu) 同時結(jié)合損失函數(shù) IoU進一步優(yōu)化模型的訓(xùn)練過程 從而提高檢測 精度 經(jīng)過試驗驗證 提出的模型在番茄果實檢測任務(wù)中獲得了顯著成果 相比 YOLOv5s 模型 改進后的模型準確率 召回率 F 1 分數(shù)和平均精度分別上升 2 2 2 1 2 2 和 1 3 改 進后的模型可以應(yīng)用于番茄采摘機器人 并可以對成熟番茄與未成熟番茄進行分類 與原 YOLOv5s算法相比 有效提升了檢測的精度 關(guān)鍵詞 YOLOv5s 注意力機制 采摘機器人 BiFPN 目標檢測 中圖分類號 TP391 文獻標識碼 A 文章編號 1001 9944 2025 04 0109 04 Improvement of Tomato Fruit Detection Model Based on YOLOv5s ZHAO Zhen School of Automation Qingdao University Qingdao 266000 China Abstract In order to improve the recognition accuracy of tomato fruit picking robots and reduce misjudgments and missed detections this paper proposes an improved tomato detection model based on YOLOv5s Firstly the CA atten tion mechanism is added to the feature extraction stage of the YOLOv5s model In order to further improve the gen eralization ability of the model and achieve multi scale feature fusion the BiFPN structure is introduced to replace the original PANet structure and the training process of the model is further optimized by combining the loss func tion IoU thereby improving the detection accuracy After experimental verification the proposed model has achieved significant results in tomato fruit detection tasks Compared to the YOLOv5s model the improved model has increased accuracy recall F 1 score and average precision by 2 2 2 1 2 2 and 1 3 respectively The improved model can be applied to tomato harvesting robots and can classify mature and immature tomatoes Compared with the original YOLOv5s algorithm it effectively improves the detection accuracy Key words YOLOv5s attention mechanism picking robot BiFPN object detection 收稿日期 2024 11 05 修訂日期 2025 03 24 作者簡介 趙真 1997 男 碩士 研究方向為果實采摘機器人設(shè)計 在當今農(nóng)業(yè)現(xiàn)代化的進程中 精準農(nóng)業(yè)是發(fā)展 的必然趨勢 其中對于農(nóng)作物的精準檢測是重要組 成部分 我國是世界最大的番茄生產(chǎn)國 但在番茄 采摘過程中 人工采摘仍是主要方式 不僅采摘效 率低 而且質(zhì)量無法保證 為了實現(xiàn)高效的果蔬采 摘 精準的目標檢測技術(shù)是必要的 隨著計算機視 覺技術(shù)和深度學(xué)習的蓬勃發(fā)展 使用目標檢測算法 對番茄進行自動化檢測成為現(xiàn)實 目標檢測算法旨在從圖像或者視頻中找出特 定目標的類別和位置信息 主要可以分為兩階段和 檢測技術(shù)與數(shù)據(jù)處理 109 Automation Instrumentation 2025 40 4 一階段算法 兩階段算法以 R CNN 為典型 這類算 法首先通過區(qū)域提議網(wǎng)絡(luò) 如 Selective Search 生成 可能包含目標的候選區(qū)域 再對這些區(qū)域進行特征 提取 分類和邊界框回歸 從而精準定位到目標的 位置與類別 算法精度較高 但計算速度慢 實時性 較差 另一類則是以 YOLO you only look once 1 和 SSD single shot multibox detector 2 為代表的一階 段算法 直接在整個圖像的特征圖上預(yù)測目標的類 別和位置 精度稍遜 但計算速度快 實時性較好 目前廣泛應(yīng)用于目標檢測領(lǐng)域 文獻 3 采用 YOLOv3 模型結(jié)合深度相機實現(xiàn) 了番茄目標的檢測 文獻 4 提出了一種基于 Shuf flenetv2 YOLOX 的蘋果目標檢測方法 文獻 5 去掉 了 YOLOv5 模型中的 FPN PAN 部分 采用淺層網(wǎng) 絡(luò)來對荔枝果實小目標進行檢測 識別準確度基本 不變 且提高了檢測速度 基于檢測速度和性能的要求 本文提出一種基 于改進 YOLOv5s 的目標檢測算法對番茄進行識別 并對成熟番茄和未成熟番茄進行分類 通過添加注 意力機制 替換 Backbone 主干網(wǎng)絡(luò) 更換 IoU inter section over union 等手段 提高番茄果實檢測的準 確性與實時性 1 基于改進 YOLOv5s 的番茄檢測算法 1 1 YOLOv5s 檢測算法 YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)如圖 1 所示 輸入端 Input 的作用是對圖片進行尺寸調(diào)整等操作 保證后續(xù)特 征提取順利進行 主干網(wǎng)絡(luò) Backbone 的作用是對 圖像進行特征提取 Focus 模塊對輸入圖像進行切 片操作 重新排列輸入端輸入的特征圖 獲取多個 圖像特征 Conv 模塊通過卷積操作提取圖片中的空 間和通道信息 C3 網(wǎng)絡(luò)和 SPPF 的作用都是增強特 征提取能力 前者增加網(wǎng)絡(luò)深度和感受野 后者則 是使用多尺度池化技術(shù) 實現(xiàn)自適應(yīng)尺寸輸出 Neck 部分使用 FPN PAN 結(jié)構(gòu)進行多尺度特征處理 促 進特征融合 輸出端 Head 的作用是目標類別預(yù) 測 目標位置確定和置信度評估 1 2 YOLOv5s 改進方案 YOLOv5 提供了不同的模型大小 使其能夠適 應(yīng)不同的應(yīng)用場景和計算資源 模型有 n s m l x 等 5 種 隨著架構(gòu)的增大 模型的復(fù)雜度也會增加 檢測精度會有所提高 但訓(xùn)練的時間也會增加 儲 存效率和識別速度也會降低 為了更好地滿足實時 檢測的需求 保證檢測速度 本研究選擇復(fù)雜度較 低的 YOLOv5s 作為基礎(chǔ)模型 改進后的網(wǎng)絡(luò)結(jié)構(gòu)如 圖 2 所示 1 2 1 添加 CA 注意力機制 注意力機制可以顯著提升模型的性能 可以分 為空間注意力機制和通道注意力機制 典型的通道 注意力機制如 SENet 可以明顯提升模型的效果 但 是忽略位置信息是常態(tài) 而 CBAM 模塊雖然引入了 空間信息編碼 但是沒有建立通道與空間注意力之 圖 1 YOLOv5s 檢測算法網(wǎng)絡(luò)結(jié)構(gòu) Fig 1 YOLOv5s detection algorithm network structure 輸入端 主干網(wǎng)絡(luò) Focus Conv C3 Conv C3 Conv C3 Conv C3 SPPF Concat Upsample Conv C3 Concat Upsample Conv Neck 網(wǎng)絡(luò) C3 Conv Concat C3 Conv Concat C3 輸出端 Detect Detect Detect 圖 2 改進 YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu) Fig 2 Improve YOLOv5s network structure 輸入端 主干網(wǎng)絡(luò) Focus Conv C3 CA Conv C3 CA Conv C3 CA Conv C3 CA SPPF Concat Upsample Conv C3 Concat BiFPN Upsample Conv Neck 網(wǎng)絡(luò) C3 Conv Concat BiFPN C3 Conv Concat BiFPN C3 輸出端 Detect Detect Detect 檢測技術(shù)與數(shù)據(jù)處理 110 自 動 化 與 儀 表 2025 40 4 間的聯(lián)系 CA coordinate attention 模塊則是兼顧了 空間與通道注意力的特點 有效應(yīng)對了這一問題 CA 分為兩步 首先是坐標嵌入 coordinateem bedding 具體表現(xiàn)是對每個位置的精確信息進行 編碼 具體方法則是使用一維池化核對特征圖在寬 和高上進行池化 得到的是一對編碼后的一維向 量 坐標注意力對整個特征圖在空間維度上進行平 均池化 例如對一個輸入大小為 c h w 的特征圖 X 使用池化核 x c 沿著水平 垂直方向?qū)γ總€通道進 行編碼 得到在寬度 w 上第 c 個通道特征映射 Z w 和高度 h 上第 c 個通道特征映射 Z h 從而獲取待檢 測目標的特征信息 高度為 h 的第 c 個通道輸出為 Z c h h 1 w null 0nulli w x c h i 1 寬度為 w 上的第 c 個通道輸出為 x c w w 1 H null 0nullj H x c j w 2 然后是坐標注意力 CA 生成 基于第 1 步的編 碼結(jié)果 通過全連接網(wǎng)絡(luò)學(xué)習后生成每個位置的注 意力權(quán)重 從而通過編碼獲得精確的坐標信息 首 先使用張量連接對獲取的兩個特征映射進行處理 再經(jīng)過 1 1 的卷積變換函數(shù) F 1 和非線性激活函數(shù) 處理后可以得到中間映射 f 公式為 f F 1 Z h Z w null nullnull null 3 再將 f 按空間維度拆分為特征張量 f h 和 f w 經(jīng) 過卷積變換后得到新的特征張量 F h f h null null和 F w f w null null 再經(jīng)過 Sigmoid 函數(shù)處理后得到特征張量在寬度 w 和高度 h 上的注意權(quán)重 g w 和 g h 公式為 g w F w f w null nullnull null g h F h f h null nullnull null 4 最后用通道注意權(quán)重對原始輸出圖 X 進行加 權(quán)處理 處理后的加權(quán)特征圖輸出公式為 y c i j x c i j g c h i g c w j 5 CA 坐標注意力結(jié)構(gòu)如圖 3 所示 1 2 2 BiFPN 網(wǎng)絡(luò)結(jié)構(gòu)替換 在實際采摘中 番茄經(jīng)常處于被遮擋的環(huán)境 這就大大增加了果實檢測的難度 為了解決這一難 題 本文在模型的 Neck 層運用 BiFPN 結(jié)構(gòu)替代了 PANet 結(jié)構(gòu) 通過多尺度特征融合大幅提升模型的 檢測性能 BiFPN 結(jié)構(gòu)如圖 4 所示 BiFPN 模塊首先使用小尺寸卷積核降維 然后 通過漸進的注意力機制從信息里面篩選所需要的 特征 這樣能夠自動選擇最佳的特征 同時減少模 型復(fù)雜度 降低計算的復(fù)雜性 但是如果在所有階 段都使用會大大增加模型層數(shù)和檢測時間 所以只 在 Neck 層進行模塊替換 1 2 3 損失函數(shù)優(yōu)化 目標檢測算法的性能深受損失函數(shù)的影響 傳 統(tǒng)的損失函數(shù) 如 CIoU DIoU 等 會造成模型收斂 緩慢 訓(xùn)練時易導(dǎo)致預(yù)測框漂移 針對 CIoU 存在的 問題 使用 EIoU 來替換 CIoU EIoU 提出直接對 w 和 h 的預(yù)測結(jié)果進行懲罰的損失函數(shù) 將損失函數(shù) 分為 3 部分 IoU 損失 距離損失 L dis 以及方向損失 L asp 這樣 就可以保留這次損失的完整特征 同時 圖 3 CA 坐標注意力結(jié)構(gòu) Fig 3 CA coordinate attention structure Input Residual c h w c h 1 X Avg Pool Y Avg Pool c 1 w Concat Conv2d c r 1 w h BatchNorm Non linear c r 1 w h c h 1 Conv2d Conv2d c 1 w c h 1 Sigmoid Sigmoid c 1 w Re weight c h w Output Repeated blocks P 7 P 6 P 5 P 4 P 3 圖 4 BiFPN 結(jié)構(gòu) Fig 4 BiFPN structure 檢測技術(shù)與數(shù)據(jù)處理 111 Automation Instrumentation 2025 40 4 EIoU 直接最小化了目標框和錨框的寬度和高度的 差異 收斂速度更快 定位效果更好 公式為 L EIoU L IoU L dis L asp 1 IoU 2 b b gt null null c 2 2 w w gt null null c w 2 2 h h gt null null c h 2 6 式中 c w 和 c h 是 2 個矩形閉包的寬度和高度 b 為預(yù) 測框的中心點 b gt 是真實框的中心點 w 和 h 分別為 預(yù)測框的寬和高 w gt 和 h gt 分別為真實框的寬與高 2 模型訓(xùn)練與結(jié)果分析 2 1 試驗環(huán)境 本文中訓(xùn)練和測試使用的電腦配置 GPU 型號 為 Nvidia GeForce RTX3050 CPU 型號為 Intel R Corei5 12500H 程序編譯環(huán)境為 Window11 系統(tǒng) Pytorch1 12 0 python3 8 5 CUDA 版本為 11 3 2 2 數(shù)據(jù)集的獲取及處理 本研究采用的數(shù)據(jù)集來源于網(wǎng)絡(luò)上公開的番 茄生長圖片集 從角度 距離 遮擋程度 果實數(shù)量 等各方面篩選出合適的圖像 共 1009 張 然后使用 Labelimg 對數(shù)據(jù)集進行標注 按照分類 0 對應(yīng)成熟 番茄果實 mature 1 則對應(yīng)未成熟番茄果實 immature 訓(xùn)練集與測試集比例為 8 2 2 3 評判指標 本研究主要采用準確率 P precision 召回率 R recall F 1 分 數(shù) 以 及 平 均 精 度 均 值 mAP mean average precision 作為評判指標 準確率計算公式為 P T p T p F p 7 召回率計算公式為 R T p T p F n 8 F 1 分數(shù)是準確率和召回率的調(diào)平均數(shù) 公式為 F 1 2 P R P R 9 AP average precision 為平均精度 公式為 AP 1 0 null P R dR 10 式中 F p 是錯誤預(yù)測的目標數(shù)量 T p 是正確預(yù)測的 數(shù)量 F n 是省略的要預(yù)測的目標數(shù)量 在檢測類別大于一種的情況下 mAP 相較于 AP 更能全面代表模型的性能 mAP 通過計算每個 類別的平均精度并取其平均值 能夠提供一個更加 全面的評價指標 本試驗的評價標準為 mAP 0 5 即閾值為 0 5 時的 mAP 公式為 mAP null n 1 AP n 11 式中 n 是檢測類別的數(shù)量 2 4 消融試驗 消融試驗旨在通過增加或減少模塊來體現(xiàn)模 塊的必要性 在初始的 YOLOv5s 模型基礎(chǔ)上 開展 針對 4 種改進模型的消融試驗 其中 模型 2 在原 始模型中增加了 CA 模塊 模型 3 將原有的模塊替 換為 BiFPN 模塊 模型 4 則使用 EIoU 損失函數(shù) 而 模型 5 集成了模型 2 3 4 的所有改動 即同時包含 CA 模塊 BiFPN 模塊和 EIoU 損失函數(shù) 為了驗證 改進效果 本文運用這 5 種模型對相同的圖像進行 檢測 并將這 5 種模型的評價指標進行整理 如表 1 所示 由試驗數(shù)據(jù)可知 在相同的試驗條件下 添加 CA 模塊 模型準確率 召回率 F 1 分數(shù)和平均精度 分別上升 1 7 1 5 1 6 和 0 8 使用 BiFPN 結(jié) 構(gòu)替換 PANet 結(jié)構(gòu) 模型準確率 召回率 F 1 分數(shù)和 平均精度分別上升 1 1 1 1 1 4 和 0 2 更換 損失函數(shù)為 EIoU 后 模型準確率 召回率 F 1 分數(shù)和 平均精度分別上升 1 8 1 1 1 4 和 0 4 相比 YOLOv5s 模型 改進后的模型準確率 召回率 F 1 分 數(shù)和平均精度分別上升 2 2 2 1 2 2 和 1 3 2 5 不同損失函數(shù)對比 在完成消融試驗進行結(jié)果對比之后 進一步在 CA BiFPN YOLOv5s 的基礎(chǔ)上比較了使用 CIoU EIoU 和 AlphaIoU 損失函數(shù)的效果 現(xiàn)將評價指標 整理 如表 2 所示 表 1 消融試驗結(jié)果對比 Tab 1 Comparison of ablation test results 模型 添加 CA BiFPN 替換 EIoU 替換 準確率 召回率 F 1 分數(shù) mAP 0 5 1 90 0 91 6 90 8 95 0 2 null 91 7 93 1 92 4 95 8 3 null 91 1 92 7 91 9 95 2 4 null 91 8 92 7 92 2 95 4 5 null null null 92 2 93 7 93 0 96 3 檢測技術(shù)與數(shù)據(jù)處理 下轉(zhuǎn)第 117 頁 112 自 動 化 與 儀 表 2025 40 4 3 結(jié)語 本實驗通過在某變電站部署本文設(shè)計的溫度 監(jiān)控系統(tǒng) 成功實現(xiàn)了對變壓器 高壓斷路器 隔離 開關(guān)及關(guān)鍵設(shè)備的溫度進行實時監(jiān)控與異常預(yù)警 實驗結(jié)果表明 該系統(tǒng)依托分布式拉曼光纖溫度傳 感器構(gòu)建的無線傳感器網(wǎng)絡(luò) 具備高精度 高可靠 性的溫度數(shù)據(jù)采集能力 系統(tǒng)能夠根據(jù)生產(chǎn)環(huán)境的 實際需求 靈活布置傳感節(jié)點 確保了對關(guān)鍵區(qū)域 和設(shè)備的全面覆蓋 從而有效提升了溫度監(jiān)測的效 率和準確性 參考文獻 1 李詩勇 謝榮斌 靳斌 等 基于射頻技術(shù)的開關(guān)柜無源無線溫度 測量系統(tǒng) J 高壓電器 2024 60 7 138 147 2 劉苗苗 謝軍 耿攀 等 改進自適應(yīng)加權(quán)融合的綜合管廊環(huán)境溫 度監(jiān)測 J 地下空間與工程學(xué)報 2022 18 S1 497 505 3 馮雙林 程麗紅 基于無線網(wǎng)絡(luò)的農(nóng)產(chǎn)品冷鏈物流溫度監(jiān)測系統(tǒng) 研究 J 農(nóng)機化研究 2024 46 2 212 215 220 4 王培強 李新玉 曹昊舉 基于 DSP 的煤井多點溫度檢測系統(tǒng)設(shè) 計 J 煤炭技術(shù) 2022 41 10 200 202 5 劉忠超 丁簽華 范靈燕 等 基于 WiFi 和云端的奶牛體溫監(jiān)測 系統(tǒng)設(shè)計 J 黑龍江畜牧獸醫(yī) 2022 8 55 59 132 8 石云東 廉原原 鞠麗 等 基于無線網(wǎng)絡(luò)煤礦遠程安全監(jiān)測系統(tǒng) 的設(shè)計 J 煤炭技術(shù) 2023 42 6 251 254 9 劉斌 孫藝哲 李秀杰 等 基于無線傳感網(wǎng)絡(luò)的溫室環(huán)境低功耗 監(jiān)測系統(tǒng)設(shè)計 J 吉林農(nóng)業(yè)大學(xué)學(xué)報 2022 44 4 495 504 10 門雅范 基于無線傳感網(wǎng)絡(luò)的礦井提升設(shè)備工況監(jiān)測系統(tǒng) J 煤 炭技術(shù) 2023 42 7 199 202 11 胡子昂 王強 谷小紅 等 基于分布式光纖傳感的合成氣管道溫 度在線監(jiān)測研究 J 激光與紅外 2023 53 1 90 96 12 陳燎 孫文慧 李仲興 機載無線傳感器網(wǎng)絡(luò)的傳輸可靠性研究 J 電子設(shè)計工程 2023 31 24 90 94 99 13 李運甲 陳川 關(guān)桐 等 基于柔性電阻式溫度傳感器的 GIS 無線 測溫系統(tǒng) J 中國測試 2023 49 2 126 132 14 于志剛 胡振超 宋立志 等 井下分布式光纖井筒溫度校正技術(shù) 研究與試驗 J 鉆采工藝 2022 45 6 70 74 15 夏鳳 楊乃凡 林倩如 等 基于微納光纖諧振環(huán)的溫度傳感器研 究 J 儀器儀表學(xué)報 2024 45 2 224 232 null 表 2 異常報警記錄表 Tab 2 Abnormal alarm record 時間戳 監(jiān)測點 當前溫度 預(yù)警 級別 備注 10 00 00 變壓器 A 120 緊急 油箱側(cè)壁超溫 立即檢查 10 15 32 變壓器 B 101 緊急 嚴重過熱 需緊急降溫 10 23 02 隔離開關(guān) C 89 緊急 檢查隔離開關(guān)的絕緣材 料老化 10 32 41 高壓斷路器 D 80 警告 查斷路器的觸頭部分和 負荷電流情況 10 45 02 變壓器 E 95 緊急 散熱器出口溫度過高 檢查風扇的工作狀態(tài) 10 50 00 隔離開關(guān) F 60 警告 隔離開關(guān)溫度異常 可 能影響穩(wěn)定性 10 59 45 高壓斷路器 G 75 警告 觸頭彈簧溫度過高 增 加接觸電阻 使用 EIoU 損失函數(shù)的模型實現(xiàn)了最高的準確 率 比 CIoU 損失函數(shù)和 AlphaIoU 高 0 1 其 F 1 分 數(shù)和平均精度均值也是最高 雖然召回率并非最 優(yōu) 但綜合考慮各評價指標 EIoU 損失函數(shù)在綜 合分數(shù)上表現(xiàn)最好 因此選擇 EIoU 損失函數(shù)作為 模型的損失函數(shù) 3 結(jié)語 基于深度學(xué)習的目標檢測算法在果實檢測領(lǐng) 域得到了廣泛應(yīng)用 但在番茄果實檢測方面 現(xiàn)有 的模型難以兼顧高準確率和快速檢測的需求 因 此 本研究著力于番茄果實檢測模型的研究與改進 目的是提高模型的檢測準確率 經(jīng)過研究與試驗 成功完成了對基于 YOLOv5s 的番茄果實檢測模型 的改進 在檢測精度方面 改進后的模型平均精度 達到 96 3 能夠準確識別番茄果實 有效減少了誤 檢和漏檢的情況 參考文獻 1 Redmon J Divvala S Girshick R et al You only look once Unified real time object detection C Computer Vision Pattern Recognition 2016 2 Liu W Anguelov D Erhan D et al SSD Single shot multibox detecto C Computer Vision ECCV 2016 14th European Confe rence 2016 3 Jun J Kim J Seol J et al Towards an efficient tomato harvesting robot 3D perception manipulation and end effector J IEEE Access 2021 9 17631 17640 4 Ji W Pan Y Xu B et al A real time apple targets detection method for picking robot based on ShuffleNetV2 YOLOX J Agriculture 2022 12 6 856 874 5 王萍葉 毛亮 基于 YOLOv5 的荔枝果實小目標檢測算法研究 J 山西電子技術(shù) 2023 4 74 77 null 表 2 評判指標對比 Tab 2 Comparison of evaluation indicators 損失函數(shù) 準確率 召回率 F 1 分數(shù) mAP 0 5 CIoU 92 1 92 4 92 2 95 8 EIoU 92 2 93 7 93 0 96 3 AlphaIoU 92 1 93 8 92 9 96 1 上接第 112 頁 儀表與自動化裝置 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 117