基于yolov26，SAM3，多模态视觉大模型的高精度交通场景智能算法技术

科技前沿 | 2025-12-10 09:29:10

来源：大众·风口财经

在新疆高速公路运营中，冬季气候原因造成部分路段团雾、风吹雪等恶劣天气频发，易导致能见度骤降、路面结冰和交通中断，传统监测手段难以实现对出行车辆和交管部门、运营单位的精准实时预警，严重影响路网安全和通行效率。

中新数科推出的铸道AI盒子，以“算法平台+AI盒子”双引擎架构，深度融合多模态视觉大模型技术，可有效应对新疆特殊气候特殊路段和多元运营场景的挑战。

该方案能够实时识别团雾生成与扩散趋势，监测风吹雪强度及路面结冰风险，实现恶劣天气的早期预警与分级管控；通过提升高风险路段的监测精度与预警时效，铸道AI技术可助力交管部门和运营单位提前实施限速、诱导、管控等措施，增强路网韧性，降低事故风险，保障恶劣天气下高速公路的安全有序运营。同时通过内置多种算法，实现从提高通行服务安全、增强运营质效的全方位立体数智化转型提升。

1，交通场景目标检测基础模型

1.1 近端检测模型

在工业界中，yolo系列一直是性能和性价比最均衡，工业落地最多的检测框架。2025年，YOLO26再一次横空出世，这是一次理念上的革新。它的架构遵循三个核心原则：简单性、部署效率和训练创新。

YOLO26与其他最先进模型的精度与推理速度对比

YOLO26 核心技术突破：四大创新设计

1. 彻底告别DFL模块

YOLO26完全移除了分布焦点损失（DFL）模块。虽然DFL有效，但它常常使导出复杂化并限制了硬件兼容性。这一简化大大扩展了对边缘和低功耗设备的支持，也为铸道AI盒子的轻量化部署提供了技术基础。

2. 端到端无NMS推理

与依赖NMS作为单独后处理步骤的传统检测器不同，YOLO26直接生成最终预测结果。这消除了整个管道阶段，显著减少延迟，使部署更加稳健，契合铸道 AI技术体系对实时性的要求。

3. 全新的MuSGD优化器

YOLO26引入了MuSGD优化器，它是SGD和Muon的混合体，灵感来自Moonshot AI在LLM训练中取得的Kimi K2突破。这一创新将语言模型中的优化技术应用到了计算机视觉领域，带来更稳定的训练和更快的收敛速度。该优化器已被中新数科整合至铸道 AI算法训练平台。

4. 增强的损失函数

结合ProgLoss和STAL等改进的损失函数，YOLO26在检测精度上有所提高，尤其在小物体识别方面有显著改进。这对于物联网、机器人、航空图像和其他边缘应用至关重要，也是铸道AI盒子实现高精度监测的核心技术支撑之一。

1.2 远端交通小目标检测模型

论文HIC-YOLOV5针对小目标检测提出了改进思路，HIC-YOLOv5 是一种针对小目标检测改进的 YOLOv5 模型，旨在提升检测精度的同时控制计算成本，使其更适合实时应用。HIC-YOLOV5结构如下：

‌

改进方法

‌额外预测头‌：添加了一个专门用于小目标的高分辨率预测头（Small Object Detection Head, SODH），提供 160×160 分辨率的特征图，以更好地提取微小目标的特征。‌

‌通道增强模块‌：在骨干网络（Backbone）和颈部（Neck）之间引入 involution 块，通过自适应卷积核增强特征图的通道信息，减少信息损失。

‌轻量级注意力机制‌：在骨干网络末端集成 CBAM（Convolutional Block Attention Module），通过通道和空间注意力机制突出重要特征，同时保持较低的计算开销。‌

性能与应用

在 VisDrone-2019-DET 数据集上，HIC-YOLOv5 将 mAP@[.5:.95] 提升了 6.42%，mAP@0.5 提升了 9.38%，显著优于原始 YOLOv5。

该模型特别适用实时小目标检测（如行人、车辆），能有效应对目标遮挡、低密度和光照变化等挑战，已被中新数科纳入铸道 AI的小目标检测技术储备。‌‌

在实际工程落地中，兼顾精度和运行性能，中新数科选择基于yoloV11加入yoloV26的创新优化做为铸道AI盒子近端目标检测器。远端使用基于yolov11融合HIC-YOLOV5 改进点，融合后的基础检测模块在交通场景获得更低推理延迟下更高的精度。

改进后实际现场检测效果1

改进后实际现场检测效果2

2，分割模型融合思路

在计算机视觉领域，Segment Anything Model（SAM，分割一切模型）系列始终聚焦于一项核心任务——精准提取图像与视频中用户指定的目标对象。从2023年至今，三代模型的迭代升级，持续推动着目标分割技术的范式革新。

2023年问世的初代SAM（SAM 1），开启了分割技术的全新纪元。

2024年推出的SAM 2实现了关键突破：具备了视频级目标处理能力。进入2025年，SAM 3的亮相带来了更具颠覆性的技术飞跃，中新数科已将其深度整合至铸道 AI技术方案中。

SAM 3的卓越性能，源自强大的模型架构与完善的数据支撑体系。研发团队不仅构建了规模庞大的训练数据集SA-Co，更同步打造了同名的全新评估基准——这套基准堪称目标分割领域的“终极测试”。其数据集包含21.4万个独特短语、12.6万张图像与视频样本，更创新引入超300万个带有“困难否定”标签的样本，专门考核模型的开放词汇识别能力。据统计，其概念覆盖范围是现有所有基准总和的50倍。

评估体系的设计同样彰显专业性。传统检测指标（如平均精度AP）未考量模型的置信度校准性能，导致实际应用中可靠性不足。SA-Co基准则仅评估置信度高于0.5的预测结果，模拟真实应用场景，倒逼模型输出更可靠的判断。核心评估指标“分类门控F1（CGF1）”更是兼顾定位能力（pmF1）与分类能力（IL MCC），既要求目标定位精准，更要求准确判断图像中是否存在目标。

在新疆交投高速公路的交通场景中，抛洒物识别，地面油污识别，地面垃圾识别场景，高精度的分割融合检测模型能带来更大的精度收益，特别是抛洒物识别，在模型跟踪车辆的周围做实时的高精度分割，可以检测任意类型大小的抛洒物，不需要额外训练。在新疆交投服务区的油污识别，垃圾识别中，高精度的分割模型能快速辅助完成高精度的算法开发。

3，多模态大模型融合思路

3.1 开源主流多模态视觉大模型代表简介

MiniCPM-V 4.5 是 MiniCPM-V 系列最新推出的多模态大模型，具备领先的视觉-语言理解与生成能力。该模型基于 Qwen3-8B 和 SigLIP2-400M 构建，总参数量为 8B，在多项权威评测中表现卓越。在 OpenCompass 综合评估中平均得分达 77.0，超越了包括 GPT-4o-latest、Gemini 2.0 Pro 等主流闭源模型，以及参数量更大的开源模型（如 Qwen2.5-VL 72B），成为 30B 参数以下性能最强的多模态语言模型之一，中新数科已将其作为铸道 AI多模态技术的核心底座。

MiniCPM-V 4.5 在视频理解方面实现重大突破，借助创新的统一3D重采样器，可高效处理高帧率与长视频内容，实现高达96倍的视频 token 压缩率。该能力使其在 Video-MME、LVBench 等视频理解任务中达到最先进水平，同时保持较低的推理成本，适配铸道AI盒子的边缘计算能力。

模型支持“快速/深度”双模式推理，用户可根据任务复杂度灵活切换，兼顾效率与性能。此外，MiniCPM-V 4.5 继承了 LLaVA-UHD 架构优势，可处理分辨率高达 1344×1344 像素的图像，在 OCR、文档解析等任务中表现突出，在 OCR Bench 和 OmniDocBench 上的性能甚至超过 GPT-4o-latest 和 Gemini 2.5。模型还具备多语言支持（超过30种语言）、可信行为增强等特性，为铸道 AI的跨场景适配提供了保障。

4，技术总结

视觉技术赋能高速运营：智能监测的算法架构革新

在新疆交投高速公路运营管理中，智能监测是保障通行安全、提升运营效率的核心支撑，其背后依托着一系列精准识别算法——从车流量统计、车型分类等基础交通要素感知，到抛洒物、行人闯入等风险事件预警，再到风吹雪、团雾等恶劣天气监测，乃至服务区的人流量统计、危化品识别等场景，共同织就了高速运营的“智慧感知网”。随着工业界技术迭代与学术界研究突破，中新数科基于这些技术为铸道AI盒子打造了专属算法体系，这些算法已形成两大主流技术架构，彻底重构了高速智能监测的精度与效率。

4.1两类核心算法架构：从“目标追踪”到“场景理解”

高速监测的算法需求可分为鲜明的两类：一类聚焦“具体目标的全流程管理”，需精准定位、跟踪目标并判断业务逻辑；另一类聚焦“复杂场景的状态解读”，需理解环境整体态势。对应这两类需求，业界形成了差异化且高效的技术路径。中新数科将其落地于铸道AI盒子产品中。

类型1：目标检测+跟踪+业务逻辑判断——精准锁定“具体目标”

这类架构针对车流量统计、车型分类、抛洒物识别、行人闯入、车辆逆行、违停监测及人流量统计等需求设计，核心是“找到目标、盯紧目标、判准行为”。其整体技术链路以“YOLO26+深度学习跟踪+业务规则判断+改进YOLO11小目标检测”为核心，堪称一套“目标管理流水线”。

车流量识别

抛洒物识别

作为当前目标检测领域的前沿模型，YOLO26承担“主力侦察兵”角色，凭借更深的网络结构和更优的特征提取能力，能快速定位图像或视频中的车辆、行人、抛洒物等目标，哪怕是高速远处的小型车辆也能精准捕捉。随后，深度学习跟踪模块接过“接力棒”——通过给每个目标分配唯一“身份标识”，实现连续帧间的目标关联，避免因车辆变道、遮挡或行人移动导致的“目标丢失”，比如能精准跟踪同一辆车从收费站到服务区的完整轨迹。

业务逻辑判断模块则是“智慧决策脑”，结合高速运营规则将跟踪数据转化为有效信息：比如统计单位时间内通过的车辆数得到车流量，根据目标尺寸、轮廓特征区分小型轿车与重型货车完成车型分类，通过判断车辆静止时长是否超过阈值识别违停。针对抛洒物、远处行人等小目标，改进后的YOLO11小目标检测模型专门强化了细节特征提取能力，解决了传统算法“看不清小目标”的痛点，这一优化已在铸道AI盒子服务新疆交投的项目中发挥实效。

类型2：场景理解架构——读懂“复杂环境”的语言

风吹雪与团雾是两类极具突发性和迷惑性的灾害性天气现象，严重威胁交通安全与公共安全——风吹雪能使能见度骤降并形成数倍于自然积雪的掩埋性雪堆，而团雾则能在瞬间吞噬公路路段，令驾驶员措手不及。对于风吹雪监测、团雾识别、等场景，传统算法常因“场景复杂、特征多变”陷入误报困境——比如将把薄雾误判为团雾。而最新的“多模态视觉大模型行业微调+SAM3分割”架构，彻底破解了这一难题，还实现了“零样本识别”的突破。

这套架构的核心逻辑是“让模型先懂行业，再精分割”。首先，以具备跨模态理解能力的先进视觉大模型为基础，通过高速场景的行业数据（如不同天气、不同时段的风吹雪、团雾样本）进行微调，打造出“懂高速”的垂直领域大模型。这种微调让模型掌握了高速场景的专属特征——比如团雾的“局部突发性、能见度骤降”特性，风吹雪的“雪花动态轨迹与路面积雪联动”特征。

而前文提到的SAM3分割模型，则承担“精准定位”的关键角色。借助SAM3对“概念级指令”的理解能力，只需向模型输入“风吹雪区域”“团雾范围”等文字描述，就能精准分割出场景中的目标区域，排除天空、树木等背景干扰。更值得称道的是，这套架构的“零样本识别”能力——无需为某种罕见场景（如特定强度的风吹雪）专门标注大量样本，模型就能通过对场景语义的理解完成识别，大幅降低了数据标注成本，为铸道AI盒子快速适配新疆交投所提供的各类复杂场景提供了便利。

与传统基于YOLO的算法相比，这种“大模型理解+精准分割”的组合，从根源上解决了误报问题：YOLO类算法依赖目标的固定特征模板，而新架构能理解场景的整体逻辑——从而能够从语义层面综合判断天气现象的本质，实现对复杂、多变场景的精准识别与可靠预警。

4.2架构革新带来的高精度突破

基于这两类架构构建的交通领域高精度识别体系，已在高速运营智能监测中展现出强大实力。无论是车流量统计的误差率大幅降低，还是恶劣天气下风吹雪、团雾识别的精准度提升，亦或是烟火、危化品等风险事件的早预警能力强化，都印证了技术架构革新的价值。这套体系不仅让高速监测从“看得见”迈向“看得准、看得懂”，更为高速公路的安全运营、智能调度提供了坚实的技术支撑。

高速路段场景：

车流量统计：实地场景准确率大于98%。

车型分类：实地场景准确率大于95%。

抛洒物：实地场景准确率大于90%。

行人闯入：实地场景准确率大于98%。

车型逆行：实地场景准确率大于98%。

车辆违停：实地场景准确率大于98%。

AI视频压缩：压缩率40-60%。

风吹雪：实地场景准确率大于90%。

团雾识别：技术核心已经验证，预计实地场景准确率大于95%。

服务区场景：

人流量：实地场景准确率大于96%。

车流量：实地场景准确率大于98%。

危化品识别：实地场景准确率大于98%。

商业管理：实地场景经准确率大于92%。

烟火识别：实地场景经准确率大于95%。

铸道AI盒子的协同优势：安全、友好与增效

中新数科的铸道方案以“双引擎”协同：算法平台负责训练优化，AI盒子处理部署执行，形成闭环。在团雾、风吹雪等场景中，其优势凸显：

安全可控：全链路私有化部署，核心算法100%自研，避免数据泄露。

业务友好：拖拽式模板库让业务人员30分钟上手，模型迭代周期<7天。

降本增效：算法复用率>70%，兼容存量设备，降低硬件成本。

实测数据显示，该方案在车流量统计（准确率>98%）、危化品识别（>98%）等场景均表现卓越，风吹雪和团雾识别更成为安全运营的关键支撑。

5，技术驱动交通智能化的未来

团雾和风吹雪等复杂天气的精准监测，标志着视觉技术从“工具赋能”迈向“生产力革命”。中新数科的铸道AI盒子通过融合YOLO26、SAM3及多模态大模型，不仅提升了算法精度，更以安全、友好的方式赋能全生命周期管理。未来，随着技术迭代，这类解决方案将进一步优化交通流量、降低事故率，为智慧高速建设提供核心动力。

铸道AI盒子作为中新数科的旗舰产品，持续引领大交通数智化转型，证明自主可控的技术路径是应对行业挑战的关键。在恶劣天气频发的背景下，其应用价值将日益凸显。

责任编辑：张亭旺