首页打开

基于yolov26,SAM3,多模态视觉大模型的高精度交通场景智能算法技术

科技前沿 | 2025-12-10 09:29:10

来源:大众·风口财经

在新疆高速公路运营中,冬季气候原因造成部分路段团雾、风吹雪等恶劣天气频发,易导致能见度骤降、路面结冰和交通中断,传统监测手段难以实现对出行车辆和交管部门、运营单位的精准实时预警,严重影响路网安全和通行效率。

中新数科推出的铸道AI盒子,以“算法平台+AI盒子”双引擎架构,深度融合多模态视觉大模型技术,可有效应对新疆特殊气候特殊路段和多元运营场景的挑战。

该方案能够实时识别团雾生成与扩散趋势,监测风吹雪强度及路面结冰风险,实现恶劣天气的早期预警与分级管控;通过提升高风险路段的监测精度与预警时效,铸道AI技术可助力交管部门和运营单位提前实施限速、诱导、管控等措施,增强路网韧性,降低事故风险,保障恶劣天气下高速公路的安全有序运营。同时通过内置多种算法,实现从提高通行服务安全、增强运营质效的全方位立体数智化转型提升。

1,交通场景目标检测基础模型

1.1 近端检测模型

在工业界中,yolo系列一直是性能和性价比最均衡,工业落地最多的检测框架。2025年,YOLO26再一次横空出世,这是一次理念上的革新。它的架构遵循三个核心原则:简单性、部署效率和训练创新。

YOLO26与其他最先进模型的精度与推理速度对比

YOLO26 核心技术突破:四大创新设计

1. 彻底告别DFL模块

YOLO26完全移除了分布焦点损失(DFL)模块。虽然DFL有效,但它常常使导出复杂化并限制了硬件兼容性。这一简化大大扩展了对边缘和低功耗设备的支持,也为铸道AI盒子的轻量化部署提供了技术基础。

2. 端到端无NMS推理

与依赖NMS作为单独后处理步骤的传统检测器不同,YOLO26直接生成最终预测结果。这消除了整个管道阶段,显著减少延迟,使部署更加稳健,契合铸道 AI技术体系对实时性的要求。

3. 全新的MuSGD优化器

YOLO26引入了MuSGD优化器,它是SGD和Muon的混合体,灵感来自Moonshot AI在LLM训练中取得的Kimi K2突破。这一创新将语言模型中的优化技术应用到了计算机视觉领域,带来更稳定的训练和更快的收敛速度。该优化器已被中新数科整合至铸道 AI算法训练平台。

4. 增强的损失函数

结合ProgLoss和STAL等改进的损失函数,YOLO26在检测精度上有所提高,尤其在小物体识别方面有显著改进。这对于物联网、机器人、航空图像和其他边缘应用至关重要,也是铸道AI盒子实现高精度监测的核心技术支撑之一。

1.2 远端交通小目标检测模型

论文HIC-YOLOV5针对小目标检测提出了改进思路,HIC-YOLOv5 是一种针对小目标检测改进的 YOLOv5 模型,旨在提升检测精度的同时控制计算成本,使其更适合实时应用。HIC-YOLOV5结构如下:

改进方法

‌额外预测头‌:添加了一个专门用于小目标的高分辨率预测头(Small Object Detection Head, SODH),提供 160×160 分辨率的特征图,以更好地提取微小目标的特征。‌

‌通道增强模块‌:在骨干网络(Backbone)和颈部(Neck)之间引入 involution 块,通过自适应卷积核增强特征图的通道信息,减少信息损失。

‌轻量级注意力机制‌:在骨干网络末端集成 CBAM(Convolutional Block Attention Module),通过通道和空间注意力机制突出重要特征,同时保持较低的计算开销。‌

性能与应用

在 VisDrone-2019-DET 数据集上,HIC-YOLOv5 将 mAP@[.5:.95] 提升了 6.42%,mAP@0.5 提升了 9.38%,显著优于原始 YOLOv5。

该模型特别适用实时小目标检测(如行人、车辆),能有效应对目标遮挡、低密度和光照变化等挑战,已被中新数科纳入铸道 AI的小目标检测技术储备。‌‌

在实际工程落地中,兼顾精度和运行性能,中新数科选择基于yoloV11加入yoloV26的创新优化做为铸道AI盒子近端目标检测器。远端使用基于yolov11融合HIC-YOLOV5 改进点,融合后的基础检测模块在交通场景获得更低推理延迟下更高的精度。

改进后实际现场检测效果1

改进后实际现场检测效果2

2,分割模型融合思路

在计算机视觉领域,Segment Anything Model(SAM,分割一切模型)系列始终聚焦于一项核心任务——精准提取图像与视频中用户指定的目标对象。从2023年至今,三代模型的迭代升级,持续推动着目标分割技术的范式革新。

2023年问世的初代SAM(SAM 1),开启了分割技术的全新纪元。

2024年推出的SAM 2实现了关键突破:具备了视频级目标处理能力。进入2025年,SAM 3的亮相带来了更具颠覆性的技术飞跃,中新数科已将其深度整合至铸道 AI技术方案中。

SAM 3的卓越性能,源自强大的模型架构与完善的数据支撑体系。研发团队不仅构建了规模庞大的训练数据集SA-Co,更同步打造了同名的全新评估基准——这套基准堪称目标分割领域的“终极测试”。其数据集包含21.4万个独特短语、12.6万张图像与视频样本,更创新引入超300万个带有“困难否定”标签的样本,专门考核模型的开放词汇识别能力。据统计,其概念覆盖范围是现有所有基准总和的50倍。

评估体系的设计同样彰显专业性。传统检测指标(如平均精度AP)未考量模型的置信度校准性能,导致实际应用中可靠性不足。SA-Co基准则仅评估置信度高于0.5的预测结果,模拟真实应用场景,倒逼模型输出更可靠的判断。核心    评估指标“分类门控F1(CGF1)”更是兼顾定位能力(pmF1)与分类能力(IL MCC),既要求目标定位精准,更要求准确判断图像中是否存在目标。

在新疆交投高速公路的交通场景中,抛洒物识别,地面油污识别,地面垃圾识别场景,高精度的分割融合检测模型能带来更大的精度收益,特别是抛洒物识别,在模型跟踪车辆的周围做实时的高精度分割,可以检测任意类型大小的抛洒物,不需要额外训练。在新疆交投服务区的油污识别,垃圾识别中,高精度的分割模型能快速辅助完成高精度的算法开发。

3,多模态大模型融合思路

3.1 开源主流多模态视觉大模型代表简介

MiniCPM-V 4.5 是 MiniCPM-V 系列最新推出的多模态大模型,具备领先的视觉-语言理解与生成能力。该模型基于 Qwen3-8B 和 SigLIP2-400M 构建,总参数量为 8B,在多项权威评测中表现卓越。在 OpenCompass 综合评估中平均得分达 77.0,超越了包括 GPT-4o-latest、Gemini 2.0 Pro 等主流闭源模型,以及参数量更大的开源模型(如 Qwen2.5-VL 72B),成为 30B 参数以下性能最强的多模态语言模型之一,中新数科已将其作为铸道 AI多模态技术的核心底座。

MiniCPM-V 4.5 在视频理解方面实现重大突破,借助创新的统一3D重采样器,可高效处理高帧率与长视频内容,实现高达96倍的视频 token 压缩率。该能力使其在 Video-MME、LVBench 等视频理解任务中达到最先进水平,同时保持较低的推理成本,适配铸道AI盒子的边缘计算能力。

模型支持“快速/深度”双模式推理,用户可根据任务复杂度灵活切换,兼顾效率与性能。此外,MiniCPM-V 4.5 继承了 LLaVA-UHD 架构优势,可处理分辨率高达 1344×1344 像素的图像,在 OCR、文档解析等任务中表现突出,在 OCR Bench 和 OmniDocBench 上的性能甚至超过 GPT-4o-latest 和 Gemini 2.5。模型还具备多语言支持(超过30种语言)、可信行为增强等特性,为铸道 AI的跨场景适配提供了保障。

4,技术总结

视觉技术赋能高速运营:智能监测的算法架构革新

在新疆交投高速公路运营管理中,智能监测是保障通行安全、提升运营效率的核心支撑,其背后依托着一系列精准识别算法——从车流量统计、车型分类等基础交通要素感知,到抛洒物、行人闯入等风险事件预警,再到风吹雪、团雾等恶劣天气监测,乃至服务区的人流量统计、危化品识别等场景,共同织就了高速运营的“智慧感知网”。随着工业界技术迭代与学术界研究突破,中新数科基于这些技术为铸道AI盒子打造了专属算法体系,这些算法已形成两大主流技术架构,彻底重构了高速智能监测的精度与效率。

4.1两类核心算法架构:从“目标追踪”到“场景理解”

高速监测的算法需求可分为鲜明的两类:一类聚焦“具体目标的全流程管理”,需精准定位、跟踪目标并判断业务逻辑;另一类聚焦“复杂场景的状态解读”,需理解环境整体态势。对应这两类需求,业界形成了差异化且高效的技术路径。中新数科将其落地于铸道AI盒子产品中。

类型1:目标检测+跟踪+业务逻辑判断——精准锁定“具体目标”

这类架构针对车流量统计、车型分类、抛洒物识别、行人闯入、车辆逆行、违停监测及人流量统计等需求设计,核心是“找到目标、盯紧目标、判准行为”。其整体技术链路以“YOLO26+深度学习跟踪+业务规则判断+改进YOLO11小目标检测”为核心,堪称一套“目标管理流水线”。

车流量识别

抛洒物识别

作为当前目标检测领域的前沿模型,YOLO26承担“主力侦察兵”角色,凭借更深的网络结构和更优的特征提取能力,能快速定位图像或视频中的车辆、行人、抛洒物等目标,哪怕是高速远处的小型车辆也能精准捕捉。随后,深度学习跟踪模块接过“接力棒”——通过给每个目标分配唯一“身份标识”,实现连续帧间的目标关联,避免因车辆变道、遮挡或行人移动导致的“目标丢失”,比如能精准跟踪同一辆车从收费站到服务区的完整轨迹。

业务逻辑判断模块则是“智慧决策脑”,结合高速运营规则将跟踪数据转化为有效信息:比如统计单位时间内通过的车辆数得到车流量,根据目标尺寸、轮廓特征区分小型轿车与重型货车完成车型分类,通过判断车辆静止时长是否超过阈值识别违停。针对抛洒物、远处行人等小目标,改进后的YOLO11小目标检测模型专门强化了细节特征提取能力,解决了传统算法“看不清小目标”的痛点,这一优化已在铸道AI盒子服务新疆交投的项目中发挥实效。

类型2:场景理解架构——读懂“复杂环境”的语言

风吹雪与团雾是两类极具突发性和迷惑性的灾害性天气现象,严重威胁交通安全与公共安全——风吹雪能使能见度骤降并形成数倍于自然积雪的掩埋性雪堆,而团雾则能在瞬间吞噬公路路段,令驾驶员措手不及。对于风吹雪监测、团雾识别、等场景,传统算法常因“场景复杂、特征多变”陷入误报困境——比如将把薄雾误判为团雾。而最新的“多模态视觉大模型行业微调+SAM3分割”架构,彻底破解了这一难题,还实现了“零样本识别”的突破。

这套架构的核心逻辑是“让模型先懂行业,再精分割”。首先,以具备跨模态理解能力的先进视觉大模型为基础,通过高速场景的行业数据(如不同天气、不同时段的风吹雪、团雾样本)进行微调,打造出“懂高速”的垂直领域大模型。这种微调让模型掌握了高速场景的专属特征——比如团雾的“局部突发性、能见度骤降”特性,风吹雪的“雪花动态轨迹与路面积雪联动”特征。

而前文提到的SAM3分割模型,则承担“精准定位”的关键角色。借助SAM3对“概念级指令”的理解能力,只需向模型输入“风吹雪区域”“团雾范围”等文字描述,就能精准分割出场景中的目标区域,排除天空、树木等背景干扰。更值得称道的是,这套架构的“零样本识别”能力——无需为某种罕见场景(如特定强度的风吹雪)专门标注大量样本,模型就能通过对场景语义的理解完成识别,大幅降低了数据标注成本,为铸道AI盒子快速适配新疆交投所提供的各类复杂场景提供了便利。

与传统基于YOLO的算法相比,这种“大模型理解+精准分割”的组合,从根源上解决了误报问题:YOLO类算法依赖目标的固定特征模板,而新架构能理解场景的整体逻辑——从而能够从语义层面综合判断天气现象的本质,实现对复杂、多变场景的精准识别与可靠预警。

4.2架构革新带来的高精度突破

基于这两类架构构建的交通领域高精度识别体系,已在高速运营智能监测中展现出强大实力。无论是车流量统计的误差率大幅降低,还是恶劣天气下风吹雪、团雾识别的精准度提升,亦或是烟火、危化品等风险事件的早预警能力强化,都印证了技术架构革新的价值。这套体系不仅让高速监测从“看得见”迈向“看得准、看得懂”,更为高速公路的安全运营、智能调度提供了坚实的技术支撑。

高速路段场景:

车流量统计:实地场景准确率大于98%。

车型分类:实地场景准确率大于95%。

抛洒物:实地场景准确率大于90%。

行人闯入:实地场景准确率大于98%。

车型逆行:实地场景准确率大于98%。

车辆违停:实地场景准确率大于98%。

AI视频压缩:压缩率40-60%。

风吹雪:实地场景准确率大于90%。

团雾识别:技术核心已经验证,预计实地场景准确率大于95%。

服务区场景:

人流量:实地场景准确率大于96%。

车流量:实地场景准确率大于98%。

危化品识别:实地场景准确率大于98%。

商业管理:实地场景经准确率大于92%。

烟火识别:实地场景经准确率大于95%。

铸道AI盒子的协同优势:安全、友好与增效

中新数科的铸道方案以“双引擎”协同:算法平台负责训练优化,AI盒子处理部署执行,形成闭环。在团雾、风吹雪等场景中,其优势凸显:

安全可控:全链路私有化部署,核心算法100%自研,避免数据泄露。

业务友好:拖拽式模板库让业务人员30分钟上手,模型迭代周期<7天。

降本增效:算法复用率>70%,兼容存量设备,降低硬件成本。

实测数据显示,该方案在车流量统计(准确率>98%)、危化品识别(>98%)等场景均表现卓越,风吹雪和团雾识别更成为安全运营的关键支撑。

5,技术驱动交通智能化的未来

团雾和风吹雪等复杂天气的精准监测,标志着视觉技术从“工具赋能”迈向“生产力革命”。中新数科的铸道AI盒子通过融合YOLO26、SAM3及多模态大模型,不仅提升了算法精度,更以安全、友好的方式赋能全生命周期管理。未来,随着技术迭代,这类解决方案将进一步优化交通流量、降低事故率,为智慧高速建设提供核心动力。

铸道AI盒子作为中新数科的旗舰产品,持续引领大交通数智化转型,证明自主可控的技术路径是应对行业挑战的关键。在恶劣天气频发的背景下,其应用价值将日益凸显。

责任编辑:张亭旺