MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型：StreamingVLM，单块H100可达8 FPS

2025-10-15 作者：技术PP虾浏览量：635

可以用于实时视频助手、直播分析、智能监控、在线会议/课堂助手等等场景

其主要通过紧凑KV缓存机制和流式对齐训练策略来实现，在其Inf-Streams-Eval长视频理解任务超GPT-4o-mini