大模型之家讯 近日,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战,特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。LLaVA-Scissor 采用了一种基于图论的算法 ——SCC 方法,能够有效识别 token 集中不同的语义区域。在实验验证方面,LLaVA-Scissor 在多个视频理解基准测试中表现突出,尤其在低 token 保留率下的优势更为明显。