需要一个CNN+LSTM+ATTENTION机制的代码,能够对视频中行为进行分类