PyTorch 学习笔记(二):关于Gradient

PyTorch入门实战教程

在BP的时候,pytorch是将Variable的梯度放在Variable对象中的,我们随时都可以使用Variable.grad得到对应Variable的grad。刚创建Variable的时候,它的grad属性是初始化为0.0的。

从下面这两段代码可以看出,使用d.backward()求Variable的梯度的时候,Variable.grad是累加的即: Variable.grad=Variable.grad+new_grad

既然累加的话,那我们如何置零呢?

通过上面的方法,就可以将grad置零。通过打印出来的信息可以看出,w1.grad其实是Variable。现在可以更清楚的理解一下Variable与Tensor之间的关系,上篇博客已经说过,Variable是Tensor的一个wrapper,那么到底是什么样的wrapper呢?从目前的掌握的知识来看,一个是保存weights的Tensor,一个是保存grad的Variable。Variable的一些运算,实际上就是里面的Tensor的运算。

pytorch中的所有运算都是基于Tensor的,Variable只是一个Wrapper,Variable的计算的实质就是里面的Tensor在计算。Variable默认代表的是里面存储的Tensor(weights)。理解到这,我们就可以对grad进行随意操作了。

这里更新的时候为什么要用Tensor更新,为什么不直接用Variable?

Variable更多是用在feedforward中的,因为feedforward是需要记住各个Tensor之间联系的,这样,才能正确的bp。Tensor不会记录路径。而且,如果使用Variable操作的话,就会造成循环图了(猜测)。

torch.optim

如果每个参数的更新都要w1.data.sub_(learning_rate*w1.grad.data),那就比较头疼了。还好,pytorch为我们提供了torch.optim包,这个包可以简化我们更新参数的操作。

注意:torch.optim只用于更新参数,不care梯度的计算。

关于 backward()

参数:

对于 retain_variables:

其他

这里来测试一下只使用部分 Variable 求出来的 loss对于原Variable求导得到的梯度是什么样的。

看结果和直觉是一样的。

文章来源:Keith

PyTorch入门实战教程

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回顶部