About 39,100,000 results
Open links in new tab
  1. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    在一元函数里,因为只有一个方向,所以直接使用导数就可以描述变化率了。而在多元函数里,就像在一开始的例子中,我们的小兔子是可以往东南西北甚至更多的方向蹦跶的,是个 3D 游戏 …

  2. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    为了降低随机梯度的方差,从而使得迭代算法更加稳定,也为了充分利用高度优化的矩阵运算操作,在实际应用中我们会同时处理若干训练数据,该方法被称为小批量梯度下降法 (Mini- Batch …

  3. 如何评价 Meta 新论文 Transformers without Normalization? - 知乎

    Normalization这个事得好好掰扯掰扯。 上古时期,网络经常在初始几个iteration之后,loss还没下降就不动,必须得把每一层的gradient与weight的比值打印出来,针对性地调整每一层的初始 …

  4. Gradient Reversal Layer指什么? - 知乎

    Gradient Reversal Layer指什么? Domain Adaption里面的GRL到底能发挥什么作用呢? 显示全部 关注者 309

  5. 优化中常出现的oracle应该怎么理解? - 知乎

    我还专门问了我的导师,我的导师的原话是: Oracle means the function value feedback provider, thus ZO oracle means the black-box prediction system itself. 翻译过来就是,oracle意味着不同 …

  6. 谁能解释一下密度泛函理论(DFT)的基本假设和原理么? - 知乎

    GGA (Generalized Gradient Approximation) 90 年代后,渐为化学界所接受,Kohn 因此1998年获诺贝尔化学奖。 思考:Kohn-Sham 方程与 Hartree-Fock 方程有什么本质的区别? 主要区别 …

  7. 梯度(gradient)到底是个什么东西?物理意义和 ... - 知乎

    5、知识总是学了又忘? 哈哈哈,感觉人脑就是这样,知识方法总是学了不用、不复习回顾就会遗忘的。 对于咱们人类来说,要想已经学过的知识技术牢记,复习、反复思考总结真的太重要 …

  8. 如何理解策略梯度(Policy Gradient)算法? - 知乎

    Actor-Critic算法结合了策略梯度(Policy Gradient)方法和值函数估计的优点,旨在通过两个不同的神经网络来学习:一个用于学习策略(Actor),另一个用于评估状态的价值(Critic)。

  9. 为什么DL,RL里面算法的最初版本都叫vanilla? - 知乎

    Aug 11, 2019 · 为什么DL,RL里面算法的最初版本都叫vanilla? 比如: RNN的最简单最初版本叫Vanilla RNN。 Policy Gradient 算法也有被叫 Vanilla PG. 用最原始的DDPG算法… 显示全部 关 …

  10. PyTorch中在反向传播前为什么要手动将梯度清零? - 知乎

    optimizer.zero_grad ():清空过往梯度 model.forward ():前向推理,计算损失函数; loss.backward ():反向传播,计算当前梯度; optimizer.step ():多次循环步骤 2-3,梯度累加 …