吴恩达人工智能学习笔记.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

吴恩达⼈⼯智能学习笔记

第⼀部分

第三周浅层神经⽹络

3.6激活函数

1.默认⽤ReLU,学习速度更快。

2.⼀般⽤tanh代替sigmoid。

3.⼆分类时,输出端为(0,1),可以⽤sigmoid。

4.ReLU缺点是负数梯度为0,在实践中⽆影响,因为有⾜够多z0的节点,保证ReLU的梯度存在。

5.可⽤leakyReLU修正。

3.7为什么需要⾮线性的激活函数

1.这样输出就是输⼊的线性组合。

2.回归问题的输出层,可以⽤线性激活函数。若⾮负,也可以⽤ReLU代替。

3.和压缩有关的⼀些⾮常特殊的情况,会在隐藏层⽤输出函数。

3.8激活函数的导数

˙

(

1.sigmoid函数的导数是σ(z)1−σ(z))。

2

2.tanh函数的导数是1−tanh(z)。

3.对于sigmoid和tanh函数,当z⾮常⼤时,导数趋于零。

4.ReLU函数的导数是(0ifz0)(1ifz0)

5.LeakyReLU函数的导数是(0.01ifz0)(1ifz0)

3.9神经⽹络中的梯度下降法

1.没太看懂

2.⽤np.sum(dz,axis=1,keepdim=True),keepdim防⽌将维度降⾄奇怪的(n,)⽤np.sum(dz,axis=1,keepdim=True),keepdim防⽌将

维度降⾄奇怪的(n,)

3.

3.10直观理解反向传播

1.从误差函数开始,求每个参数对误差函数的导数。

2.没有学完

3.11随机初始化

1.如果将所有参数w初始为0,反向传播将失效。

2.因为同层的隐藏单元做同样的事情。

3.w_1=np.random.randn((2,2))*0.01

4.b_1=np.zeros((2,1))

5.通常把权重矩阵w初始化成⼀个⾮常⼩的数,因为当⽤sigmoid激活函数时,可以获得较⼤梯度值。

6.如果⽹络中没有sigmoid激活函数,则可以⽤较⼤数初始化w。

7.当神经⽹络很深的时候,会选⽤0.01之外的常数。

第四周深层神经⽹络

4.1深层神经⽹络

1.神经⽹络的层数只算隐藏层,不算输出层。

2.L:表⽰层数

n[L]:表⽰每层的节点数

a[L]:表⽰每层的激活函数

[0]表⽰输⼊特征

x=a:

4.2深层⽹络中的前向传播

1.和浅层前向传播⼀样,每⼀层的节点⽤向量化技术(矩阵)技术,层到层之间只能⽤for循环。

4.3核对矩阵的维数

1.debug时,在纸上写⼀遍算法中所以矩阵的维数

[l][l][l][l−1]

2.dw=w=(n,n)

[l][l][l]

3.db=b=(n,1)

[l][l][l]

4.z=a=(n,1)未使⽤向量化技术

[l][l][l]

5.Z=A=(n,m)使⽤向量化技术,m是样本个数

[l][l][l]

6.dZ=dA=(n,m)

4.4为什么使⽤深层表⽰

⼈脸识别中:

1.第⼀层可以是特征检测器,或边缘检测器,每⼀个单元对应不同⽅向的边缘。

2.第⼆层可以识别各个器官,每⼀个单元对应眼睛,嘴巴,⿐⼦等等。

3.第三层把这些不同的器官放到⼀起,就组成了不同的⼈脸。

语⾳识别:

1.第⼀层探测低层次的⾳频波形的特征,⽐如⾳调变⾼低,⽩噪声还是吱吱声。

2.第⼆层探测声位,⽐如a,i,o…第⼆层探测声位,⽐如a,i,o…

3.第三层可以识别单词,第四层识别词组…知道完整的句⼦

电路理论:浅层需要指数级2n的节点,深层需要log(n)

遇到⼀个问题时,从浅层开始,把层数当成⼀个参数或者超参数调试。

4.5搭建深层神经⽹络块

1.前向传播:

文档评论(0)

liang 伟 + 关注
实名认证
文档贡献者

博士毕业生

1亿VIP精品文档

相关文档