包含关键字经验分布函数的分布的文章

6 Aug

“让Keras更酷一些！”：精巧的层与花式的回调

By 苏剑林 | 2018-08-06 | 169606位读者 | 引用

Keras伴我走来

回想起进入机器学习领域的这两三年来，Keras是一直陪伴在笔者的身边。要不是当初刚掉进这个坑时碰到了Keras这个这么易用的框架，能快速实现我的想法，我也不确定我是否能有毅力坚持下来，毕竟当初是theano、pylearn、caffe、torch等的天下，哪怕在今天它们对我来说仍然像天书一般。

后来为了拓展视野，我也去学习了一段时间的tensorflow，用纯tensorflow写过若干程序，但不管怎样，仍然无法割舍Keras。随着对Keras的了解的深入，尤其是花了一点时间研究过Keras的源码后，我发现Keras并没有大家诟病的那样“欠缺灵活性”。事实上，Keras那精巧的封装，可以让我们轻松实现很多复杂的功能。我越来越感觉，Keras像是一件非常精美的艺术品，充分体现了Keras的开发者们深厚的创作功力。

本文介绍Keras中自定义模型的一些内容，相对而言，这属于Keras进阶的内容，刚入门的朋友请暂时忽略。

层的自定义

这里介绍Keras中自定义层及其一些运用技巧，在这之中我们可以看到Keras层的精巧之处。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数, keras 阅读全文 46 评论

6 Nov

Keras：Tensorflow的黄金标准

By 苏剑林 | 2019-11-06 | 76685位读者 | 引用

这两周投入了比较多的精力去做bert4keras的开发，除了一些API的规范化工作外，其余的主要工作量是构建预训练部分的代码。在昨天，预训练代码基本构建完毕，并同时在TPU/多GPU环境下测试通过，从而有志（有算力）改进预训练模型的同学多了一个选择。——这可能是目前最为清晰易懂的bert及其预训练代码。

预训练代码链接： https://github.com/bojone/bert4keras/tree/master/pretraining

经过这两周的开发（填坑），笔者的最大感想就是：Keras已经成为了tensorflow的黄金标准了。只要你的代码按照Keras的标准规范写，那可以轻松迁移到tf.keras中去，继而可以非常轻松地在TPU或多GPU环境下训练，真正的几乎是一劳永逸。相反，如果你的写法过于灵活，包括像笔者之前介绍的很多“移花接木”式的Keras技巧，就可能会有不少问题，甚至可能出现的一种情况是：就算你已经在多GPU上跑通了，在TPU上你也死活调不通。

Keras和Tensorflow

点击阅读全文...

分类：信息时代标签：keras 阅读全文 19 评论

15 Jul

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

By 苏剑林 | 2022-07-15 | 24599位读者 | 引用

可能有读者留意到，这次更新相对来说隔得比较久了。事实上，在上周末时就开始准备这篇文章了，然而笔者低估了这个问题的难度，几乎推导了整整一周，仍然还没得到一个完善的结果出来。目前发出来的，仍然只是一个失败的结果，希望有经验的读者可以指点指点。

在文章《将“Softmax+交叉熵”推广到多标签分类问题》中，我们提出了一个多标签分类损失函数，它能自动调节正负类的不平衡问题，后来在《多标签“Softmax+交叉熵”的软标签版本》中我们还进一步得到了它的“软标签”版本。本质上来说，多标签分类就是“$n$个2分类”问题，那么相应的，“$n$个$m$分类”的损失函数又该是怎样的呢？

这就是本文所要探讨的问题。

点击阅读全文...

分类：数学研究标签：优化, 损失函数阅读全文 6 评论

14 Jan

旁门左道之如何让Python的重试代码更加优雅

By 苏剑林 | 2024-01-14 | 39532位读者 | 引用

这篇文章我们讨论一个编程题：如何更优雅地在Python中实现重试。

在文章《新年快乐！记录一下 Cool Papers 的开发体验》中，笔者分享了开发Cool Papers的一些经验，其中就提到了Cool Papers所需要的一些网络通信步骤。但凡涉及到网络通信，就有失败的风险（谁也无法保证网络不会间歇性抽风），所以重试是网络通信的基本操作。此外，当涉及到多进程、数据库、硬件交互等操作时，通常也需要引入重试机制。

在Python中，实现重试并不难，但如何更加简单而又不失可读性地实现重试，还是有一定技巧的。接下来笔者分享一下自己的尝试。

循环重试

完整的重试流程大致上包含循环重试、异常处理、延时等待、后续操作等部分，其标准写法就是用for循环，用“try ... except ...”来捕捉异常，一个参考代码是：

点击阅读全文...

分类：信息时代标签：编程, 代码, python, 优化阅读全文 10 评论

12 Jul

对齐全量微调！这是我看过最精彩的LoRA改进（一）

By 苏剑林 | 2024-07-12 | 48576位读者 | 引用

众所周知，LoRA是一种常见的参数高效的微调方法，我们在《梯度视角下的LoRA：简介、分析、猜测及推广》做过简单介绍。LoRA利用低秩分解来降低微调参数量，节省微调显存，同时训练好的权重可以合并到原始权重上，推理架构不需要作出改变，是一种训练和推理都比较友好的微调方案。此外，我们在《配置不同的学习率，LoRA还能再涨一点？》还讨论过LoRA的不对称性，指出给$A,B$设置不同的学习率能取得更好的效果，该结论被称为“LoRA+”。

为了进一步提升效果，研究人员还提出了不少其他LoRA变体，如AdaLoRA、rsLoRA、DoRA、PiSSA等，这些改动都有一定道理，但没有特别让人深刻的地方觉。然而，前两天的《LoRA-GA: Low-Rank Adaptation with Gradient Approximation》，却让笔者眼前一亮，仅扫了摘要就有种必然有效的感觉，仔细阅读后更觉得它是至今最精彩的LoRA改进。

究竟怎么个精彩法？LoRA-GA的实际含金量如何？我们一起来学习一下。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 优化器, 低秩, lora 阅读全文 37 评论

10 Apr

备忘：椭圆坐标与复三角函数

By 苏剑林 | 2011-04-10 | 49843位读者 | 引用

椭圆坐标系是一种二维正交坐标系。与直角坐标的转换关系为
$$\begin{aligned}x = a \cos h \mu \cos \nu \\ y = a \sin h \mu \sin \nu\end{aligned}$$

其中$(-a,0)$和$(a,0)$是两个焦点。

参看：http://zh.wikipedia.org/wiki/椭圆坐标系

Elliptical_coordinates_grid

点击阅读全文...

分类：数学研究标签：坐标, 椭圆, 三角函数, 复数阅读全文 5 评论

6 Mar

谈大气消光和大气折光

By 苏剑林 | 2010-03-06 | 39726位读者 | 引用

其实太阳已经落到了地平线以下（大气折光）

苏剑林（BoJone）编写/翻译

实际感受：

大家也许会有这样的生活经验：早上的太阳没有中午的太阳猛烈？从东方升起到我们的头顶，月亮一直在变“亮”？……这些现象都与地球大气的“消光”现象密切相关！

众所周知，地球有一层厚厚的大气，既是我们呼吸的来源，也是我们生命的保护伞。他为我们提供了臭氧层，也为我们提供了蓝天和风霜雨露，还为我们送上了绚丽的彩虹。然而，在天文学角度，大气却是我们的“障碍”，浓厚的大气不利于我们对宇宙进行清晰的观测。因此，天文学家们一直希望把天文台建立海拔更高的地方，因为那里有着稀薄的大气……为了渴求更高的清晰度，人们甚至把望远镜放到了地球之外。

点击阅读全文...

分类：天文探索标签：折射, 大气, 光学, 消光阅读全文 1 评论

27 Nov

《自然极值》系列——1.前言

By 苏剑林 | 2010-11-27 | 53118位读者 | 引用

附：期中考过后，课程紧了，自由时间少了，因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容，和大家一同分享学习的乐趣。

闭区间[a,b]上的连续函数?(x)，其最大值为红色点，最小值为蓝色点

上一周和这一周的时间里，BoJone将自己学习物理和极值的一些内容进行了总结和整合，写成了《自然极值》一文。因此从今天起，到十二月的大多数时间里，科学空间将和大家讲述并讨论关于“极值”的问题，希望读者会喜欢这部分内容。当然，我不是专业的研究人员，更不是经验丰富的物理和数学教师，甚至可以说是一个“乳臭未干的小子”，因此，错误在所难免，只希望同好不吝指出，更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。

点击阅读全文...

分类：数学研究标签：物理, 极值, 自然阅读全文 8 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“让Keras更酷一些！”：精巧的层与花式的回调

Keras伴我走来

层的自定义

Keras：Tensorflow的黄金标准

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

旁门左道之如何让Python的重试代码更加优雅

循环重试

对齐全量微调！这是我看过最精彩的LoRA改进（一）

备忘：椭圆坐标与复三角函数

谈大气消光和大气折光

《自然极值》系列——1.前言

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接