《向量》系列——4.天旋地转(向量,复数,极坐标)
By 苏剑林 | 2010-08-23 | 37864位读者 | 引用科学空间:2010年10月重要天象
By 苏剑林 | 2010-09-26 | 21403位读者 | 引用科学空间:2011年6月重要天象
By 苏剑林 | 2011-05-28 | 25439位读者 | 引用科学空间:2011年3月重要天象
By 苏剑林 | 2011-03-05 | 28689位读者 | 引用几颗经典行星,将成为3月星空剧场的主角。其中难得一见的水星将迎来一次观测条件很好的东大距,而到了下旬,土星也几乎整夜可见。随着落下时间的逐渐提前,木星的观测条件正逐渐变差。作为晨星的金星升起的时间也正不断推迟,我们将越来越难观测到它的身影。
天象大观
01日 11:40 金星合月: 1.7° S
11日 12:35 月合昴宿星团: 1.8° N
16日 04:16 水星合木星: 2° N
21日 07:21 春分
21日 19:00 月合角宿一: 2.5° N
21日 19:54 天王星合日
23日 08:59 水星大距: 18.6° E
31日 21:25 金星合月: 6.6° S
泰迪杯赛前培训之数据挖掘与建模“慢谈”
By 苏剑林 | 2017-03-14 | 30290位读者 | 引用应广州泰迪科技公司之邀,给泰迪杯数据挖掘竞赛录制了赛前培训视频,内容基本上是各种常见的数学模型及入门用法,以一种比较独特的思路,将朴素贝叶斯、HMM、逻辑回归、组合模型、神经网络、深度学习等等串了起来。视频讲解难度为入门级,当然,真的要融合贯通所有内容,恐怕要骨灰级。
不管怎么样,简单分享一下,欢迎大家留言讨论、建议甚至批评。
PPT下载:泰迪杯赛前培训ppt.zip
如何划分一个跟测试集更接近的验证集?
By 苏剑林 | 2020-10-16 | 51808位读者 | 引用不管是打比赛、做实验还是搞工程,我们经常会遇到训练集与测试集分布不一致的情况。一般来说我们会从训练集中划分出来一个验证集,通过这个验证集来调整一些超参数(参考《训练集、验证集和测试集的意义》),比如控制模型的训练轮数以防止过拟合。然而,如果验证集本身跟测试集差别比较大,那么验证集上很好的模型也不代表在测试集上很好,因此如何让划分出来验证集跟测试集的分布差异更小一些,是一个值得研究的题目。
两种情况
首先,明确一下,本文所考虑的,是能给拿到测试集数据本身、但不知道测试集标签的场景。如果是那种提交模型封闭评测的场景,我们完全看不到测试集的,那就没什么办法了。为什么会出现测试集跟训练集分布不一致的现象呢?主要有两种情况。
CoSENT(三):作为交互式相似度的损失函数
By 苏剑林 | 2022-11-09 | 26719位读者 | 引用在《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,笔者提出了名为“CoSENT”的有监督句向量方案,由于它是直接训练cos相似度的,跟评测目标更相关,因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT(二):特征式匹配与交互式匹配有多大差距?》中我们还比较过它跟交互式相似度模型的差异,显示它在某些任务上的效果还能直逼交互式相似度模型。
然而,当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品,所以结果都是面向有监督句向量的,即特征式相似度模型。最近笔者突然反应过来,CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢?本文来补充这部分实验。
最近评论