MoE环游记:1、从几何意义出发
By 苏剑林 | 2025-02-08 | 62233位读者 | 引用前两年福至心灵之下,开了一个“Transformer升级之路”系列,陆续分享了主流Transformer架构的一些改进工作和个人思考,得到了部份读者的认可。这篇文章开始,我们沿着同样的风格,介绍当前另一个主流架构MoE(Mixture of Experts)。
MoE的流行自不必多说,近来火出圈的DeepSeek-V3便是MoE架构,传言GPT-4也是MoE架构,国内最近出的一些模型也有不少用上了MoE。然而,虽然MoE的研究由来已久,但其应用长时间内都不愠不火,大致上是从去年初的《Mixtral of Experts》开始,MoE才逐渐吸引大家的注意力,其显著优点是参数量大,但训练和推理成本都显著低。
但同时MoE也有一些难题,如训练不稳定、负载不均衡、效果不够好等,这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升,这些问题在很大程度上已经得到解决,我们在接下来的介绍中会逐一谈到这些内容。
喜迎新春!兔年快乐!2011~
By 苏剑林 | 2011-02-02 | 39944位读者 | 引用Astronomy Calendar of Celestial Events
2012年全年天象
翻译自NASA:http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html
(北京时间)
一月
01 日 14:15 上弦月
01 日 金星位于: 34° E
03 二 04:19 月球过远地点: 404600 km
04 三 15:23 象限仪座流星雨:ZHR = 120
05 四 11:59 地球过近日点:0.9833 AU
05 四 17:17 月合昴宿星团 3.1° N
06 五 22:30 月亮过升交点
07 六 05:46 月亮过最北点: 22.5° N
09 一 15:30 满月
16 一 15:21 月合角宿一 2° N
16 一 17:08 下弦月
18 三 05:28 月球过近地点: 369900 km
20 五 02:26 月亮过降交点
20 五 10:12 月亮过最南点: 22.5° S
23 一 15:39 新月
31 二 01:42 月球过远地点:404300 km
31 二 12:10 上弦月
最近评论