MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 基于流式幂迭代的Muon实现:5. 延伸
  • 基于流式幂迭代的Muon实现:4. 原理
  • 基于流式幂迭代的Muon实现:3. 雕琢
  • 中位数(Median)简介
  • 基于流式幂迭代的Muon实现:2. 加速
  • Attention Residua...
  • 基于流式幂迭代的Muon实现:1. 初识
  • MuP之上:3. 特殊情况特殊处理
  • MoE环游记:7、动态激活极简解
  • MoE环游记:6、最优分配促均衡

COMMENTS

  • 苏剑林: 关于网络该预测什么目标,这个后来确实有一些争议和讨论,实际上有...
  • 苏剑林: 我没试过,不过也就少一个自由度,猜测影响应该比较有限吧。
  • 苏剑林: 我没看明白你这里的推导,有时间我再翻翻你提到的论文,但是“Ad...
  • 苏剑林: 现在的我,似乎一看到“语义空间”这些词就有点血压飙升的感觉,脑...
  • 苏剑林: 常规内积到加权内积的转变,至少黎曼几何了(即便直角坐标到极坐标...
  • 苏剑林: 这一层的输出,就是下一层的输入,这个能理解吗?内还是外,仅仅是...
  • 苏剑林: attention学的是$q_t, k_{\leq t}, v...
  • YameChi: 苏神,我还有另一个问题请教您,对于公式(10)中,能否直接构造...
  • Oriend: 苏神好,请问一下如果进一步给V也加L2 norm会有什么影响吗...
  • EIFY: AdamW优化器的$\Vert\boldsymbol{u}_t...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

链接

  • Cool Papers
  • 数学研发
  • Seatop
  • Xiaoxia
  • 积分表-网络版
  • 丝路博傲
  • 数学之家
  • 有趣天文奇观
  • TwistedW
  • godweiyang
  • AI柠檬
  • 王登科-DK博客
  • ESON
  • 枫之羽
  • coding-zuo
  • 博科园
  • 孔皮皮的博客
  • 运鹏的博客
  • jiming.site
  • OmegaXYZ
  • EAI猩球
  • 文举的博客
  • 申请链接

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • 【备忘】在自己的电脑上搭建服务器
  • 脑洞大开:非线性RNN居然也可以并行计算?
  • 你好,2011!
  • 生活中的趣味数学:同一天生日概率有多大
  • 生活|我家的几只小鸡
  • GPLinker:基于GlobalPointer的实体关系联合抽取
  • 当Batch Size增大时,学习率该如何随之变化?
  • 当Bert遇上Keras:这可能是Bert最简单的打开姿势
  • 参加天文竞赛的照片...
  • 逻辑推理:拿了多少分(PuzzleUp)
发表你的看法
    1. «
    2. 1
    3. ...
    4. 3
    5. 4
    6. 5
    7. 6
Evan-wyl

October 27th, 2024

Hi, 苏神,我是EAI猩球博客的博主,主要关注具身智能这块,我的博客建立是受到您的影响的,非常希望能够和您的交换友链接。

回复评论
苏剑林 发表于 October 30th, 2024

已加

回复评论
Chaofa Yuan

May 4th, 2025

苏神您好,经常在你的 blog 学习各种知识,非常感谢分享~

希望与苏神交换友链,自己的 blog 运行有 6 年,均为原创内容,以 LLM/NLP 相关内容为主。

站点名称:chaofa用代码打点酱油
站点地址:https://bruceyuan.com
友链:https://bruceyuan.com/link.html

回复评论
苏剑林 发表于 May 11th, 2025

欢迎,已加

回复评论
真锋

August 13th, 2025

苏神您好,经常在你的 blog 学习各种算法和数学知识,虽然经常也会看不懂,但是其中公式推导过程让我印象深刻,感谢您的长达数10年的坚持分享~

我坚持写博客也 快 7 年了,均为原创内容,以 LLM 框架、深度学习基础、cuda/triton相关内容为主。

希望和苏神交换友链,

站点名称:Zhang's blog
站点地址:https://www.armcvai.cn/
友链:https://www.armcvai.cn/

回复评论
苏剑林 发表于 August 16th, 2025

好的,已加

回复评论
mp4网

September 25th, 2025

申请友链
站名:mp4网
域名:http://mp4wang.cc
描述:在线视频

回复评论
Henryavery.cn

January 5th, 2026

苏神2026好,我2020年大二第一次搭建博客,持续更新到了22年记录学习,如今停更三年我准备重启博客,也参考了您使用的typecho但对比之后还是选择了更新一点的Astro架构并打算继续参考您的博客且加入一些好用又有意思的新玩意,而且现在vibecoing越来越好用出现了越来越多的ai工具,甚至可以一键发布到非常多平台以及针对性地使用ai生成内容,您也写了这么多年博客,如果现在重新开始博客第一步的选型搭建起草会有何建议呢,我知道内容或者说人生产的一手内容才是博客的精髓,希望在其他地方得到您的指点,也希望未来能跟上您的步伐,祝好!

回复评论
苏剑林 发表于 January 6th, 2026

如果我有时间重新搭建博客,应该会用python自己写了,而不用第三方架构,这样可玩性好很多。事实上在大模型的帮助下,自己写一个自用的blog框架已经不是什么难事了。

回复评论
BOYOUGALA

January 24th, 2026

苏先生,您好,我是boyogala的博主,想向您申请友情链接。

名称:博優旮旯

微信号:boyogala

致力于让大家更专业、更完整和更系统地获取与了解数学(运筹与优化、数值分析)等相关数学知识分享!

配套网址:https://www.boyogala.us.kg

多谢,非常感谢,已经打赏了.

回复评论
    1. «
    2. 1
    3. ...
    4. 3
    5. 4
    6. 5
    7. 6
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前33岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 梯度 网站 概率 优化器 矩阵 转载 微分方程 分析 天象 深度学习 积分 python 几何 扩散 力学 无监督 节日 生活 文本生成 数论

    随机文章

    • 为什么勒贝格积分比黎曼积分强?
    • 2012年全年天象大观
    • 话说金属活动性顺序
    • 《量子力学与路径积分》习题解答V0.2
    • 无监督分词和句法分析!原来BERT还可以这样用
    • 力学系统及其对偶性(三)
    • 《量子力学与路径积分》习题解答V0.4
    • 巧断梯度:单个loss实现GAN模型
    • 变分自编码器(五):VAE + BN = 更好的VAE
    • 【奥赛之行】非同一般的天文奥赛

    最近评论

    • 苏剑林: 关于网络该预测什么目标,这个后来确实有一些争议和讨论,实际上有九种组合,可以参考:https:...
    • 苏剑林: 我没试过,不过也就少一个自由度,猜测影响应该比较有限吧。
    • 苏剑林: 我没看明白你这里的推导,有时间我再翻翻你提到的论文,但是“AdamW的最优学习率不会随着$\b...
    • 苏剑林: 现在的我,似乎一看到“语义空间”这些词就有点血压飙升的感觉,脑中出现一群老古董试图用自己的古董...
    • 苏剑林: 常规内积到加权内积的转变,至少黎曼几何了(即便直角坐标到极坐标,也可以说是黎曼几何的特例)。然...
    • 苏剑林: 这一层的输出,就是下一层的输入,这个能理解吗?内还是外,仅仅是取决于你的视角,attnres论...
    • 苏剑林: attention学的是$q_t, k_{\leq t}, v_{\leq t}$到$o_t$...
    • YameChi: 苏神,我还有另一个问题请教您,对于公式(10)中,能否直接构造一个网络,输入xt,输出为x0来...
    • Oriend: 苏神好,请问一下如果进一步给V也加L2 norm会有什么影响吗?V携带的信息量应该变少了,但是...
    • EIFY: AdamW优化器的$\Vert\boldsymbol{u}_t\Vert_{RMS}$取决于$...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2026 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。