数学符号,就是用一套符号来表示数学概念、数学关系。自15世纪以来,已形成包含200个符号的数学符号体系集,它们令数学作为科研通用语言,对包括计算机在内的现代科学蓬勃发展,起着举足轻重的作用。
但在人工智能、机器学习等新兴学科领域,方兴未艾的数学符号集尚存在符号不统一、容易混淆的问题,这在某种程度上阻挠了人工智能理论和技术交流的快速发展。为此,我们提出了机器学习领域的通用数学符号集。
第一版中,我们所选的主要是机器学习领域中常用、重要且对文章理解比较关键的一些符号。包括:数据集合(Dataset)、函数(Function)、损失函数(Loss function)、激活函数(Activation function)、两层神经网络(Two-layer neural network)、一般深度神经网络(General deep neural network)、复杂度(Complexity)、训练(Training)、傅里叶频率(Fourier Frequency)、卷积(Convolution)等类别。同时我们提供了这些符号的LaTeX代码,方便大家使用。
我们正在完善更多机器学习领域的符号定义,欢迎大家持续关注我们以后的定期更新,也可参见 GitHub 项目。Latex宏包可以从 CTAN 和 GitHub 下载。欢迎大家到 GitHub 提 issues 一起帮助我们改进符号系统。
部分符号展示,更多见 指南
部分符号展示,更多见 指南
| symbol | meaning | LATEX | simplied |
|---|---|---|---|
| x | input | \bm{x} | \vx |
| y | output, label | \bm{y} | \vy |
| d | input dimension | d | |
| do | output dimension d_{\rm o} | d_{\rm o} | |
| n | number of samples | n | |
| X | instances domain (a set) | \mathcal{X} | \fX |
| Y | labels domain (a set) | \mathcal{Y} | \fY |
| Z | = X × Y example domain | \mathcal{Z} | \fZ |
| H | hypothesis space (a set) | \mathcal{H} | \fH |
| θ | a set of parameters | \bm{\theta} | \vtheta |
| fθ : X → Y | hypothesis function | \f_{\bm{\theta}} | f_{\vtheta} |
| f or f ∗ : X → Y | target function | f,f^* | |
| ℓ : H × Z → R+ | loss function | \ell | |
| D | distribution of Z | \mathcal{D} | \fD |
| S = {zi}ni=1 | = {(xi, yi)}ni=1 sample set | ||
| LS(θ), Ln(θ), | empirical risk or training loss | ||
| Rn(θ), RS(θ) | empirical risk or training loss | ||
| LD(θ), RD(θ) | population risk or expected loss | ||
| σ : R → R+ | activation function | \sigma | |
| wj | input weight | \bm{w}_j | \vw_j |
| aj | output weight | a_j | |
| bj | bias term | b_j | |
| f∑θ(x) or f(x; θ) | neural network | f_{\bm{\theta}} | f_{\vtheta} |
| ∑mj=1 ajσ(wj · x + bj ) | two-layer neural network | ||
| VCdim(H) | VC-dimension of H | ||
| Rad(H ◦ S), RadS(H) | Rademacher complexity of H on S | ||
| Radn(H) | Rademacher complexity over samples of size n | ||
| GD | gradient descent | ||
| SGD | stochastic gradient descent | ||
| B | a batch set | B | |
| |B| | batch size | b | |
| η | learning rate | \eta | |
| k | discretized frequency | \bm{k} | \vk |
| ξ | continuous frequency | \bm{\xi} | \vxi |
| ∗ | convolution operation | * |
专家评语