- word2vec与Elmo模型在语义学习上差异是什么?
- Batch Normalization与Layer Normalization区别?bert中为什么用后者?
- 熟悉GELU激活函数,与RELU差异。
- 实际操作,Semi-Supervised DA方法;
- 对比实施模型融合的相关方法。
- 有哪些文本增强方法?你用过哪些文本增强方法
- BERT有哪些调参方法?你是如何调参的?Transformer的原理?
- 尝试模型调参(比如BERT和word2vec构建词向量)
- 了解一种文本增强方法
- 代码实现文本增强(比如回译技术)
- 跑通其它的预训练模型
- 尝试多模型的融合,实现stacking方式
- 尝试加入特征进行模型学习
- 熟悉几种常用的参数初始化方法及其原理(看paper)
- 熟悉Adam原理(看paper)
LR模型?逻辑回归模型
模型蒸馏? 把模型参数减少