Skip to content

Latest commit

 

History

History
103 lines (59 loc) · 1.88 KB

NLP.md

File metadata and controls

103 lines (59 loc) · 1.88 KB

NLP

  • 深度学习基础

    • 训练集、验证集、测试集/K-Fold交叉验证
    • 样本不均衡的解决办法
    • 判断过拟合、欠拟合的依据
    • 过拟合的解决办法
    • 损失函数
    • 交叉熵损失/Softmax的公式、物理意义、推导、梯度下降
    • 评价指标:混淆矩阵、f1_score、auc等
    • 正则化的方法:L1、L2、weight decay、dropout、早停法等
    • 常见的激活函数及特点
    • 常见的优化器以及公式
    • BatchNorm、LayerNorm的原理、公式、代码
    • 偏差、方差分析
    • CNN、RNN、LSTM、GRU的公式,梯度爆炸、消失的原因以及LSTM、GRU如何解决的,参数量估计
    • 神经网络的初始化的几种方式
  • 机器学习基础

    • 信息熵、信息增益、信息增益比
    • 逻辑回归、Softmax回归、SVM的公式、原理、推导、反向传播、区别?
    • SVM为什么要求解对偶问题
    • 聚类算法
    • HMM/CRF
  • 自然语言处理

    • 字/词/句/文档表示

      • one-hot向量
      • 词袋模型
      • 引入n-gram的词袋模型
      • TFIDF
      • NNLM
      • Word2Vec/GloVe/FastText
      • UniLM
      • ELMo
      • Bert
      • Roberta/Ernie/XLNet/Albert/Electra...
    • 特征抽取

      • CNN/IDCNN/High Way
      • RNN/LSTM/GRU
      • Transformer
      • Seq2Seq
    • Attention机制

    • 文本分类

      • 文本相似度计算

        • 余弦相似度
        • 孪生网络
      • 文本匹配/问答匹配

      • 序列标注

        • 中文分词
          • 基于词典的正向最大匹配
          • HMM/DAG-n-gram
      • 情感分析

      • 自然语言理解/自然语言推理

    • 文本聚类

    • 信息抽取

      • 新词提取
        • 基于信息熵、互信息
      • 关键词提取
        • 词频统计
        • TFIDF
        • TextRank