Linxii's Blog
NLP基础学习笔记1Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

自然语言处理#

1.Intro#

1.1.自然语言处理任务#

  • 语言建模(Language Modeling):预测下一个词或填补句子中的空白。
  • 机器翻译(Machine Translation):将文本从一种语言翻译成另一种语言。
  • 情感分析(Sentiment Analysis):识别文本中的情感倾向。
  • 命名实体识别(Named Entity Recognition, NER):识别文本中的实体,如人名、地名等。
  • 问答系统(Question Answering):根据给定的问题从文本中提取答案。

1.2.自然语言处理发展#

  自然语言处理的发展经历了从基于规则的方法统计方法,再到深度学习的方法。早期的方法依赖于手工设计的规则和特征提取技术。随着统计方法的发展,基于概率模型的方法如隐马尔可夫模型(HMM)和条件随机场(CRF)被广泛应用。近年来,深度学习方法,特别是基于Transformer架构的方法,如BERT和GPT,显著提升了自然语言处理任务的性能。

2.词嵌入#

2.1.词袋模型(Bag of Words)#

  词袋模型是一种简单的文本表示方法,将文本表示为词的无序集合,忽略了词的顺序和语法结构。每个文本被表示为一个向量,向量的每个维度对应一个词汇表中的词,值表示该词在文本中出现的频率或存在与否。

2.2.词向量(Word Embeddings)#

  词向量是一种将词映射到连续向量空间的方法,捕捉词之间的语义关系。常见的词向量方法包括Word2Vec和GloVe。词向量通过训练神经网络模型,使得语义相似的词在向量空间中距离较近。

3.经典NLP模型#

:此部分内容图片来自LSTM从入门到精通(形象的图解,详细的代码和注释,完美的数学推导过程)pytorch中LSTM参数详解(一张图帮你更好的理解每一个参数)

3.1.Word2Vec#

Arxiv ID 1301.3781
幻觉翻译 1301.3781

Word2Vec通过两种架构(CBOW和Skip-gram)来学习词向量。CBOW模型通过上下文词预测目标词,而Skip-gram模型通过目标词预测上下文词。

推荐指数:

3.2 RNN#

Arxiv ID

RNN通过循环连接来处理序列数据,能够捕捉序列中的时间依赖关系。然而,传统的RNN存在梯度消失和梯度爆炸问题,以及串行的运行方式,限制了其在长序列上的表现。

推荐指数:
3.2.1 RNN的结构#

RNN的结构

  对于中文分词任务而且,其中的XtX_{t}代表中文的一个字,然后OtO_{t}即代表BMES标签中的一个标签,StS_{t}代表RNN的隐藏状态。RNN通过循环连接来处理序列数据,能够捕捉序列中的时间依赖关系。然而,传统的RNN存在梯度消失和梯度爆炸问题,以及串行的运行方式,限制了其在长序列上的表现。

3.2.2 RNN的缺点#

(1)梯度消失与梯度爆炸问题

   在训练过程中,RNN的梯度可能会随着时间步的增加而迅速变小(消失)或变大(爆炸),导致模型难以学习长距离依赖关系。而这个梯度消失和爆炸问题主要是由于RNN在反向传播过程中需要计算多个时间步的梯度乘积, 梯度消失与梯度爆炸

  通过上图的推导可以看到,wsk1w_{s}^{k-1}是一个指数函数,递增或递减的速度取决于权重矩阵wsw_{s}的值。如果wsw_{s}的值小于1,那么随着时间步的增加,wsk1w_{s}^{k-1}会迅速趋近于0,导致梯度消失;如果wsw_{s}的值大于1,那么随着时间步的增加,wsk1w_{s}^{k-1}会迅速增大,导致梯度爆炸

3.3 LSTM#

Arxiv ID

LSTM引入了门控机制(输入门、遗忘门和输出门),有效地解决了传统RNN的梯度消失问题,使其能够捕捉更长时间的依赖关系。

推荐指数:
3.3.1 LSTM的结构#

LSTM的结构

  LSTM的核心是引入了一个单独的记忆单元(Cell State)和三个门控机制,输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。记忆单元能够在时间步之间传递信息,而门控机制则控制信息的流动,允许模型选择性地保留或丢弃信息,从而有效地捕捉长时间的依赖关系。

3.3.1 LSTM的Pytorch应用与结构对应#

LSTM的Pytorch应用与结构对应1 LSTM的Pytorch应用与结构对应2   

3.4 GRU#

Arxiv ID 1406.1078
幻觉翻译 1406.1078

GRU是一种简化的LSTM,结合了输入门和遗忘门为更新门,减少了参数数量,同时保持了捕捉长时间依赖关系的能力。

推荐指数:

4.Transformer在自然语言处理中的应用#

4.1.BERT (Bidirectional Encoder Representations from Transformers)#

Arxiv ID 1810.04805
幻觉翻译 1810.04805

BERT使用双向Transformer编码器,通过掩码语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)任务进行预训练。BERT能够捕捉上下文信息,提高了多种NLP任务的性能。

推荐指数:

4.2.GPT 1 (Generative Pre-trained Transformer)#

GPT使用单向Transformer解码器,通过自回归语言模型进行预训练。GPT在生成任务中表现出色,能够生成连贯且有意义的文本。

推荐指数:
NLP基础学习笔记1
https://tyuou2.github.io/blog/base-learning-3-nlp/
Author 林夕夕
Published at January 14, 2026
Comment seems to stuck. Try to refresh?✨