自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

von Neumann

发布时间 2023.12.05阅读数 794 评论数 0

文本分类（Text Classification, Text Categorization）是最简单也是最基础的自然语言处理问题。即针对一段文本输入，输出该文本所属的类别，其中，类别是事先定义好的一个封闭的集合。文本分类具有众多的应用场景，如垃圾邮件过滤（将邮件分为垃圾和非垃圾两类）、新闻分类（将新闻分为政治、经济和体育等类别）等。在《自然语言处理从入门到应用——自然语言处理的应用任务》文章中介绍的文本情感分类任务就是典型的文本分类问题，类别既可以是褒、贬两类，也可以是喜、怒、哀和惧等多类。在使用机器学习，尤其是深度学习方法解决文本分类问题时，首先，需要使用《自然语言处理从入门到应用——文本的表示方法》中介绍的文本表示技术，将输入的文本转化为特征向量；然后，使用后文将要介绍的机器学习模型（也叫分类器），将输入的特征向量映射为一个具体的类别。

除了直接使用文本分类技术解决实际问题，还有很多自然语言处理问题可以转换为文本分类问题，如文本匹配（Text Matching），即判断两段输入文本之间的匹配关系，包括复述关系（Paraphrasing）即判断两个表述不同的文本语义是否相同、蕴含关系（Entailment），即根据一个前提文本，推断与假设文本之间的蕴含或矛盾关系等。一种转换的方法是将两段文本直接拼接起来，然后按复述或非复述、蕴含或矛盾等关系分类。

参考文献：
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

人工智能深度学习文本分类自然语言处理

转载原出处：

打赏 0

上一篇：自然语言处理从入门到应用——自然语言处理的基本问题：结构预测问题

下一篇：自然语言处理从入门到应用——自然语言处理的基本问题：序列到序列（Sequence-to-Sequence，Seq2Seq）问题

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

von Neumann

为你推荐

自动驾驶之轨迹规划2——高速超车场景下轨迹规划的量产方案

3D人脸重建算法汇总

C语言实现DFS和BFS

机器学习之朴素贝叶斯二、情感分析实践

机械臂论文笔记（一）【基于卷积神经网络的二指机械手抓取姿态生成研究】

yolov5检测框显示中文标签

关于作者

von Neumann

48

0

0

2

精选自然语言处理从入门到应用——自然语言处理（Natural Language Processing，NLP）基础知识

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

深入理解机器学习——机器学习概览

相关推荐

机器学习笔记-最大熵模型

2021李宏毅机器学习（4）：卷积神经网络CNN

（二十九）通俗易懂理解——转置（反）卷积+FCN+UNet

物体检测和分割轻松上手：从detectron2开始

Inception模型进化史：从GoogLeNet到Inception-ResNet

用于强化学习的自动驾驶仿真场景highway-env(1)

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

von Neumann

为你推荐

自动驾驶之轨迹规划2——高速超车场景下轨迹规划的量产方案

3D人脸重建算法汇总

C语言实现DFS和BFS

机器学习之朴素贝叶斯二、情感分析实践

机械臂论文笔记（一）【基于卷积神经网络的二指机械手 抓取姿态生成研究 】

yolov5检测框显示中文标签

评论（0）

关于作者

von Neumann

48

0

0

2

精选自然语言处理从入门到应用——自然语言处理（Natural Language Processing，NLP）基础知识

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

深入理解机器学习——机器学习概览

相关推荐

机器学习笔记-最大熵模型

2021李宏毅机器学习（4）：卷积神经网络CNN

（二十九）通俗易懂理解——转置（反）卷积+FCN+UNet

物体检测和分割轻松上手：从detectron2开始

Inception模型进化史：从GoogLeNet到Inception-ResNet

用于强化学习的自动驾驶仿真场景highway-env(1)

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

机械臂论文笔记（一）【基于卷积神经网络的二指机械手抓取姿态生成研究】

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板