自然语言处理中的文本表示方法

自然语言处理（NLP）是计算机科学中的一个重要领域，它致力于使计算机能够理解、解释和生成人类语言。在NLP中，将文本数据转换为机器可读的数值格式是一项基础任务。这就需要用到文本表示技术，其中最基础的两种方法就是词袋模型（Bag-of-Words，简称BoW）和TF-IDF。

词袋模型是将文本转换为数值向量的一种简单方法。它通过统计文档中每个词的出现次数来表示文本，忽略了词的顺序。例如，对于三部电影评论，可以构建一个包含所有唯一词的词汇表，并用1和0来标记每个词在评论中的出现情况，从而得到每个评论的向量表示。

然而，词袋模型也存在一些缺点。当遇到新的句子时，如果其中包含新的词，词汇表大小会增加，导致向量长度增加。此外，向量中会包含许多0，导致稀疏矩阵，这是希望避免的。没有保留句子的语法信息，也没有保留词在文本中的顺序信息。