自然语言处理(NLP)是计算机科学中的一个重要领域,它致力于使计算机能够理解、解释和生成人类语言。在NLP中,将文本数据转换为机器可读的数值格式是一项基础任务。这就需要用到文本表示技术,其中最基础的两种方法就是词袋模型(Bag-of-Words,简称BoW)和TF-IDF。
词袋模型是将文本转换为数值向量的一种简单方法。它通过统计文档中每个词的出现次数来表示文本,忽略了词的顺序。例如,对于三部电影评论,可以构建一个包含所有唯一词的词汇表,并用1和0来标记每个词在评论中的出现情况,从而得到每个评论的向量表示。
然而,词袋模型也存在一些缺点。当遇到新的句子时,如果其中包含新的词,词汇表大小会增加,导致向量长度增加。此外,向量中会包含许多0,导致稀疏矩阵,这是希望避免的。没有保留句子的语法信息,也没有保留词在文本中的顺序信息。