人工智能实验TF-IDF矩阵
目录
一、 TF-IDF矩阵表示
1. 算法原理
计算TF-IDF矩阵,需要先分别计算出TF矩阵和IDF向量。
TF矩阵为词频归一化后的概率表示,公式为:

其中,d为文档编号,i为文档中的某个单词。分子中$n_{i,d}$表示文档d中单词i出现的次数,分母对文档d中的单词进行求和,即该文档中的单词总数。简单来说,$tf_{i,d}$表示文档d中单词i出现的次数除以该文档中的单词总数。TF矩阵表示了某个文档中的特定单词的权重。
IDF向量为逆向文档频率,公式为:

其中,i为某个单词,$C_i$为单词i在多少篇文档中出现了,而C为文档总数。IDF向量衡量了每个单词在所有文档中出现的频率,能度量该词语的普遍重要性。
为了同时考虑到单词在某篇文档和全部文档中的重要性,将TF和IDF合并,产生了TF-IDF矩阵。其公式如下:

IDF的部分中,分母要加一是为了防止出现分母等于零的情况。简单来说,就是将IDF的值作为权重乘到了TF中。IDF中单词i对应的值,乘到TF中单词i表示的每一项中。
依据上述公式和原理计算TF、IDF,最后就能算出TF-IDF。













