位置: 编程技术 - 正文

TF-IDF算法解析与Python实现方法详解(tf-idf例题)

编辑:rootadmin

推荐整理分享TF-IDF算法解析与Python实现方法详解(tf-idf例题),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:tf-idf例题,tf-idf算法和应用场景,tf-idf计算,tf-idf例题,tf-idf算法和应用场景,tf-idf算法和应用场景,tf-idf算法和应用场景,tf-idf算法和应用场景,内容如对您有帮助,希望把文章链接给更多的朋友!

TF-IDF(term frequency?inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。

在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

  逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

为了演示在Python中实现TF-IDF的方法,一些基于自然语言处理的预处理过程也会在本文中出现。如果你对NLTK和Scikit-Learn两个库还很陌生可以参考如下文章:

Python编程使用NLTK进行自然语言处理详解

Python自然语言处理之词干,词形与最大匹配算法代码详解

必要的预处理过程

首先,我们给出需要引用的各种包,以及用作处理对象的三段文本。

TF-IDF的基本思想是:词语的重要性与它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 但无论如何,统计每个单词在文档中出现的次数是必要的操作。所以说,TF-IDF也是一种基于 bag-of-word 的方法。

首先我们来做分词,其中比较值得注意的地方是我们设法剔除了其中的标点符号(显然,标点符号不应该成为最终的关键词)。

下面的代码用于测试上述分词结果,Counter() 函数用于统计每个单词出现的次数。

执行上述代码后可以得到如下结果,我们输出了其中出现次数最多的个词。

显然,像 the, a, and 这些词尽管出现的次数很多,但是它们与文档所表述的主题是无关的,所以我们还要去除“词袋”中的“停词”(stop words),代码如下:

同样,我们来测试一下上述代码的执行效果。

从下面的输出结果你会发现,之前那些缺乏实际意义的 the, a, and 等词已经被过滤掉了。

但这个结果还是不太理想,像 films, film, filmed 其实都可以看出是 film,而不应该把每个词型都分别进行统计。这时就需要要用到我们在前面文章中曾经介绍过的 Stemming 方法。代码如下:

类似地,我们输出计数排在前的词汇(以及它们出现的次数):

TF-IDF算法解析与Python实现方法详解(tf-idf例题)

上述代码执行结果如下:

至此,我们就完成了基本的预处理过程。

TF-IDF的算法原理

预处理过程中,我们已经把停词都过滤掉了。如果只考虑剩下的有实际意义的词,前我们已经讲过,显然词频(TF,Term Frequency)较高的词之于一篇文章来说可能是更为重要的词(也就是潜在的关键词)。但这样又会遇到了另一个问题,我们可能发现在上面例子中,madefortv、california、includ 都出现了2次(madefortv其实是原文中的made-for-TV,因为我们所选分词法的缘故,它被当做是一个词来看待),但这显然并不意味着“作为关键词,它们的重要性是等同的”。

因为”includ”是很常见的词(注意 includ 是 include 的词干)。相比之下,california 可能并不那么常见。如果这两个词在一篇文章的出现次数一样多,我们有理由认为,california 重要程度要大于 include ,也就是说,在关键词排序上面,california 应该排在 include 的前面。

于是,我们需要一个重要性权值调整参数,来衡量一个词是不是常见词。如果某个词比较少见,但是它在某篇文章中多次出现,那么它很可能就反映了这篇文章的特性,它就更有可能揭示这篇文字的话题所在。这个权重调整参数就是“逆文档频率”(IDF,Inverse Document Frequency),它的大小与一个词的常见程度成反比。

知道了 TF 和 IDF 以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。如果用公式来表示,则对于某个特定文件中的词语 ti 而言,它的 TF 可以表示为:

其中 ni,j是该词在文件 dj中出现的次数,而分母则是文件 dj 中所有词汇出现的次数总和。如果用更直白的表达是来描述就是,

某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数即可:

其中,|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+|{j:ti∈dj}|。同样,如果用更直白的语言表示就是

最后,便可以来计算 TF-IDF(t)=TF(t)×IDF(t)。下面的代码实现了计算TF-IDF值的功能。

再给出一段测试代码:

输出结果如下:

利用Scikit-Learn实现的TF-IDF

因为 TF-IDF 在文本数据挖掘时十分常用,所以在Python的机器学习包中也提供了内置的TF-IDF实现。主要使用的函数就是TfidfVectorizer(),来看一个简单的例子。

最终的结果是一个 4×9 矩阵。每行表示一个文档,每列表示该文档中的每个词的评分。如果某个词没有出现在该文档中,则相应位置就为 0 。数字 9 表示语料库里词汇表中一共有 9 个(不同的)词。例如,你可以看到在文档1中,并没有出现 and,所以矩阵第一行第一列的值为 0 。单词 first 只在文档1中出现过,所以第一行中 first 这个词的权重较高。而 document 和 this 在 3 个文档中出现过,所以它们的权重较低。而 the 在 4 个文档中出现过,所以它的权重最低。

最后需要说明的是,由于函数 TfidfVectorizer() 有很多参数,我们这里仅仅采用了默认的形式,所以输出的结果可能与采用前面介绍的(最基本最原始的)算法所得出之结果有所差异(但数量的大小关系并不会改变)。有兴趣的读者可以参考这里来了解更多关于在Scikit-Learn中执行 TF-IDF 算法的细节。

总结

标签: tf-idf例题

本文链接地址:https://www.jiuchutong.com/biancheng/372273.html 转载请保留说明!

上一篇:Python自然语言处理之词干,词形与最大匹配算法代码详解(Python自然语言处理PDF)

下一篇:python实现报表自动化详解(python自动报表)

  • 补做前几年税审对报税税务评级有什么影响?
  • 纳税调整项目包括哪些?请简单列举
  • 税控盘是什么干嘛的
  • 消费税退回退税流程
  • 个体户核定征收2023新政税率
  • 社保工伤保险可以交两家公司吗
  • 城镇土地使用税的征税范围有哪些
  • 合并报表中怎么抵消投资性房地产
  • 无形资产摊销为什么计入管理费
  • 银行取钱需要签协议吗
  • 调用系统服务出错核心征管后端
  • 增值税税率2019
  • 营改增服务
  • 挂靠工程如何交纳税金帐务处理?
  • 12月结账写本年累计吗
  • 销售废旧物资增值税新政策
  • 网站服务器使用什么IP地址
  • 外购材料委托加工分录
  • 朋友挂靠公司社保
  • 境内企业是否可以出境
  • 会计累计折旧属于什么科目
  • 承包学校的食堂如何纳税
  • 积分抵扣所开的发票,也能在税前扣除吗?
  • 发票验旧后可领新发票吗
  • 外币报表未分配利润折算
  • 房地产经常发生的法律问题
  • 支出凭证的日期
  • 股东退股会计科目
  • 个税起征点是
  • deepin启动延时
  • 增值税发票认证操作流程
  • 进货折扣是怎么计算
  • 苹果电脑付款方式设置
  • 建安营改增时间
  • 进程process.acore已停止怎么办
  • 房地产开发企业涉及哪些税
  • 金融机构拆出资金的最长期限
  • element-ui表格
  • 如何配置phpstudy
  • 企业所得税季度预缴是什么意思
  • vue里面的路由
  • python web开发方向的第三方库有哪些
  • 代理业务怎么记账
  • 工业企业成本核算的一般程序包括下列的
  • numpy array ndarray区别
  • 在Python中如何求坐标中的任意两个点的距离
  • 非货币性资产交换和债务重组的区别
  • 印花税申报怎么更正采集处理
  • 个人劳务费怎么退税
  • 其他债权投资减值为什么不影响所有者权益
  • 小规模未开票收入按1%还是3%
  • 收到托收凭证怎么做分录
  • 外购固定资产的会计处理
  • 购买的税控设备
  • 递延所得税资产和所得税费用的关系
  • 企业收到的政府补助属于
  • 付给农民的土地使用费
  • 企业单位为职工发放哪些福利
  • 负债类科目分录
  • 利息与资金占用费
  • 红字发票信息表在哪里查询
  • windows 2000 server系统安装图解
  • linux操作系统安装包
  • windows7报错
  • 如何重置win10
  • pruttct.exe - pruttct是什么进程 有什么用
  • 通知栏图标怎么变小
  • win8的显示设置
  • javascript ts
  • android导入别人的程序报错
  • Android游戏开发pdf
  • 详细的收藏
  • python利用matplotlib将扇形平分成50份
  • cmd怎么复制上一条命令快捷键
  • 深入理解新发展理念,推进供给侧结构性改革
  • 菜鸟100例python3
  • 个体工商户票种核定金额应该填多少
  • 出口退税企业分类管理等级
  • 补充耕地指标费用能从储备中心支付吗
  • 小规模纳税人租赁费税率
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设