TF-IDF解释

2024-05-15 21:22:07
开发
27

TF-IDF 表征了某个词对于一段文本的重要性和独特性

假设我们有以下三段简短的文本数据:

文本1: 这个苹果很新鲜很甜
文本2: 我买了一个苹果非常喜欢
文本3: 这个苹果皮非常光滑

首先,我们构建这个小文本集合的词典(vocabulary),去掉一些常见的无意义词语(如"的"、"一个"等),词典为:

{‘这个’, ‘苹果’, ‘新鲜’, ‘甜’, ‘我’, ‘买了’, ‘非常’, ‘喜欢’, ‘皮’, ‘光滑’} 共10个词条。

接下来,计算每个词条在每个文本中的TF(词频)值,以及在整个文本集合中的IDF(逆向文档频率)值。

例如对于"苹果"这个词条:
TF(文本1) = 1/4 = 0.25 (在文本1中出现1次,文本长度4)
TF(文本2) = 1/5 = 0.2
TF(文本3) = 1/4 = 0.25
IDF = log(3/3) = 0 (在所有3个文件中都出现过)

将每个词条的TF*IDF值作为该词条在该文本的特征值,那么文本1可以用一个10维的特征向量表示为:

[0.27, 0.25, 0.27, 0.27, 0, 0, 0, 0, 0, 0]

文本2的特征向量为:

[0, 0.2, 0, 0, 0.4, 0.4, 0.4, 0.4, 0, 0]

文本3的特征向量为:

[0.27, 0.25, 0, 0, 0, 0, 0, 0, 0.27, 0.27]

这样,我们就根据TF-IDF的值,将原始的文本数据转化为了数值型的向量形式,方便被机器学习模型使用。可以看出,在这个例子中,"苹果"对1和3更为重要,“新鲜”"甜"等对1更重要,“非常”"喜欢"对2更重要,“皮”"光滑"对3更重要。这些重要特征被很好地保留下来,而常见无意义的词组被过滤掉。

通过这个例子,我们可以看到TF-IDF如何高效地根据词条在不同文本中的重要性赋予权重,将文本表示为向量形式的特征,以输入机器学习任务中。

TF-IDF通过以下两个方面来凸显文档中的重要词语

1.词频(TF)部分

TF指的是单词在当前文档中出现的频率。一个词语在文档中出现的频率越高,说明它对该文档越重要,应当赋予更高的权重。

TF通常通过以下公式计算:

TF(t,d) = freq(t,d) / sum(freq(w,d) for w in d)

其中, freq(t,d)表示词语t在文档d中出现的频率,sum表示文档d中所有单词频率之和。这样可以归一化词频,避免受文档长度的影响。

2.逆向文档频率(IDF)部分

IDF的作用是降低那些在整个文档集中过于常见的词语的权重,提高那些较为独特、稀有的词语的权重。

IDF通过以下公式计算:

IDF(t,D) = log(N / freq(d in D contains t))

其中,N是语料库中文档的总数,freq(d in D contains t)是含有单词t的文档数量。

可以看到,如果一个单词在很多文档中都出现过,它的IDF值会较小;反之,如果一个词语在很少文档中出现,它的IDF值会较大。

最终,TF-IDF是TF和IDF的乘积:

TF-IDF(t,d,D) = TF(t,d) * IDF(t,D)

通过这种交叉计算,TF-IDF使得:

文档中出现频率高的词语获得较高权重(高TF)
在整个语料库中罕见的词语获得较高权重(高IDF)
普通常见词语的权重被削减(高TF低IDF或低TF低IDF)

因此,对于文档来说,它的特征词语(如专有名词、术语等)会获得很高的TF-IDF分数,而那些像"的"、"一个"这样的常见词语则会被降低权重,从而凸显了文档的重要词语特征。

这就是TF-IDF能突出重要词语、消除噪音的根本原因,使其成为自然语言处理中一种广泛使用的词语重要性加权方法。

附录：举一个计算的例子

原文地址:https://blog.csdn.net/weixin_41048094/article/details/138588596 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1790734404755263488.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

TF-IDF解释

2024-05-15 21:22:07 28 阅读
TF-IDF算法详细解析与应用

2024-05-15 21:22:07 30 阅读
解密TF-IDF：打开文本分析的黑匣子

2024-05-15 21:22:07 40 阅读
NLP基础——TF-IDF

2024-05-15 21:22:07 54 阅读
$NLP 笔记：<span style='color:red;'>TF</span>-<span style='color:red;'>IDF</span>$

NLP 笔记：TF-IDF

2024-05-15 21:22:07 28 阅读
TF-IDF算法

2024-05-15 21:22:07 31 阅读
【TF-IDF算法】

2024-05-15 21:22:07 38 阅读
tf-idf算法

2024-05-15 21:22:07 28 阅读
TF和TF-IDF区别和联系

2024-05-15 21:22:07 21 阅读
自然语言处理 TF-IDF

2024-05-15 21:22:07 52 阅读

最近更新

题解 - 序列

2024-05-15 21:22:07 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-05-15 21:22:07 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-05-15 21:22:07 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-05-15 21:22:07 100 阅读
NoSQL之Redis非关系型数据库

2024-05-15 21:22:07 101 阅读
2024.7.22 作业

2024-05-15 21:22:07 96 阅读
GDB调试正在运行的程序

2024-05-15 21:22:07 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-05-15 21:22:07 85 阅读
在Django里面运行非项目文件

2024-05-15 21:22:07 82 阅读
SSD基本架构与工作原理

2024-05-15 21:22:07 87 阅读
在誉天学习完HCIE就业吗？

2024-05-15 21:22:07 93 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-05-15 21:22:07 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-05-15 21:22:07 85 阅读
go 协程池的实现

2024-05-15 21:22:07 88 阅读
Shell脚本循环语句与函数

2024-05-15 21:22:07 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-05-15 21:22:07 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-05-15 21:22:07 85 阅读
四大引用——强软弱虚

2024-05-15 21:22:07 86 阅读
Python语言-面向对象

2024-05-15 21:22:07 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-05-15 21:22:07 85 阅读
网站安全-CDN篇

2024-05-15 21:22:07 88 阅读

热门阅读

cocos creator 帧率60 不生效meta50 能刷新到90

2024-05-15 21:22:07 23 阅读
Pencils Protocol 获合作伙伴 Galxe 投资，加快了生态进展

2024-05-15 21:22:07 34 阅读
【数据结构】堆（超详细）

2024-05-15 21:22:07 32 阅读
【Qt问题】windeployqt如何提取Qt依赖库

2024-05-15 21:22:07 32 阅读
算术平均数

2024-05-15 21:22:07 26 阅读
YOLO损失函数——SIoU和Focal Lossr损失函数解析

2024-05-15 21:22:07 26 阅读
第 397 场 LeetCode 周赛题解

2024-05-15 21:22:07 36 阅读
React Native 之原生组件和核心组件（二）

2024-05-15 21:22:07 28 阅读
leetcode.K站中转（python）

2024-05-15 21:22:07 32 阅读
vue3+ts（＜script setup lang=“ts“＞）刷新页面后保持下拉框选中效果

2024-05-15 21:22:07 29 阅读
vue3点击添加小狗图片,vue3拆分脚本

2024-05-15 21:22:07 31 阅读
电子学会C/C++编程等级考试2024年03月（四级）真题解析

2024-05-15 21:22:07 28 阅读
yolo进行视频检测结果没有生成

2024-05-15 21:22:07 30 阅读
Google Chrome 设备工具栏原理

2024-05-15 21:22:07 29 阅读
Linux函数

2024-05-15 21:22:07 28 阅读
nvr国标sip端口信息异常的处理

2024-05-15 21:22:07 32 阅读
前端工程化之包管理器

2024-05-15 21:22:07 33 阅读
盘点8个程序员可以接私活的平台，赚麻了...

2024-05-15 21:22:07 28 阅读
SpringBoot+Mock Mvc测试web接口增删改查、导入导出

2024-05-15 21:22:07 30 阅读
探索 Canva 的功能以及如何有效使用 Canva

2024-05-15 21:22:07 31 阅读
微信小程序更新日志

2024-05-15 21:22:07 32 阅读
iOS 安装cocoapds

2024-05-15 21:22:07 35 阅读
德国Dürr杜尔机器人维修技巧分析

2024-05-15 21:22:07 32 阅读
Nios-II编程入门实验

2024-05-15 21:22:07 30 阅读
设计模式之——单例模式

2024-05-15 21:22:07 34 阅读
android设计模式-单例模式

2024-05-15 21:22:07 38 阅读
【设计模式】单例模式-学习记录

2024-05-15 21:22:07 34 阅读
redis中的大key问题

2024-05-15 21:22:07 28 阅读
Android Studio实现简易音乐播放器(期末作业)

2024-05-15 21:22:07 33 阅读
同为代码签名证书，OV和EV的区别在哪？

2024-05-15 21:22:07 31 阅读