利用Python分析txt文本中的关键词频率与词汇和句子指标占比

2024-06-12 18:02:02
开发
9

在数据分析和自然语言处理的过程中，关键词的提取和统计是一个重要的步骤，特别是在分析政策文件、经济报告或其他涉及复杂信息的文本时。本文将介绍如何使用Python进行中文文本中的关键词统计，将关注政策相关和不确定性相关的关键词出现频率。通过这样的分析，可以揭示文本中政策导向和不确定性因素的分布情况，从而为进一步的经济分析和决策提供数据支持。

（一）Python分析文本中的不确定性关键词频率

工具与库的使用
本文使用了以下几个Python库：

jieba：一个强大的中文分词库，用于将连续的文本切分成词汇。
hanziconv：一个汉字转换库，用于在繁体字和简体字之间进行转换。
os：用于文件路径操作和读取文件。

分析步骤
（1）关键词定义：首先，定义政策相关和不确定性相关的关键词列表。这些关键词是我们感兴趣的内容，在文本中提及的频率可以反映出政策导向和不确定性因素。
（2）文本读取与预处理：从指定的文件路径读取文本，并将其中的繁体字转换为简体字，确保分词和关键词统计的一致性。
（3）文本分词：使用jieba库对文本进行分词处理，将连续的文本切分成单个的词汇。
（4）关键词统计：遍历分词后的词汇，统计每个关键词出现的次数，并计算其在总词汇中的占比。
（5）结果输出：输出总词组数、政策关键词出现次数及其占比、不确定性关键词出现次数及其占比。
以下是具体的代码实现：

import jieba  # 导入分词库
from hanziconv import HanziConv  # 导入汉字转换库

# 定义政策相关和不确定性相关的关键词列表
policy_keywords = ["市政", "政策", "货币政策", "政策鼓励", "国家", "扩内需",
                   "保增长", "促发展", "产业发展", "法律", "法规", "国民经济", "有关部门",
                   "产业结构", "产业结构调整", "财政", "税收", "所得税", "增值税",
                   "税收减免", "税收优惠", "刺激政策", "限贷令", "限购令", "保障房",
                   "宏观调控", "政府", "当局", "国务院", "中央政府", "当地政府", "证监会",
                   "政治", "军事", "宏观", "国家政策", "政策环境", "经济政策", "政策走势"]
uncertainty_keywords = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
                        "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
                        "不寻常", "错综复杂", "非常复杂"]

# 设置文件路径并读取文件
file_path = 'C:\\Users\\Desktop\\1.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()
text = HanziConv.toSimplified(text)  # 将文本中的繁体字转换为简体字
words = list(jieba.cut(text))  # 文本进行分词
total_words = len(words)  # 统计总的词组数量

# 初始化关键词计数字典
policy_counts = {key: 0 for key in policy_keywords}
uncertainty_counts = {key: 0 for key in uncertainty_keywords}

# 遍历所有词汇，统计关键词出现的次数
for word in words:
    if word in policy_counts:
        policy_counts[word] += 1
    if word in uncertainty_counts:
        uncertainty_counts[word] += 1

# 计算关键词的占比
policy_ratio = sum(policy_counts.values()) / total_words * 100  # 计算政策关键词的占比
uncertainty_ratio = sum(uncertainty_counts.values()) / total_words * 100  # 计算不确定性关键词的占比

# 输出统计结果
print("总词组数:", total_words)
print("政策关键词出现次数:", policy_counts)
print("政策关键词占比:", f"{policy_ratio:.2f}%")
print("不确定性关键词出现次数:", uncertainty_counts)
print("不确定性关键词占比:", f"{uncertainty_ratio:.2f}%")

（二）Python分析文本中的不确定性词汇和句子指标占比

分析步骤：
（1）环境准备和库的导入
安装必要的库：确保安装了 jieba 和 hanziconv。这两个库分别用于中文分词和中文繁简转换。
导入库：在 Python 脚本中导入所需的库。
（2）文本数据的加载和预处理
加载文本数据：从文件或其他数据源读取文本。
文本预处理：包括繁简转换、去除非文字和标点符号，以及分词。

def text_preprocess(text):
    text = HanziConv.toSimplified(text)  # 繁转简
    text = ''.join(e for e in text if e.isalnum() or e.isspace())  # 清理文本
    words = list(jieba.cut(text))  # 分词
    return words

（3）分析经济政策不确定性
定义不确定性相关词汇：列出与经济政策不确定性相关的关键词汇。
计算不确定性词汇占比（EPUW）：统计这些词汇在文本中的出现频率，以此衡量不确定性的程度。

def calculate_EPUW(words):
    uncertainty_words = [...]
    num_uncertainty = sum(word in uncertainty_words for word in words)
    EPUW = num_uncertainty / len(words) if words else 0
    return EPUW

（4）进一步分析句子中的不确定性（EPUS）
句子级分析：将文本分割成句子，并分析每句中是否含有不确定性词汇。
计算不确定性句子占比：比较含有不确定性词汇的句子与总句子数的比例。

def calculate_EPUS(text):
    sentences = text.split('。')
    num_uncertainty_sentences = sum(any(word in s for word in uncertainty_words) for s in sentences)
    EPUS = num_uncertainty_sentences / len(sentences) if sentences else 0
    return EPUS

以下是具体的代码实现：

import jieba  # 导入分词库
from hanziconv import HanziConv  # 导入汉字转换库

# 文本预处理函数：去除停用词、标点符号等，并进行分词处理
def text_preprocess(text):
    # 去除标点符号和特殊字符
    text = ''.join(e for e in text if e.isalnum() or e.isspace())
    # 分词处理
    words = list(jieba.cut(text))
    return words

# 经济政策不确定性词汇占比计算函数
def calculate_EPUW(text):
    words = text_preprocess(text)  # 文本预处理
    total_words = len(words)  # 计算总词数
    uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
                        "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
                        "不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇
    num_uncertainty = sum(word in uncertainty_words for word in words)  # 统计文本中不确定性词汇的数量
    EPUW = num_uncertainty / total_words if total_words > 0 else 0  # 计算经济政策不确定性词汇占比
    return EPUW

# 经济政策不确定性句子占比计算函数
def calculate_EPUS(text):
    sentences = text.split('。')  # 将文本按句分割
    total_sentences = len(sentences)  # 计算总句数
    uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
                        "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
                        "不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇
    num_uncertainty_sentences = sum(any(word in sentence for word in uncertainty_words) for sentence in sentences)  # 统计文本中包含不确定性词汇的句子数量
    EPUS = num_uncertainty_sentences / total_sentences if total_sentences > 0 else 0  # 计算经济政策不确定性感知指标
    return EPUS

# 读取文本文件并进行简体中文转换
file_path = 'C:\\Users\\Desktop\\1.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()
text = HanziConv.toSimplified(text)

# 计算经济政策不确定性词汇占比
EPUW = calculate_EPUW(text)
print("经济政策不确定性词汇指标占比(EPUW):", EPUW)

# 计算经济政策不确定性感知指标
EPUS = calculate_EPUS(text)
print("经济政策不确定性句子指标占比(EPUS):", EPUS)

原文地址:https://blog.csdn.net/weixin_44071904/article/details/139542699 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1800830912745836544.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部