相似文本清洗

2024-05-13 13:28:04
开发
15

import os

import json

from sklearn.feature_extraction.text import TfidfVectorizer

from simhash import Simhash, SimhashIndex

import jieba

def process_txt_file(data, output_file, similar_json_file):

"""

处理 TXT 文件，去除相似文本后另存为新的 TXT 文件，并记录相似文本段到 JSON 文件中

"""

def chinese_tokenizer(text):

"""中文分词函数"""

return jieba.lcut(text)

def filter_similar_sentences_simhash(sentences, k=13):

"""使用 Simhash 过滤相似句子并记录"""

vectorizer = TfidfVectorizer(tokenizer=chinese_tokenizer)

tfidf_matrix = vectorizer.fit_transform(sentences)

similar_sentences = [] # 存储所有相似句子

def simhash_features(tfidf_vector):

features_weights = zip(vectorizer.get_feature_names_out(), tfidf_vector.toarray()[0])

return [(feature, weight) for feature, weight in features_weights if weight > 0]

fingerprints = [Simhash(simhash_features(tfidf_vector)) for tfidf_vector in tfidf_matrix]

index = SimhashIndex([], k=k)

unique_sentences = []

for i, (sentence, fingerprint) in enumerate(zip(sentences, fingerprints)):

# if sentence is None: # 跳过已经处理过的相似句子

# continue

duplicates = index.get_near_dups(fingerprint)

# 将字符串类型的索引转换为整数类型的列表

duplicates = [int(dup) for dup in duplicates]

if not duplicates or len(sentence) < 5:

unique_sentences.append(sentence)

index.add(i, fingerprint)

else:

# print("当前句子:", sentence)

for dup_index in duplicates:

similar_sentence = sentences[dup_index]

if similar_sentence:

# print("相似句子:", similar_sentence, len(similar_sentence))

# 记录相似的句子

similar_sentences.append({

'当前句子': sentence,

'相似句子': similar_sentence

})

print("---------------------")

# 移除相似的句子

sentences[dup_index] = None

print("移除相似的句子",sentences[dup_index])

sentences = [s for s in sentences if s] # 过滤掉已标记为相似的句子

print(sentences)

# 将所有相似句子记录写入文件

with open(similar_json_file, "w", encoding="utf-8") as json_file:

for similar_sentence in similar_sentences:

json_file.write(json.dumps(similar_sentence, ensure_ascii=False) + "\n")

return sentences

# 提取所有文本内容并拼接起来

all_content = ''.join(item['content'] for item in data)

# 将所有文本内容按句号切割成句子列表

sentences = all_content.split('。')

# 过滤相似句子并记录

unique_sentences = filter_similar_sentences_simhash(sentences, k=13)

# 按照原来的 content 归属顺序排列处理后的句子

processed_data = []

start_index = 0

for item in data:

content = item['content']

end_index = start_index + content.count('。') + 1

processed_content = '。'.join(unique_sentences[start_index:end_index])

item['content'] = processed_content

processed_data.append(item)

start_index = end_index

# 将处理后的文本数据写入新的 JSON 文件

with open(output_file, 'w', encoding='utf-8') as f:

json.dump(processed_data, f, ensure_ascii=False, indent=4)

# 读取原始 JSON 数据

with open("a.json", 'r', encoding='utf-8') as f:

data = json.load(f)

output_file = 'a_output.json' # 新的 JSON 文件路径

similar_json_file = 'a_similar.jsonl' # 相似文本记录 JSON 文件路径

process_txt_file(data, output_file, similar_json_file)

原文地址:https://blog.csdn.net/weixin_44740756/article/details/138638816 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1789890330552832000.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

相似文本清洗

2024-05-13 13:28:04 16 阅读
NLP数据清洗：文本预处理

2024-05-13 13:28:04 13 阅读
c#读取hex文件方法，相对来说比较清楚

2024-05-13 13:28:04 13 阅读
【NLP笔记】文本分词、清洗和标准化

2024-05-13 13:28:04 22 阅读
python项目==一个web项目，配置模板指定文件清洗规则，调用模板规则清洗文件

2024-05-13 13:28:04 11 阅读
NLP：文本相似度计算

2024-05-13 13:28:04 22 阅读
4 文本相似判断任务

2024-05-13 13:28:04 12 阅读
机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

2024-05-13 13:28:04 26 阅读
4.2 文本相似度（三）

2024-05-13 13:28:04 10 阅读
文本相似度的三种算法

2024-05-13 13:28:04 8 阅读