【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析

电信银行卡诈骗的数据分析

摘要

电信银行卡诈骗是当前社会中严重的犯罪问题,分析电信银行卡交易数据,找出高风险交易特征,建立预测模型,将有助于公安部门和金融机构更好地防范诈骗行为,保障用户的财产安全。

针对问题一,为了解电信银行卡交易数据中的诈骗情况,我们进行了详细的数据分析。首先,通过统计交易数据中发生诈骗和未发生诈骗的次数,绘制了比统计并绘制了线上和线下诈骗数量的柱状图,明确了两者的对比情况。这些分析结果不仅揭示了电信银行卡诈骗的基本例的扇形图,直观展示了诈骗的普遍程度。其次,筛选出发生诈骗的交易记录情况,还为进一步研究和制定防范措施提供了数据支持。

在问题二中,通过对电信银行卡交易数据的详细分析,我们比较了使用银行卡在设备上进行转账交易与使用银行卡pin号码进行转账交易两种情况下的诈骗率。结果显示,使用银行卡在设备上进行转账交易的诈骗率是否高于未使用情况下的诈骗率可以揭示这种交易方式的风险程度。此外,使用pin号码的情况下,若诈骗率低于未使用情况,则说明使用pin号码有助于减少被骗概率。

在问题三中,通过对电信银行卡交易数据的详细分析,我们发现“是否是线上的银行卡转账交易”和“银行卡转账交易是否发生在同一银行”与电信诈骗存在显著关联。相关性矩阵显示,这些指标与诈骗发生有较强的相关性,提示线上交易和同一银行交易在诈骗行为中具有重要影响。卡方检验结果进一步确认了这些关联,为防范电信诈骗提供了重要依据。

在问题四中,通过对电信银行卡交易数据的详细分析,我们选择了包括交易距离、金额比值、是否在同一银行、是否使用设备和pin号码进行交易、是否线上交易等特征,使用逻辑回归模型建立了电信诈骗预测模型。经过数据标准化和训练后,模型在测试集上的预测准确率较高达到96%。分析结果表明,线上交易是电信诈骗的重要影响因素。

关键词:相关性分析、电信诈骗、逻辑回归模型、卡方检验、相关性矩阵

目录

摘要

一、问题重述

1.1问题背景

1.2要解决的问题

二、问题分析

2.1任务一的分析

2.2任务二的分析

2.3任务三的分析

三、问题假设

四、模型原理

4.1ARIMA模型

4.2 xgboost模型

4.3 DBSCAN模型

4.4自行替换kmeans/简单指数平滑等的模型介绍

五、模型建立与求解

5.1问题一建模与求解

5.2问题二建模与求解

5.3问题三建模与求解

六、模型评价与推广

6.1模型的评价

6.1.1模型缺点

6.1.2模型缺点

6.2模型推广

七、参考文献

附录【自行删减】

5.1 问题一建模与求解

问题一主要包含两个任务,一是绘制“有无发生电信银行卡诈骗”比例的扇形图;二是绘制发生电信银行卡诈骗的案例中,“线上”和“线下”发生电信诈骗数量的柱状图.对于任务一,首先需要进行数据的统计分析,包含如下几个步骤:

1.读取数据:从提供的CSV文件中读取电信银行卡交易数据,包含诈骗与否的标识。

2.计算比例:通过统计每种情况(发生诈骗和未发生诈骗)的次数,计算其比例。

3.绘制图表:使用扇形图(饼图)展示比例分布,直观呈现数据集中诈骗和非诈骗交易的比例。

首先使用pandas 库读取数据文件,确保数据格式正确且无缺失值。获取到的部分数据如上所示,由于后面的问题都需要使用到该数据文件,之后内容中的读取部分不在重复说明。

根据读取到的数据,我们对Fraud 列进行 value_counts() 统计,得到发生诈骗和未发生诈骗的次数。随后进一步计算比例:通过统计的次数,计算每种情况的比例,分别表示为“未发生诈骗”和“发生诈骗”。在得到了比例之后,可以进一步绘制扇形图:使用 matplotlib 库的 pie 函数,绘制扇形图,标注每部分的百分比及标签。结果展示如下。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文所建立模型具有以下优点 :

1.模型的整体表现较为优秀,准确率高达96%,意味着在大多数情况下能够正确判断交易是否为诈骗。具体到类别性能,模型在非诈骗类交易的识别上表现尤为突出,精确率为0.96,召回率为0.99,F1-score为0.98,显示了模型在辨识正常交易方面的高效性和可靠性。

6.1.2模型缺点

本文所建立模型仍有以下不足:

1.需要大量的数据支持,并且对数据的质量有较高要求。噪声和数据缺失可能会影响周期的准确识别。

2.尽管诈骗类的精确率相对较高(0.89),但召回率只有0.60,导致F1-score为0.72。这表明虽然模型能够准确识别出部分诈骗交易,但还有相当比例的诈骗交易未能被检测出来,存在较多的假负类错误(实际为诈骗但预测为非诈骗)。

6.1模型推广

数据增强和特征工程:通过增加训练数据的多样性或引入更多相关特征来增强模型的学习能力和泛化能力。特别是对诈骗类交易的数据进行增强,以改善模型在该类别上的表现。

1.高级模型探索:考虑使用更复杂的机器学习算法如随机森林、梯度提升机(GBM)或深度学习模型,这些模型可能在处理复杂模式和大数据集时表现更好。

2.模型集成方法:通过集成多个模型来提高预测准确性和稳定性,尤其是在处理不平衡数据时,集成学习能有效提高少数类的识别率。

3.持续监控和模型更新:定期评估模型的表现,并根据最新的交易数据和诈骗手段更新模型,确保模型的实时性和准确性。指数平滑模型可以广泛应用于零售、制造业和供应链管理中的需求预测。它特别适合于需求数据具有明显趋势或季节性模式的场合。为了提高模型的适应性和鲁棒性,建议结合异常值检测和修正方法,并定期更新模型参数以适应需求模式的变化。

通过这些策略,不仅可以提升模型在现有数据集上的表现,还能增强其对新型诈骗手段的适应能力和响应速度,从而在实际应用中更有效地帮助银行和监管机构预防和打击电信银行卡诈骗行为。

### 2024全国大学生数据统计与分析
### https://docs.qq.com/doc/DVW5uSVBxbU5aQnla

最近更新

  1. TCP协议是安全的吗?

    2024-06-08 13:40:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-08 13:40:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-08 13:40:04       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-08 13:40:04       20 阅读

热门阅读

  1. ajax回调函数

    2024-06-08 13:40:04       8 阅读
  2. 开源大模型与闭源大模型浅析

    2024-06-08 13:40:04       9 阅读
  3. 从入门到精通:基础IO

    2024-06-08 13:40:04       8 阅读
  4. 使用Docker运行不同版本的Node.js

    2024-06-08 13:40:04       10 阅读
  5. 40.任务调度线程池

    2024-06-08 13:40:04       9 阅读
  6. mybatis使用笔记

    2024-06-08 13:40:04       10 阅读
  7. Python怎么加载包:深入解析Python包加载机制

    2024-06-08 13:40:04       10 阅读
  8. Python基础语法(五):循环语句

    2024-06-08 13:40:04       11 阅读
  9. GPT-4o:OpenAI的最新篇章与深度探索

    2024-06-08 13:40:04       9 阅读