BERT(从理论到实践): Bidirectional Encoder Representations from Transformers【3】

这是本系列文章中的第3弹,请确保你已经读过并了解之前文章所讲的内容,因为对于已经解释过的概念或API,本文不会再赘述。

本文要利用BERT实现一个“垃圾邮件分类”的任务,这也是NLP中一个很常见的任务:Text Classification。我们的实验环境仍然是Python3+Tensorflow/Keras。


一、数据准备

首先,载入必要的packages/libraries。

import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text
import numpy as np
import pandas as pd
import seaborn as sn

from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt

接下来,导入数据,这是一个CSV文件,里面包含了很多邮件文本(参见【1】)。

df = pd.read_csv("spam.csv")
df.head(5)

这里我们输出前5条数据作为演示:

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-01-05 15:22:05       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-05 15:22:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-05 15:22:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-05 15:22:05       18 阅读

热门阅读

  1. 软考网络工程师考试大纲(2018年最新版)

    2024-01-05 15:22:05       30 阅读
  2. 高速自动驾驶安全停靠功能规范

    2024-01-05 15:22:05       28 阅读
  3. WPF中MVVM使用总结

    2024-01-05 15:22:05       42 阅读
  4. 【WPF.NET开发】WPF中的焦点

    2024-01-05 15:22:05       33 阅读
  5. 面试 Vue 框架八股文十问十答第二期

    2024-01-05 15:22:05       43 阅读
  6. onvif学习记录

    2024-01-05 15:22:05       42 阅读
  7. 测试:抓包工具

    2024-01-05 15:22:05       40 阅读
  8. 【2024.01.02】刷算法07

    2024-01-05 15:22:05       33 阅读