fastText-文本分类

fastText介绍

fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:
1、fastText在保持高精度的情况下加快了训练速度和测试速度
2、fastText不需要预训练好的词向量,fastText会自己训练词向量
3、fastText两个重要的优化:Hierarchical Softmax、N-gram

  fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。

这些不同概念被用于两个不同任务: 

  • 有效文本分类 :有监督学习
  • 学习词向量表征:无监督学习

fastText原理 

包含三部分,模型架构,层次SoftMax,N-gram特征。

1、模型架构

  fastText模型架构和word2vec中的CBOW很相似, 不同之处是fastText预测标签而CBOW预测的是中间词,即模型架构类似但是模型的任务不同。

1.1 word2vec的CBOW架构

  word2vec将上下文关系转化为多分类任务,进而训练逻辑回归模型,这里的类别数量|V|词库大小。通常的文本数据中,词库少则数万,多则百万,在训练中直接训练多分类逻辑回归并不现实。word2vec中提供了

相关推荐

  1. fastText-文本分类

    2024-05-10 21:00:10       29 阅读
  2. github中fasttext库README官文文档翻译

    2024-05-10 21:00:10       27 阅读
  3. BERT-文本分类&NER

    2024-05-10 21:00:10       60 阅读
  4. transformers - 文本分类

    2024-05-10 21:00:10       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-10 21:00:10       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-10 21:00:10       106 阅读
  3. 在Django里面运行非项目文件

    2024-05-10 21:00:10       87 阅读
  4. Python语言-面向对象

    2024-05-10 21:00:10       96 阅读

热门阅读

  1. Android11系统去掉截屏功能

    2024-05-10 21:00:10       28 阅读
  2. 记录下fastadmin

    2024-05-10 21:00:10       26 阅读
  3. easyExcel导出百万数据

    2024-05-10 21:00:10       26 阅读
  4. Vue3实战笔记(05)--- 跨域前后端解决方案

    2024-05-10 21:00:10       28 阅读
  5. 【Leetcode】55- 跳跃游戏

    2024-05-10 21:00:10       38 阅读
  6. LeetCode //C - 81. Search in Rotated Sorted Array II

    2024-05-10 21:00:10       28 阅读
  7. 苹果免签封装的优势和安全风险

    2024-05-10 21:00:10       26 阅读
  8. latex编译参考文献是问号解决办法

    2024-05-10 21:00:10       29 阅读
  9. mybatis 多表查询

    2024-05-10 21:00:10       32 阅读