fastText

fastText是Facebook在2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常的明显,在文本分类任务中,fastText(浅层网络)往往可以取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量集。在标准的多核CPU上,在10分钟内能够训练10亿词级别的语料库的词向量,在1分钟内能够分类有着30万多类别的50多万句子。

本文中会介绍一些预备知识,比如Softmax,n-gram等,然后再简单介绍word2vec原理,之后来讲解fastText的原理,并着手使用keras搭建一个简单的fastText分类器,最后我们会介绍fastText在DGA域名检测中的应用。

预备知识

(1)Softmax回归

Softmax回归(Softmax Regression)又被称为多项逻辑回归(multinomial logistic regression),它是逻辑回归在处理多分类任务上的推广。

在逻辑回归中,我们有m个被标注的样本数据