msm是什么的缩写(mlm 是指mask)
BERT采用双向语言模型,从而真正实现了双向学习的目标。在特征提取方面采用Transformer中的Encoder,所以在长期依赖并行处理方面都取得了很好的效果。但BERT也在一些缺点主要体现在如下几个方面:
·1)训练方法与测试方法不一致。因训练时把输人序列的15%随机置换为MASK标记,但这个标记在测试或微调时是不存在的,因为会影响模型性能。
·2)对被置换的MASK标记。BERT的损失两数使用约等号,也就是假设那些被标记的词在给定非标记的词的条件下是独立的,但是我们前面分析过这个假设并不(总是)成立。
下面我们通过一个例子来说明,比如”New York is a city”。假设我们标记”Ne【资 ;源 之.家.】w”和”York”两个词,给定is acity的条件下”New”和”York”并不独立。因为”New York”是一个实体,看到”New”后面出现”York”的概率要比”old”后面出现”York”的概率大得多。
当然还有其他一些待改进的地方,如模型参数量比较庞大时,自然语言理解任务效果较好,但自然语言生成任务效果欠佳,段与段之间缺乏依赖关系等。
针对这些缺点人们又提出了很多新的模型,例如XLNet ALBERT ELECTRA等模型,这些模型均从不同角度对BERT进行了优化。
而对结构化数据使用神经网络或深度学习架构进行分析时,首先需要对连续特征类别特征进行处理。处理的方式很多:对连续特征一般进行【资 ;源 之.家.】分段或分桶处理,当然也可不做处里;对分类特征则可以将其转换为数字独热编码或Embedding;如果类别力度很粗,建议转换为独热编码;如果粒度较细建议转换为Embedding,最后拼接这些数据作为网络的输入层。