张礼立:大数据的分词技术浅介
导读
南师讲,文字本身就具备了智慧,文字也就是言语;因为把我们言语记录下来,就变成了文字。今天的大数据算法学习,就是要通过看一句话内的单词的上下文,并预测发生的可能性,找到文字的“境界”。
在文本分析中,分词技术占据了非常关键的地位,它的主要目的是将连续的文字切分为具备含义的特定词元。而在分词理解上,中文要比英文复杂多。英文句子由单词组成,而单词之间是以空格作为自然分界符的,而中文没有明显的分界符把字句和段落
只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
而这些被分出来的词元会被送入到后台的词典里进行匹配,接着将有匹配的结果带给计算机,使文本所包含的意思能够被恰当理解。
在实际情况中,文字组合的多样性会导致其切分的可能性很多变。其最大的技术难点在于分词的歧义性以及对未登录词的识别能力。如下面的例子,同样的句子可以存在多种分词结果,其结果可以看出很明显的含义差异。
例如, 改善人民生活水准。我们可用切词方案切成以下字段:改善、善人、人民、民生、生活、活水、水准。换句话说,分词的效果将直接影响到文本分析的可用性以及运算效率,更加明确了采用准确高效的分词算法的必要性。
对于分词中出现歧义的情况,我们把歧义的类型分为以下三类:
交集型歧义:
我们将交集型歧义字段中含有交集字段的个数定义为“链长”。对于这类歧义,通常是运动增加歧义词表、规则库等方法来处理。例如:棒球/场 和 棒/球场
组合型歧义:
组合型歧义必须根据整个句子来进行判断,对于这类歧义,我们通常需要增加分词规则来处理这些场景。例如:(我)个人/ 和(三)个/人/
混合型歧义:
混合型歧义是指类似于A/BC与AB/C都是合理的分词方案,而真正的结果需要结合上下文才能有所判断,例如下面这句话:这样的人才能经受住考验。会出现这样的情况:1.这样/的/人/才能/经受住/考验2.这样/的/人才/能/经受住/考验
对于这类情况,我们通常需要结合上下文甚至对整片文本进行词频统计,才能得出最合理的分词方案。(作者张礼立博士,上海市海外经济技术促进会秘书长、浦江学术委员,盘古智库学术委员。2016中国信息产业年度经济人物,2016年中国IT治理与管理年度人物。)