外链代发包收录,纯手工外链代发就找老客外链吧

站长新闻

您的位置:老客外链吧 > 站长新闻 > SEO >

张礼立:大数据的分词技术浅介

文章来源:老客SEO 作者:老客SEO 人气:14 时间2019-08-12 21:33:44

导读

南师讲,文字本身就具备了智慧,文字也就是言语;因为把我们言语记录下来,就变成了文字。今天的大数据算法学习,就是要通过看一句话内的单词的上下文,并预测发生的可能性,找到文字的“境界”。

在文本分析中,分词技术占据了非常关键的地位,它的主要目的是将连续的文字切分为具备含义的特定词元。而在分词理解上,中文要比英文复杂多。英文句子由单词组成,而单词之间是以空格作为自然分界符的,而中文没有明显的分界符把字句和段落

只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

而这些被分出来的词元会被送入到后台的词典里进行匹配,接着将有匹配的结果带给计算机,使文本所包含的意思能够被恰当理解。

在实际情况中,文字组合的多样性会导致其切分的可能性很多变。其最大的技术难点在于分词的歧义性以及对未登录词的识别能力。如下面的例子,同样的句子可以存在多种分词结果,其结果可以看出很明显的含义差异。

例如, 改善人民生活水准。我们可用切词方案切成以下字段:改善、善人、人民、民生、生活、活水、水准。换句话说,分词的效果将直接影响到文本分析的可用性以及运算效率,更加明确了采用准确高效的分词算法的必要性。

对于分词中出现歧义的情况,我们把歧义的类型分为以下三类:

交集型歧义:

我们将交集型歧义字段中含有交集字段的个数定义为“链长”。对于这类歧义,通常是运动增加歧义词表、规则库等方法来处理。例如:棒球/场 和 棒/球场

组合型歧义:

组合型歧义必须根据整个句子来进行判断,对于这类歧义,我们通常需要增加分词规则来处理这些场景。例如:(我)个人/ 和(三)个/人/

混合型歧义:

混合型歧义是指类似于A/BC与AB/C都是合理的分词方案,而真正的结果需要结合上下文才能有所判断,例如下面这句话:这样的人才能经受住考验。会出现这样的情况:1.这样/的/人/才能/经受住/考验2.这样/的/人才/能/经受住/考验

对于这类情况,我们通常需要结合上下文甚至对整片文本进行词频统计,才能得出最合理的分词方案。(作者张礼立博士,上海市海外经济技术促进会秘书长、浦江学术委员,盘古智库学术委员。2016中国信息产业年度经济人物,2016年中国IT治理与管理年度人物。)

联系我们

在线服务 外链咨询 二维码

扫码添加微信:juxia_com