站长新闻

您的位置：老客外链 > 站长新闻 > SEO >

张礼立：大数据的分词技术浅介

文章来源：未知作者：老客SEO 人气：19 2019-08-12 21:33:44

导读

南师讲，文字本身就具备了智慧，文字也就是言语；因为把我们言语记录下来，就变成了文字。今天的大数据算法学习，就是要通过看一句话内的单词的上下文，并预测发生的可能性，找到文字的“境界”。

在文本分析中，分词技术占据了非常关键的地位，它的主要目的是将连续的文字切分为具备含义的特定词元。而在分词理解上，中文要比英文复杂多。英文句子由单词组成，而单词之间是以空格作为自然分界符的，而中文没有明显的分界符把字句和段落

只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

而这些被分出来的词元会被送入到后台的词典里进行匹配，接着将有匹配的结果带给计算机，使文本所包含的意思能够被恰当理解。

在实际情况中，文字组合的多样性会导致其切分的可能性很多变。其最大的技术难点在于分词的歧义性以及对未登录词的识别能力。如下面的例子，同样的句子可以存在多种分词结果，其结果可以看出很明显的含义差异。

例如，改善人民生活水准。我们可用切词方案切成以下字段：改善、善人、人民、民生、生活、活水、水准。换句话说，分词的效果将直接影响到文本分析的可用性以及运算效率，更加明确了采用准确高效的分词算法的必要性。

对于分词中出现歧义的情况，我们把歧义的类型分为以下三类：

交集型歧义：

我们将交集型歧义字段中含有交集字段的个数定义为“链长”。对于这类歧义，通常是运动增加歧义词表、规则库等方法来处理。例如：棒球/场和棒/球场

组合型歧义：

组合型歧义必须根据整个句子来进行判断，对于这类歧义，我们通常需要增加分词规则来处理这些场景。例如：（我）个人/ 和（三）个/人/

混合型歧义：

混合型歧义是指类似于A/BC与AB/C都是合理的分词方案，而真正的结果需要结合上下文才能有所判断，例如下面这句话：这样的人才能经受住考验。会出现这样的情况：1.这样/的/人/才能/经受住/考验2.这样/的/人才/能/经受住/考验

对于这类情况，我们通常需要结合上下文甚至对整片文本进行词频统计，才能得出最合理的分词方案。（作者张礼立博士,上海市海外经济技术促进会秘书长、浦江学术委员，盘古智库学术委员。2016中国信息产业年度经济人物，2016年中国IT治理与管理年度人物。）

上一篇：附子SEO：搜索引擎是如何识别内容原创的？独家揭秘SEO指纹算法！下一篇：中文分词技术（中文分词原理）

站长新闻

张礼立：大数据的分词技术浅介

相关文章

站外优化可助关键词排名暴涨!不可忽略

做推广优化收录久不见效?你网络SEO姿势不对!

网站权重下降，原因有哪些?如何处理?

SEO新手如何写出高质量的原创文章呢?

为何网站内容稳定更新还没有关键词排名?

百度SEO优化是如何判断网站的质量吗?

网站优化效果好,文章内容质量是核心

联系我们

站长新闻

张礼立：大数据的分词技术浅介

相关文章

站外优化可助关键词排名暴涨!不可忽略

做推广优化收录久不见效?你网络SEO姿势不对!

网站权重下降，原因有哪些?如何处理?

SEO新手如何写出高质量的原创文章呢?

为何网站内容稳定更新还没有关键词排名?

百度SEO优化是如何判断网站的质量吗?

网站优化效果好,文章内容质量是核心

其他工具

热门商品

多多上货助手

天涯论坛发帖

伪原创工具

软文推广营销,新闻源发布推广,媒体发稿投放

发新闻稿 门户行业地方网站媒体新闻发布发稿套餐 网络宣传推广

联系我们

发新闻稿门户行业地方网站媒体新闻发布发稿套餐网络宣传推广