`
sjrhero
  • 浏览: 83937 次
  • 性别: Icon_minigender_1
  • 来自: 河南省
社区版块
存档分类
最新评论

基于文本的分词算法

阅读更多

      与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

1) 正向最大匹配法(由左到右的方向)

2) 逆向最大匹配法(由右到左的方向)

3) 最少切分(使每一句中切出的词数最小)。

其他的还有将上述各种方法相互组合形成的分词算法,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。本文中着重讨论正向最大匹配法和逆向最大匹配法。

由于机械分词算法的准确性取决于算法的准确性与词库完备性两个方面。在本文中设想词库充分大,包含需要的词语。

一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

我们先看两句中文:

1) 长春市长春节致辞

2) 长春市长春天店

我们假使词库中包含如下词语“长春”,“长春市”,“市长”,“春节”,“致辞”,“春天”,“药店”,“春天店”等。

用正向最大匹配法得到的结果是:

长春市/长春//致辞(分成4个词,其中“节”未匹配到,语义错误)

长春市/长春/天店(分成3个词,都匹配到,语义正确)

用逆向最大匹配法得到的结果是:

长春/市长/春节/致辞(分成4个词,都匹配到,语义正确)

长春/市长/春天店(分成3个词,都匹配到,语义错误)

从此,我们可以看到正向最大匹配法和逆向最大匹配法的利弊所在:都能够正确解释部分中文,同时都有一些无法区分。

是否可以考虑将这两种匹配法结合起来,各取所长呢?答案是肯定的。

首先,我们对同一个词用正向最大匹配法和逆向最大匹配法分别切词,再将结果进行比较。如切分“长春市长春节致辞”,因为正向最大匹配法有一个词语无法匹配,故选择使用逆向最大匹配法作为结果。

其次,我们可以引入词频的概念,及每一个词语都会根据其在汉语中出现的概率获得一个词频值。我们对“长春市长春天店”进行两种方法的分词,但是因为逆向最大匹配法得到的“春天店”的词频相比于其他词语的词频要低很多。我们可以认为这种分词方法得到的结果不通用,取正向最大匹配法得结果。

当然,还可以将其他的一些方法(如扫描标志法,词性检查法等)与这两种匹配法相结合,以获得更好更准确的分词效果。

 

分享到:
评论

相关推荐

    论文研究-基于语音识别和文本分词算法的指令交互系统的设计和实现 .pdf

    基于语音识别和文本分词算法的指令交互系统的设计和实现,张文杰,张洪刚,由于军事作战的多变性和复杂性,在用计算机进行军事指挥操作的过程中,指挥官迫切希望能使用一种更加方便、快捷的方式。在此基础

    NLP分词算法,源码

    最大概率分词算法,带详细源码 基于最大概率的汉语切分 目标:采用最大概率法进行汉语切分。 其中:n-gram用bigram,平滑方法至少用Laplace平滑。 输入:接收一个文本,文本名称为:corpus_for_test.txt 输出:...

    论文---一种改进的基于二元统计的HMM分词算法

    一种改进的基于二元统计的HMM分词算法

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene...

    基于正向、逆向的最大分词算法实现

    里面包含完整代码,有词典,解压后是vs2017的工程文件,可直接运用测试。

    中文文本分词PPT(详细讲解HMM)

    PPT中包含基于词典分词算法以及HMM(隐马尔可夫模型)算法,结巴分词(具体实现算法)等内容,PPT中包含基于词典分词算法以及HMM(隐马尔可夫模型)算法,结巴分词(具体实现算法)等内容

    基于树的分词算法(代码文档)

    基于树的分词,采用“树”结构,大幅度提高了分词速度。

    gkseg, 基于字符的标注启发式算法和通用通用分词算法中的另一个.zip

    gkseg, 基于字符的标注启发式算法和通用通用分词算法中的另一个 GkSeg: 另一个中文分词软件包GkSeg是由 Guokr.com. 提供的汉语分词包,它是基于字符标注启发算法和通用格式算法。目前它只支持Linux平台。特性精确:>...

    中文分词C语言程序

    基于C语言文本文件的中文分词程序,可实现基本功能,还有待完善

    中文分词算法

    对最大匹配分词算法、基于规则的分词算法等进行比较分析

    基于文本内容的敏感词决策树信息过滤算法.pdf

    该算法不依赖词典与分词, 通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别, 计算文本整体敏感度,过滤敏感文本。 实验结果表明,SWDT-IFA 算法具有较高的查准率...

    基于Hadoop架构的文本分类算法

    基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征...

    基于深度学习的中文分词算法.zip

    基于深度学习的中文分词算法 深度学习(Deep Learning,简称DL)是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,其目标是让机器能够像人一样具有分析学习能力,识别文字、图像和声音等数据。深度...

    tf-idf分词算法

    内含自建词库txt文本,基于tf-idf算法的c++语言实现。

    浅析常用分词算法的比较与设想

    与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若...

    基于Hadoop架构的文本分类算法.rar

    基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征...

    文本分类算法的比较研究

    应用ICTCLAS对中文文档进行分词,在大维数,多数据情况下应用TFIDF进行特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值...

    textrank4zh_textrank算法_textrank4zh_文本分词;摘要分析_

    通过TextRank算法来对中文文章进行分词或者分句,还有停用词过滤的功能。用一种基于图的算法来给分好的词句评分,最终根据分数高低输出该文章中最关键的词句

    基于贝叶斯算法的文本分类器

    该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0. ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer):

    面向文本知识管理的自适应中文分词算法 (2010年)

    结合2元统计模型提出了面向文本知识管理的自适应中文分词算法――SACWSA.SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;...

Global site tag (gtag.js) - Google Analytics