彩票走势图

解密搜索引擎技术之——中文分词与实现

转帖|使用教程|编辑:龚雪|2014-10-23 10:14:54.000|阅读 295 次

概述:中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本思想和实现。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本思想和实现。
一、基本思想
        (1)假设词典中最长的词语字数为w(一般设置为8个字符,即4个汉字)。
        (2)判断带分词语句长度是否大于w个字,如果大于w则跳到(3),如果小于w则跳到(6)。
        (3)取待分词语句的前w个字。
        (4)在词典中查找w,如果存在,则从语句中去掉w,从语句中w后的词开始重复上面过程。
        (5)如果不存在,就去掉这w个字的最后一个字。
        (6)检查是否是单字或者空,如果是,则退出。
        (7)如果不是,则继续判断词库中是否存在这个词,如此反复循环,直到输出一个词。
        (8)继续取短语的前w个字反复循环,这样就可以将一个语句分成词语的组合了。

二、简单实现

#include <stdio.h>
#include <string>
#include <set>
using namespace std;
set<string> g_setWordDictionary;

int construct()
{
g_setWordDictionary.insert("中国");
g_setWordDictionary.insert("中国人");
g_setWordDictionary.insert("纽约");
g_setWordDictionary.insert("北京");
}

bool match(string &word)
{
set<string>::iterator itor = g_setWordDictionary.find(word);
if (itor == g_setWordDictionary.end())
{
return false;
}

return true;
}

void forward_maximum_matching(string content, set<string> &keywords)    
{
#define MAX_LEN 12      //词库中最长词语(utf-8一个汉字3个字节)
#define MIN_LEN 3       //单字(原理同上)
int len = content.length();
int right_len = len;
int start_pos = 0;
bool ret = false;
string kw_value = "";
int kw_len = 0;
int kw_pos = 0;
//单字或空串
while (right_len > MIN_LEN)
{
//语句大于词库中最长词语
if (right_len >= MAX_LEN)
{
kw_value = content.substr(start_pos, MAX_LEN);
}
//语句小于词库中最长词语
else
{
kw_value = content.substr(start_pos, right_len);
}

//词库匹配
ret = match(kw_value);
kw_len = kw_value.length();
kw_pos = 0;
while (!ret && kw_len > 2*MIN_LEN)
{
//去掉候选词右边一个汉字
kw_len -= MIN_LEN;
kw_value = kw_value.substr(kw_pos, kw_len);
//继续匹配
ret = match(kw_value);
}

//匹配到词
if (ret)
{
keywords.insert(kw_value);
//从语句中去掉匹配到的词
start_pos += kw_len;
right_len = len - start_pos;
}
//未匹配到词,下移一个字
else
{
start_pos += MIN_LEN;
right_len = len - start_pos;
}
}//while (right_len > MIN_LEN)      
}

int main()
{
//构造词库
construct();

//切分词库
string content = "我是中国人,我是来自中国北京的中国人,在纽约工作";
set<string> keywords;
forward_maximum_matching(content, keywords);
set<string>::iterator itor;

//输出分词
for (itor=keywords.begin(); itor!=keywords.end(); ++itor)
{
printf("result: %s\n", (*itor).c_str());
}

return 0;
}

原文://blog.chinaunix.net/uid-22312037-id-4442837.html


标签:搜索控件

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn

文章转载自:慧都控件网

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP