php 网站开源支持用户词典扩展定义针对全文检索优化的查询(作者吐血推荐)php开源网站系统

2022-11-01

1、

是一个基于java语言开发的开源轻量级中文分词工具包。自 2006 年 12 月发布 1.0 版以来，已经发布了三个主要版本。最初，它是一个基于开源项目的中文分词组件，结合了字典分词和语法分析算法。新版本 .0 是作为 Java 的通用分词组件开发的，它独立于项目，并提供了对的默认优化实现。

.0 特点：

它采用独特的“前向迭代细粒度切分算法”，具有每秒60万字的高速处理能力。

采用多子处理器分析模式，支持：英文字母（IP地址、URL）、数字（日期、常用中文量词、罗马数字、科学记数法）、中文词汇（人名、地名处理）等分词加工。

优化的字典存储，更小的内存占用。支持用户词典扩展定义

针对全文检索优化的查询分析器（作者推荐）；使用歧义分析算法优化查询关键词的搜索排列和组合，可以大大提高检索的命中率。

许可协议：LGPL

开发语言：Java

操作系统：跨平台

录制时间：2008年12月3日（国产软件）

下载：或

2.盘古分词

盘古分词是基于.net的中英文分词组件，提供（.net版）和接口。

高效：Core Duo 1.8 GHz 单线程分词速度 390K 字符/秒

准确：盘古分词采用字典和统计相结合的分词算法，分词准确率高。

功能：盘古分词提供中文姓名识别、简繁混合分词、多分词、英文生根、强制一元分词、词频优先分词、停用词过滤、英文专有名称提取等一系列功能。

许可协议：

开发语言：C#.NET

操作系统：

征集时间：2010年12月29日

下载：或：

中文分词库是Java开发的中文分词组件，可以集成到互联网和企业内网的应用程序中。填补了国内中文分词开源组件的空白，并致力于此网站开发，希望成为互联网网站中文分词开源组件的首选。中文分词追求分词效率高，用户体验好。

的中文分词具有极高的效率和高扩展性。引入隐喻，完全面向对象的设计，先进的概念。

效率高：在PIII 1G内存的个人电脑上，1秒就能准确切分100万个汉字。

文章基于无限数量的词典文件进行有效分割，实现词汇的分类和定义。

能够合理地解析未知词汇

许可协议：

开发语言：Java

操作系统：跨平台

录制时间：2008年9月7日（国产软件）

下载：或

中科院最新免费开源代码，包含中文分词算法，大家可以一起学习研究，对搜索引擎的中文分词很有用。

许可协议：未知

开发语言：C/C++

操作系统：

php 网站开源支持用户词典扩展定义针对全文检索优化的查询(作者吐血推荐)php开源网站系统(图1)

录制时间：2010年10月20日（国产软件）

下载：

是专为全文搜索引擎设计的中文分词软件包。其根据 GPL 协议发布的中文分词方法采用 Chih-Hao Tsai 算法。

您可以在 Chih-Hao Tsai 的页面上找到算法的原文。

采用C++开发，支持平台和平台，分割速度约300K/s（PM-1.2G）。目前版本（0.7.1）还没有对速度进行仔细的优化，分割速度应该还有进一步提升的空间。.

许可协议：未知

开发语言：C/C++

操作系统：跨平台

录制时间：2009年5月31日（国产软件）

下载：0.7.3

是一个开源的PHP中文分词扩展，目前只支持/Unix系统，项目现已更名，本项目不再维护。

首先使用“3.0共享中文分词算法”的API进行初始分词处理php 网站开源，然后使用自己编写的“反向最大匹配算法”进行分词和分词处理，并添加标点过滤功能得到分词结果。

( , ) 是中国科学院计算技术研究所在多年研究工作的基础上，基于多层隐马模型开发的中文词法分析系统。其主要功能包括中文分词；词性标注；命名实体识别；生词识别；还支持用户词典。经过五年的精心建设，内核升级了6次php 网站开源，现在已经升级到.0，分词准确率为98.45%seo优化，各种词典数据压缩小于3M。该活动在国内973专家组组织的评审中获得第一名，在首个国际华人加工研究组织组织的评审中获得多项第一名。

许可协议：BSD

开发语言：PHP

操作系统：跨平台

录制时间：2009年3月19日（国产软件）

下载：