供应商:灵玖中科软件(北京)有限公司[查看公司详情]
所在地:北京市海淀区中关村甲331楼14层B座3门1229号(住宅)
价格:面议
经营模式:
联系人:张先生
产品简介
关键词提取是在全面把握文章的中心思想的基础上从文本里面提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词可以作为搜索这篇论文的词语。除了这些以外,关键词还可以在文本聚类、分类、摘要等领域中有着重要的作用。
关键词提取从方法来说大致有两种:种叫做关键词分配,是有一个给定的关键词库,然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种是关键词抽取,是来一篇文章,从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域无关的关键词抽取算法(领域无关算法的意思是无论什么主题或者领域的文本都可以抽关键词的算法)和它对应的库都是基于后者的。从逻辑上说,后者比前着在实际使用中更有意义。
另外,从结果上看关键词抽取也可以分两种。种是仅仅把词语抽取出来,这个非常简单实现也比较多,比如FudanNLP、jieba、SnowNLP。另外一种则是基于语义的连词和短语一起抽取出来,这个还需要增加短语抽取这一个步骤,这一类的实现包括ICTCLAS、ansj_seg等,可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。对于聚类或者分类来说,很明显短语比词语更有参考价值。
灵玖软件中文文本关键词提取系统采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出出现的新词语,所输出的词语可以配以权重。
文本关键词提取组件的主要特色在于:
1、速度快:可以处理海量规模的网络文本数据,平均每小时处理少50万篇文档;
2、处理:Top N的分析结果往往能反映出该篇文章的主干特征;
3、排序:关键词按照影响权重排序,可以输出权重值;
4、开放式接口:文章关键词提取组件作为LJParser的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。