首页 > 专利信息

一种针对Twitter文本事件抽取的方法

申请公布号:CN106055658A

申请号:CN201610387008.7

申请日期:2016.06.02

申请公布日期:2016.10.26

申请人:
中国人民解放军国防科学技术大学

发明人:郭利翔;张鑫;丁兆云;李沛;王晖;邓经升;乔凤才;程佳军;沈大勇;曹建平

分类号:G06F17/30(2006.01)I;G06F17/27(2006.01)I

主分类号:G06F17/30(2006.01)I

代理机构:
北京轻创知识产权代理有限公司 11212

代理人:谈杰

地址:410073 湖南省长沙市开福区德雅路109号国防科学技术大学

摘要:本发明公开了一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,数据去重处理和文本预处理;步骤三,事件消息识别联合要素抽取,包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明利用基于规则的事件要素抽取的方法,针对每一个事件,标注其事件要素,主要为事件发生时间、地点、主体以及活动主题,可以更加准确地对采集到的推文进行事件抽取,实现事件的快速检测与发现。

主权项:一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。

专利推荐

METHOD AND DEVICE FOR FORMING FILM AT HIGH RATE BY MICROWAVE PLASMA CVD UNDER HIGH PRESSURE

BRAKING DEVICE

PRINTER

APPARATUS FOR PREVENTING CONTAMINATION OF PRESS ROLLER OF SCREEN PRINTING MACHINE

MOUNTING STRUCTURE OF CHECK VALVE

BRAKE

VERTICAL SHAFT HYDRAULIC MINING METHOD FOR MINERAL RESOURCE

BASEMENT FOR EXISTING HOUSING

FUEL INJECTION NOZZLE

JOINT STRUCTURE FOR STEEL FRAME PILLAR AND BEAM

INVERT BLOCK

BULK MATERIAL DISPENSER

METHOD AND APPARATUS FOR MEASURING PULP AERATION

PHOTOELECTRIC LINEAR DISPLACEMENT TRANSDUCER

STRAIN-GAGE DEVICE WITH CALIBRATION OF ITS CHANNEL BY SINE-WAVE SIGNALS

PHOTOELECTRIC LINEAR DISPLACEMENT TRANSDUCER

TRANSFORMER-TYPE DISPLACEMENT TRANSDUCER

DEVICE FOR MEASURING LINEAR DIMENSIONS OF PARTS

METHOD OF CONTROLLING MIXING CONDENSER

ELECTRODE-TYPE HEATER OF LIQUID