一种针对Twitter文本事件抽取的方法
申请公布号:CN106055658A
申请号:CN201610387008.7
申请日期:2016.06.02
申请公布日期:2016.10.26
发明人:郭利翔;张鑫;丁兆云;李沛;王晖;邓经升;乔凤才;程佳军;沈大勇;曹建平
分类号:G06F17/30(2006.01)I;G06F17/27(2006.01)I
主分类号:G06F17/30(2006.01)I
代理人:谈杰
地址:410073 湖南省长沙市开福区德雅路109号国防科学技术大学
摘要:本发明公开了一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,数据去重处理和文本预处理;步骤三,事件消息识别联合要素抽取,包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明利用基于规则的事件要素抽取的方法,针对每一个事件,标注其事件要素,主要为事件发生时间、地点、主体以及活动主题,可以更加准确地对采集到的推文进行事件抽取,实现事件的快速检测与发现。
主权项:一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。
METHOD AND DEVICE FOR FORMING FILM AT HIGH RATE BY MICROWAVE PLASMA CVD UNDER HIGH PRESSURE
APPARATUS FOR PREVENTING CONTAMINATION OF PRESS ROLLER OF SCREEN PRINTING MACHINE
MOUNTING STRUCTURE OF CHECK VALVE
VERTICAL SHAFT HYDRAULIC MINING METHOD FOR MINERAL RESOURCE
JOINT STRUCTURE FOR STEEL FRAME PILLAR AND BEAM
METHOD AND APPARATUS FOR MEASURING PULP AERATION
PHOTOELECTRIC LINEAR DISPLACEMENT TRANSDUCER
STRAIN-GAGE DEVICE WITH CALIBRATION OF ITS CHANNEL BY SINE-WAVE SIGNALS
PHOTOELECTRIC LINEAR DISPLACEMENT TRANSDUCER
TRANSFORMER-TYPE DISPLACEMENT TRANSDUCER
DEVICE FOR MEASURING LINEAR DIMENSIONS OF PARTS