首页 > 专利信息

一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法

申请公布号:CN102346817B

申请号:CN201110302532.7

申请日期:2011.10.09

申请公布日期:2015.03.25

申请人:
广州医学院第二附属医院

发明人:陶爱林;张利达;邹泽红;黄于艺

分类号:G06F19/24(2011.01)I

主分类号:G06F19/24(2011.01)I

代理机构:
广州粤高专利商标代理有限公司 44102

代理人:陈卫

地址:510260 广东省广州市海珠区昌岗东路250号

摘要:本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。该预测方法包括建立过敏原数据库;形成过敏原聚类与家族;提取过敏原家族代表肽;建立支持向量机模型;模型性能参数的优化训练及大规模过敏原数据的测试。本发明优点是:建立在优先淘选过敏原家族特征肽基础上,该特征肽不仅对过敏原的典型特征作了精细描述,而且将过敏原与非过敏原做了严格区分,避免了过敏原判别过程中假阳性和假阴性的产生,从而在过敏原判别的准确性与灵敏度上取得了高水平的平衡而具有明显优势。在蛋白序列过敏原性的生物信息学分析方面具有广阔的应用前景。

主权项:一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于:包括以下步骤:步骤1:数据库的建立,从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;步骤2:过敏原家族特征肽的提取,针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔1‑10个碱基用滑动窗口分成6‑32个碱基长度的肽段,然后用所得肽段和非过敏原序列使用序列基本对齐本地搜索工具BLAST进行对比后,剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且采用BLAST所得的E值低于10<sup>‑7</sup>~10<sup>‑1</sup>时,即是过敏原特征肽AFP,而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由2‑30个小的特征肽构成的过敏原家族特征肽AFFP;步骤3:建立支持向量机模型,对于一个查询蛋白X建立特征向量FX=fx1,fx2,…,fxn,n代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST后E值均一化的值,是向量FX中的矢量,i=1、2、…、n,并转换为径向基函数RBF;其中对E值x均一化的公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>xe</mi><mi>C</mi></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000588097670000011.GIF" wi="372" he="154" /></maths>或<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mi>log</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>+</mo><mi>C</mi></mrow></msup></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000588097670000012.GIF" wi="461" he="140" /></maths>其中C为通过实验获得的0~20的常数;步骤4:支持向量机模型的性能测定,采用交叉验证方法进行测定,即将训练集随机均分成n个互不相交的子集,利用n‑1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为n倍的内在交叉效度;步骤5:以支持向量机模型为支持算法的分类器来区分过敏原和非过敏原;步骤3所述支持向量机是基于结构风险最小化原则的统计,其使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开,支持向量机的核函数首先经过标准化,以使每个向量在特征空间拥有长度单位1,核函数标准化的公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>y</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>X</mi><mo>&CenterDot;</mo><mi>Y</mi></mrow><msqrt><mrow><mo>(</mo><mi>X</mi><mo>&CenterDot;</mo><mi>Y</mi><mo>)</mo></mrow><mrow><mo>(</mo><mi>X</mi><mo>&CenterDot;</mo><mi>Y</mi><mo>)</mo></mrow></msqrt></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000588097670000021.GIF" wi="751" he="175" /></maths>其中X为是指蛋白X,Y是指蛋白Y;步骤4所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法进行测定,计算模型的敏感性、特异性、精确度,马太相关系数,而这四个参数的计算公式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>SE</mi><mo>=</mo><mfrac><mi>TP</mi><mrow><mi>TP</mi><mo>+</mo><mi>FN</mi></mrow></mfrac></mrow>]]></math><img file="FDA0000588097670000022.GIF" wi="342" he="141" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>SP</mi><mo>=</mo><mfrac><mi>TN</mi><mrow><mi>TN</mi><mo>+</mo><mi>FP</mi></mrow></mfrac></mrow>]]></math><img file="FDA0000588097670000023.GIF" wi="334" he="146" /></maths><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>ACC</mi><mo>=</mo><mfrac><mrow><mi>TP</mi><mo>+</mo><mi>TN</mi></mrow><mrow><mi>TP</mi><mo>+</mo><mi>TN</mi><mo>+</mo><mi>FP</mi><mo>+</mo><mi>FN</mi></mrow></mfrac></mrow>]]></math><img file="FDA0000588097670000024.GIF" wi="621" he="146" /></maths><maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>MCC</mi><mo>=</mo><mfrac><mrow><mrow><mo>(</mo><mi>TP</mi><mo>&times;</mo><mi>TN</mi><mo>)</mo></mrow><mo>-</mo><mrow><mo>(</mo><mi>FN</mi><mo>&times;</mo><mi>FP</mi><mo>)</mo></mrow></mrow><msqrt><mrow><mo>(</mo><mi>TN</mi><mo>+</mo><mi>FN</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>TP</mi><mo>+</mo><mi>FN</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>TN</mi><mo>+</mo><mi>FP</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>TP</mi><mo>+</mo><mi>FP</mi><mo>)</mo></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000588097670000025.GIF" wi="1286" he="173" /></maths>其中,SE为敏感性、SP为特异性、ACC为精确度、MCC为马太相关系数,真阳性TP代表确定的过敏群体中过敏原的数目;真阴性TN代表确定的非过敏群体中非过敏原的数目;假阴性FN代表确定的过敏群体中非过敏原的数目;假阳性FP确定的非过敏群体中过敏原的数目。

专利推荐

Container for pharmaceutical substance to be administered nasally

Dish colander

Electronic calculator with printer

Computer front bezel

Control element for a speaker housing

Clamping push pin

Computer front bezel

Speaker housing

Speaker housing

Stand

Antenna

Inner sleeve for holding batteries for a flashlight

Automotive wheel

Vehicular exterior mirror housing

Buckle, particularly for a belt

Bottle

Non-round grill head for charcoal grill

Container cover

Speech timer

Bottle with cap