摘 要:本發(fā)明公開(kāi)了一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,涉及合成大麻素技術(shù)領(lǐng)域,包括以下步驟:S1:稱量1.00mg實(shí)際緝獲樣本,用1mL甲醇溶解,超聲15mi n后用1mL一次性注射器移取液體并過(guò)0.2μmwwPTFE微孔濾膜濾過(guò),用甲醇稀釋后供儀器檢測(cè);S2:分別使用CID 模式和EAD模式對(duì)樣品進(jìn)行全面采集;S3:使用MSConvert開(kāi)源軟件將儀器原始數(shù)據(jù)文件轉(zhuǎn)換成mzXML的格式,使用MZmi ne開(kāi)源軟件對(duì)數(shù)據(jù)文件進(jìn)行峰識(shí)別、色譜構(gòu)建、解卷積、同位素過(guò)濾和數(shù)據(jù)導(dǎo)出。本發(fā)明質(zhì)譜智能解析算法包括候選化學(xué)結(jié)構(gòu)生成、質(zhì)譜預(yù)測(cè)、候選結(jié)構(gòu)評(píng)分和碎片離子峰匹配等功能,整個(gè)過(guò)程無(wú)需任何人工干預(yù),實(shí)現(xiàn)了新精神活性物質(zhì)的全面篩查和快速準(zhǔn)確檢測(cè)。
技術(shù)要點(diǎn)
1.一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:包括以下步驟:
S1:稱量1.00mg實(shí)際緝獲樣本,用1mL甲醇溶解,超聲15min后用1mL一次性注射器提取液體并過(guò)0.2μm wwPTFE微孔濾膜濾過(guò),用甲醇稀釋后供儀器檢測(cè);
S2:分別使用CID模式和EAD模式對(duì)樣品進(jìn)行全面采集;
S3:使用MSConvert開(kāi)源軟件將儀器原始數(shù)據(jù)文件轉(zhuǎn)換成mzXML的格式,使用MZmine開(kāi)源軟件對(duì)數(shù)據(jù)文件進(jìn)行峰識(shí)別、色譜構(gòu)建、解卷積、同位素過(guò)濾和數(shù)據(jù)導(dǎo)出,形成csv格式的峰信息文件和mgf格式的MS/MS數(shù)據(jù)信息文件;
S4:將CID模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由NPS分類模型預(yù)測(cè)所有峰對(duì)應(yīng)物質(zhì)的類別,同樣將EAD模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由SC亞類分類模型預(yù)測(cè) NPS分類模型判定為合成大麻素類物質(zhì)的亞類類別;
S5:對(duì)NPS分類模型判定為合成大麻素類的物質(zhì),使用EAD模式下的數(shù)據(jù)在自建的合成大麻素碎片庫(kù)中搜索4個(gè)部位的結(jié)構(gòu),生成所有候選化學(xué)結(jié)構(gòu),并根據(jù)前體離子的質(zhì)量進(jìn)行初步過(guò)濾,得到候選結(jié)構(gòu)列表;
S6:根據(jù)步驟S4中給出的SC亞類類別,對(duì)步驟S5中得到的候選結(jié)構(gòu)列表中的所有結(jié)構(gòu)使用譜圖預(yù)測(cè)算法,生成每個(gè)候選結(jié)構(gòu)的預(yù)測(cè)MS/MS譜圖;
S7:使用評(píng)分算法根據(jù)步驟S6給出的預(yù)測(cè)MS/MS譜圖為每個(gè)候選結(jié)構(gòu)進(jìn)行評(píng)分,按照評(píng)分從高到低進(jìn)行排序,排名第一的即為最可能的結(jié)構(gòu);
S8:在給出最可能的結(jié)構(gòu)之后,軟件同樣也會(huì)給出碎片離子對(duì)應(yīng)的可能碎片結(jié)構(gòu),完成最終的MS/MS譜圖自動(dòng)解析。
2.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S2中儀器采集的色譜條件如下:色譜柱:Phenomenex Biphenyl Colum;流動(dòng)相:A:甲酸水溶液,B:甲酸乙腈溶液;流速、進(jìn)樣量、柱溫、樣品室溫度。
3.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S3中的MSConvert軟件使用Peak Picking功能,算法選擇Vendor,MS Level設(shè)置為1?2;所述S3中的MZmine軟件的詳細(xì)參數(shù)如下:
A1:數(shù)據(jù)文件導(dǎo)入使用Import MS data,將mzXML文件作為輸入;
A2:峰識(shí)別使用Mass detection,一級(jí)識(shí)別參數(shù):保留時(shí)間范圍1?20min,Polarity為正離子,Mass detector為Centroid,Noise level為1000,二級(jí)識(shí)別參數(shù):保留時(shí)間范圍1?20min,Polarity為正離子,Mass detector為Centroid,Noise level為0;
A3:色譜圖構(gòu)建使用ADAP Chromatogram Builder,Minimum consecutive scans為5,Minimumintensity for consecutive scans為2000,Minimum absolute height為5000,CID數(shù)據(jù)的m/z tolerance為0.002m/z或10ppm,EAD數(shù)據(jù)的為0.01m/z或50ppm;
A4:解卷積使用Local minimum feature resolver,Chromatographic threshold為85%,Minimum search range RT/Mobility為0.05,Minimum relative height為0%,Minimum absolute height為2000,Min ratio of peak top/edge為2,Peak duration range為0?1,Minimum scans為5;
A5:同位素濾過(guò)使用13Cisotope filter,CID數(shù)據(jù)的m/z tolerance為0.001m/z或 3ppm,EAD數(shù)據(jù)的為0.01m/z或10ppm,Retention time tolerance為0.02min,Monotonic shape為是,Maximum charge為2,Never remove feature with MS2為是;
A6:數(shù)據(jù)導(dǎo)出使用Export molecular networking files,導(dǎo)出csv和mgf兩個(gè)文件。
4.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S4中的CID數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),所有二級(jí)質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
B1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
B2:分別以0.5%和5%的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成cut_0.5和cut_5和兩個(gè)二維數(shù)組;
B3:使用cut_5生成假設(shè)中性丟失數(shù)據(jù),即將cut_5數(shù)組任意兩個(gè)m/z做差,其絕對(duì)值作為新的m/z值加入NL數(shù)組中,其響應(yīng)取兩個(gè)作差值的平均,最后將生成的NL數(shù)組增加至cut_0.5數(shù)組中;
B4:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留兩位小數(shù);
B5:新建一個(gè)長(zhǎng)度為50000的一維全零數(shù)組X[i],值i代表著0.01到500,間隔為0.01的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為50000的一維數(shù)組,作為分類模型的輸入;
所述S4中的EAD數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),EAD質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
C1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
C2:以0.5和1的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成cut_0.5和cut_1二維數(shù)組;
C3:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留1位小數(shù);
C4:新建一個(gè)長(zhǎng)度為5000的一維全零數(shù)組X[i],值i代表著0.1到500,間隔為0.1的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為5000的一維數(shù)組,作為SC亞類分類模型的輸入;
C5:cut_1作為合成大麻素碎片庫(kù)搜索的輸入,以生成候選結(jié)構(gòu)列表。
5.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S5中結(jié)構(gòu)搜索的方式如圖3c,得到4個(gè)部位的所有可能結(jié)構(gòu),全排列組合后即可得到若干個(gè)可能結(jié)構(gòu)列表,相加4個(gè)部位的對(duì)應(yīng)質(zhì)量與實(shí)際MS/MS譜圖的前體離子質(zhì)量進(jìn)行比較,若質(zhì)量誤差小于0.01Da,則加入候選結(jié)構(gòu)列表,以待進(jìn)一步的篩選處理。
6.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S6中的譜圖預(yù)測(cè)算法基于步驟S4給出的SC亞類分類模型給出的類別,按照?qǐng)D4?9的計(jì)算方式生成相應(yīng)結(jié)構(gòu)的預(yù)測(cè)譜圖。
7.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S7中的評(píng)分算法將步驟S6得到的預(yù)測(cè)MS/MS譜圖與實(shí)驗(yàn)譜圖進(jìn)行比對(duì),質(zhì)量容忍誤差為0.01Da,一個(gè)峰計(jì)一分,候選結(jié)構(gòu)以總分進(jìn)行排序。
8.根據(jù)權(quán)利要求1所述的一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,其特征在于:所述S8中的碎片離子結(jié)構(gòu)預(yù)測(cè),即峰匹配,匹配的方式基于所述S7的評(píng)分算法,將實(shí)驗(yàn)譜圖與預(yù)測(cè)MS/MS譜圖成功匹配的峰進(jìn)行關(guān)聯(lián),對(duì)應(yīng)結(jié)構(gòu)即為圖4?9中的序號(hào)對(duì)應(yīng)的結(jié)構(gòu)。
技術(shù)領(lǐng)域
本發(fā)明涉及合成大麻素技術(shù)領(lǐng)域,具體涉及一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法。
背景技術(shù)
新精神活性物質(zhì)(NPS)是指不受禁毒公約管制但存在濫用并會(huì)對(duì)公眾健康帶來(lái)威脅的物質(zhì),其中,合成大麻素類毒品作為物質(zhì)種類最多,變異最為迅速的新精神活性物質(zhì),目前已達(dá)356種,其結(jié)構(gòu)一般由“頭部”、“連接(也稱頸部)”、“核心(也稱軀干)”和“尾部”四個(gè)部分組成,給結(jié)構(gòu)修飾提供了多處變異位點(diǎn),不法分子熱衷于對(duì)合成大麻素進(jìn)行結(jié)構(gòu)修飾,不停地“創(chuàng)造”新型結(jié)構(gòu),以逃避毒品管制目錄。針對(duì)現(xiàn)有技術(shù)存在以下問(wèn)題:
因?yàn)榉前邢蚝Y查的過(guò)程通常涉及數(shù)據(jù)采集、可疑峰提取和質(zhì)譜解析,隨著儀器采集技術(shù)和數(shù)據(jù)分析方法的不斷進(jìn)步,越來(lái)越多的樣本數(shù)據(jù)需要人工解析,極大地降低了檢驗(yàn)鑒定工作的效率的同時(shí)也導(dǎo)致了漏檢誤檢等問(wèn)題,目前,非靶向篩查研究的重點(diǎn)在于提取可疑峰(化合物發(fā)現(xiàn)),許多研究人員提出了質(zhì)譜數(shù)據(jù)過(guò)濾、增強(qiáng)光譜相似性、相似性搜索和片段樹(shù)等方式,以提高識(shí)別可疑峰的準(zhǔn)確性,然而,有關(guān)自動(dòng)質(zhì)譜解析的研究仍然較少,雖然CFM?ID技術(shù)可以根據(jù)質(zhì)譜數(shù)據(jù)預(yù)測(cè)化學(xué)結(jié)構(gòu),但由于合成大麻素在CID模式下的碎片信息較少,其預(yù)測(cè)結(jié)構(gòu)的效果有限。
發(fā)明內(nèi)容
本發(fā)明提供一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,以解決上述背景技術(shù)中提出的問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明所采用的技術(shù)方案是:
一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,包括以下步驟:
S1:稱量1.00mg實(shí)際緝獲樣本,用1mL甲醇溶解,超聲15min后用1mL一次性注射器提取液體并過(guò)0.2μm wwPTFE微孔濾膜濾過(guò),用甲醇稀釋后供儀器檢測(cè);
S2:分別使用CID模式和EAD模式對(duì)樣品進(jìn)行全面采集;
S3:使用MSConvert開(kāi)源軟件將儀器原始數(shù)據(jù)文件轉(zhuǎn)換成mzXML的格式,使用 MZmine開(kāi)源軟件對(duì)數(shù)據(jù)文件進(jìn)行峰識(shí)別、色譜構(gòu)建、解卷積、同位素過(guò)濾和數(shù)據(jù)導(dǎo)出,形成 csv格式的峰信息文件和mgf格式的MS/MS數(shù)據(jù)信息文件;
S4:將CID模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由NPS分類模型預(yù)測(cè)所有峰對(duì)應(yīng)物質(zhì)的類別,同樣將EAD模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由SC亞類分類模型預(yù)測(cè)NPS分類模型判定為合成大麻素類物質(zhì)的亞類類別;
S5:對(duì)NPS分類模型判定為合成大麻素類的物質(zhì),使用EAD模式下的數(shù)據(jù)在自建的合成大麻素碎片庫(kù)中搜索4個(gè)部位的結(jié)構(gòu),生成所有候選化學(xué)結(jié)構(gòu),并根據(jù)前體離子的質(zhì)量進(jìn)行初步過(guò)濾,得到候選結(jié)構(gòu)列表;
S6:根據(jù)步驟S4中給出的SC亞類類別,對(duì)步驟S5中得到的候選結(jié)構(gòu)列表中的所有結(jié)構(gòu)使用譜圖預(yù)測(cè)算法,生成每個(gè)候選結(jié)構(gòu)的預(yù)測(cè)MS/MS譜圖;
S7:使用評(píng)分算法根據(jù)步驟S6給出的預(yù)測(cè)MS/MS譜圖為每個(gè)候選結(jié)構(gòu)進(jìn)行評(píng)分,按照評(píng)分從高到低進(jìn)行排序,排名第一的即為最可能的結(jié)構(gòu);
S8:在給出最可能的結(jié)構(gòu)之后,軟件同樣也會(huì)給出碎片離子對(duì)應(yīng)的可能碎片結(jié)構(gòu),完成最終的MS/MS譜圖自動(dòng)解析。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S2中儀器采集的色譜條件如下:色譜柱: Phenomenex Biphenyl Colum;流動(dòng)相:A:甲酸水溶液,B:甲酸乙腈溶液;流速、進(jìn)樣量、柱溫、樣品室溫度。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S3中的MSConvert軟件使用Peak Picking功能,算法選擇Vendor,MS Level設(shè)置為1?2;所述S3中的MZmine軟件的詳細(xì)參數(shù)如下:
A1:數(shù)據(jù)文件導(dǎo)入使用Import MS data,將mzXML文件作為輸入;
A2:峰識(shí)別使用Mass detection,一級(jí)識(shí)別參數(shù):保留時(shí)間范圍1?20min,Polarity 為正離子,Mass detector為Centroid,Noise level為1000,二級(jí)識(shí)別參數(shù):保留時(shí)間范圍 1?20min,Polarity為正離子,Mass detector為Centroid,Noise level為0;
A3:色譜圖構(gòu)建使用ADAP Chromatogram Builder,Minimum consecutive scans 為5,Minimumintensity for consecutive scans為2000,Minimum absolute height為 5000,CID數(shù)據(jù)的m/z tolerance為0.002m/z或10ppm,EAD數(shù)據(jù)的為0.01m/z或50ppm; [0020] A4:解卷積使用Local minimum feature resolver,Chromatographic threshold 為85%,Minimum search range RT/Mobility為0.05,Minimum relative height為0%, Minimum absolute height為2000,Min ratio of peak top/edge為2,Peak duration range為0?1,Minimum scans為5;
A5:同位素濾過(guò)使用13C isotope filter,CID數(shù)據(jù)的m/z tolerance為0.001m/z 或3ppm,EAD數(shù)據(jù)的為0.01m/z或10ppm,Retention time tolerance為0.02min,Monotonic shape為是,Maximum charge為2,Never remove feature with MS2為是;
A6:數(shù)據(jù)導(dǎo)出使用Export molecular networking files,導(dǎo)出csv和mgf兩個(gè)文件。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S4中的CID數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),所有二級(jí)質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
B1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
B2:分別以0.5%和5%的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成cut_0.5和cut_5和兩個(gè)二維數(shù)組;
B3:使用cut_5生成假設(shè)中性丟失數(shù)據(jù),即將cut_5數(shù)組任意兩個(gè)m/z做差,其絕對(duì)值作為新的m/z值加入NL數(shù)組中,其響應(yīng)取兩個(gè)作差值的平均,最后將生成的NL數(shù)組增加至cut_0.5數(shù)組中;
B4:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留兩位小數(shù);
B5:新建一個(gè)長(zhǎng)度為50000的一維全零數(shù)組X[i],值i代表著0.01到500,間隔為 0.01的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為50000的一維數(shù)組,作為分類模型的輸入;
所述S4中的EAD數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),EAD質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
C1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
C2:以0.5和1的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成cut_0.5 和cut_1二維數(shù)組;
C3:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留1位小數(shù);
C4:新建一個(gè)長(zhǎng)度為5000的一維全零數(shù)組X[i],值i代表著0.1到500,間隔為0.1的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為5000的一維數(shù)組,作為SC亞類分類模型的輸入;
C5:cut_1作為合成大麻素碎片庫(kù)搜索的輸入,以生成候選結(jié)構(gòu)列表。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S5中結(jié)構(gòu)搜索的方式如圖3c,得到4個(gè)部位的所有可能結(jié)構(gòu),全排列組合后即可得到若干個(gè)可能結(jié)構(gòu)列表,相加4個(gè)部位的對(duì)應(yīng)質(zhì)量與實(shí)際MS/MS譜圖的前體離子質(zhì)量進(jìn)行比較,若質(zhì)量誤差小于0.01Da,則加入候選結(jié)構(gòu)列表,以待進(jìn)一步的篩選處理。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S6中的譜圖預(yù)測(cè)算法基于步驟S4給出的SC亞類分類模型給出的類別,按照?qǐng)D4?9的計(jì)算方式生成相應(yīng)結(jié)構(gòu)的預(yù)測(cè)譜圖。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S7中的評(píng)分算法將步驟S6得到的預(yù)測(cè) MS/MS譜圖與實(shí)驗(yàn)譜圖進(jìn)行比對(duì),質(zhì)量容忍誤差為0.01Da,一個(gè)峰計(jì)一分,候選結(jié)構(gòu)以總分進(jìn)行排序。
本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn)在于:所述S8中的碎片離子結(jié)構(gòu)預(yù)測(cè),即峰匹配,匹配的方式基于所述S7的評(píng)分算法,將實(shí)驗(yàn)譜圖與預(yù)測(cè)MS/MS譜圖成功匹配的峰進(jìn)行關(guān)聯(lián),對(duì)應(yīng)結(jié)構(gòu)即為圖4?9中的序號(hào)對(duì)應(yīng)的結(jié)構(gòu)。
由于采用了上述技術(shù)方案,本發(fā)明相對(duì)現(xiàn)有技術(shù)來(lái)說(shuō),取得的技術(shù)進(jìn)步是:
1、本發(fā)明提供一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,通過(guò)將電子激活解離技術(shù)成功應(yīng)用于合成大麻素類小分子物質(zhì),實(shí)現(xiàn)了新精神活性物質(zhì)的非靶向篩查和合成大麻素類物質(zhì)的自動(dòng)質(zhì)譜解析。
2、本發(fā)明提供一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,質(zhì)譜智能解析軟件集成了NPS分類模型、SC亞類分類模型和質(zhì)譜智能解析算法,NPS分類模型在505個(gè) NPS的CID數(shù)據(jù)上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了8類NPS分類預(yù)測(cè),最高F1分?jǐn)?shù)達(dá)到96%,SC亞類分類模型在181個(gè)SC的EAD數(shù)據(jù)上訓(xùn)練,實(shí)現(xiàn)了7類SC母核結(jié)構(gòu)的分類,最高F1分?jǐn)?shù)達(dá)到97%。
3、本發(fā)明提供一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,質(zhì)譜智能解析算法包括候選化學(xué)結(jié)構(gòu)生成、質(zhì)譜預(yù)測(cè)、候選結(jié)構(gòu)評(píng)分和碎片離子峰匹配等功能,整個(gè)過(guò) 4/8頁(yè)程無(wú)需任何人工干預(yù),實(shí)現(xiàn)了新精神活性物質(zhì)的全面篩查和快速準(zhǔn)確檢測(cè)。
附圖說(shuō)明
圖1為本發(fā)明的技術(shù)方案流程示意圖;
圖1
圖2為本發(fā)明根據(jù)EAD碎裂規(guī)律總結(jié)出的6類合成大麻素母核示意圖;
圖2
圖3中a是JWH?007的MS/MS譜圖和碎片結(jié)構(gòu);b是根據(jù)JWH?007的MS/MS圖譜總結(jié)出的碎片庫(kù);c是利用碎片離子質(zhì)量和假設(shè)中性丟失質(zhì)量在碎片庫(kù)中進(jìn)行結(jié)構(gòu)搜索;
圖3
圖4為本發(fā)明的NA、QU類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖4
圖5為本發(fā)明的BZ、CUMYL類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖5
圖6為本發(fā)明的AB、AMB類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖6
圖7為本發(fā)明的A類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖7
圖8為本發(fā)明的TMCP類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖8
圖9為本發(fā)明的BZO?ZIDOXI類預(yù)測(cè)譜圖計(jì)算方式示意圖;
圖9
圖10為本發(fā)明的四種分類模型的混淆矩陣示意圖;
圖10
圖11為本發(fā)明的四個(gè)SC亞類分類模型的測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣示意圖;
圖11
圖12為本發(fā)明的樣本1?1,樣本2?5,和樣本2?6的化學(xué)結(jié)構(gòu)示意圖;
圖12
圖13為本發(fā)明的EAD優(yōu)化的參數(shù)組合示意圖;
圖13
圖14為本發(fā)明各個(gè)參數(shù)組合下的三個(gè)評(píng)價(jià)指標(biāo)值示意圖;
圖14
圖15為本發(fā)明四個(gè)NPS分類模型的最優(yōu)超參數(shù)示意圖;
圖15
圖16為本發(fā)明四個(gè)SC亞類分類模型最優(yōu)超參數(shù)示意圖;
圖16
圖17為本發(fā)明5個(gè)實(shí)際樣品的非靶向篩查結(jié)果示意圖。
圖17
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明:
實(shí)施例1
如圖1?17所示,本發(fā)明提供了一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu)解析方法,包括以下步驟:
S1:稱量1.00mg實(shí)際緝獲樣本,用1mL甲醇溶解,超聲15min后用1mL一次性注射器提取液體并過(guò)0.2μm wwPTFE微孔濾膜濾過(guò),用甲醇稀釋后供儀器檢測(cè);
S2:分別使用CID模式和EAD模式對(duì)樣品進(jìn)行全面采集;
S3:使用MSConvert開(kāi)源軟件將儀器原始數(shù)據(jù)文件轉(zhuǎn)換成mzXML的格式,使用 MZmine開(kāi)源軟件對(duì)數(shù)據(jù)文件進(jìn)行峰識(shí)別、色譜構(gòu)建、解卷積、同位素過(guò)濾和數(shù)據(jù)導(dǎo)出,形成 csv格式的峰信息文件和mgf格式的MS/MS數(shù)據(jù)信息文件;
S4:將CID模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由NPS分類模型預(yù)測(cè)所有峰對(duì)應(yīng)物質(zhì)的類別,同樣將EAD模式下采集的數(shù)據(jù)經(jīng)過(guò)清洗和標(biāo)準(zhǔn)化后,交由SC亞類分類模型預(yù)測(cè)NPS分類模型判定為合成大麻素類物質(zhì)的亞類類別;
S5:對(duì)NPS分類模型判定為合成大麻素類的物質(zhì),使用EAD模式下的數(shù)據(jù)在自建的合成大麻素碎片庫(kù)中搜索4個(gè)部位的結(jié)構(gòu),生成所有候選化學(xué)結(jié)構(gòu),并根據(jù)前體離子的質(zhì)量進(jìn)行初步過(guò)濾,得到候選結(jié)構(gòu)列表;
S6:根據(jù)步驟S4中給出的SC亞類類別,對(duì)步驟S5中得到的候選結(jié)構(gòu)列表中的所有結(jié)構(gòu)使用譜圖預(yù)測(cè)算法,生成每個(gè)候選結(jié)構(gòu)的預(yù)測(cè)MS/MS譜圖;
S7:使用評(píng)分算法根據(jù)步驟S6給出的預(yù)測(cè)MS/MS譜圖為每個(gè)候選結(jié)構(gòu)進(jìn)行評(píng)分,按照評(píng)分從高到低進(jìn)行排序,排名第一的即為最可能的結(jié)構(gòu);
S8:在給出最可能的結(jié)構(gòu)之后,軟件同樣也會(huì)給出碎片離子對(duì)應(yīng)的可能碎片結(jié)構(gòu),完成最終的MS/MS譜圖自動(dòng)解析;
所述S2中儀器采集的色譜條件如下:色譜柱:Phenomenex Biphenyl Colum;流動(dòng)相:A:甲酸水溶液,B:甲酸乙腈溶液;流速、進(jìn)樣量、柱溫、樣品室溫度;所述S3中的MSConvert軟件使用Peak Picking功能,算法選擇Vendor,MS Level設(shè)置為1?2;所述S3中的MZmine軟件的詳細(xì)參數(shù)如下:
A1:數(shù)據(jù)文件導(dǎo)入使用Import MS data,將mzXML文件作為輸入;
A2:峰識(shí)別使用Mass detection,一級(jí)識(shí)別參數(shù):保留時(shí)間范圍1?20min,Polarity 為正離子,Mass detector為Centroid,Noise level為1000,二級(jí)識(shí)別參數(shù):保留時(shí)間范圍 1?20min,Polarity為正離子,Mass detector為Centroid,Noise level為0;
A3:色譜圖構(gòu)建使用ADAP Chromatogram Builder,Minimum consecutive scans 為5,Minimumintensity for consecutive scans為2000,Minimum absolute height為 5000,CID數(shù)據(jù)的m/z tolerance為0.002m/z或10ppm,EAD數(shù)據(jù)的為0.01m/z或50ppm;
A4:解卷積使用Local minimum feature resolver,Chromatographic threshold 為85%,Minimum search range RT/Mobility為0.05,Minimum relative height為0%, Minimum absolute height為2000,Min ratio of peak top/edge為2,Peak duration range為0?1,Minimum scans為5;
A5:同位素濾過(guò)使用13C isotope filter,CID數(shù)據(jù)的m/z tolerance為0.001m/z 或3ppm,EAD數(shù)據(jù)的為0.01m/z或10ppm,Retention time tolerance為0.02min,Monotonic shape為是,Maximum charge為2,Never remove feature with MS2為是;
A6:數(shù)據(jù)導(dǎo)出使用Export molecular networking files,導(dǎo)出csv和mgf兩個(gè)文件;
所述S4中的CID數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),所有二級(jí)質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
B1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
B2:分別以0.5%和5%的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成 cut_0.5和cut_5和兩個(gè)二維數(shù)組;
B3:使用cut_5生成假設(shè)中性丟失數(shù)據(jù),即將cut_5數(shù)組任意兩個(gè)m/z做差,其絕對(duì)值作為新的m/z值加入NL數(shù)組中,其響應(yīng)取兩個(gè)作差值的平均,最后將生成的NL數(shù)組增加至 cut_0.5數(shù)組中;
B4:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留兩位小數(shù);
B5:新建一個(gè)長(zhǎng)度為50000的一維全零數(shù)組X[i],值i代表著0.01到500,間隔為 0.01的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為50000的一維數(shù)組,作為分類模型的輸入;
所述S4中的EAD數(shù)據(jù)的清洗和標(biāo)準(zhǔn)化方式如下:使用MATLAB對(duì)csv和mgf兩個(gè)文件進(jìn)行讀取,得到所有峰及其對(duì)應(yīng)的二級(jí)質(zhì)譜數(shù)據(jù),EAD質(zhì)譜數(shù)據(jù)按照以下流程進(jìn)行處理:
C1:將響應(yīng)歸一化至0?100的范圍,形成新的二維數(shù)組;
C2:以0.5和1的閾值,刪除新的二維數(shù)組中響應(yīng)低于該閾值的數(shù)據(jù),形成cut_0.5 和cut_1二維數(shù)組;
C3:將cut_0.5數(shù)組中的響應(yīng)按照公式1進(jìn)行標(biāo)準(zhǔn)化,m/z值以四舍五入的方式保留1位小數(shù);
C4:新建一個(gè)長(zhǎng)度為5000的一維全零數(shù)組X[i],值i代表著0.1到500,間隔為0.1的質(zhì)量數(shù),按照i=m/z*100則X[i]=響應(yīng)的規(guī)則填入cut_0.5數(shù)組中的所有數(shù)據(jù),最終每個(gè)質(zhì)譜數(shù)據(jù)均形成一個(gè)長(zhǎng)度為5000的一維數(shù)組,作為SC亞類分類模型的輸入;
C5:cut_1作為合成大麻素碎片庫(kù)搜索的輸入,以生成候選結(jié)構(gòu)列表;
所述S5中結(jié)構(gòu)搜索的方式如圖3c,得到4個(gè)部位的所有可能結(jié)構(gòu),全排列組合后即可得到若干個(gè)可能結(jié)構(gòu)列表,相加4個(gè)部位的對(duì)應(yīng)質(zhì)量與實(shí)際MS/MS譜圖的前體離子質(zhì)量進(jìn)行比較,若質(zhì)量誤差小于0.01Da,則加入候選結(jié)構(gòu)列表,以待進(jìn)一步的篩選處理;所述S6中的譜圖預(yù)測(cè)算法基于步驟S4給出的SC亞類分類模型給出的類別,按照?qǐng)D4?9的計(jì)算方式生成相應(yīng)結(jié)構(gòu)的預(yù)測(cè)譜圖;所述S7中的評(píng)分算法將步驟S6得到的預(yù)測(cè)MS/MS譜圖與實(shí)驗(yàn)譜圖進(jìn)行比對(duì),質(zhì)量容忍誤差為0.01Da,一個(gè)峰計(jì)一分,候選結(jié)構(gòu)以總分進(jìn)行排序,所述S8中的碎片離子結(jié)構(gòu)預(yù)測(cè),即峰匹配,匹配的方式基于所述S7的評(píng)分算法,將實(shí)驗(yàn)譜圖與預(yù)測(cè)MS/MS譜圖成功匹配的峰進(jìn)行關(guān)聯(lián),對(duì)應(yīng)結(jié)構(gòu)即為圖4?9中的序號(hào)對(duì)應(yīng)的結(jié)構(gòu)。
在本實(shí)施例中,S2中質(zhì)譜數(shù)據(jù)采集自SCIEX ZenoTOFTM 7600超高效液相色譜?質(zhì)譜聯(lián)用儀;掃描方式:電噴霧離子源,正離子掃描;檢測(cè)方式:IDA數(shù)據(jù)依賴性采集模式;電噴霧電壓:5500V;離子源溫度:500℃;霧化氣壓強(qiáng):50psi;輔助加熱氣壓強(qiáng):50psi;氣簾氣壓強(qiáng):35psi;去簇電壓:20V,CID模式下的參數(shù)如下:碰撞能量:35±15V,EAD模式下的參數(shù)如下:電子束能量:15eV;離子傳輸效率:100%;電子術(shù)電流:7500nA;反應(yīng)時(shí)間:50ms;Zeno阱閾值:100000cps;S4中的NPS分類模型和SC亞類分類模型由Python訓(xùn)練得到,均使用Voting 算法,集成了K最近鄰、支持向量機(jī)和極限森林三種模型,NPS分類模型支持1:合成大麻素類;2:合成卡西酮類;3:苯乙胺類;4:芬太尼類;5:色胺類;6:苯環(huán)利定類;7:苯二氮 類;8:其他類共8類NPS的預(yù)測(cè)分類,SC亞類分類模型支持1:AMB、AB類;2:A類;3:BZ、CUMYL類;4:NA、QU類;5:TMCP類;6:BZO?ZIDOXI類;7:其他類共7類SC母核結(jié)構(gòu)的預(yù)測(cè)分類,各類母核結(jié)構(gòu)如圖2,圖2中X=N,O,無(wú);Y=N,C;核心可以進(jìn)行替換,NA、QU類頭部可為其他環(huán)。
實(shí)施例2
如圖1?17所示,在實(shí)施例1的基礎(chǔ)上,本發(fā)明提供一種技術(shù)方案:優(yōu)選的,為了獲得更多的碎片信息,本研究針對(duì)EAD模式下的質(zhì)譜參數(shù)進(jìn)行了優(yōu)化,各個(gè)參數(shù)選擇優(yōu)化的值分 7/8頁(yè)別為:電子束能量Electron KE:10eV、15eV、20eV;電子束電流Electron beam current: 6000nA、7500nA、9000nA;離子傳輸效率ETC:50%、75%、100%;反應(yīng)時(shí)間Reaction time:35ms、50ms、65ms;Zeno阱閾值Zeno threshold:100000cps,具體的優(yōu)化參數(shù)組合見(jiàn)圖13,每個(gè)參數(shù)組合將100ppb的181種合成大麻素重復(fù)進(jìn)樣三次,并設(shè)定了三個(gè)指標(biāo)用以評(píng)價(jià)不同 EAD參數(shù)組合下譜圖質(zhì)量的優(yōu)劣:平均峰面積;相對(duì)豐度高于1%的碎片數(shù)量;三次重復(fù)的相同碎片的豐度RSD,采用MATLAB對(duì)以上9組參數(shù)組合對(duì)181種合成大麻素重復(fù)采集3次得到的 4887個(gè)EAD譜圖數(shù)據(jù)進(jìn)行處理,受EAD模式下儀器質(zhì)量精度有所下降的影響,在對(duì)同一個(gè)合成大麻素的3個(gè)EAD譜圖進(jìn)行峰對(duì)齊的過(guò)程中,設(shè)定的誤差窗口為0.01Da,計(jì)算得到的9組參數(shù)的各個(gè)指標(biāo)的值見(jiàn)圖14,圖14中不同的參數(shù)組合的差異主要體現(xiàn)在碎片數(shù)量上,平均峰面積和豐度RSD的差異較小,Electron KE值對(duì)于譜圖質(zhì)量的影響最大,在KE值由10eV提升至15eV后,碎片離子的數(shù)量和豐度都有著顯著提升,但是繼續(xù)提高至20V后,所有的碎片豐度都出現(xiàn)斷崖式的下降,實(shí)際觀察20eV下的EAD譜圖發(fā)現(xiàn),大部分合成大麻素的碎片幾乎完全消失,只剩下了分子離子峰,這也導(dǎo)致了參數(shù)組合3的豐度RSD明顯低于其他所有組合,參數(shù)Electron beam current和ETC都控制著實(shí)際電子的數(shù)量,譜圖質(zhì)量和參數(shù)取值整體上呈現(xiàn)正相關(guān),因此Electron beam current選擇7500nA,ETC選擇100%,Electron beam current不選擇最高值9000nA的原因是:7500nA提升至9000nA對(duì)碎片數(shù)量的提升較?。辉礁叩腅lectron beam current值會(huì)導(dǎo)致EAD模式響應(yīng)衰減得越快,實(shí)驗(yàn)發(fā)現(xiàn)EAD模式長(zhǎng)期處于高電流條件下,會(huì)導(dǎo)致質(zhì)譜EAD和CID模式的整體響應(yīng)降低,使用負(fù)離子質(zhì)譜方法進(jìn)行沖洗后,質(zhì)譜整體響應(yīng)可以恢復(fù)正常,Reaction time的取值對(duì)于譜圖質(zhì)量的影響較小,但由于質(zhì)譜的二級(jí)駐留時(shí)間需要大于2倍的Reaction time,為了盡量降低方法循環(huán)時(shí)間,保證方法的穩(wěn)定性,Reaction time選擇為50ms,因此最終選擇組合1作為最優(yōu)參數(shù)組合。
實(shí)施例3
如圖1?17所示,在實(shí)施例1的基礎(chǔ)上,本發(fā)明提供一種技術(shù)方案:優(yōu)選的,選擇KNN、SVM、ET、Voting四個(gè)分類模型進(jìn)行優(yōu)化,模型采用貝葉斯優(yōu)化算法和5折交叉驗(yàn)證進(jìn)行訓(xùn)練優(yōu)化,采用精確度、召回率和f1分?jǐn)?shù)三個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估,測(cè)試集的劃分使用python按照0.2的比例隨機(jī)進(jìn)行劃分,訓(xùn)練集數(shù)據(jù)404個(gè),測(cè)試集數(shù)據(jù)101個(gè),各個(gè)模型的最優(yōu)超參數(shù)組合見(jiàn)圖15,各個(gè)模型的測(cè)試集混淆矩陣如圖10,圖10中1:合成大麻素類;2:合成卡西酮類;3:苯乙胺類;4:芬太尼類;5:色胺類;6:苯環(huán)利定類;7:苯二氮 類;8:其他類,最終選擇Voting模型作為最終的NPS分類模型。
實(shí)施例4
如圖1?17所示,在實(shí)施例1的基礎(chǔ)上,本發(fā)明提供一種技術(shù)方案:優(yōu)選的,選擇KNN、SVM、ET和Voting四個(gè)分類模型進(jìn)行優(yōu)化,模型采用貝葉斯優(yōu)化算法和5折交叉驗(yàn)證進(jìn)行優(yōu)化,采用精確度、召回率和f1分?jǐn)?shù)三個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估,訓(xùn)練集和測(cè)試集的劃分采用 Python軟件按照0.2的比例隨機(jī)劃分,將181個(gè)合成大麻素?cái)?shù)據(jù)分為144個(gè)訓(xùn)練集數(shù)據(jù)和37 個(gè)測(cè)試集數(shù)據(jù),各個(gè)模型的最優(yōu)超參數(shù)組合見(jiàn)圖16,各個(gè)模型的測(cè)試集混淆矩陣如圖11,圖11中1:AMB、AB類;2:A類;3:BZ、CUMYL類;4:NA、QU類;5:TMCP類;6:BZO?ZIDOXI類;7:其他類,最終選擇Voting模型作為最終的SC亞類分類模型,使用上述技術(shù)流程對(duì)五個(gè)實(shí)際樣品進(jìn)行了非靶向篩查,結(jié)果見(jiàn)圖17,五個(gè)實(shí)際樣本中的13種物質(zhì)全部被NPS分類模型正確分類,使用EAD模式重新采集了樣品1和樣品2,除樣品2?5外,所有物質(zhì)都被成功解析,正確結(jié)構(gòu)均排在第一位,樣品1?1和樣品2?6中的兩種物質(zhì)均為新型合成大麻素。
上文一般性地對(duì)本發(fā)明做了詳盡的描述,但在本發(fā)明基礎(chǔ)上,可以對(duì)之做一些修改或改進(jìn),這對(duì)于技術(shù)領(lǐng)域的一般技術(shù)人員是顯而易見(jiàn)的。因此,在不脫離本發(fā)明思想精神的修改或改進(jìn),均在本發(fā)明的保護(hù)范圍之內(nèi)。
文章摘自國(guó)家發(fā)明專利,一種基于質(zhì)譜數(shù)據(jù)的合成大麻素分類和結(jié)構(gòu),發(fā)明人:花鎮(zhèn)東,杜宇,賈薇,劉翠梅,黃鈺,申請(qǐng)?zhí)枺?/font>202411119803.9,申請(qǐng)日:2024.08.15
