隨著二代測序通量的不斷提升,Illumina 公司的 HiSeq 和 NovaSeq、以及華大智造的 MGISEQ/DNBSEQ 系列測序儀,均可一次產出數百 Gb 以上數據。為最大化利用測序通量,通行做法是多樣本混合測序:即在文庫構建環節為每個樣本添加唯一標簽序列(Index),并在測序后依據 Index 進行數據拆分。
在文庫制備、測序和數據分析中的各個環節,包括合成錯誤或污染、操作不當、PCR 異常擴增、測序錯誤、生信分析錯誤等,均可能導致標簽錯配(Index Misassignment)。因此,研究人員應高度關注因數據串擾而導致的錯誤分析結論。例如,Illumina 測序平臺的 ExAmp 擴增方式本身就會導致高達 0.25-7% 的標簽錯配率,但可使用雙端唯一類型的接頭(Unique Dual Index, UDI)極大緩解標簽錯配的影響[1]。
華大智造測序平臺因使用 PCR-free 的 DNB 擴增方式,當使用單 Index 接頭時的標簽錯配率較低(平均為 0.0004%,最高至 0.001%)。此時約 68% 的標簽錯配來自于測序錯誤,32% 來自于合成或操作的污染[2]。然而進行靶向捕獲時,由于多個步驟均與標簽錯配的產生有關,因此串擾問題可能更為突出[3]。
納昂達對含有不同 HPV 類型的宮頸癌細胞系分別使用 MGI 平臺單端 Index 建庫和 Illumina 平臺雙端 Index 建庫,然后進行 5 – Plex 的靶向捕獲測序,數據拆分結果如表 1 所示。與 Illumina 平臺的 UDI 方案相比,單端 Index 拆分數據中存在跳躍污染。這也提示我們,在實際應用中,UDI 是應對標簽錯配污染最簡單、可靠的方法。
表 1:細胞系經不同文庫構建方式后的HPV檢出分布
為優化解決標簽錯配問題,納昂達科技已于 2020 年推出 MGI 平臺的 96 種雙端唯一標簽接頭模塊:MDI(MGISEQ Unique Dual Index)系列產品。近期,該系列產品又進一步擴展至 768 種!MDI 的引入使得文庫兩端的 Index 序列均是唯一的,且一對一組合,不存在共用。只有兩端均帶有完全正確 Index 序列的 Reads 才能進入后續的樣本分析,從而剔除標簽錯配的 Reads,有效避免樣本之間的數據串擾。
獨家專利設計?。▽@枺篊N111910258B)
雙端唯一Index for MGI,多達768種
隨著“全球日生產能力最強”的基因測序儀 DNBSEQ-T7 的陸續交付,單 lane 的數據產出已高達 1440 Gb。若以全外顯子測序應用為例(如 Exome Plus Panel v2.0),達到約 250x 平均深度時所需數據量為 20 Gb,需要 72 種 Index;以泛實體瘤檢測應用(如NanOnco Plus Panel v2.0)為例,達到約 1000x 平均深度時所需數據量為 5 Gb,則至少需要 288 種 Index。相對低通量的 Index 設計方案顯然無法滿足更多的混樣需求,尤其是在腫瘤研究和遺傳病檢測的應用方面。納昂達的 MDI 方案進一步擴增至768 種 Index,以期滿足更多用途需求。
表 2: MDI 設計原則
* 1-384已上市,385-768暫未上市銷售;
* MDI 49-768的最小平衡單元為4,MDI 1-48的最小平衡單元為8。
設計時如使用最小色彩平衡為 8,則其最佳使用方式不得不要求每 lane 至少混合 8 種 Index,以確保平衡。而納昂達的 MDI 序列設計的最小色彩平衡單元為 4,即 ≥4 個樣本時,可連續使用。在大多數情形下,此種設計對使用方式更為友好。
圖 1. A. NadPrep? DNA Library Preparation Module (for MGI) 分別搭配 NadPrep? Universal Adapter (MDI) Module (for MGI) 和 NadPrep? BMI Adapter (MDI) Module (for MGI) 構建文庫的工作流程。
均一的文庫和數據產出
MDI 系列方案,均通過獨立擴增效率驗證,以保證文庫的均一產出(圖 2A)。同時,多文庫混合測序時,各 Index 間的數據有效拆分率也基本一致,以保證數據產出的均一性(圖 2B)。
圖 2. MDI 表現示例。 A. 96 個 MDI 類型文庫產量。100 ng 片段化 gDNA,按 NadPrep? DNA Library Preparation Module (for MGI) 說明書操作,分別使用 MDI-97~MDI-192,擴增 5 個循環,平均文庫產出均 >1000 ng;B. 96 個 MDI 類型文庫的數據有效拆分率。測序模式:MGISEQ-2000,PE100。
有效提升數據準確度
為評估 MDI 的整體準確度和標簽錯配情況,我們構建多個 WGS 樣本文庫模擬混合并分 lane 測序。12、32 和 96 個 MDI 文庫的數據拆分結果顯示:所有 MDI 均可正確拆分,且比例 >99.9%(圖 3)。使用雙端匹配的 Index 拆分可大大減少樣本讀取的標簽錯配(Index 1 和 Index 2 匹配至不同的 MDI )。MDI 的標簽錯配率極低,可有效提升數據準確度,搭配更高的測序通量,可讓臨床研究更簡單、有效的同時進一步降低成本。
圖3. MDI文庫的數據串擾分析。 96個不同的MDI WGS文庫,分別將12、32、96個文庫混合,分lane測序。測序模式:MGISEQ-2000,PE100。
低頻突變分析
MDI 系列方案通過與截短型接頭組合可實現通用文庫和分子標簽文庫構建,適用于不同的應用場景。分子標簽文庫經靶向捕獲分析可用于血漿游離核酸的突變位點的檢測、尿液游離核酸突變位點的檢測、石蠟樣本超低頻突變檢測等,具體可參閱納昂達科技微信公眾號文章“分子標簽靶向捕獲應用示例”。
表 3. MDI 搭配不同類型接頭應用場景
圖 4.MDI 搭配 BMI Adapter 和 M-Adapter 的產量一致。
注: NadPrep? DNA Library Preparation Module (for MGI) 分別搭配 NadPrep? Universal Adapter (MDI) Module (for MGI) 和 NadPrep? BMI Adapter (MDI) Module (for MGI) 構建文庫,樣本為血漿提取的 cfDNA。
兼容并蓄
為方便用戶使用,MDI 支持與 MGI UDB 接頭混合上機。同樣,MDI 也可兼容 MGI 單端接頭使用。具體混合方案,詳詢 support@njnad.com。
參考文獻
[1]https://www.illumina.com.cn/content/dam/illuminamarketing/documents/products/whitepapers/index-hopping-white-paper-770-2017-004.pdf?linkId=36607862.
[2] Li Q, Zhao X, Zhang W, et al. Reliable multiplex sequencing with rare index mis-assignment on DNB-based NGS platform[J]. BMC genomics, 2019, 20(1): 1-13.
[3] MacConaill L E, Burns R T, Nag A, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. BMC genomics, 2018, 19(1): 1-10.