通过序列计算多肽或者蛋白的核磁化学位移

冯柳宾 96748b0d01 上传文件至 '' преди 7 месеца
README.md f80234f3f9 更新 'README.md' преди 10 месеца
nmr_shift_prediction_from_small_data_quantities.py 96748b0d01 上传文件至 '' преди 7 месеца

README.md

多肽和蛋白的化学位移计算

这个项目的主要目的是辅助核磁谱图归属,特别是直接从系列可以预测结构,然后结构预测化学位移,归属HSQC谱图的指认

  1. 以下这篇文章是说用QM来计算生物大分子的化学位移,Using quantum chemistry to estimate chemical shifts in biomolecules, 他们还开发一个AFNMR软件来实现。我的想法是通过这个来计算多肽的化学位移,来辅助多肽的核磁谱图指认。当然如果计算运行的情况下,也是可以试试蛋白的计算。

  2. 接下来一片比较新的预测蛋白化学位移的文献 Accurate prediction of chemical shifts for aqueous protein structure on “Real World” data。我没有搭建起来,可以试试。也提供的源码,https://github.com/THGLab/CSpred 目前好像是PDB格式问题,不知道,就是不给出结果。还得试试。

当然还有其他的预测软件,比如SPARTA+https://spin.niddk.nih.gov/bax/software/SPARTA+/, SHIFTX2, PROSHIFT,CamShift。

小分子化学位移计算

化学位移预测

NMR SHIFT PREDICTION FROM SMALL DATA QUANTITIES 这篇文章使用ML预测19F和13C的化学位移,有相应的code在Google上。

构象搜索

SDEGen: Learning to Evolve Molecular Conformations from Thermodynamic Noise for Conformation Generation https://pubs.rsc.org/en/content/articlelanding/2023/sc/d2sc04429c 采用随机微分方程模拟分子构象,联合概率深度学习的DDIM模型,提高效率和精度。可以用该模型和科音的molclus模型,还有XTB模型对比。我这边主要是要用来计算核磁化学位移的。https://github.com/HaotianZhangAI4Science/SDEGen 该文章提供源代码,可以后面试着用用。

自动化计算核磁共振化学位移

  • An automated framework for high-throughput predictions of NMR chemical shifts within liquid solutions 小分子的化学位移预测
  • Elucidating Structures of Complex Organic Compounds Using a Machine Learning Model Based on the 13C NMR Chemical Shifts 这一篇也不错,https://github.com/fenglb/SVM-M
  • AI预测化学位移的方法:Transfer Learning from Simulation to Experimental Data: NMR Chemical Shift Predictions, CASCADE,Real-time prediction of 1H and 13C chemical shifts with DFT accuracy using a 3D graph neural network
  • Highly Accurate Prediction of NMR Chemical Shifts from Low-Level Quantum Mechanics Calculations Using Machine Learning https://github.com/THGLab/iShiftML

量化自动化计算核磁共振全谱

https://github.com/grimme-lab/enso Fully Automated Quantum-Chemistry-Based Computation of Spin–Spin-Coupled Nuclear Magnetic Resonance Spectra

溶剂对化学位移的影响

NMR Chemical Shifts of Emerging Green Solvents, Acids, and Bases for Facile Trace Impurity Analysis https://pubs.acs.org/doi/10.1021/acssuschemeng.3c00244 本研究报道了42种绿色溶剂、酸和碱在8种NMR溶剂中的残余1H和13C NMR化学位移,即二甲基亚砜-d6、氯甲-d、D2O、CD3OD、CD3CN、丙酮-d6、四氢呋喃-8和甲苯-d8。本文还确定了1H信号的乘法和耦合常数。 https://nmrimpurities.pythonanywhere.com/

1997年 Gottlieb 等的文章 《NMR Chemical Shifts of Common Laboratory Solvents as Trace Impurities》

2010年 Gregory R. Fulmer等的文章《NMR Chemical Shifts of Trace Impurities: Common Laboratory Solvents, Organics, and Gases in Deuterated Solvents Relevant to the Organometallic Chemist》

2016年 Nicholas R. Babij等的文章《NMR Chemical Shifts of Trace Impurities: Industrially Preferred Solvents Used in Process and Green Chemistry》列出了48中工业上常用的溶剂在氘代溶剂(CDCl 3 、丙酮-d 6 、乙腈-d 3 、甲醇-d 4 和 D 2 O)的化学位移,扩充了 Gotlieb等文章的内容。

2023年 Levente Cseri等在文章《NMR Chemical Shifts of Emerging Green Solvents, Acids, and Bases for Facile Trace Impurity Analysis》更新数据,报告了8中氘代溶剂(DMSO,CDCl3,D2O,CD3OD, CD3CN, 丙酮-d6,四氢呋喃-d8和甲苯-d8)的数据。并且提供一个可查询的网站 (http://www.nmrimpurities.com),用户可以通过该界面浏览溶剂光谱并搜索来源不明的信号,从而轻松识别 NMR 光谱中的残留杂质。

我的考虑就是用量化计算(不同溶剂模型)这些化合物的氢谱和碳谱,然后拟合修正,看看是否经过溶剂拟合修正,可以得到更好的计算核磁数据。这是一个探索性的问题,值得做

小分子耦合常数计算

预测耦合常数

kaggle有一个耦合常数预测的竞赛,The train dataset contained 4,658,147 scalar coupling observations of 85,003 unique molecules, and the test dataset contained 2,505,542 scalar coupling observations of 45,772 unique molecules。我也可以试试用这个来练练机器学习。

我的想法,如果可以同时预测化学位移和耦合常数,那么我就可以对小分子进行全谱预测了。

我的思路:先对分子进行构建,rdkit,然后进行构象寻找,可以用前面提到的方法,然后能量优化,找到能量最低的几个构象,进行boltzmann平均化处理。用这个平均化的作为描述符来预测。因为液体核磁的数据总体上是一个构象平均的结果。

数据库