|
5樓
發(fā)表于 2023-4-10 04:50:33
|
只看該作者
我做了一個“保姆級”教程,教大家一個奇技淫巧,甚至你不用懂化學,不清楚什么是化學結構式,只要學了這一招,說不定還能唬住一些專業(yè)人士。
題主這個問題,我可以拆解成三個環(huán)節(jié),保證你能查到任何已經注冊過的化合物,甚至還可以預測一些未知化合物的性質。
1、提取化學結構式
2、提取化學結構式的InChI Key編碼
3、根據化學結構式的InChI Key編碼在PubChem等數(shù)據庫查詢
第一步:提取化學結構式
對于一些小白來說,他們接觸到的化學結構式往往是圖片格式的,當然你可以用一些諸如ChemDraw等化學結構式編輯器將它畫出來,再用結構式編輯器相關功能查找性質啥的,但是這樣子本身就需要你需要學習怎么把這個化學結構式繪制出來,這需要時間成本。往往很多人就只想找個化學結構式的性質,不用大費周章學什么畫化學結構式(對化學生而言這是必備的技能),言歸正傳,我們拿到了一張帶有化學結構式的圖片該怎么辦?
比如我隨手在網上找了一張化學結構式的圖片,我要知道這個結構式的信息,首先就需要提取這個結構。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-1.jpg (61.01 KB, 下載次數(shù): 188)
下載附件
2023-4-11 08:11 上傳
一張帶有化學結構式的圖片
(1)用InDraw這個工具,直接截圖識別這個化學結構式圖片,結構就會被提取到InDraw的畫布上??梢栽邡椆刃畔⒌墓倬W上找這個工具,它是完全免費的。
InDraw-化學結構式編輯器-結構式搜索-結構式圖像識別(2)用小剪刀圖標截取圖片上的化學結構式,稍等一下圖片上的化學結構式就會被提取到InDraw的畫布上。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-2.jpg (79.84 KB, 下載次數(shù): 180)
下載附件
2023-4-11 08:11 上傳
用小剪刀圖標截取圖片上的化學結構式
第二步:提取化學結構式的InChI Key編碼
框選畫布上的結構,點擊鼠標右鍵,選擇復制為“InChI Key”
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-3.jpg (80.58 KB, 下載次數(shù): 198)
下載附件
2023-4-11 08:11 上傳
框選畫布上的結構,點擊鼠標右鍵,選擇復制為“InChI Key”
第三步:根據結構的InChI Key編碼在PubChem等數(shù)據庫查詢
(1)打開PubChem網站,該網站的地址如下:
PubChem(2)在PubChem數(shù)據庫中的檢索框中粘貼你此前復制的InChI Key,然后點擊檢索框旁邊的"放大鏡"圖標,就可以查找這個InChI Key。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-4.jpg (255.72 KB, 下載次數(shù): 220)
下載附件
2023-4-11 08:11 上傳
在PubChem數(shù)據庫中的檢索框中粘貼你此前復制的InChI Key
這個結構的InChI Key編碼是:RYYVLZVUVIJVGH-UHFFFAOYSA-N
(3)點擊待選結果,就可以進到這個化合物的詳情頁。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-5.jpg (213.05 KB, 下載次數(shù): 178)
下載附件
2023-4-11 08:11 上傳
(4)進到詳情頁可以獲取這個化學結構式更全面的信息。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-6.jpg (206.51 KB, 下載次數(shù): 202)
下載附件
2023-4-11 08:11 上傳
(5)如果你看不懂英文沒關系,在你的瀏覽器上面安裝一個翻譯插件就可以,把整個頁面翻譯成中文,推薦使用谷歌翻譯插件,這樣子對于一些學術詞匯的翻譯還算是比較準確的。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-7.jpg (294.46 KB, 下載次數(shù): 194)
下載附件
2023-4-11 08:11 上傳
用翻譯插件翻譯頁面
(6)得到該化學結構式的比較全面的中文信息,點擊目錄頁可以跳轉到相關的信息位置。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-8.jpg (128.32 KB, 下載次數(shù): 173)
下載附件
2023-4-11 08:11 上傳
結果解讀
可以看到PubChem提供的化學結構式的信息還是比較全面的?;旧线@個化合物的所有被研究過的科研基礎信息應有盡有,國內很多化合物的數(shù)據來源就是PubChem,算是比較全面的。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-9.jpg (39.06 KB, 下載次數(shù): 190)
下載附件
2023-4-11 08:11 上傳
題主想找的化合物的基本性質可以看看“化學和物理信息”。我只截取了部分,如下。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-10.jpg (153.57 KB, 下載次數(shù): 197)
下載附件
2023-4-11 08:11 上傳
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-11.jpg (49.71 KB, 下載次數(shù): 212)
下載附件
2023-4-11 08:11 上傳
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-12.jpg (126.24 KB, 下載次數(shù): 184)
下載附件
2023-4-11 08:11 上傳
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-13.jpg (91.37 KB, 下載次數(shù): 225)
下載附件
2023-4-11 08:11 上傳
計算化學屬性、物理描述、顏色/形式、氣味、味道、沸點、熔點、溶解度、密度、蒸氣壓、酸堿度、亨利常數(shù)等等應有盡有。最關鍵的是,它所提供的數(shù)據還列出了相關的文獻來源,這樣子可以追溯到最原始的數(shù)據,可信度十分高。
這個是那個圖片上的結構式的信息,可以自行查看體驗。
Caffeine這套操作的背后的原理是什么?
如果你能看到這里,說明對以上的操作很好奇,但是這并不是很值得炫耀的技能。
其實這個是化學信息學的基本操作,然而很多高校并沒有特別重視這塊工具的使用以及相關數(shù)據庫的推薦,很多同學并不會,一問三不知,有同學甚至在百度上查找一些化合物數(shù)據,這其實相當?shù)牟豢煽浚驗槭嵌值臄?shù)據來源。
當然一些同學甚至連一個最基本的化學結構式都畫不清楚,還需要加強學習。
我經常會碰到有同學問幫忙找一個化學結構式的信息,這算是普遍的問題的,這當然不怪他們,因為很多老師,或者過了一定年齡的教授也并不知道還有很多新的工具可以運用到化合物數(shù)據的檢索上。
考慮教程到要適用于最基本的小白,我希望是越簡單越好,所以我就使用了OCSR工具,讓他們能夠點點鼠標,用三步操作就可以獲取權威的數(shù)據。
1、什么是OCSR工具?
這個其實就是提取化學結構式的工具,我演示的InDraw其實就是一種OCSR工具,它可以將圖片格式上的化學結構式轉化為可以編輯形式的結構式文件,這個技術其實就是類似我們日常辦公用的OCR工具,可以將圖片上的文字轉化為可以字符格式的文字信息,方便我們加工和編輯。這只不過是換了一種形式,我曾經寫過一篇文章,介紹過這項技術,也測試過市面上的一些OCSR軟件。如果你想了解更多,可以看看我這個回答。
有沒有能識別化學結構式的ocr引擎?雖然現(xiàn)在基于深度學習的OCSR工具的識別正確率已經相當高了,但是它不能保證你提取到的化學結構式是完全正確的,有可能缺一個原子少一根化學鍵,所以就需要你后期去糾錯。保證畫布上的化學結構式和圖片上的完全一樣就行。
2、什么是InChI Key?
在聊InChI Key 之前要從InChI說起,而提到InChI又不得不提到化學線性表示符。對于計算機而言,它“精通”的是處理代碼和字符串。在人類看來簡單又直觀的化學結構式對計算機而言,卻不是那么簡單,計算機需要把它轉化為一定的圖結構。最早期,一些化學家為了讓電腦也能存儲化學結構,就發(fā)明了化學線性表示符,比如SMILES式,只用一串代碼就可以表示化學結構。
但是規(guī)范的SMILES存在無法自由使用的問題,因為其生成算法是商業(yè)性的。史蒂夫·海勒(Steve Heller)和史蒂夫·斯坦(Steve Stein)于1999年提出InChI,以開發(fā)可自由使用的化合物的規(guī)范表示法。后來,第一個版本在2005年與IUPAC合作宣布。自2009年以來,它一直由一個名為InChI Trust的組織進行管理和開發(fā)。
What on Earth is InChI? - IUPAC 100
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-14.jpg (7.68 KB, 下載次數(shù): 194)
下載附件
2023-4-11 08:11 上傳
InChI編碼是國際純粹與應用化學聯(lián)合會International Union of Pure and Applied Chemistry (IUPAC) 給出的每種化合物化學結構的唯一識別碼。
InChI是以人類可以理解的形式編寫的分子信息。由于每種化合物都具有不同的InChI,因此可以認為它與化合物名稱的IUPAC名稱相似。如前所述,與Canonical SMILES的不同之處在于生成算法是非盈利性的,可以自由使用。
而涉及到一些分子比較復雜,所生成的InChI可能比較長,如果用來檢索就比較麻煩,于是乎對InChI進行哈希運算會得到 InChI Key,這是固定長度為25個字符的分子表示形式,也稱為哈希InChI。與InChI不同,很少會從不同的分子生成相同的InChIKey。在實際使用中,可以用 InChI Key 作為關鍵字檢索出對應的 InChI,再做進一步的使用。
除了我在上面演示的PubChem這個數(shù)據庫外還有很多數(shù)據庫也采用InChI編碼儲存化學結構。
數(shù)據庫名稱 | 化學結構數(shù)量 | 網站 | PubChem | 9300萬結構以上 | https://pubchem.ncbi.nlm.nih.gov/ | European Biometrics Institute UniChem | 1.51億結構以上 | https://www.ebi.ac.uk/unichem/ucquery/stats | Royal Society of Chemistry – ChemSpider | 1.14億結構以上 | https://www.chemspider.com/ | National Cancer Institute – Chemical Structure Lookup Service(NCI) | 7400萬結構以上 | https://cactus.nci.nih.gov/cgi-bin/lookup/search | ChemNavigator iResearch Library | 3.71億結構以上 | https://www.chemnavigator.com/cnc/products/irl.asp | Elsevier – Reaxys | 2900萬結構以上 | https://www.elsevier.com/solutions/reaxys | ACS/CAS – Chemical Abstracts Service | 1.5億結構以上 | https://www.cas.org/ | 3、除了查詢這些數(shù)據庫外,用結構式編輯器可以預測化合物性質
這個我就以InDraw為例,還是使用那個圖片上的化學結構,可以來預測它的一些基本物性,其實很多物性都是基于一些方程編制的算法來計算的,有一些數(shù)據庫所提供的的物性除了是實驗實測值外,一些也可能是計算的,因為這個世界上的化合物實在太多,很難面面俱到。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-15.jpg (78.19 KB, 下載次數(shù): 221)
下載附件
2023-4-11 08:11 上傳
當然你還可以用ChemDraw來預測,如果是畫在化學結構式編輯器中的結構,那就太好了,因為可以不用OCSR來識別和轉化,最萬能的方式就是可以把它保存為.mol格式,這樣子其他各種款式的化學結構式編輯器一般都能打開。
由于InDraw和ChemDraw可以直接雙向通訊,你把InDraw畫布上的化學結構粘貼到ChemDraw里面就可以正常的顯示。讓我們在ChemDraw里面來預測預測一下這個結構的一些性質。
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-16.jpg (131.23 KB, 下載次數(shù): 198)
下載附件
2023-4-11 08:11 上傳
用ChemDraw來預測性質
一些寶藏化學數(shù)據庫
1、國外的化學數(shù)據庫
PubChem https://pubchem.ncbi.nlm.nih.gov/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-17.jpg (60.25 KB, 下載次數(shù): 202)
下載附件
2023-4-11 08:11 上傳
PubChem 檢索可得到的結果包含了分子式、SMILES、2D和3D結構、InChI和InChIKey、相對分子質量、脂水分配系數(shù)、氫鍵受體和供體數(shù)目、可旋轉鍵數(shù)目、互變異構體數(shù)目等基本的結構信息和物化性質,除此以外,還有該化合物作為藥物的劑型和商品信息、藥理性質、毒性、生物活性檢測等信息,并通過文獻分類副標題可以查看相關文獻 NIST Chemistry WebBook https://webbook.nist.gov/chemistry/name-ser/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-18.jpg (25.9 KB, 下載次數(shù): 204)
下載附件
2023-4-11 08:11 上傳
美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)直屬美國商務部,從事物理、生物和工程方面的基礎和應用研究,以及測量技術和測試方法方面的研究,提供標準、標準參考數(shù)據及有關服務,在國際上享有很高的聲譽。NIST的科學家主要從事生物技術、化學、半導體電子學、陶瓷學、物理學、光電子學、防火、聚合物、信息技術、制造工程和計量科學。 ChemSpider http://www.chemspider.com/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-19.jpg (53.84 KB, 下載次數(shù): 195)
下載附件
2023-4-11 08:11 上傳
ChemSpider是一個隸屬于英國皇家化學會的匯總數(shù)據庫,包含了來自不同資源提供的五千五百多個化合物信息。現(xiàn)在,該數(shù)據庫含有的信息包括海洋天然產物數(shù)據、ACD實驗室化學數(shù)據庫、EPA的DSSTox數(shù)據庫以及來自不同供應商的一系列化學物質信息。數(shù)據庫擁有多種搜索工具,而且大多數(shù)化合物都有計算物理化學性質值。 Phenol-Explorer http://phenol-explorer.eu/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-20.jpg (41.76 KB, 下載次數(shù): 189)
下載附件
2023-4-11 08:11 上傳
Phenol-Explorer是第一個專門為食品中多酚含量創(chuàng)建的綜合數(shù)據庫。數(shù)據庫中含有400種食物中500個不同多酚類物質的35,000多個含量值。這些數(shù)據信息是從1,300多篇科學文獻當中提及的60,000多種原始含量值中提取而來。 ZINC https://zinc.docking.org/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-21.jpg (39.87 KB, 下載次數(shù): 199)
下載附件
2023-4-11 08:11 上傳
包含2000多萬個化合物分子,適用于虛擬篩選。用戶可以自行繪制或輸入分子的SMILES字符串來上傳待檢索的分子,同時,還可以限定凈電荷量、xLogP、可旋轉鍵數(shù)、氫鍵供體和受體數(shù)等參數(shù)范圍。庫中的分子結構均可被免費下載,支持SMILES、mol2、3DSDF和DOCK flexibase格式,并且化合物的相關信息可以以表格形式下載,便于用戶使用。 DrugBank https://go.drugbank.com/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-22.jpg (63.71 KB, 下載次數(shù): 198)
下載附件
2023-4-11 08:11 上傳
藥物信息包括了該藥物的CAS號、商品名、分子式、分子量、SMILES、2D和3D結構、logP、logS、pKa、熔點、吸收性、Caco-2細胞穿透性、藥物類別和臨床使用、性質描述、劑型與給藥途徑、半衰期、體內的生物轉化、毒性、作用于哪些生物體、食物對服用的影響、與其它藥物的相互作用、作用機理、代謝途徑、藥理學特征、與蛋白質的結合情況、溶解度、物質形態(tài)、同義詞、關于合成的相關文獻等,還與ChEBI、GenBank、PubChem等外部數(shù)據庫有鏈接。 Toxnet http://toxnet.nlm.nih.gov/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-23.jpg (31.3 KB, 下載次數(shù): 205)
下載附件
2023-4-11 08:11 上傳
Toxnet是美國國家醫(yī)學圖書館(nlm)的化合物毒性相關數(shù)據庫,包括藥品毒理學、危險化學品和其它相關領域的信息,從Toxnet可對下列子數(shù)據庫進行檢索:HSDB (危險化合物數(shù)據庫):內含4500種毒性(或可能具有毒性的)化學藥品,以及其毒性、對環(huán)境的影響、化學安全性、廢棄物處置等相關領域的信息。TOXLINE 包括藥物和其它化學物質的生物化學、藥理學、生理學、毒理學的文獻數(shù)據庫。其中有300萬條引文、幾乎都有摘要和/或檢索條、以及CAS登錄號。 2、國內的化學數(shù)據庫
Drug future www.drugfuture.com/toxic/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-24.jpg (49.32 KB, 下載次數(shù): 219)
下載附件
2023-4-11 08:11 上傳
RTECS主要包括以下六大類化學物質的毒性數(shù)據:直接刺激性(Primary irritation);致突變性(Mutagenic effects);對生殖的影響(Reproductive effects,即致畸性);致腫瘤性(Tumorigenic effects);急性毒性(Acute toxicity);其他多劑量毒性。其中記錄有該化學物質的數(shù)值毒性值,如半數(shù)致死量(LD50或LC50),最低中毒劑量(TDLo),最低中毒濃度(TCLo)等,以及實驗所使用的物種和給藥途徑。最好通過不同方式如CAS號,通用名多次查詢,因為有些化合物可能通用名查不到,CAS號卻能查到。 ChemBlink https://www.chemblink.com/indexC.htm#opennewwindow/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-25.jpg (41.07 KB, 下載次數(shù): 216)
下載附件
2023-4-11 08:11 上傳
首頁檢索(該數(shù)據庫檢索與Drug future-化學物質毒性數(shù)據庫類似,需通過CAS號和化學名等多次檢索,有時候CAS號搜不出來,化學名可以,如下面CAS號搜索沒有結果,但是用化學名Tetrabutylammonium bromide就可以得到結果):提供化合物的安全技術說明書(MSDS),說明書中毒性一欄(Toxicological Information)會提供化合物的一些毒性數(shù)據。 Chemical Book www.chemicalbook.com/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-26.jpg (33.78 KB, 下載次數(shù): 196)
下載附件
2023-4-11 08:11 上傳
ChemicalBook是一家致力于為化學行業(yè)用戶提供最有價值信息的資源平臺,平臺可以使用使用中文名稱,CAS號,英文名稱,分子式,分子量,MDL號,EINECS號,結構式等多種方式檢索,提供供化合物的安全技術說明書(MSDS),說明書中毒性一欄(Toxicological Information)會提供化合物的一些毒性數(shù)據。 物競數(shù)據庫 http://www.basechem.org/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-27.jpg (57.67 KB, 下載次數(shù): 215)
下載附件
2023-4-11 08:11 上傳
物競數(shù)據庫是一個全面、專業(yè)、專注,并且免費的中文化學品信息庫,為學生、學者、化學品研究機構、檢測機構、化學品工作者提供專業(yè)的化學品平臺進行交流。數(shù)據庫采用全中文化服務,完全突破了中英文在化學物質命名、化學品俗名、學名等方面的差異,所提供的數(shù)據全部中文化,更方便國內從事化學、化工、材料、生物、環(huán)境等化學相關行業(yè)的工作人員查詢使用。 蓋得化工網 https://china.guidechem.com/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-28.jpg (38.62 KB, 下載次數(shù): 188)
下載附件
2023-4-11 08:11 上傳
蓋德化工網,誕生于2009年,提供基于互聯(lián)網平臺的專業(yè)性貿易撮合與促進服務,為化學品采購商和供應商提供服務,平臺在以真實、精準、豐富為目標,建立了化工產品庫、公司數(shù)據庫,提供自動撮合匹配的采購通服務,可大大提高采購商找產品效率。為助力化工企業(yè)研發(fā)、安全管理,建立了蓋德化工字典數(shù)據庫,目前已收錄了7000多萬條化合物數(shù)據,包括結構式、物化屬性、用途、安全數(shù)據、核磁圖譜、合成路線等。 化源網 https://www.chemsrc.com/casindex/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-29.jpg (30.62 KB, 下載次數(shù): 197)
下載附件
2023-4-11 08:11 上傳
化源網提供全方面的化合物搜索,包括常規(guī)搜索,官能團和結構式搜索,是國內僅有的一兩個能提供全面搜索服務的網站之一。擁有自主產權的化合物搜索引擎。特點是速度快、結果準確、輸入智能模糊容錯?;淳W的搜索即搜即得,最佳匹配您的需求?;衔飻?shù)據庫豐富。目前收錄了500多萬條唯一CAS編碼的產品信息,產品信息全面涵蓋產品的合成路線,文獻索引,理化性質,上下游產品,MSDS,供應商信息。另外億級化合物數(shù)據庫產品陸續(xù)添加中。 化學加 http://data.huaxuejia.cn/
只知道化學結構式,不知道名稱,該如何去搜查化合物的基本 ...-30.jpg (32.78 KB, 下載次數(shù): 190)
下載附件
2023-4-11 08:11 上傳
化學加搜索——全球三大化合物數(shù)據庫之一,2018年11月獲得國家級“大數(shù)據科技傳播獎.優(yōu)秀團體創(chuàng)新獎”。與化學加APP、微信小程序同步。超過4000萬條CAS號,數(shù)據精準,且已關聯(lián)上該產品的所有已入駐化學加網的供應商。CAS號:又稱CAS NO.、 CAS Registry Number、CAS Number 、CAS登錄號 。龐大的化合物名數(shù)據庫,超過1.2億條化合物數(shù)據,覆蓋中文與英文。且已關聯(lián)上該產品的所有已入駐化學加網的供應商。智能的化學式輸入識別,最靈活的輸入方式,精準的搜索結果。 |
|