본문 바로가기
AI와 화학물질

PubChem에서 여러가지 물질의 안전 정보 한번에 확인하기

by Good.PhD 2025. 2. 24.

화학물질 관련 정보가 필요하다면 PubChem을 보통 먼저 찾게 된다. PubChem에서 다양한 정보를 검색할 수 있는데, DB상에 있는 모든 데이터도 다운로드 할 수 있게 제공해주고 있어 잘 활용한다면 상당히 유용하게 활용할 수 있다.

https://pubchem.ncbi.nlm.nih.gov/

 

PubChem

PubChem is the world's largest collection of freely accessible chemical information. Search chemicals by name, molecular formula, structure, and other identifiers. Find chemical and physical properties, biological activities, safety and toxicity informatio

pubchem.ncbi.nlm.nih.gov

 

PubChem에서 데이터를 대규모로 받고 싶다면 FTP를 활용할 것을 권고한다. 서버에 무리를 주지 않기 위해서 직접 접근하는 것은 최대한 막고 있다.

https://pubchem.ncbi.nlm.nih.gov/docs/rdf-ftp

 

FTP Download

 

pubchem.ncbi.nlm.nih.gov

 

하지만 FTP에서 모든 정보를 받을 수 있는 것은 아니다. PubChem에서 물질을 검색하다 보면 상세 정보를 볼 수 있는데, bulk download 상에서는 해당 정보까지 제공되지는 않는다. 물질 1-2개에 대해서 정보가 궁금하면 그냥 검색해서 정보를 일일히 확인하면 된다. 하지만 나는 500개 물질에 대한 정보를 받아야 했다. 일일히 보기에는 시간이 너무 많이 걸렸기 때문에 다수의 화합물에 대한 안전성 정보를 일괄적으로 다운받고 싶어서 PubChem에 문의해봤다. (굉장히 친절하게 답변을 잘 해준다.)

물질 안전성 정보 페이지

 

일단 PubChem의 페이지에서 보이는 정보들을 한번에 다운받기 위해서는 PubChem classification browser를 사용해야 한다. 검색 결과에서 보이는 정보들을 묶어서 제공하는 곳. 

https://pubchem.ncbi.nlm.nih.gov/docs/classification-browser

 

Classification Browser

 

pubchem.ncbi.nlm.nih.gov

 

모든 화합물에서 안전성 정보나 GHS 분류 정보가 제공되지는 않는다. 그래서 그런 정보가 포함되어 있는 물질 리스트만 다운을 받을 수가 있다. (농약, 의약품, 식품첨가제와 같은 제품별 성분 분류도 있다.) 좀 더 아래 내려가보면 안전성 정보가 제공되는 물질 리스트가 제공된다.

 

GHS 분류 값이 붙어있는 화합물들만 따로 정리해두었기 때문에 여기서 전체 화합물 리스트를 한번에 확보할 수 있었음. 다양한 정보가 있다보니, 여기만 잘 들여다 봐도 좋은 정보를 많이 찾아낼 수 있을 듯. 항목 옆에 있는 숫자는 해당되는 화합물의 전체 개수. 숫자 버튼을 누르면 해당되는 화합물 리스트를 볼 수 있다.

 

GHS 분류가 되어 있는 물질은 247,734개. 이 전체 리스트를 보기 위해서 버튼을 눌러보면 아래와 같은 페이지가 보인다. 여기서 Push to Entrez를 클릭.

 

 

그러면 전체 화합물 리스트를 다운받을 수 있는 페이지가 보인다. Send to -> File -> UI List를 받으면 리스트를 확보할 수 있다. 다운받은 파일을 보면 숫자가 잔뜩 들어있는데, 각 화합물의 CID 값이다. (PubChem에서 각 compound에 부여한 ID를 의미.)

 

각 화합물 ID가 중요한 이유는, 이 정보를 바탕으로 안전성 페이지에 직접 접근할 수 있기 때문. PubChem에서 검색 페이지의 중요 정보에 접근하기 위한 방법으로 PUG view라는 것을 제공한다.

https://pubchem.ncbi.nlm.nih.gov/docs/pug-view

 

PUG View

 

pubchem.ncbi.nlm.nih.gov

 

PUG view를 이용해서 각 화합물의 정보에 접근하려면 아래와 같은 URL 형태를 활용하면 된다.

https://pubchem.ncbi.nlm.nih.gov/rest/pug_view/data/compound/(각 화합물의 CID)/XML?heading=GHS%20Classification

 

여기서부터는 프로그래밍으로 접근하는 것이 필요. 데이터를 가공하기 쉬운 형태로 제공하고 있다. 요즘에는 코딩하면서 모르는 부분도 perplexity에 물어보고 있다. 꽤 괜찮게 잘 해주는 편. PUG view에서 보이는 데이터를 perplexity에 입력해주면서 원하는 정보만 추출하는 코드 작성해달라고 해주면 된다.

https://www.perplexity.ai/

 

Perplexity

Perplexity is a free AI-powered answer engine that provides accurate, trusted, and real-time answers to any question.

www.perplexity.ai

 

이 방법을 통해 PubChem에서 얻어낼 수 있는 데이터가 훨씬 늘어나서 굉장히 기대감이 크다. 행벅 :D