먼저 신약 발굴과 관련된 배경을 말씀드리겠습니다.
최근 몇 년간 신약 발굴 분야가 매우 뜨겁습니다. 특히 신약 연구를 포함한 제약회사의 신약 발굴 작업을 지원하기 위해 AI를 활용하는 경우가 많습니다. 그리고 개발. 일반적으로 특정 유형의 임상 질환에 대한 첫 번째 약물의 연구 개발 과정에는 수십억 달러의 자금이 필요하며 10년 이상이 소요됩니다. 크게 다음과 같은 단계로 나누어집니다.
(1) 질병 표적 연구 및 질병 핵심 단백질 규명.
(2) 임상시험 전 약품의 유효성을 검증합니다. 약물의 독성, 유효성, 복용방법 등에 대한 연구를 포함합니다.
(3) 임상시험.
(4) FDA 승인 및 인증.
그래서 전통적인 의약품 개발 과정 주기는 매우 깁니다. 또한, 최초 1만개 이상의 약물이 인지된 이후 5개 약물이 임상시험 단계에 진입했고, 최종적으로 1개 약물만 시판 승인을 받았다. 이러한 맥락에서, 제약회사가 후보약물 중에서 효과적인 약물을 보다 신속하게 선택할 수 있도록 지원하는 방법과, 임상시험 단계에서 약물의 효과, 효과, 유효성을 신속하게 사전조사할 수 있는 방법이 뜨거운 연구분야가 되고 있습니다. AI, 특히 심층 신경망 기술은 약물 연구 및 개발 프로세스를 크게 가속화할 수 있습니다.
오늘 공유하는 내용은 약물 스크리닝과 관련이 없습니다. 주로 후보 약물의 부작용 및 효능에 초점을 맞추고 있습니다. 약물 독성을 줄이고 약물 효과를 향상시키는 것입니다.
위 그림처럼 DDI(Drug-Drug Interaction)는 약물 간의 상호작용을 말합니다. 연구약물과 기존약물 간의 교차분석을 실시하여 연구약물의 인체에 미치는 영향 등 부작용을 발굴하고, 실험을 통해 사전에 발굴하고 분류합니다. 간단한 예로, "약은 독으로 셋으로 나눈다" 인데, 약의 독성이 주로 어디에 반영되는가? 많은 경우, 이는 약물이 다른 약물과 결합될 때, 즉 두 가지 이상의 약물 간의 화학적 상호작용으로 발생합니다. 오른쪽 하단의 사진은 세 가지 약물을 보여줍니다. 이트라코나졸은 종양 관련 약물입니다. 아베마시클립과 혼합하면 이 두 약물을 사용하면 간부전, 신부전 등 심각한 부작용이 발생합니다. 기능 장애가 있는 환자는 심각한 결과를 초래할 수 있습니다. 아베시클립과 다브라페닙을 혼합하면 혈중농도 저하를 유발해 다른 질환을 유발할 수 있다. 따라서 신약을 개발하는 과정에서는 수많은 테스트가 필요하지만, 실제 사람을 이용한 테스트는 불가능하고, 쥐나 다른 동물을 대상으로만 테스트할 수 있다.
오늘 공유하는 콘텐츠는 다중 모드 신경망을 활용하여 기존(개발 중이거나 알려진 것 포함) 약물 성분, 알레르기 등을 기반으로 약물 DDI를 사전에 예측하는 것입니다.
위 그림에 표시된 것처럼 약물 상호작용은 DDI 매트릭스로 요약할 수 있습니다. 매트릭스는 약물 상호작용의 결과를 설명합니다. 예를 들어 약물 d1(abexiclib)과 d2(dabrafenib)는 y1(혈청 농도 감소)로 이어집니다. ). 이 연구에는 572개의 약물(d)과 65개의 반응 결과(y, 혈청 농도 감소 등)가 포함된 37,264개의 DDI 데이터가 포함되었습니다. 그리고 이 데이터를 바탕으로 DKG(Drug Knowledge Graph)가 구성되었습니다. 노드는 약물이고 가장자리는 약물 간의 관계입니다. DKG 트리플은 {D: 약물, R: 약물간 관계, T: 꼬리 엔터티}입니다.
위의 데이터 외에도 다중 모드 모델은 약물의 이질적인 특징(HF, 이질적인 특징)도 통합합니다: {대상: 표적, 하위 구조: 성분/화학 구조, 효소: 효소}, 각 각 특징의 차원은 다릅니다. 예를 들어 대상 정보는 단백질입니다. 마지막으로 DDI 매트릭스, DKG 및 HF는 모델링을 위해 동일한 확률 분포에 융합됩니다.
다음으로 이종 다중 모드 MDNN 모델의 프레임워크를 소개하겠습니다.
이 모델은 주로 DDI 매트릭스와 이종 데이터의 두 부분으로 구성됩니다. 다음 세 부분:
(1) DKG 부분 기준: 주로 약품을 구성하여 약품 자체의 성분(유효 성분, 독성 성분), 약품 간의 관계 등에 관한 정보를 표현합니다. 지식 그래프.
(2) HF 부분을 기준으로 : 타겟, 효소, 분자 구조 등 이질적인 특성 데이터를 통합하여 약물 자체의 기본 특성 정보를 기술합니다.
(3) 다중 모드 융합 신경망: 두 가지 특징 데이터인 DKG와 HF를 효과적으로 융합하고 융합된 데이터의 통합 모델링을 수행합니다.
다음은 DKG를 기반으로 한 구축 과정을 소개합니다.
위 그림은 약물 지식 그래프의 주요 내용을 보여줍니다. 왼쪽 그림은 DDI 매트릭스에 해당 약물의 성분과 작용 정보가 저장되어 있습니다. 데이터베이스(DrugBank, 즉 "Drug Bank"). 오른쪽 그림은 효소, 운반체, 표적 및 기타 이질적인 기본 특징과 같은 "Drug Bank"의 약물 정보의 예를 보여줍니다. 그 중 4가지가 표적 외에 약물 DB05812를 예로 들어보겠습니다. , 효소와 분자 구조 외에도 운반체와 운반체도 있습니다. 그러나 이 두 가지 유형의 데이터는 상대적으로 희박하고 다른 기능만큼 많은 차원을 갖지 않습니다. 따라서 현재 데이터 세트의 차이는 크지 않습니다. 이 두 데이터는 당분간 사용되지 않습니다. 사용되는 주요 데이터는 표적, 효소, 분자 구조입니다.
위 그림과 같이 지식 그래프는 주로 노드(Node)와 엣지(Edge)로 구성되는데, 노드는 약품과 성분, 엣지는 관계를 의미합니다. 예에서 삼중항으로 표시된 관계는 독성 성분 관계입니다. 즉, 노드 약물 "DB05812"와 노드 성분 "P02768" 사이에 독성 성분 관계가 있습니다. "Drug Bank"에서 얻은 약물 성분 관계 트리플을 기반으로 572종의 약물을 포함하는 DKG 지식 그래프가 형성됩니다. 트리플의 모서리(관계)를 의미 관계 유형이라고 합니다. 성분 꼬리 엔터티 노드에는 1043가지 유형이 있습니다. 각 DKG는 작업 요구 사항에 따라 "Drug Bank"에서 해당 정보를 추출하고 구성할 수 있으므로 DKG는 "Drug Bank" 지식 그래프의 하위 그래프와 동일합니다.
DKG를 기준으로 두 가지 유형의 정보를 정리하면 위의 그림은 의미관계 정보모델의 구성을 보여준다. 독성 성분을 기준으로 먼저 이전 층의 약물 내적(d)과 관계(r)를 계산하고 이를 현재 층 가중치(W1)를 통해 합산하여 π함수, 즉 약물의 edge 정보와 node 정보를 π 함수를 통해 합산한 후, π 함수와 이전 레이어 성분(t)을 가중치 합산하여 e를 구하는 즉, edge 정보를 구한다.
마찬가지로 위 그림은 그래프의 위상적 구조 정보 모델의 구성을 보여줍니다. 독성 성분 외에도 약물에는 여러 다른 성분 관계가 포함될 수 있습니다. 동일한 약물의 다중 관계(예: e)와 해당 가중치 W2를 연결하여 최종적으로 각 약물에 해당하는 E를 얻을 수 있습니다. 위의 방법을 통해 DKG 에지와 토폴로지 구조 정보가 효과적으로 융합되어 표현된다.
아래와 같이 약물에는 위에서 언급한 부가 정보 및 DDI 정보 외에도 매우 풍부한 다중 모드 정보가 있습니다. 동일한 약물이 여러 대상을 타겟팅할 수 있습니다. 다양한 약물은 서로 다른 분자 구조를 갖고 있으며 이는 해당 분자 특성을 나타냅니다. 약물은 서로 다른 효소의 작용에 따라 서로 다른 표적에 결합합니다. 이 세 가지 정보를 벡터화한 후 단순 Jaccard 유사성을 통해 약물간 유사성을 측정하여 해당 유사성 매트릭스를 구한다. ㅋㅋㅋ 이 특징 벡터의 크기도 1162개의 타겟, 583개의 구조 및 202개의 효소에 대한 정보를 포함하여 작습니다.
4. 다중 모델 융합층
위 그림과 같이 각 약물의 DKG 결과 E와 HF 결과 E'가 최종적으로 접합되어 융합됩니다. 얻을 수 있는 융합 레이어:
그런 다음 소프트맥스 기능을 통해 출력 레이어를 가져옵니다.
전체 모델 프레임워크는 위와 같습니다. 프레임워크 구조는 복잡하지 않지만, 약물 정보를 비교적 효과적으로 결합합니다.
다음으로 모델 효과를 공유하겠습니다.
위 그림은 현재 가장 일반적으로 사용되는 알고리즘과의 비교 결과를 보여줍니다. MDNN 알고리즘은 Acc, AUC, F1, AUPR, Precision, Recall 및 기타 평가 지표를 달성했습니다. 예술의 결과. (위의 알고리즘은 GNN 알고리즘에 포함되지 않습니다.)
위 그림은 DKG, HK와 융합된 MDNN과 융합되지 않은 MDNN의 효과 차이를 보여줍니다. 두 방법 중 하나를 단독으로 사용하는 것보다 융합 결과가 더 좋다는 것을 쉽게 알 수 있습니다.
멀티모달 매개변수 조정 분석, 즉 매개변수 민감도를 위 그림에 나타내었는데, 신경망 레이어 수 l과 노드 수 N을 보여줍니다. s 매개변수가 변경되면 각 평가 지표에 해당하는 변동이 발생합니다.
또한, 훈련 세트에 포함된 약물과 약물 간의 DDI를 예측하기 위해 훈련 세트를 통해 다중 작업 분석을 수행했습니다. 테스트 세트; 작업 B에 대한 예측 모델도 훈련 세트를 통해 구성되었지만 테스트 세트의 약물 간 DDI를 예측했습니다. 훈련 세트와 테스트 세트 약물을 엄격하게 분리하면 모델 예측 효과가 크게 감소합니다.
단순히 DDI를 연구하는 것이 아닌, 어떻게 하면 약물을 효과적으로 발굴/스크리닝할 수 있을지, 약물 연구개발 분야에는 아직 해결해야 할 문제가 많습니다.
마지막으로 이번에 공유한 내용을 요약하자면, MDNN 알고리즘 자체는 복잡하지 않으며, 가장 중요한 것은 다중 모드 데이터와 구조적 정보를 사용하는 것입니다.
(1) 약물 효과를 기반으로 약물 지식 그래프를 구축하고, 약물 자체의 특성(표적, 분자 구조, 효소)을 기반으로 다중 모달 데이터 특성을 구성하고 최종적으로 이 두 특성을 통합하여 MDNN 모델.
(2) DDI의 예측 문제를 개선했습니다.
(3) 기존 방법과 비교하여 MDNN은 데이터 세트에 가장 좋은 영향을 미칩니다.
그러나 실제 응용 분야에서 MDNN 모델에는 더 나은 방법론이나 더 나은 데이터 등 추가적인 최적화와 개선이 필요한 영역이 여전히 많이 있습니다.
A1: 본 연구의 지식 그래프 데이터 세트는 공개 데이터 세트이며, 원본 데이터 세트 "Drug Bank"도 공개 데이터 세트입니다. 그러나 각 연구 분야의 약물에 따라 구성되는 지식 그래프 데이터 세트도 다르며, 통일되고 보편적인 지식 그래프는 없습니다.
A2: 바이오의약품 외에도 전자상거래 분야에는 다양한 응용 분야가 있습니다. 예를 들어, User-Item 클래스 데이터 세트에서 User는 직업, 나이, 쇼핑 태그 등과 같은 많은 다중 모드 정보를 가지고 있습니다. 아이템 제품도 많은 정보를 가지고 있으며, 이들 사이에는 많은 관계가 있습니다. 쇼핑, 평가, 즐겨찾기, 클릭 등 행동. 도메인 데이터가 이질적인 형태를 따르는 경우 이러한 방법을 분석에 사용해 볼 수 있습니다. 특정 도메인에 대한 지식 그래프를 구축하는 것이 어렵습니다.
위 내용은 약물 상호작용 예측 작업에 다중 모드 DNN 모델 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!