가상화, 클라우드 컴퓨팅 등 신기술이 널리 적용되면서 기업 데이터센터 내 IT 인프라 규모가 급속도로 성장했습니다. 이로 인해 컴퓨터 하드웨어와 소프트웨어의 크기가 커지고 컴퓨터 오류가 자주 발생했습니다. 따라서 일선 운영 및 유지 관리 인력에게는 이러한 과제를 해결하기 위해 보다 전문적이고 강력한 운영 및 유지 관리 도구가 시급히 필요합니다.
데이터 센터의 일상적인 운영 및 유지 관리에서 기본 모니터링 시스템과 애플리케이션 모니터링 시스템은 일반적으로 결함 발견 메커니즘을 구축하는 데 사용됩니다. 미리 설정된 임계값을 설정하면 다양한 소프트웨어 및 하드웨어 이상이 발생할 때 표시 항목이 이러한 임계값을 초과하여 경보가 발생합니다. 운영 전문가에게 즉시 통보하고 문제 해결을 수행하여 데이터센터의 안정적인 운영을 보장합니다. 이러한 모니터링 메커니즘은 잠재적인 문제를 적시에 감지하고 해결하여 데이터 센터의 신뢰성과 가용성을 향상시킬 수 있습니다.
이벤트 지능형 분석 시스템은 알람 전환을 해결하고 이를 분석 및 처리하도록 설계된 시스템입니다.
이벤트 지능형 분석 시스템은 "장애 식별-장애 분석-장애 처리"의 전 과정 장애 처리 시스템을 구축합니다. 운영 및 유지보수 통합 전문가의 경험이 디지털 모델에 축적되어 오류가 발생하면 자동으로 오류를 "식별-분석-처리"하여 MTTR(평균 수리 시간)을 단축할 수 있습니다.
이벤트 지능형 분석 시스템은 AI 기술을 도입하여 시스템의 각 모듈을 강화합니다. 운영 및 유지 관리 전문가가 수동으로 오류 모델을 설정하지 않으면 AI가 자동으로 알람에 대한 오류를 설정하고 자동으로 분석한 다음 운영 및 유지보수 전문가가 결함을 분석하는 데 도움이 되는 분석 계획을 제공합니다. AI 역량 강화는 운영 및 유지 관리 전문가의 모델링 작업 부담을 줄이고, 운영 및 유지 관리 전문가의 경험 사각지대도 보완합니다.
다음은 이벤트 지능형 분석 시스템의 전체 아키텍처 다이어그램입니다.
picture
파란색 부분은 이벤트 지능형 분석 시스템의 기능 모듈이고 주황색 부분은 해당 데이터 또는 인터페이스를 제공하는 주변 시스템.
통합 이벤트 플랫폼: Alert 시스템은 다양한 모니터링 시스템(기본 모니터링, 애플리케이션 모니터링, 로그 모니터링)에서 알람을 수집하고 이를 통합 집계한 후 kafka로 전송되는 통합 형식, 이벤트 지능형 분석 시스템은 kafka 시스템의 모든 경보 데이터를 읽습니다.
자동화 플랫폼: 운영 및 유지 관리 전문가는 오류를 처리하는 방법으로 자동화 플랫폼에서 일부 조정 및 스크립트를 미리 생성합니다. 오류 분석을 통해 근본 원인을 찾은 후 폐기 작업을 조정하고 실행할 수 있습니다. 마지막으로 자동화 플랫폼 인터페이스를 호출하여 자동 폐기의 목적을 달성합니다.
CMDB: 오류 분석 중에 CMDB에 저장된 개체 인스턴스 속성과 관계를 사용하여 알람 인스턴스와 삭제 인스턴스를 동시에 논리적으로 연결할 수 있습니다. 알람 개체 주변 개체에 대한 일부 정보를 표시할 수도 있습니다. 해당 CMDB 개체 인스턴스 데이터를 연결해야 합니다.
ITSM: 변경 주문, 사고 주문 등의 작업 주문 데이터를 제공합니다. 오류가 발생하면 이러한 작업 주문 데이터를 분석에 사용해야 합니다.
빅 데이터 플랫폼 운영 및 유지 관리: 빅 데이터 플랫폼은 이벤트 지능형 분석 플랫폼이 필요한 데이터를 정리하는 데 도움이 되는 데이터 정리 도구를 제공하고 대규모 데이터 저장에 대한 기술 지원도 제공합니다. 이벤트 지능형 분석 CMDB 객체 데이터, ITSM 작업 지시 데이터, 모니터링 시스템 지표 데이터, 경보 데이터 등 후속 AI 분석을 위한 분석 데이터도 제공합니다.
오류 식별의 주요 기능은 경보를 오류로 변환하는 규칙을 정의할 수 있는 오류 모델을 설정하는 것입니다. 동시에 오류 모델의 정의도 높은 CPU 사용량 오류, 높은 메모리 사용량 오류, 높은 디스크 사용량 오류, 네트워크 지연 오류 등과 같은 오류를 간단히 분류하는 것입니다. 간단히 말해서 어떤 경보가 하나의 오류가 될 수 있습니까? , 경보 및 결함 정량적 관계는 1:1 또는 n:1이 될 수 있으며, 특정 결함이 발생한 경우에만 후속 분석 및 처리가 용이해집니다.
알람 형식:
통합 이벤트 플랫폼에서 수신된 알람을 표준화하고 지능형 이벤트 처리 시스템에서 요구하는 형식을 처리하며 일부 필드는 구성 관리의 개체 인스턴스 데이터를 조회하여 보완해야 합니다. .
고장 모델 정의:
고장 시나리오 모델의 정의에는 주로 기본 정보, 결함 규칙 및 분석 의사 결정 기능이 포함됩니다.
1) 기본 정보에는 결함 이름이 포함됩니다. , 소속 객체, 오류 유형 및 오류 설명과 같은 정보
2) 오류 규칙은 다음과 같은 범주로 나눌 수 있습니다.
3) 지정된 분석 의사결정 트리를 연관시켜 분석 계획을 결정합니다.
결함 분석은 관련 데이터 표시, 토폴로지 데이터 표시, 분석 결정 트리 및 지식 기반 검색과 같은 여러 측면에서 결함을 분석하고 표시하며 운영 및 유지 관리를 위한 데이터 지원을 제공합니다. 전문가가 신속하게 결함의 근본 원인을 찾고 결함을 해결할 수 있도록 도와줍니다. 분석 의사결정 트리는 처분과 연관될 수 있습니다.
관련 정보 표시:
1) 경보 분석: 경보 개체에 해당하는 물리적 하위 시스템과 배포 장치와 관련된 기타 소프트웨어 및 하드웨어 개체에 대한 지난 48시간 동안의 경보 데이터
2) 표시기 분석: 장애 발생 2시간 이내에 경보 개체에 해당하는 물리적 하위 시스템과 배포 장치와 관련된 기타 소프트웨어 및 하드웨어 개체의 표시 데이터
3) 변경 분석: 경보 개체에 해당하는 시스템의 작업 주문 기록 변경 지난 48시간 동안의 변경 분석을 수행합니다.
4) 로그 분석: 알람 개체 및 주변 개체의 지정된 경로에 대한 애플리케이션 로그 및 시스템 로그를 분석하고 표시합니다.
5) 링크 분석: 트랜잭션 코드를 핵심으로 알람 개체 관련 트랜잭션 코드의 업스트림 및 다운스트림 링크 데이터를 분석하고 표시합니다.
토폴로지 구조 표시:
물리적 하위 시스템을 차원으로 사용하여 관련된 운영 및 유지 관리 개체; 전체 시스템이 트리 토폴로지로 구성되어 구조가 표시되며, 경보가 있는 노드는 빨간색으로 표시되어 운영 및 유지 관리 전문가에게 경고합니다.
구체적인 예는 다음과 같습니다.
Pictures
분석 결정 트리:
CMDB 개체 및 관계, 경보, 표시기, 변경 사항, 로그 및 링크 및 기타 데이터를 기반으로, 사용자 정의 편집 가능한 분석 결정 트리에 통합되었습니다.
운영 및 유지보수 전문가는 데이터 분석을 위한 순서 및 판단 기준을 사전에 설정할 수 있으며, 운영 및 유지보수 경험을 디지털 모델 형태로 분석 의사결정 트리에 침전시킬 수 있습니다. 분석 의사결정 트리 관련 데이터를 분석, 판단하여 최종 결과를 제공합니다.
분석 결정 트리의 최종 리프 노드는 폐기와 연결될 수 있어 결함의 "식별-분석-폐기"라는 전체 수명 주기의 자동화된 운영을 보장합니다.
구체적인 예시는 다음과 같습니다.
사진
지식베이스 검색:
데이터센터는 빅데이터 플랫폼 운영 및 유지관리 관련 데이터를 기반으로 지식베이스 시스템을 구축하며 주로 긴급상황 수집 계획서, 사건 티켓 처리 전 과정의 기록, 운영 및 유지보수 전문가의 경험 요약 등 텍스트 데이터입니다.
오류가 발생하면 결함 키워드를 사용하여 지식베이스를 검색(문자열 매칭)하고 해당 텍스트 지식을 전문가 경험치로 반환합니다. AI 역량 강화 장에서는 단순한 문자열 매칭이 아닌 관련 검색에 대한 텍스트 분석을 사용하는 방법에 대해 설명합니다.
고장 처리는 주로 사전 정의된 폐기 모델에 따라 처리되며, 여기에는 주로 폐기 의사 결정 및 폐기 작업이 포함되며, 이를 실현하기 위해 자동화 플랫폼에 의존해야 합니다. 폐기 작업의 조정 및 실행.
1) 폐기 오케스트레이션: 폐기 오케스트레이션은 일련의 폐기 작업을 유기적으로 결합한 것입니다. 일부 폐기에서는 작업 및 유지 관리 개체를 먼저 격리한 다음 다시 시작해야 하므로 폐기 작업 스크립트를 프로세스에서 편집해야 하기 때문입니다. 여러 작업 스크립트가 설정된 순서를 따릅니다. 주문이 특정 인스턴스 머신으로 전송되어 실행됩니다.
2) 폐기 작업: 인스턴스 머신에서 실행되거나 폐기에 의해 호출될 수 있도록 스크립트(셸, Python)를 캡슐화합니다. 오케스트레이션, 폐기 작업은 Tomcat 재시작, 격리, 회로 차단기 및 기타 스크립트와 같은 가장 작은 작업을 폐기하는 것입니다.
오류 처리는 주로 운영 및 유지 관리 전문가의 경험이나 디지털 방식으로 작성된 비상 계획 문서를 기반으로 합니다. 모델로 침전되었습니다.
오류 처리가 완료된 후 후속 검토 및 분석을 위한 프로세스에 따라 처리 관련 기록이 기록됩니다.
AI 권한 부여는 결함의 "식별-분석-처리" 전 과정에서 수동 구성 작업량을 최소화하고 운영 및 유지 관리 전문가의 작업 부담을 줄이는 것이기도 합니다. 초기화 단계에서는 과거에 발생한 경보 유형을 100% 처리할 수 있으며, 전반적인 원칙은 자동 모델링을 통한 결함 식별 및 분석 분야에서 AI 계산을 사용하여 결함 모델 및 분석 솔루션을 구축하는 것입니다. , 자동 집계, 자동 분석 등 운영 및 유지 관리 전문가에 대한 참조를 제공하되 최종 판단 및 제어는 운영 및 유지 관리 전문가가 수행하도록 하여 알고리즘이 작업의 99%를 수행하도록 하고 수동 검토는 마지막 작업을 보장합니다. 작업의 1%입니다.
3-1장에서 설명한 결함 모델의 정의를 떠올려 보면 알람 규칙, 시간 규칙, 공간 규칙만 결정되면 분석 결정 트리는 다음과 같습니다. 결정되면 오류 모델을 설정할 수 있으며, 시간 규칙과 공간 규칙은 기본적으로 가장 일반적인 즉시 실행과 동일한 기계를 사용할 수 있으며, 분석 의사결정 트리는 가장 일반적인 상태 확인을 사용할 수 있습니다.
그래서 결함 모델을 구축하고 동일한 유형의 결함에 대한 모델을 구축하기 위해서는 알람 내용을 통해 결함을 분류하는 것이 핵심 문제이며, 알람 내용의 키워드를 사용하여 분류를 결정한 다음 특정 유형의 결함 모델을 설정합니다. 그러면 자동 모델링의 문제는 경보에 대한 키워드를 찾고 이를 기반으로 결함 모델을 구축하는 것으로 변질됩니다.
전체 논리도는 다음과 같습니다.
Pictures
기존 결함 모델이 일치할 수 있으면 결함 모델에 하나씩 입력합니다. , 본 기사를 종료합니다. 알람 처리; 일치하는 오류 모델이 없으면 알람 내용의 키워드를 알고리즘을 통해 계산하고, 해당 키워드를 기반으로 오류 모델을 구성한 후 새로 구성된 오류 모델을 오류에 추가합니다. 모델 목록.
운영 및 유지보수 전문가는 수동 확인을 통해 결함 모델을 일반화하고 온라인에 올릴 수 있습니다.
이 자동 모델링 방법에는 다음과 같은 장점이 있습니다.
1) 실시간으로 알람을 처리하고, 결함 모델링을 수행하며, 모델을 매우 빠르게 업데이트할 수 있습니다.
2) 모델링이 의존하지 않습니다. 운영 및 유지보수 전문가의 경험을 바탕으로 알람 콘텐츠를 통해 직접 모델링이 가능합니다.
3) 모든 과거 알람을 커버하고 새로운 알람에 실시간으로 대응할 수 있습니다.
4) 운영 및 유지보수가 필요하지 않습니다. 전문가가 대량의 모델 설정 작업을 수행하여 인력 절약 ; 운영 및 유지 관리 전문가가 최종 수동 확인만 수행하면 결과를 보장하면서 효율성이 향상됩니다.
일반적으로 계산할 문서에 자주 나타나는 단어입니다. , 그러나 대용량 문서에 등장할 확률은 낮습니다. 키워드의 확률이 높을수록 알람 메모리의 일부를 처리한 결과는 다음과 같습니다.
사진
위 알고리즘을 사용하여 알람 내용의 일부를 사용하여 계산하면 얻은 데이터 효과는 다음과 같습니다.
Pictures
Pictures
이제 클러스터링 알고리즘을 구축합니다. 구체적인 프로세스 다이어그램은 다음과 같습니다.
Pictures
구체적인 단계는 다음과 같습니다.
1) 필요한 경우 수동으로 설정할 수 있습니다. 오류 설명을 오류로 간주합니다. 이 단계는 필요하지 않습니다. 그렇지 않은 경우 직접 건너뜁니다.
2) 알람 정보를 정리하고 일부 불필요한 문자를 제거합니다.
3) BERT 모델을 사용하여 분석합니다. 알람 요약 텍스트 모든 결함 클러스터의 내용과 정보에 대해 텍스트 유사성 계산을 수행하여 유사한 결과를 얻습니다(임계값을 초과하는지 판단하여 유사한지 판단).
4) 유사하면 이 알람이 속합니다.
5) 거리 값이 임계값을 초과하지 않으면 이 경보를 새로운 오류 클러스터로 설정합니다.
6) 4단계와 5단계의 결과가 오류 클러스터 정보 목록에 업데이트됩니다.
7) 2단계부터 다음 알람 데이터를 처리합니다. 이 알고리즘은 다양한 유형의 결함에 대한 경보를 지정할 수 있습니다. 기존 유형의 결함이 없는 경우 다양한 분석 방법을 사용하여 다양한 결함 유형을 분류할 수 있습니다.이 알고리즘의 장점은 다음과 같습니다.
1) 오류 모델을 구축할 필요 없이 과거 및 실시간 경보 데이터를 통한 감독되지 않은 자동 오류 분류, 인력 절약
2) 실시간 경보의 경우; , 결함 클러스터링 이 프로세스는 정기적인 계산 및 모델 업데이트 없이도 실시간 온라인 업데이트를 보장합니다.
3) 경보가 자동으로 생성되거나 결함과 연관되며, 이는 결함 분석 계획 및 폐기를 위해 해당 비상 계획과 추가로 연관될 수 있습니다. 행동 양식.
3. 분석 계획 자동 생성
3-2장을 검토하세요. 결함 분석은 주로 결함 노드와 주변 노드의 정보 표시 및 분석 결정 트리 설정에 중점을 둡니다. 또한 더 많은 수동 설정이 필요합니다.
AI 권한 부여 후 비상 계획, 알람 세부 정보 및 오류 분석 정보 표시를 프롬프트(프롬프트)로 사용하는 것을 고려하고 우수한 결과를 제공하는 기존 대형 언어 모델을 사용하여 자동으로 오류 분석 솔루션을 제공합니다.
민영화된 배포 문제를 고려하면 대규모 언어 모델은 ChatGLM2, llama2 등을 고려할 수 있습니다. 특정 구현 단계에서는 필요와 하드웨어 수준에 따라 다양한 대규모 언어 모델을 선택할 수 있습니다. LLM은 대규모 언어를 표현하기 위해 일률적으로 사용됩니다. 독자들은 그 구별에 주의하시기 바랍니다.
주요 프로세스 다이어그램은 다음과 같습니다.
사진
오류 식별 후 해당 실시간 경보 및 표시된 관련 데이터를 얻고 비상 계획 데이터와 결합합니다. 프롬프트 조합과 프롬프트 프롬프트를 형성합니다. 단어의 목적은 LLM 대형 언어 모델이 질문할 때 더 나은 출력 결과를 얻는 것입니다.
동시에 비상 계획 및 과거 경보 데이터는 faiss 벡터 데이터베이스에 일괄적으로 저장됩니다. 결합된 프롬프트 단어가 LLM을 초과하는 경우 각 배치의 텍스트 양은 LLM의 토큰 한도를 초과하지 않습니다. 대규모 언어 모델에서는 프롬프트 단어를 결합하여 faiss 벡터 데이터베이스에 쿼리하여 가장 유사한 벡터가 포함된 텍스트를 얻습니다. LLM에 토큰 길이 제한을 초과하지 않는 텍스트를 쿼리하고 반환된 결과는 오류 분석입니다. 계획(텍스트 형식).
구체적인 효과는 아래 사진을 참고해주세요:
사진
업계에서 꼭 필요한 매뉴얼로 비상계획을 완벽하게 기록합니다. 모든 시스템과 모든 운영 및 유지 관리 대상에 해당하는 오류에 대한 분석 및 처리 단계는 의지할 수 있는 매우 좋은 텍스트 데이터입니다. 비상 계획의 내용은 이 시스템의 여러 곳에서 사용됩니다. 따라서 비상계획에 대한 검색능력을 제공하는 것이 필요하며, 지식베이스시스템은 비상계획에 대한 검색기반으로 활용될 수 있다.
문자열 일치를 통한 텍스트 검색, 텍스트 분석 후 키워드 검색, 의미 수준의 벡터 유사성 검색을 제공할 수 있습니다. 어느 쪽이든 시스템에서 요구하는 해당 비상 계획을 얻는 것입니다.
위 검색 방법 중 여러 가지 방법은 위에서 언급한 기술적 수단을 사용하여 처리할 수 있으므로 여기서는 다시 설명하지 않습니다.
이벤트 지능형 분석 시스템은 운영 및 유지 관리 전문가가 각 시스템을 운영 및 유지 관리할 수 있도록 돕기 위해 운영 및 유지 관리 전문가가 운영 및 유지 관리 경험을 촉진할 수 있도록 일련의 모델링 방법을 제공합니다. 데이터(결함 샘플 데이터 및 운영 및 유지 관리 관련 데이터)의 양이 점점 더 커지면 일부 AI 알고리즘을 사용하면 운영 및 유지 관리 전문가의 작업량을 줄이고 운영 및 유지 관리 전문가가 분석 및 유지 관리를 수행하는 데 도움을 줄 수 있습니다. 궁극적으로 어떤 작업도 필요하지 않을 것으로 기대되며, 유지 관리 전문가의 개입으로 인해 자동 작동 및 유지 관리 상태, 즉 결함이 "자체 발견되고 유지 관리가 필요 없는" 상태가 될 수 있습니다.
위 내용은 AI 기반 이벤트 지능형 분석 시스템의 실무 구축 및 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!