> 백엔드 개발 > C++ > 대규모 데이터 세트에 대한 Float 구문 분석을 어떻게 최적화할 수 있습니까?

대규모 데이터 세트에 대한 Float 구문 분석을 어떻게 최적화할 수 있습니까?

Linda Hamilton
풀어 주다: 2024-11-25 07:31:19
원래의
733명이 탐색했습니다.

How Can I Optimize Float Parsing for Large Datasets?

대규모 데이터세트에 대한 부동 소수점 구문 분석 최적화

대용량 파일에서 공백으로 구분된 부동 소수점을 구문 분석하는 것은 시간이 많이 걸리는 작업일 수 있습니다. 이는 한 줄에 여러 개의 부동 소수점이 있는 수백만 줄을 처리할 때 특히 그렇습니다. 이 문제를 해결하려면 성능 병목 현상을 최소화하는 효율적인 구문 분석 기술을 채택하는 것이 필수적입니다.

파싱 속도 측정

다양한 구문 분석 방법의 효과를 평가하기 위해 벤치마크는 다음과 같습니다. 수백만 개의 공백으로 구분된 부동 소수점을 포함하는 515Mb 입력 파일을 사용하여 수행되었습니다. 그 결과, 접근 방식에 따라 구문 분석 시간이 크게 달라지는 것으로 나타났습니다.

Boost Spirit: A Top Performer

놀랍게도 Boost Spirit이 가장 빠른 구문 분석 솔루션으로 떠올랐습니다. 이 강력한 라이브러리는 기존 방법에 비해 여러 가지 장점을 제공합니다.

  • 오류 처리: Spirit 파서가 자동으로 구문 분석 오류를 감지하고 보고합니다.
  • 풍부한 기능 지원: 변수 공백, /-Inf, 및 NaN 값을 사용합니다.
  • 우아한 구문: Spirit의 구문은 간단하고 사용하기 쉽습니다.

기타 구문 분석 기법

Boost Spirit이 구문 분석 속도에서 선두를 달리는 동안 다른 기법들도 유망한 결과를 보여주었습니다.

  • Eigen: 이 C 라이브러리는 다음을 포함하여 효율적인 행렬 및 벡터 연산을 제공합니다. 부동 소수점 구문 분석 기능.
  • C 14 정규식: C 14의 정규식 개선으로 정규식을 사용하여 구문 분석을 수행할 수 있습니다.
  • mmap: 메모리 - 매핑된 파일은 파일 액세스 속도를 높일 수 있지만 구문 분석 속도는 향상시키지 못할 수 있습니다.

벤치마크 결과

다음 차트는 메모리 매핑된 파일을 사용하는 다양한 방법의 구문 분석 시간을 요약합니다.

[이미지 파싱타임 벤치마크 결과]

올바른 선택 접근 방식

가장 좋은 구문 분석 방법은 애플리케이션의 특정 요구 사항에 따라 다릅니다. 속도와 정확성이 가장 중요하다면 Boost Spirit이 탁월한 선택입니다. 보다 간단한 시나리오의 경우 Eigen 또는 C 14 정규식으로 충분할 수 있습니다.

.hpp 파일(이전 구현)

std::vector<data> read_float3_data(std::string const &in)
{
  namespace spirit = boost::spirit;
  namespace qi = boost::spirit::qi;
  typedef std::vector<data> list;

  qi::rule<it, list(), qi::locals<bool>, data> triplet_rule =
      qi::phrase(
          (qi::double_ > qi::double_ > qi::double_) % qi::eol, qi::space, data());

  it first = in.begin();
  it last = in.end();
  it err  = in.end();
  bool parsing_ok = qi::phrase_parse(first, last, triplet_rule, qi::space,
                                            data(), qi::_pass, err);
  assert(parsing_ok && first == last);
  (void)err;
  return data();
}
로그인 후 복사

위 내용은 대규모 데이터 세트에 대한 Float 구문 분석을 어떻게 최적화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿