object-c – Wie kann ich mit C++ das Lesen von 50 Millionen Daten aus einer Datei und deren Speicherung in einem Vektor beschleunigen?

Question

Ich muss 50 Millionen Doppeldaten aus einer TXT-Datei lesen und in einem Vektor speichern. Ich dachte zunächst, dass die Datei io möglicherweise zu langsam ist, also habe ich den Dateiinhalt mithilfe der Dateispeicherzuordnung als Blöcke in den Speicher eingelesen und dann push_back nacheinander in den Vektor, aber direkt aus der Datei ...

漂亮男人 · Answer

debug模式下跑没有意义，我用你的代码在release下跑也就14秒左右的样子。

解决问题先找问题，我把代码修改成这个样子，先查出耗时的地方是哪

std::cout << "Start" << std::endl;
    auto n1 = ::GetTickCount();
    auto n2 = 0;
    auto n3 = 0;
    auto n4 = 0;

    while (ss_sim.good())
    {
        auto n = ::GetTickCount();
        ss_sim >> fVecSim;
        n2 += (::GetTickCount() - n);

        n = ::GetTickCount();
        auto v = atof(fVecSim.c_str());
        n3 += (::GetTickCount() - n);

        n = ::GetTickCount();
        vec_similarity.push_back(v);
        n4 += (::GetTickCount() - n);
    }
    n1 = ::GetTickCount() - n1;

    std::cout << "ss_sim >> fVecSim：" << n2 << "ms" << std::endl;
    std::cout << "atof：" << n3 << "ms" << std::endl;
    std::cout << "push_back：" << n4 << "ms" << std::endl;
    std::cout << "Total：" << n1 << "ms" << std::endl;

所以瓶颈在于"ss_sim >> fVecSim"这一句。atof也已经够快了。

所以我的结论是：终极的优化方案是从存储格式上下手，将你的数据存储为二进制而非字符串，这样就避免了字符串IO和转换函数的开销，真正达到秒取数据。

phpcn_u1582 · Answer

目前最高效的办法就是用流，而在你的代码实现中可以看出来:你是全部将文件内容一次性读入buffer中，这种方式不是最好的。建议平均每次读 buffer[1024] 也就是1K,或者其他也可以。读完指针就移到下一行，继续读，直到EOF位置结束

天蓬老师 · Answer

1.如果数据间没有依赖关系的话，可以试试分块多线程读取;
2.另外vector的内存是连续的，如果后面不是要随机访问，而都是遍历的话，用list效率会高不少。

天蓬老师 · Answer

可以换用C风格的scanf试试

哇怎么这么对待我答案的？举报我的网友倒是说说，这答案怎么就有问题了？