objective-c - 使用C++從檔案讀取五千萬個資料存入vector中如何加快速度？

Question

我需要從txt檔案中讀取五千萬個double數據，並且存入vector中，我最初覺得可能是文件io太慢，所以使用了文件內存映射，將文件內容當成block全部讀入內存中，然後再一個一個push_back進vector中，但直接從檔案一...

漂亮男人 · Answer

debug模式下跑沒有意義，我用你的程式碼在release下跑也就14秒左右的樣子。

解決問題先找問題，我把程式碼修改成這個樣子，先查出耗時的地方是哪

std::cout << "Start" << std::endl;
    auto n1 = ::GetTickCount();
    auto n2 = 0;
    auto n3 = 0;
    auto n4 = 0;

    while (ss_sim.good())
    {
        auto n = ::GetTickCount();
        ss_sim >> fVecSim;
        n2 += (::GetTickCount() - n);

        n = ::GetTickCount();
        auto v = atof(fVecSim.c_str());
        n3 += (::GetTickCount() - n);

        n = ::GetTickCount();
        vec_similarity.push_back(v);
        n4 += (::GetTickCount() - n);
    }
    n1 = ::GetTickCount() - n1;

    std::cout << "ss_sim >> fVecSim：" << n2 << "ms" << std::endl;
    std::cout << "atof：" << n3 << "ms" << std::endl;
    std::cout << "push_back：" << n4 << "ms" << std::endl;
    std::cout << "Total：" << n1 << "ms" << std::endl;

所以瓶頸在於"ss_sim >> fVecSim"這句話。 atof也已經夠快了。

所以我的結論是：終極的最佳化方案是從儲存格式上下手，將你的資料儲存為二進位而非字串，這樣就避免了字串IO和轉換函數的開銷，真正達到秒取資料。

phpcn_u1582 · Answer

目前最有效率的辦法就是用流，而在你的程式碼實作中可以看出來:你是全部將文件內容一次性讀入buffer中，這種方式不是最好的。建議平均每次讀 buffer[1024] 也就是1K,或其他也可以。讀完指針就移到下一行，繼續讀，直到EOF位置結束

天蓬老师 · Answer

1.如果資料間沒有依賴關係的話，可以試試分塊多線程讀取;
2.另外vector的內存是連續的，如果後面不是要隨機訪問，而都是遍歷的話，用list效率會高不少。

天蓬老师 · Answer

可以換用C風格的scanf試試

哇怎麼這麼對待我答案的？檢舉我的網友倒是說說，這答案怎麼就有問題了？