目录
前言
两个数的最值
交换两个数
向量vector
string 类实现
IsAlpha
IsSpace
字符串trim
切割字符串
正则匹配
日志系统
变参的实现
二进制1的个数
整数二进制的位数
模板 堆排序
快速排序
二分查找
数组去重
首页 数据库 mysql教程 sphinx 源码阅读之数据结构与算法

sphinx 源码阅读之数据结构与算法

Jun 07, 2016 pm 04:41 PM
sphinx 前言 数据结构 源码 算法 阅读

前言 源码在 sphinx 官网上就可以下载到. 起初我下载的是最新版本,结果由于代码大约有 10W 行,我看了快 1W 行后发现这样看也不是个办法。 于是我想着生成一个项目关系图来阅读代码,但是我这电脑只有windows, 网上介绍的大多都是 linux 上的,于是我只好取

cover

前言

源码在 sphinx 官网上就可以下载到.
起初我下载的是最新版本,结果由于代码大约有 10W 行,我看了快 1W 行后发现这样看也不是个办法。
于是我想着生成一个项目关系图来阅读代码,但是我这电脑只有windows, 网上介绍的大多都是 linux 上的,于是我只好取消这个念头。
后来,我想我看sphinx源码主要是先弄明白 sphinx 的工作原理,而工作原理应该一直都是保持不变的,于是我就去下载第一个版本。
第一个版本果然给力,只有 1W 行,于是我就开始高高兴兴的开始从 main 函数开始看源代码了。
看了不就发现 sphinx 用了很多数据结构,而且是自己等装好的,还是先把这些数据结构弄明白了比较好。
于是就有了这篇文章。
为了方便读者阅读,这些数据结构和算法就从简单的慢慢罗列出来。

大家可以看右面的目录,然后去看自己感兴趣的数据结构或算法对应的小节。
如果对那个小节有疑问,可以随时留言。

两个数的最值

sphinx 把最值封装成了一个宏。

#define Min(a,b)            ((a)<(b)?(a):(b))
#define Max(a,b)            ((a)>(b)?(a):(b))
登录后复制

交换两个数

为了这个通用,使用了基本的模板函数。
而交换则使用第三个缓存变量来实现这个功能。

template<typename T> 
inline void Swap(T & v1, T & v2) {
    T temp = v1;
    v1 = v2;
    v2 = temp;
}
登录后复制

向量vector

这个 vector 实现的功能很简单,基本的 insert,remove,get, set 等操作。
只是附加了一个排序功能。
具体实现方式这里就不多说了,这些都是一个类基本的操作,都很容易实现(需要谁需要这个vector的实现讲解,可以留言)。

template<typename T, int INITIAL_LIMIT = 1024> 
class CSphVector {
    public:
        CSphVector(); //初始化向量
        ~CSphVector(); //回收向量
        T & Add(); //增加一个元素,返回这个元素的引用
        void Add(const T & tValue);//增加一个元素
        T & Last();//得到最后一个元素
        void Remove(int iIndex);//删除指定位置的元素
        void Grow(int iNewLimit);//扩大缓存的大小,两倍两倍的增长
        void Resize(int iNewLength);// 原先设置数组的大小
        void Reset();// 重置数组
        int GetLength();//得到数组的长度
        void Sort(int iStart = 0, int iEnd = -1);// 正常排序
        void RSort(int iStart = 0, int iEnd = -1);// 逆序
        const T & operator [](int iIndex) const;// 读指定位置的值
        T & operator [](int iIndex);// 设置指定位置的值
    private:
        int m_iLength;//数组大小
        int m_iLimit;//数组缓存大小
        T * m_pData;//数组
};
登录后复制

string 类实现

这次 sphinx 自己实现的 string 类的功能就比较多了。
这里我罗列出一些比较简单的功能。

struct CSphString{
    CSphString (); //构造
    CSphString ( const char * sString );
    CSphString ( const CSphString & rhs ); 
    CSphString ( const char * sValue, int iLen );
    ~CSphString (); //析构
    const char * cstr () const; //得到字符串
    const char * scstr() const;//得到字符串,默认未空串
    inline bool operator == ( const char * t ) const; //判断两个串是否相等
    inline bool operator == ( const CSphString & t ) const;
    inline bool operator != ( const CSphString & t ) const;
    bool operator != ( const char * t ) const;
    const CSphString & operator = ( const CSphString & rhs );
    CSphString SubString ( int iStart, int iCount ) const;
    bool IsEmpty () const;
    CSphString & ToLower ();
    CSphString & ToUpper ();
    int Length () const;
    bool operator < ( const CSphString & b );
};
登录后复制

IsAlpha

判断一个字符是不是自己想要的字符。

inline int sphIsAlpha ( int c ){
    return ( c>='0' && c<='9' ) || ( c>='a' && c<='z' ) || ( c>='A' && c<='Z' ) || c=='-' || c=='_';
}
登录后复制

IsSpace

判断一个字符是不是空白

inline bool sphIsSpace ( int iCode ){
    return iCode==' ' || iCode=='\t' || iCode=='\n' || iCode=='\r';
}
登录后复制

字符串trim

字符串 trim 这个功能很常用,取出前边和后边的空白。

static char * ltrim ( char * sLine ){
    while ( *sLine && isspace(*sLine) )
        sLine++;
    return sLine;
}
static char * rtrim ( char * sLine ){
    char * p = sLine + strlen(sLine) - 1;
    while ( p>=sLine && isspace(*p) )
        p--;
    p[1] = '\0';
    return sLine;
}
static char * trim ( char * sLine ){
    return ltrim ( rtrim ( sLine ) );
}
登录后复制

切割字符串

切割字符串也是很常用的函数。
一般需要指定分隔符,默认分隔符是空白。
具体的实现代码这里就不展示了。

void sphSplit ( CSphVector<CSphString> & dOut, const char * sIn, const char * sBounds ){
    if ( !sIn )return;
    const char * p = (char*)sIn;
    while ( *p ){
        // skip until the first non-boundary character
        const char * sNext = p;
        while ( *p && !strchr ( sBounds, *p ) )p++;
        // add the token, skip the char
        dOut.Add().SetBinary ( sNext, p-sNext );
        p++;
    }
}
登录后复制

正则匹配

正则表达式大家都用过吧,这次 sphinx 实现了一个简单的正则表达式检验函数。
主要用于检验一个字符串是否符合指定的格式。

bool sphWildcardMatch ( const char * sString, const char * sPattern ){
    if ( !sString || !sPattern )return false;
    const char * s = sString;
    const char * p = sPattern;
    while ( *s ){
        switch ( *p ){
        case '\\':
            // escaped char, strict match the next one literally
            p++;
            if ( *s++!=*p++ )return false;
            break;
        case '?':
            // match any character
            s++;
            p++;
            break;
        case '%':
            // gotta match either 0 or 1 characters
            // well, lets look ahead and see what we need to match next
            p++;
            // just a shortcut, %* can be folded to just *
            if ( *p=='*' )break;
            // plain char after a hash? check the non-ambiguous cases
            if ( !sphIsWild(*p) ){
                if ( s[0]!=*p ){
                    // hash does not match 0 chars
                    // check if we can match 1 char, or it's a no-match
                    if ( s[1]!=*p )return false;
                    s++;
                    break;
                } else{
                    // hash matches 0 chars
                    // check if we could ambiguously match 1 char too, though
                    if ( s[1]!=*p )break;
                    // well, fall through to "scan both options" route
                }
            }
            // could not decide yet
            // so just recurse both options
            if ( sphWildcardMatch ( s, p ) )return true;
            if ( sphWildcardMatch ( s+1, p ) )return true;
            return false;
        case '*':
            // skip all the extra stars and question marks
            for ( p++; *p=='*' || *p=='?'; p++ )
                if ( *p=='?' ){
                    s++;
                    if ( !*s )return p[1]=='\0';
                }
                // short-circuit trailing star
                if ( !*p )return true;
                // so our wildcard expects a real character
                // scan forward for its occurrences and recurse
                for ( ;; ){
                    if ( !*s )return false;
                    if ( *s==*p && sphWildcardMatch ( s+1, p+1 ) )return true;
                    s++;
                }
                break;
        default:
            // default case, strict match
            if ( *s++!=*p++ )return false;
            break;
        }
    }
    // string done
    // pattern should be either done too, or a trailing star, or a trailing hash
    return p[0]=='\0'|| ( p[0]=='*' && p[1]=='\0' )|| ( p[0]=='%' && p[1]=='\0' );
}
登录后复制

日志系统

做项目的时候经常会遇到一些打日志的库,其实这个功能很简单。
基本原理都是使用和 printf 类似的方法: 变参。

static void StdoutLogger ( ESphLogLevel eLevel, const char * sFmt, va_list ap ){
    switch ( eLevel ){
        case SPH_LOG_FATAL: fprintf ( stdout, "FATAL: " ); break;
        case SPH_LOG_WARNING: fprintf ( stdout, "WARNING: " ); break;
        case SPH_LOG_INFO: fprintf ( stdout, "WARNING: " ); break;
        case SPH_LOG_DEBUG:  fprintf ( stdout, "DEBUG: " ); break;
    }
    vfprintf ( stdout, sFmt, ap );
    fprintf ( stdout, "\n" );
}
static SphLogger_fn g_pLogger = &StdoutLogger;
inline void Log ( ESphLogLevel eLevel, const char * sFmt, va_list ap ){
    if ( !g_pLogger ) return;
    ( *g_pLogger ) ( eLevel, sFmt, ap );
}
void sphWarning ( const char * sFmt, ... ){
    va_list ap;
    va_start ( ap, sFmt );
    Log ( SPH_LOG_WARNING, sFmt, ap );
    va_end ( ap );
}
void sphInfo ( const char * sFmt, ... );
void sphLogFatal ( const char * sFmt, ... );
void sphLogDebug ( const char * sFmt, ... );
登录后复制

变参的实现

上面的日志系统,最后还是调用了 vfprintf 函数, 没有让我们看到变参到底怎么实现的。
但是 sphinx 自己实现了一个 sphVSprintf 函数,和 vfprintf 类似,我不明白那个日志系统为什么不用自己的这个输出函数。
由于是对字符串分析,可以理解为一个简单的自动机。
遇到什么字符,期望下个字符是什么。
这里就不多说这个自动机了。

static int sphVSprintf ( char * pOutput, const char * sFmt, va_list ap ){
    enum eStates { SNORMAL, SPERCENT, SHAVEFILL, SINWIDTH, SINPREC };
    eStates state = SNORMAL;
    int iPrec = 0;
    int iWidth = 0;
    char cFill = ' ';
    const char * pBegin = pOutput;
    bool bHeadingSpace = true;
    char c;
    while ( ( c = *sFmt++ )!=0 ){
        // handle percent
        if ( c=='%' ){
            if ( state==SNORMAL ){
                state = SPERCENT;
                iPrec = 0;
                iWidth = 0;
                cFill = ' ';
            } else{
                state = SNORMAL;
                *pOutput++ = c;
            }
            continue;
        }
        // handle regular chars
        if ( state==SNORMAL ){
            *pOutput++ = c;
            continue;
        }
        // handle modifiers
        switch ( c ){
            case '0':
                if ( state==SPERCENT ){
                    cFill = '0';
                    state = SHAVEFILL;
                    break;
                }
            case '1': case '2': case '3':
            case '4': case '5': case '6':
            case '7': case '8': case '9':
                if ( state==SPERCENT || state==SHAVEFILL )
                {
                    state = SINWIDTH;
                    iWidth = c - '0';
                } else if ( state==SINWIDTH )
                    iWidth = iWidth * 10 + c - '0';
                else if ( state==SINPREC )
                    iPrec = iPrec * 10 + c - '0';
                break;
            case '-':
                if ( state==SPERCENT )
                    bHeadingSpace = false;
                else
                    state = SNORMAL; // FIXME? means that bad/unhandled syntax with dash will be just ignored
                break;
            case '.':
                state = SINPREC;
                iPrec = 0;
                break;
            case 's': // string
                {
                    const char * pValue = va_arg ( ap, const char * );
                    if ( !pValue )
                        pValue = "(null)";
                    int iValue = strlen ( pValue );
                    if ( iWidth && bHeadingSpace )
                        while ( iValue < iWidth-- )
                            *pOutput++ = ' ';
                    if ( iPrec && iPrec < iValue )
                        while ( iPrec-- )
                            *pOutput++ = *pValue++;
                    else
                        while ( *pValue )
                            *pOutput++ = *pValue++;
                    if ( iWidth && !bHeadingSpace )
                        while ( iValue < iWidth-- )
                            *pOutput++ = ' ';
                    state = SNORMAL;
                    break;
                }
            case 'p': // pointer
                {
                    void * pValue = va_arg ( ap, void * );
                    uint64_t uValue = uint64_t ( pValue );
                    UItoA ( &pOutput, uValue, 16, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            case 'x': // hex integer
            case 'd': // decimal integer
                {
                    DWORD uValue = va_arg ( ap, DWORD );
                    UItoA ( &pOutput, uValue, ( c=='x' ) ? 16 : 10, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            case 'l': // decimal int64
                {
                    int64_t iValue = va_arg ( ap, int64_t );
                    UItoA ( &pOutput, iValue, 10, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            default:
                state = SNORMAL;
                *pOutput++ = c;
        }
    }
    // final zero to EOL
    *pOutput++ = '\n';
    return pOutput - pBegin;
}
登录后复制

二进制1的个数

之前我曾写过一篇文章详解二进制数中1的个数,大家可以看看。

inline int sphBitCount ( DWORD n ){
    register DWORD tmp;
    tmp = n - ((n >> 1) & 033333333333) - ((n >> 2) & 011111111111);
    return ( (tmp + (tmp >> 3) ) & 030707070707) % 63;
}
登录后复制

整数二进制的位数

/// how much bits do we need for given int
inline int sphLog2 ( uint64_t uValue )
{
#if USE_WINDOWS
    DWORD uRes;
    if ( BitScanReverse ( &uRes, (DWORD)( uValue>>32 ) ) )
        return 33+uRes;
    BitScanReverse ( &uRes, DWORD(uValue) );
    return 1+uRes;
#elif __GNUC__ || __clang__
    if ( !uValue )
        return 0;
    return 64 - __builtin_clzl(uValue);
#else
    int iBits = 0;
    while ( uValue )
    {
        uValue >>= 1;
        iBits++;
    }
    return iBits;
#endif
}
登录后复制

模板 堆排序

这个堆排序写的太奇葩了,哎,不能说什么了。

/// generic accessor
template < typename T > struct SphAccessor_T{
    T & Key ( T * a ) const; //得到指针的值
    void CopyKey ( T * pMed, T * pVal ) const;
    void Swap ( T * a, T * b ) const;
    T * Add ( T * p, int i ) const;//第i个位置的指针
    int Sub ( T * b, T * a ) const;//指针偏移量
};
/// heap sort helper
// 自底向上进行堆排序
//pData 带排序数组
//iStart 开始位置
//iEnd 结束位置
//COMP 比较函数
//ACC 访问指针的类
template < typename T, typename U, typename V >
void sphSiftDown ( T * pData, int iStart, int iEnd, U COMP, V ACC ){
    for ( ;; ){
        int iChild = iStart*2+1;
        if ( iChild>iEnd )return;
        int iChild1 = iChild+1;
        if ( iChild1<=iEnd && COMP.IsLess ( ACC.Key ( ACC.Add ( pData, iChild ) ), ACC.Key ( ACC.Add ( pData, iChild1 ) ) ) )
            iChild = iChild1;
        if ( COMP.IsLess ( ACC.Key ( ACC.Add ( pData, iChild ) ), ACC.Key ( ACC.Add ( pData, iStart ) ) ) )
            return;
        ACC.Swap ( ACC.Add ( pData, iChild ), ACC.Add ( pData, iStart ) );
        iStart = iChild;
    }
}
/// heap sort
//奇葩的是先求出最大堆,然后反转,还边反转边维护堆。  
//最终是个最小堆。  
template < typename T, typename U, typename V >
void sphHeapSort ( T * pData, int iCount, U COMP, V ACC ){
    if ( !pData || iCount<=1 )
        return;
    // build a max-heap, so that the largest element is root
    for ( int iStart=( iCount-2 )>>1; iStart>=0; iStart-- )
        sphSiftDown ( pData, iStart, iCount-1, COMP, ACC );
    // now keep popping root into the end of array
    for ( int iEnd=iCount-1; iEnd>0; ){
        ACC.Swap ( pData, ACC.Add ( pData, iEnd ) );
        sphSiftDown ( pData, 0, --iEnd, COMP, ACC );
    }
}
登录后复制

快速排序

sphinx 的快速排序也很奇葩。
一般的快速排序是递归,sphinx使用栈模拟递归。
这样栈的大小大概就是 log(n) 了。
而且栈为空的时候共有 log(n) 次。
当数据特殊的时候,快排会退化为 n^2 的复杂度,这个时候,栈为空的几率变大了。
于是 sphinx 加了个修复, 当栈为空的次数大于 2.5 * log(n), 就是用上面那个奇葩的堆排序。
不过这个优化作用不大。

另外这个快排加了一个小优化:当需要排序的数量小于32时,使用插入排序。

template < typename T, typename U, typename V >
void sphSort ( T * pData, int iCount, U COMP, V ACC ){
    if ( iCount<2 )return;
    typedef T * P;
    // st0 and st1 are stacks with left and right bounds of array-part.
    // They allow us to avoid recursion in quicksort implementation.
    P st0[32], st1[32], a, b, i, j;
    typename V::MEDIAN_TYPE x;
    int k;
    const int SMALL_THRESH = 32;
    int iDepthLimit = sphLog2 ( iCount );
    iDepthLimit = ( ( iDepthLimit<<2 ) + iDepthLimit ) >> 1; // x2.5
    k = 1;
    st0[0] = pData;
    st1[0] = ACC.Add ( pData, iCount-1 );
    while ( k ){
        k--;
        i = a = st0[k];
        j = b = st1[k];
        // if quicksort fails on this data; switch to heapsort
        if ( !k ){
            if ( !--iDepthLimit ){
                sphHeapSort ( a, ACC.Sub ( b, a )+1, COMP, ACC );
                return;
            }
        }
        // for tiny arrays, switch to insertion sort
        int iLen = ACC.Sub ( b, a );
        if ( iLen<=SMALL_THRESH ){
            for ( i=ACC.Add ( a, 1 ); i<=b; i=ACC.Add ( i, 1 ) ){
                for ( j=i; j>a; ){
                    P j1 = ACC.Add ( j, -1 );
                    if ( COMP.IsLess ( ACC.Key(j1), ACC.Key(j) ) )
                        break;
                    ACC.Swap ( j, j1 );
                    j = j1;
                }
            }
            continue;
        }
        // ATTENTION! This copy can lead to memleaks if your CopyKey
        // copies something which is not freed by objects destructor.
        ACC.CopyKey ( &x, ACC.Add ( a, iLen/2 ) );
        while ( a<b ){
            while ( i<=j ){
                while ( COMP.IsLess ( ACC.Key(i), x ) )
                    i = ACC.Add ( i, 1 );
                while ( COMP.IsLess ( x, ACC.Key(j) ) )
                    j = ACC.Add ( j, -1 );
                if ( i<=j ){
                    ACC.Swap ( i, j );
                    i = ACC.Add ( i, 1 );
                    j = ACC.Add ( j, -1 );
                }
            }
            // Not so obvious optimization. We put smaller array-parts
            // to the top of stack. That reduces peak stack size.
            if ( ACC.Sub ( j, a )>=ACC.Sub ( b, i ) ){
                if ( a<j ) { st0[k] = a; st1[k] = j; k++; }
                a = i;
            } else{
                if ( i<b ) { st0[k] = i; st1[k] = b; k++; }
                b = j;
            }
        }
    }
}
登录后复制

二分查找

sphinx 的这个二分查找没有问题,但是和我们平常的二分查找还是有点不同的。
它的左右边界都是开放的,即(a,b).

/// generic binary search
template < typename T, typename U, typename PRED >
T * sphBinarySearch ( T * pStart, T * pEnd, const PRED & tPred, U tRef ){
    if ( tPred(*pStart)==tRef )return pStart;
    if ( tPred(*pEnd)==tRef )return pEnd;
    while ( pEnd-pStart>1 ){
        if ( tRef<tPred(*pStart) || tPred(*pEnd)<tRef )break;
        T * pMid = pStart + (pEnd-pStart)/2;
        if ( tRef==tPred(*pMid) )return pMid;
        if ( tRef<tPred(*pMid) )pEnd = pMid;
        else pStart = pMid;
    }
    return NULL;
}
登录后复制

数组去重

要想去重,首先需要排序,所以这里假设容器是已经排完序的了。
然后假设 iDst 的上一个就是目前比较的值。
如果和上一个相等,则iSrc后移。
如果和上一个不相等,则找到一个新的值,将iDst位置置为新值,个数加1即可。

/// generic uniq
template < typename T, typename T_COUNTER >
T_COUNTER sphUniq ( T * pData, T_COUNTER iCount ){
    if ( !iCount )return 0;
    T_COUNTER iSrc = 1, iDst = 1;
    while ( iSrc<iCount ){
        if ( pData[iDst-1]==pData[iSrc] )iSrc++;
        else pData[iDst++] = pData[iSrc++];
    }
    return iDst;
}
登录后复制
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用C++实现机器学习算法:常见挑战及解决方案 使用C++实现机器学习算法:常见挑战及解决方案 Jun 03, 2024 pm 01:25 PM

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。

探究C++sort函数的底层原理与算法选择 探究C++sort函数的底层原理与算法选择 Apr 02, 2024 pm 05:36 PM

C++sort函数底层采用归并排序,其复杂度为O(nlogn),并提供不同的排序算法选择,包括快速排序、堆排序和稳定排序。

使用Java函数比较进行复杂数据结构比较 使用Java函数比较进行复杂数据结构比较 Apr 19, 2024 pm 10:24 PM

Java中比较复杂数据结构时,使用Comparator提供灵活的比较机制。具体步骤包括:定义比较器类,重写compare方法定义比较逻辑。创建比较器实例。使用Collections.sort方法,传入集合和比较器实例。

改进的检测算法:用于高分辨率光学遥感图像目标检测 改进的检测算法:用于高分辨率光学遥感图像目标检测 Jun 06, 2024 pm 12:33 PM

01前景概要目前,难以在检测效率和检测结果之间取得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法,利用多层特征金字塔、多检测头策略和混合注意力模块来提高光学遥感图像的目标检测网络的效果。根据SIMD数据集,新算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在检测结果和速度之间实现了更好的平衡。02背景&动机随着远感技术的快速发展,高分辨率光学远感图像已被用于描述地球表面的许多物体,包括飞机、汽车、建筑物等。目标检测在远感图像的解释中

算法在 58 画像平台建设中的应用 算法在 58 画像平台建设中的应用 May 09, 2024 am 09:01 AM

一、58画像平台建设背景首先和大家分享下58画像平台的建设背景。1.传统的画像平台传统的思路已经不够,建设用户画像平台依赖数据仓库建模能力,整合多业务线数据,构建准确的用户画像;还需要数据挖掘,理解用户行为、兴趣和需求,提供算法侧的能力;最后,还需要具备数据平台能力,高效存储、查询和共享用户画像数据,提供画像服务。业务自建画像平台和中台类型画像平台主要区别在于,业务自建画像平台服务单条业务线,按需定制;中台平台服务多条业务线,建模复杂,提供更为通用的能力。2.58中台画像建设的背景58的用户画像

Java数据结构与算法:深入详解 Java数据结构与算法:深入详解 May 08, 2024 pm 10:12 PM

数据结构和算法是Java开发的基础,本文深入探讨Java中的关键数据结构(如数组、链表、树等)和算法(如排序、搜索、图算法等)。这些结构通过实战案例进行说明,包括使用数组存储分数、使用链表管理购物清单、使用栈实现递归、使用队列同步线程以及使用树和哈希表进行快速搜索和身份验证等。理解这些概念可以编写高效且可维护的Java代码。

开创性CVM算法破解40多年计数难题!计算机科学家掷硬币算出「哈姆雷特」独特单词 开创性CVM算法破解40多年计数难题!计算机科学家掷硬币算出「哈姆雷特」独特单词 Jun 07, 2024 pm 03:44 PM

计数,听起来简单,却在实际执行很有难度。想象一下,你被送到一片原始热带雨林,进行野生动物普查。每当看到一只动物,拍一张照片。数码相机只是记录追踪动物总数,但你对独特动物的数量感兴趣,却没有统计。那么,若想获取这一独特动物数量,最好的方法是什么?这时,你一定会说,从现在开始计数,最后再从照片中将每一种新物种与名单进行比较。然而,这种常见的计数方法,有时并不适用于高达数十亿条目的信息量。来自印度统计研究所、UNL、新加坡国立大学的计算机科学家提出了一种新算法——CVM。它可以近似计算长列表中,不同条

PHP数据结构:AVL树的平衡之道,维持高效有序的数据结构 PHP数据结构:AVL树的平衡之道,维持高效有序的数据结构 Jun 03, 2024 am 09:58 AM

AVL树是一种平衡二叉搜索树,确保快速高效的数据操作。为了实现平衡,它执行左旋和右旋操作,调整违反平衡的子树。AVL树利用高度平衡,确保树的高度相对于节点数始终较小,从而实现对数时间复杂度(O(logn))的查找操作,即使在大型数据集上也能保持数据结构的效率。

See all articles