sphinx 源码阅读之数据结构与算法-MySQL 튜토리얼-php.cn

源码在 sphinx 官网上就可以下载到.
起初我下载的是最新版本，结果由于代码大约有 10W 行，我看了快 1W 行后发现这样看也不是个办法。
于是我想着生成一个项目关系图来阅读代码，但是我这电脑只有windows, 网上介绍的大多都是 linux 上的，于是我只好取消这个念头。
后来，我想我看sphinx源码主要是先弄明白 sphinx 的工作原理，而工作原理应该一直都是保持不变的，于是我就去下载第一个版本。
第一个版本果然给力，只有 1W 行，于是我就开始高高兴兴的开始从 main 函数开始看源代码了。
看了不就发现 sphinx 用了很多数据结构，而且是自己等装好的，还是先把这些数据结构弄明白了比较好。
于是就有了这篇文章。
为了方便读者阅读，这些数据结构和算法就从简单的慢慢罗列出来。

大家可以看右面的目录，然后去看自己感兴趣的数据结构或算法对应的小节。
如果对那个小节有疑问，可以随时留言。

两个数的最值

sphinx 把最值封装成了一个宏。

#define Min(a,b)            ((a)<(b)?(a):(b))
#define Max(a,b)            ((a)>(b)?(a):(b))

로그인 후 복사

交换两个数

为了这个通用，使用了基本的模板函数。
而交换则使用第三个缓存变量来实现这个功能。

template<typename T> 
inline void Swap(T & v1, T & v2) {
    T temp = v1;
    v1 = v2;
    v2 = temp;
}

로그인 후 복사

向量vector

这个 vector 实现的功能很简单，基本的 insert，remove，get, set 等操作。
只是附加了一个排序功能。
具体实现方式这里就不多说了，这些都是一个类基本的操作，都很容易实现(需要谁需要这个vector的实现讲解，可以留言)。

template<typename T, int INITIAL_LIMIT = 1024> 
class CSphVector {
    public:
        CSphVector(); //初始化向量
        ~CSphVector(); //回收向量
        T & Add(); //增加一个元素，返回这个元素的引用
        void Add(const T & tValue);//增加一个元素
        T & Last();//得到最后一个元素
        void Remove(int iIndex);//删除指定位置的元素
        void Grow(int iNewLimit);//扩大缓存的大小，两倍两倍的增长
        void Resize(int iNewLength);// 原先设置数组的大小
        void Reset();// 重置数组
        int GetLength();//得到数组的长度
        void Sort(int iStart = 0, int iEnd = -1);// 正常排序
        void RSort(int iStart = 0, int iEnd = -1);// 逆序
        const T & operator [](int iIndex) const;// 读指定位置的值
        T & operator [](int iIndex);// 设置指定位置的值
    private:
        int m_iLength;//数组大小
        int m_iLimit;//数组缓存大小
        T * m_pData;//数组
};

로그인 후 복사

string 类实现

这次 sphinx 自己实现的 string 类的功能就比较多了。
这里我罗列出一些比较简单的功能。

struct CSphString{
    CSphString (); //构造
    CSphString ( const char * sString );
    CSphString ( const CSphString & rhs ); 
    CSphString ( const char * sValue, int iLen );
    ~CSphString (); //析构
    const char * cstr () const; //得到字符串
    const char * scstr() const;//得到字符串，默认未空串
    inline bool operator == ( const char * t ) const; //判断两个串是否相等
    inline bool operator == ( const CSphString & t ) const;
    inline bool operator != ( const CSphString & t ) const;
    bool operator != ( const char * t ) const;
    const CSphString & operator = ( const CSphString & rhs );
    CSphString SubString ( int iStart, int iCount ) const;
    bool IsEmpty () const;
    CSphString & ToLower ();
    CSphString & ToUpper ();
    int Length () const;
    bool operator < ( const CSphString & b );
};

로그인 후 복사

IsAlpha

判断一个字符是不是自己想要的字符。

inline int sphIsAlpha ( int c ){
    return ( c>='0' && c<='9' ) || ( c>='a' && c<='z' ) || ( c>='A' && c<='Z' ) || c=='-' || c=='_';
}

로그인 후 복사

IsSpace

判断一个字符是不是空白

inline bool sphIsSpace ( int iCode ){
    return iCode==' ' || iCode=='\t' || iCode=='\n' || iCode=='\r';
}

로그인 후 복사

字符串trim

字符串 trim 这个功能很常用，取出前边和后边的空白。

static char * ltrim ( char * sLine ){
    while ( *sLine && isspace(*sLine) )
        sLine++;
    return sLine;
}
static char * rtrim ( char * sLine ){
    char * p = sLine + strlen(sLine) - 1;
    while ( p>=sLine && isspace(*p) )
        p--;
    p[1] = '\0';
    return sLine;
}
static char * trim ( char * sLine ){
    return ltrim ( rtrim ( sLine ) );
}

로그인 후 복사

切割字符串

切割字符串也是很常用的函数。
一般需要指定分隔符，默认分隔符是空白。
具体的实现代码这里就不展示了。

void sphSplit ( CSphVector<CSphString> & dOut, const char * sIn, const char * sBounds ){
    if ( !sIn )return;
    const char * p = (char*)sIn;
    while ( *p ){
        // skip until the first non-boundary character
        const char * sNext = p;
        while ( *p && !strchr ( sBounds, *p ) )p++;
        // add the token, skip the char
        dOut.Add().SetBinary ( sNext, p-sNext );
        p++;
    }
}

로그인 후 복사

正则匹配

正则表达式大家都用过吧，这次 sphinx 实现了一个简单的正则表达式检验函数。
主要用于检验一个字符串是否符合指定的格式。

bool sphWildcardMatch ( const char * sString, const char * sPattern ){
    if ( !sString || !sPattern )return false;
    const char * s = sString;
    const char * p = sPattern;
    while ( *s ){
        switch ( *p ){
        case '\\':
            // escaped char, strict match the next one literally
            p++;
            if ( *s++!=*p++ )return false;
            break;
        case '?':
            // match any character
            s++;
            p++;
            break;
        case '%':
            // gotta match either 0 or 1 characters
            // well, lets look ahead and see what we need to match next
            p++;
            // just a shortcut, %* can be folded to just *
            if ( *p=='*' )break;
            // plain char after a hash? check the non-ambiguous cases
            if ( !sphIsWild(*p) ){
                if ( s[0]!=*p ){
                    // hash does not match 0 chars
                    // check if we can match 1 char, or it's a no-match
                    if ( s[1]!=*p )return false;
                    s++;
                    break;
                } else{
                    // hash matches 0 chars
                    // check if we could ambiguously match 1 char too, though
                    if ( s[1]!=*p )break;
                    // well, fall through to "scan both options" route
                }
            }
            // could not decide yet
            // so just recurse both options
            if ( sphWildcardMatch ( s, p ) )return true;
            if ( sphWildcardMatch ( s+1, p ) )return true;
            return false;
        case '*':
            // skip all the extra stars and question marks
            for ( p++; *p=='*' || *p=='?'; p++ )
                if ( *p=='?' ){
                    s++;
                    if ( !*s )return p[1]=='\0';
                }
                // short-circuit trailing star
                if ( !*p )return true;
                // so our wildcard expects a real character
                // scan forward for its occurrences and recurse
                for ( ;; ){
                    if ( !*s )return false;
                    if ( *s==*p && sphWildcardMatch ( s+1, p+1 ) )return true;
                    s++;
                }
                break;
        default:
            // default case, strict match
            if ( *s++!=*p++ )return false;
            break;
        }
    }
    // string done
    // pattern should be either done too, or a trailing star, or a trailing hash
    return p[0]=='\0'|| ( p[0]=='*' && p[1]=='\0' )|| ( p[0]=='%' && p[1]=='\0' );
}

로그인 후 복사

日志系统

做项目的时候经常会遇到一些打日志的库，其实这个功能很简单。
基本原理都是使用和 printf 类似的方法: 变参。

static void StdoutLogger ( ESphLogLevel eLevel, const char * sFmt, va_list ap ){
    switch ( eLevel ){
        case SPH_LOG_FATAL: fprintf ( stdout, "FATAL: " ); break;
        case SPH_LOG_WARNING: fprintf ( stdout, "WARNING: " ); break;
        case SPH_LOG_INFO: fprintf ( stdout, "WARNING: " ); break;
        case SPH_LOG_DEBUG:  fprintf ( stdout, "DEBUG: " ); break;
    }
    vfprintf ( stdout, sFmt, ap );
    fprintf ( stdout, "\n" );
}
static SphLogger_fn g_pLogger = &StdoutLogger;
inline void Log ( ESphLogLevel eLevel, const char * sFmt, va_list ap ){
    if ( !g_pLogger ) return;
    ( *g_pLogger ) ( eLevel, sFmt, ap );
}
void sphWarning ( const char * sFmt, ... ){
    va_list ap;
    va_start ( ap, sFmt );
    Log ( SPH_LOG_WARNING, sFmt, ap );
    va_end ( ap );
}
void sphInfo ( const char * sFmt, ... );
void sphLogFatal ( const char * sFmt, ... );
void sphLogDebug ( const char * sFmt, ... );

로그인 후 복사

变参的实现

上面的日志系统，最后还是调用了 vfprintf 函数，没有让我们看到变参到底怎么实现的。
但是 sphinx 自己实现了一个 sphVSprintf 函数，和 vfprintf 类似，我不明白那个日志系统为什么不用自己的这个输出函数。
由于是对字符串分析，可以理解为一个简单的自动机。
遇到什么字符，期望下个字符是什么。
这里就不多说这个自动机了。

static int sphVSprintf ( char * pOutput, const char * sFmt, va_list ap ){
    enum eStates { SNORMAL, SPERCENT, SHAVEFILL, SINWIDTH, SINPREC };
    eStates state = SNORMAL;
    int iPrec = 0;
    int iWidth = 0;
    char cFill = ' ';
    const char * pBegin = pOutput;
    bool bHeadingSpace = true;
    char c;
    while ( ( c = *sFmt++ )!=0 ){
        // handle percent
        if ( c=='%' ){
            if ( state==SNORMAL ){
                state = SPERCENT;
                iPrec = 0;
                iWidth = 0;
                cFill = ' ';
            } else{
                state = SNORMAL;
                *pOutput++ = c;
            }
            continue;
        }
        // handle regular chars
        if ( state==SNORMAL ){
            *pOutput++ = c;
            continue;
        }
        // handle modifiers
        switch ( c ){
            case '0':
                if ( state==SPERCENT ){
                    cFill = '0';
                    state = SHAVEFILL;
                    break;
                }
            case '1': case '2': case '3':
            case '4': case '5': case '6':
            case '7': case '8': case '9':
                if ( state==SPERCENT || state==SHAVEFILL )
                {
                    state = SINWIDTH;
                    iWidth = c - '0';
                } else if ( state==SINWIDTH )
                    iWidth = iWidth * 10 + c - '0';
                else if ( state==SINPREC )
                    iPrec = iPrec * 10 + c - '0';
                break;
            case '-':
                if ( state==SPERCENT )
                    bHeadingSpace = false;
                else
                    state = SNORMAL; // FIXME? means that bad/unhandled syntax with dash will be just ignored
                break;
            case '.':
                state = SINPREC;
                iPrec = 0;
                break;
            case 's': // string
                {
                    const char * pValue = va_arg ( ap, const char * );
                    if ( !pValue )
                        pValue = "(null)";
                    int iValue = strlen ( pValue );
                    if ( iWidth && bHeadingSpace )
                        while ( iValue < iWidth-- )
                            *pOutput++ = ' ';
                    if ( iPrec && iPrec < iValue )
                        while ( iPrec-- )
                            *pOutput++ = *pValue++;
                    else
                        while ( *pValue )
                            *pOutput++ = *pValue++;
                    if ( iWidth && !bHeadingSpace )
                        while ( iValue < iWidth-- )
                            *pOutput++ = ' ';
                    state = SNORMAL;
                    break;
                }
            case 'p': // pointer
                {
                    void * pValue = va_arg ( ap, void * );
                    uint64_t uValue = uint64_t ( pValue );
                    UItoA ( &pOutput, uValue, 16, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            case 'x': // hex integer
            case 'd': // decimal integer
                {
                    DWORD uValue = va_arg ( ap, DWORD );
                    UItoA ( &pOutput, uValue, ( c=='x' ) ? 16 : 10, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            case 'l': // decimal int64
                {
                    int64_t iValue = va_arg ( ap, int64_t );
                    UItoA ( &pOutput, iValue, 10, iWidth, iPrec, cFill );
                    state = SNORMAL;
                    break;
                }
            default:
                state = SNORMAL;
                *pOutput++ = c;
        }
    }
    // final zero to EOL
    *pOutput++ = '\n';
    return pOutput - pBegin;
}

로그인 후 복사

二进制1的个数

之前我曾写过一篇文章详解二进制数中1的个数,大家可以看看。

inline int sphBitCount ( DWORD n ){
    register DWORD tmp;
    tmp = n - ((n >> 1) & 033333333333) - ((n >> 2) & 011111111111);
    return ( (tmp + (tmp >> 3) ) & 030707070707) % 63;
}

로그인 후 복사

整数二进制的位数

/// how much bits do we need for given int
inline int sphLog2 ( uint64_t uValue )
{
#if USE_WINDOWS
    DWORD uRes;
    if ( BitScanReverse ( &uRes, (DWORD)( uValue>>32 ) ) )
        return 33+uRes;
    BitScanReverse ( &uRes, DWORD(uValue) );
    return 1+uRes;
#elif __GNUC__ || __clang__
    if ( !uValue )
        return 0;
    return 64 - __builtin_clzl(uValue);
#else
    int iBits = 0;
    while ( uValue )
    {
        uValue >>= 1;
        iBits++;
    }
    return iBits;
#endif
}

로그인 후 복사

模板堆排序

这个堆排序写的太奇葩了，哎，不能说什么了。

/// generic accessor
template < typename T > struct SphAccessor_T{
    T & Key ( T * a ) const; //得到指针的值
    void CopyKey ( T * pMed, T * pVal ) const;
    void Swap ( T * a, T * b ) const;
    T * Add ( T * p, int i ) const;//第i个位置的指针
    int Sub ( T * b, T * a ) const;//指针偏移量
};
/// heap sort helper
// 自底向上进行堆排序
//pData 带排序数组
//iStart 开始位置
//iEnd 结束位置
//COMP 比较函数
//ACC 访问指针的类
template < typename T, typename U, typename V >
void sphSiftDown ( T * pData, int iStart, int iEnd, U COMP, V ACC ){
    for ( ;; ){
        int iChild = iStart*2+1;
        if ( iChild>iEnd )return;
        int iChild1 = iChild+1;
        if ( iChild1<=iEnd && COMP.IsLess ( ACC.Key ( ACC.Add ( pData, iChild ) ), ACC.Key ( ACC.Add ( pData, iChild1 ) ) ) )
            iChild = iChild1;
        if ( COMP.IsLess ( ACC.Key ( ACC.Add ( pData, iChild ) ), ACC.Key ( ACC.Add ( pData, iStart ) ) ) )
            return;
        ACC.Swap ( ACC.Add ( pData, iChild ), ACC.Add ( pData, iStart ) );
        iStart = iChild;
    }
}
/// heap sort
//奇葩的是先求出最大堆，然后反转，还边反转边维护堆。  
//最终是个最小堆。  
template < typename T, typename U, typename V >
void sphHeapSort ( T * pData, int iCount, U COMP, V ACC ){
    if ( !pData || iCount<=1 )
        return;
    // build a max-heap, so that the largest element is root
    for ( int iStart=( iCount-2 )>>1; iStart>=0; iStart-- )
        sphSiftDown ( pData, iStart, iCount-1, COMP, ACC );
    // now keep popping root into the end of array
    for ( int iEnd=iCount-1; iEnd>0; ){
        ACC.Swap ( pData, ACC.Add ( pData, iEnd ) );
        sphSiftDown ( pData, 0, --iEnd, COMP, ACC );
    }
}

로그인 후 복사

快速排序

sphinx 的快速排序也很奇葩。
一般的快速排序是递归，sphinx使用栈模拟递归。
这样栈的大小大概就是 log(n) 了。
而且栈为空的时候共有 log(n) 次。
当数据特殊的时候，快排会退化为 n^2 的复杂度，这个时候，栈为空的几率变大了。
于是 sphinx 加了个修复，当栈为空的次数大于 2.5 * log(n)，就是用上面那个奇葩的堆排序。
不过这个优化作用不大。

另外这个快排加了一个小优化：当需要排序的数量小于32时，使用插入排序。

template < typename T, typename U, typename V >
void sphSort ( T * pData, int iCount, U COMP, V ACC ){
    if ( iCount<2 )return;
    typedef T * P;
    // st0 and st1 are stacks with left and right bounds of array-part.
    // They allow us to avoid recursion in quicksort implementation.
    P st0[32], st1[32], a, b, i, j;
    typename V::MEDIAN_TYPE x;
    int k;
    const int SMALL_THRESH = 32;
    int iDepthLimit = sphLog2 ( iCount );
    iDepthLimit = ( ( iDepthLimit<<2 ) + iDepthLimit ) >> 1; // x2.5
    k = 1;
    st0[0] = pData;
    st1[0] = ACC.Add ( pData, iCount-1 );
    while ( k ){
        k--;
        i = a = st0[k];
        j = b = st1[k];
        // if quicksort fails on this data; switch to heapsort
        if ( !k ){
            if ( !--iDepthLimit ){
                sphHeapSort ( a, ACC.Sub ( b, a )+1, COMP, ACC );
                return;
            }
        }
        // for tiny arrays, switch to insertion sort
        int iLen = ACC.Sub ( b, a );
        if ( iLen<=SMALL_THRESH ){
            for ( i=ACC.Add ( a, 1 ); i<=b; i=ACC.Add ( i, 1 ) ){
                for ( j=i; j>a; ){
                    P j1 = ACC.Add ( j, -1 );
                    if ( COMP.IsLess ( ACC.Key(j1), ACC.Key(j) ) )
                        break;
                    ACC.Swap ( j, j1 );
                    j = j1;
                }
            }
            continue;
        }
        // ATTENTION! This copy can lead to memleaks if your CopyKey
        // copies something which is not freed by objects destructor.
        ACC.CopyKey ( &x, ACC.Add ( a, iLen/2 ) );
        while ( a<b ){
            while ( i<=j ){
                while ( COMP.IsLess ( ACC.Key(i), x ) )
                    i = ACC.Add ( i, 1 );
                while ( COMP.IsLess ( x, ACC.Key(j) ) )
                    j = ACC.Add ( j, -1 );
                if ( i<=j ){
                    ACC.Swap ( i, j );
                    i = ACC.Add ( i, 1 );
                    j = ACC.Add ( j, -1 );
                }
            }
            // Not so obvious optimization. We put smaller array-parts
            // to the top of stack. That reduces peak stack size.
            if ( ACC.Sub ( j, a )>=ACC.Sub ( b, i ) ){
                if ( a<j ) { st0[k] = a; st1[k] = j; k++; }
                a = i;
            } else{
                if ( i<b ) { st0[k] = i; st1[k] = b; k++; }
                b = j;
            }
        }
    }
}

로그인 후 복사

二分查找

sphinx 的这个二分查找没有问题，但是和我们平常的二分查找还是有点不同的。
它的左右边界都是开放的，即(a,b).

/// generic binary search
template < typename T, typename U, typename PRED >
T * sphBinarySearch ( T * pStart, T * pEnd, const PRED & tPred, U tRef ){
    if ( tPred(*pStart)==tRef )return pStart;
    if ( tPred(*pEnd)==tRef )return pEnd;
    while ( pEnd-pStart>1 ){
        if ( tRef<tPred(*pStart) || tPred(*pEnd)<tRef )break;
        T * pMid = pStart + (pEnd-pStart)/2;
        if ( tRef==tPred(*pMid) )return pMid;
        if ( tRef<tPred(*pMid) )pEnd = pMid;
        else pStart = pMid;
    }
    return NULL;
}

로그인 후 복사

数组去重

要想去重，首先需要排序，所以这里假设容器是已经排完序的了。
然后假设 iDst 的上一个就是目前比较的值。
如果和上一个相等，则iSrc后移。
如果和上一个不相等，则找到一个新的值，将iDst位置置为新值，个数加1即可。

/// generic uniq
template < typename T, typename T_COUNTER >
T_COUNTER sphUniq ( T * pData, T_COUNTER iCount ){
    if ( !iCount )return 0;
    T_COUNTER iSrc = 1, iDst = 1;
    while ( iSrc<iCount ){
        if ( pData[iDst-1]==pData[iSrc] )iSrc++;
        else pData[iDst++] = pData[iSrc++];
    }
    return iDst;
}

로그인 후 복사

本文出自：http://tiankonguse.github.io, 原文地址：http://github.tiankonguse.com//blog/2014/11/24/sphinx-struct-alg/, 感谢原作者分享。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7414

Cakephp 튜토리얼

1359

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 Jun 03, 2024 pm 01:25 PM

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

Java 함수 비교를 사용하여 복잡한 데이터 구조 비교 Apr 19, 2024 pm 10:24 PM

Java에서 복잡한 데이터 구조를 사용할 때 Comparator는 유연한 비교 메커니즘을 제공하는 데 사용됩니다. 구체적인 단계에는 비교기 클래스 정의, 비교 논리를 정의하기 위한 비교 메서드 재작성 등이 포함됩니다. 비교기 인스턴스를 만듭니다. Collections.sort 메서드를 사용하여 컬렉션 및 비교기 인스턴스를 전달합니다.

탐지 알고리즘 개선: 고해상도 광학 원격탐사 이미지에서 표적 탐지용 Jun 06, 2024 pm 12:33 PM

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

58 초상화 플랫폼 구축에 알고리즘 적용 May 09, 2024 am 09:01 AM

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

Java 데이터 구조 및 알고리즘: 심층 설명 May 08, 2024 pm 10:12 PM

데이터 구조와 알고리즘은 Java 개발의 기초입니다. 이 기사에서는 Java의 주요 데이터 구조(예: 배열, 연결 목록, 트리 등)와 알고리즘(예: 정렬, 검색, 그래프 알고리즘 등)을 자세히 살펴봅니다. 이러한 구조는 배열을 사용하여 점수를 저장하고, 연결된 목록을 사용하여 쇼핑 목록을 관리하고, 스택을 사용하여 재귀를 구현하고, 대기열을 사용하여 스레드를 동기화하고, 트리 및 해시 테이블을 사용하여 빠른 검색 및 인증을 저장하는 등 실제 사례를 통해 설명됩니다. 이러한 개념을 이해하면 효율적이고 유지 관리가 가능한 Java 코드를 작성할 수 있습니다.

PHP 데이터 구조: AVL 트리의 균형, 효율적이고 질서 있는 데이터 구조 유지 Jun 03, 2024 am 09:58 AM

AVL 트리는 빠르고 효율적인 데이터 작업을 보장하는 균형 잡힌 이진 검색 트리입니다. 균형을 이루기 위해 좌회전 및 우회전 작업을 수행하고 균형을 위반하는 하위 트리를 조정합니다. AVL 트리는 높이 균형을 활용하여 노드 수에 비해 트리 높이가 항상 작게 되도록 함으로써 로그 시간 복잡도(O(logn)) 검색 작업을 달성하고 대규모 데이터 세트에서도 데이터 구조의 효율성을 유지합니다.

획기적인 CVM 알고리즘으로 40년 이상의 계산 문제를 해결합니다! 컴퓨터 과학자가 동전을 던져 '햄릿'이라는 고유한 단어를 알아냈습니다. Jun 07, 2024 pm 03:44 PM

계산하는 것은 간단해 보이지만 실제로는 매우 어렵습니다. 야생동물 인구조사를 실시하기 위해 깨끗한 열대우림으로 이동했다고 상상해 보세요. 동물을 볼 때마다 사진을 찍어보세요. 디지털 카메라는 추적된 동물의 총 수만 기록하는데, 고유한 동물의 수에 관심이 있지만 통계가 없습니다. 그렇다면 이 독특한 동물 집단에 접근하는 가장 좋은 방법은 무엇입니까? 이 시점에서 지금부터 세기 시작하고 마지막으로 사진의 새로운 종을 목록과 비교해야 합니다. 그러나 이 일반적인 계산 방법은 최대 수십억 개의 항목에 달하는 정보에 적합하지 않은 경우가 있습니다. 인도 통계 연구소, UNL 및 싱가포르 국립 대학교의 컴퓨터 과학자들이 새로운 알고리즘인 CVM을 제안했습니다. 긴 목록에 있는 다양한 항목의 계산을 대략적으로 계산할 수 있습니다.

글로벌 그래프 강화 기반 뉴스 추천 알고리즘 Apr 08, 2024 pm 09:16 PM

작성자 | 검토자: Wang Hao | Chonglou News 앱은 사람들이 일상 생활에서 정보 소스를 얻는 중요한 방법입니다. 2010년경 해외의 인기 뉴스 앱에는 Zite, Flipboard 등이 있었고, 국내 인기 뉴스 앱은 4대 포털이 주를 이루었습니다. 터우탸오(Toutiao)로 대표되는 신시대 뉴스 추천 상품의 인기로 뉴스 앱은 새로운 시대에 접어들었습니다. 기술 기업의 경우 어느 기업이든 정교한 뉴스 추천 알고리즘 기술을 숙지하면 기본적으로 기술 수준에서 주도권과 발언권을 갖게 됩니다. 오늘은 RecSys2023 최우수 장편 논문 후보 추천 논문인 GoingBeyondLocal:GlobalGraph-EnhancedP를 살펴보겠습니다.

See all articles

sphinx 源码阅读之数据结构与算法

前言

两个数的最值

交换两个数

向量vector

string 类实现

IsAlpha

IsSpace

字符串trim

切割字符串

正则匹配

日志系统

变参的实现

二进制1的个数

整数二进制的位数

模板 堆排序

快速排序

二分查找

数组去重

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

模板堆排序