第 47 届国际计算机协会信息检索大会(ACM SIGIR) 于 2024 年 7 月 14 日至 18 日在美国华盛顿特区举行。该会议是信息检索领域的顶级学术会议。刚刚,大会公布了最佳论文奖、最佳论文亚军、最佳论文荣誉提名奖以及时间检验奖等奖项。其中,清华大学、中国人民大学高瓴人工智能学院、小红书团队获得了最佳论文;来自格拉斯哥大学、比萨大学的研究者摘得亚军;最佳论文荣誉提名奖颁给了山东大学(青岛)、莱顿大学、阿姆斯特丹大学的研究者;时间检验奖颁给了清华大学、加州大学圣克鲁斯分校的研究者。
- 论文:Scaling Laws For Dense Retrieval
- 论文作者:方言、Jingtao Zhan、艾清遥、毛佳昕、Weihang Su、Jia Chen、刘奕群
- 机构:清华大学、中国人民大学高瓴人工智能学院、小红书
- 论文链接:https://dl.acm.org/doi/abs/10.1145/3626772.3657743
论文简介:在广泛的任务中,特别是在语言生成中,研究人员都观察到了扩展定律。研究表明大型语言模型的性能遵循模型和数据集大小的可预测模式,这有助于有效且高效地设计训练策略,特别是在大规模训练变得越来越资源密集的情况下。然而,在密集检索中,扩展定律尚未得到充分探索。该研究探索了扩展如何影响密集检索模型的性能。具体来说,研究团队实现了具有不同数量参数的密集检索模型,并使用不同数量的注释数据对其进行训练。该研究使用对比熵(contrastive entropy )作为评估指标,与离散的排名指标相比,对比熵是连续的,因此可以准确地反映模型的性能。实验结果表明,密集检索模型的性能遵循与模型大小以及注释数量相关的精确幂律扩展。此外,该研究还表明,扩展定律有助于优化训练过程,例如解决预算约束下的资源分配问题。这项研究极大地有助于理解密集检索模型的扩展效应,为未来的研究提供了有意义的指导。本届 ACM SIGIR 最佳论文亚军颁给了论文「 A Reproducibility Study of PLAID 」。论文作者包括来自格拉斯哥大学的 Sean MacAvaney、以及来自比萨大学的 Nicola Tonellotto。
논문 주소: https://arxiv.org/pdf/2404.14989논문 요약: ColBERTv2의 PLAID 알고리즘은 클러스터된 용어 표현을 사용하여 문서를 검색하고 점진적으로 정리하여 최종 문서 점수를 얻습니다. 이 글은 원문의 누락된 공백을 재현하고 채웁니다. 연구자들은 PLAID에 의해 도입된 매개변수를 연구함으로써 파레토 프론티어가 세 매개변수 간의 균형에 의해 형성된다는 사실을 발견했습니다. 권장 설정에서 벗어나면 효율성이 반드시 향상되지 않고도 대기 시간이 크게 늘어날 수 있습니다. 이 발견을 바탕으로 이 백서에서는 PLAID를 논문에서 누락된 중요한 기준인 어휘 시스템 재정렬과 비교합니다. 초기 BM25 결과 풀 위에 재정렬기로 ColBERTv2를 적용하면 대기 시간이 짧은 설정에서 더 나은 효율성-효과 절충이 제공되는 것으로 나타났습니다. 이 작업은 검색 엔진 효율성을 평가할 때 관련 기준선을 신중하게 선택하는 것이 중요하다는 점을 강조합니다. Honorable Mention Award for Best Paper이번 컨퍼런스에서 Honorable Mention Award for Best Paper는 Shandong University (Qingdao), Leiden University 및 Amsterdam University의 연구자들이 수상했습니다. 우승 논문은 "Multi-Vector Dense Retrieval로서의 생성 검색(Generative Retrieval as Multi-Vector Dense Retrieval)"입니다.
- 논문 저자: Wu Shiguang, Wei Wenda, Zhang Mengqi, Chen Zhumin, Ma Jun, Ren Zhaochun, Maarten de Rijke, Ren Pengjie
- 논문 주소: https://arxiv.org /pdf/2404.00684
Abstract: 이 논문은 생성 검색과 다중 벡터 밀집 검색이 동일한 프레임워크를 공유한다는 것을 보여줌으로써 문서 쿼리의 관련성을 측정합니다. 구체적으로 그들은 생성 검색의 어텐션 레이어와 예측 헤드를 연구하여 생성 검색이 다중 벡터 밀집 검색의 특별한 경우로 이해될 수 있음을 밝혔습니다. 두 방법 모두 정렬 행렬을 사용하여 쿼리 벡터와 문서 벡터의 곱의 합을 계산하여 상관 관계를 계산합니다. 그런 다음 연구원들은 이 프레임워크를 생성 검색에 적용하는 방법을 조사하고 문서 토큰 벡터와 정렬 행렬을 계산하기 위해 다양한 전략을 채택했습니다. 결론을 검증하기 위해 실험을 수행하여 두 패러다임 모두 정렬 행렬의 용어 일치에 있어 공통점을 나타냄을 보여줍니다. 올해 ACM SIGIR Time-tested Award는 10년 전 SIGIR 2014에서 발표된 설명 가능한 추천에 관한 연구에 수여되었습니다. 논문은 "Explicit Factor Models for explainable Recommendation"입니다. "문구 수준의 감정 분석을 기반으로".
- 논문 저자: Zhang Yongfeng, Lai Guoquan, Zhang Min, Yi Zhang, Liu Yiqun, Ma Shaoping
- 기관: Tsinghua University, University of California, Santa Cruz
- 논문 링크 : https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf
본 연구는 "해석 가능한 추천"의 문제를 처음으로 정의하고 그에 따른 정서를 제안합니다. 이러한 기술적 과제를 해결하기 위해 관련 분야에서 선도적인 역할을 담당해 왔습니다. 논문 초록: LFM(잠재 요인 모델)과 같은 CF(협업 필터링) 기반 추천 알고리즘은 예측 정확도 측면에서 좋은 성능을 발휘합니다. 그러나 근본적인 특성으로 인해 추천 결과를 사용자에게 설명하기가 어렵습니다. 다행히도 온라인 사용자 리뷰가 계속 증가함에 따라 교육 추천 시스템에서 사용할 수 있는 정보는 더 이상 숫자 별 평점이나 사용자/항목 특성에만 국한되지 않습니다. 리뷰를 통해 제품의 다양한 측면에 대한 사용자의 명시적인 의견을 추출함으로써 사용자가 무엇에 관심을 갖고 있는지 더 자세히 이해할 수 있으며, 이는 설명 가능한 추천의 가능성을 더욱 드러냅니다. 이 기사에서는 높은 예측 정확도를 유지하면서 해석 가능한 권장 사항을 생성하는 EFM(명시적 요인 모델)을 제안합니다. 연구원은 먼저 사용자 리뷰에 대한 문구 수준의 감정 분석을 수행하여 명시적인 제품 기능과 사용자 의견을 추출한 다음 사용자 관심의 특정 제품 기능과 학습된 잠재 기능을 기반으로 추천 및 비추천을 생성합니다. 또한 항목이 권장되거나 권장되지 않는 이유에 대한 직관적인 기능 수준 설명이 모델에서 생성됩니다. 여러 실제 데이터 세트에 대한 오프라인 실험 결과는 이 연구에서 제안된 프레임워크가 등급 예측 및 Top-K 추천 작업 모두에서 경쟁 기준 알고리즘보다 성능이 우수하다는 것을 보여줍니다. 온라인 실험에 따르면 자세한 설명은 추천과 비추천이 사용자의 구매 행동에 더 큰 영향을 미치는 것으로 나타났습니다.ACM SIGIR Young Scholar Award는 정보 검색 연구, 학자 커뮤니티 구축 및 학문적 형평성 증진에 중요한 역할을 한 연구자를 표창하는 것을 목표로 합니다. 20년 안에 젊은 연구자 7명에게 박사학위를 수여한다. 칭화대학교 컴퓨터과학과 조교수 Ai Qingyao와 중국 과학기술대학교 사이버공간 보안 및 빅데이터 스쿨 교수 겸 박사 지도교수 Wang Xiang이 SIGIR 2024 Young 상을 수상했습니다. 학자상. Ai Qingyao는 칭화대학교 컴퓨터 과학과 조교수입니다. 그의 주요 연구 분야는 정보 검색, 기계 학습 및 자연어 처리 연구입니다. 주요 연구 방향은 정보 표현 학습, 순위 최적화 이론, 인터넷 검색 및 추천 및 스마트 정의에 대한 대규모 언어 모델 적용을 포함한 지능형 정보 검색 시스템의 연구 및 설계입니다. Wang Xiang은 중국 과학 기술 대학교 사이버 공간 보안 및 빅 데이터 학교의 교수이자 박사 지도교수입니다. Wang Xiang 교수의 연구 관심 분야에는 정보 검색, 데이터 마이닝, 신뢰할 수 있고 설명 가능한 인공 지능, 특히 추천 시스템, 그래프 학습 및 소셜 미디어 분석이 포함됩니다. 위 내용은 Tsinghua University는 Best Paper + Time Test Award를 수상했고, Shandong University는 Honorable Mention을 받았으며 SIGIR 2024 상이 발표되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!