28M Hacker News 评论作为向量嵌入搜索数据集

Nov 28, 2025     Author:walterbell     HN Points:431     HN Comments:25
Share this

摘要: 本文介绍了使用Sentence Transformers库生成句子和段落语义嵌入的方法。首先,通过Sentence Transformers的all-MiniLM-L6-v2模型对HackerNews数据集中的文本进行嵌入。接着,利用生成的嵌入向量在ClickHouse数据库中进行相似度搜索,以检索与用户查询相关的帖子。然后,使用LangChain和OpenAI的gpt-3.5-turbo Chat API对检索到的内容进行总结。该应用可以应用于多个企业领域,如客户情绪分析、技术支持自动化、用户对话挖掘等。

讨论: 这段内容主要讨论了关于使用新的向量嵌入模型以及相关隐私和数据政策的问题。minimaxir建议不要使用MiniLM-L6-v2模型,推荐使用EmbeddingGemma模型,并提供了其他几个替代选项。afiodorov分享了从2023年开始嵌入HN评论并托管在个人网站上的信息。isodev指出根据HN的隐私和数据政策,禁止商业用途和创建派生作品。delichon提出在HN内容中添加一个右键菜单选项以显示相似句子。SchwKatze询问有关向量搜索与全文搜索的比较研究。catapart对HN帖子及其嵌入元数据的文件大小表示疑惑。zkmon和Kuraj表达了对于评论可能被用于训练商业模型的担忧和不适感。j4coh希望能有一个删除账户或评论的选项。ProofHouse表示有任务已完成。

原文标题:28M Hacker News comments as vector embedding search dataset
原文链接:https://clickhouse.com/docs/getting-started/example-datasets/hackernews-vector-search-dataset
讨论链接:https://news.ycombinator.com/item?id=46081053