AI小组2022总结
admin
2024-05-02 18:01:53
0

时间如流水,2022年即将过去,也到了一年一度年终终结的时候。CSDN-AI小组在2022年在AI+之路上又有哪些积累呢?

问答机器人

在chatGPT风靡的时候,所有人都被它的强大惊叹到了。chatGPT的实用范围还有待各种不同的用户去尝试。从技术的角度上来说,chatGPT 对于绝大部分技术用户来说是一个黑盒子,但是从本质上来说它还是一个大语言模型。

实际上,CSDN-AI小组一直独立训练一个问答机器人,programmer_ada,用在问答机器人上回答用户的问题。ada问答机器人一度占领到周采纳榜单的前3名。

做问答机器人有很多难点和痛点,对于实际问题来说,它的核心还是语料的充足,匹配的准确性,这点上我们是比较务实的。我们训练了几十个不同类型的数据索引,以及引入了领域公益的开源文档数据集。

2023年我们希望进一步强化问答机器人,在解决用户实际问题的路线上提供进一步的质变。

持续进化的机器标签

把内容的标签分类做好是NLP的基础核心工作之一。2022年,我们持续改进标签分类器的准确度,保持跟进最新技术调整统一标签。所有的标签变动都是公开的: https://gitcode.net/csdn/csdn-tags/-/issues

标签保持最新是重要的,2022年确立了几个新技术的分组:

  • 云原生
  • 前沿技术
  • 开源

在更新新技术的同时,逐渐弱化和去除老的旧的标签。以及针对性的添加一些必要的功能性分类标签。机器标签是底层机制,在这些方面都有有效的运用:

  • 热榜/领域榜
  • 个性化推荐
  • 用户学习成就页,用户机器标签

实际上包含正/反两个方面的运用:

  • 识别用户的兴趣标签,推荐正向内容
  • 通过标签可以系统发现某些低质量的「机器生成」数据,批量过滤

在标签的运用上,我们逐渐摸索出一套根据标签做内容分层和分权重的机制,能有效的混排数据。我们希望好用的招数能反复深入地在多方面使用。

基于社区的AI低代码开发

我们在极客日报社区上尝试了一种低代码开发方式。核心机制是:

  • 通过大数据、算法和AI提取分类目标数据
  • 推送榜单帖子
  • 自动触达用户
  • 运营和活动结合构建社区

这种方式可以快速实验数据,自动化地出数据,同时能和用户之间建立连接。特别是能快速迭代数据的准确性这点,是非常有用的机制。

另外一种方式是,给社区增加了Ada助手频道,该频道内帮助用户做AI+数据整理。

  • 私密社区的Ada社区周报
  • 私密社区的Ada个人知识图谱
  • 公开社区的Ada社区周报

我们相信,内容的深度分类能力是CSDN平台的优势之一,基于NLP技术的深入分类能力我们可以走的更远。它的核心还是帮助技术用户获得持续的学习和成长。

实验博客/Blink的评论机器人

我们在博客和Blink上实验了Blink评论机器人。基于内容分类和意图识别,再做个性化推荐和评论。这块实验的核心也是内容分类和识别的精确性,以及个性化信息的合成能力。这个方向是对的,不过需要进一步深化大语言模型的使用。从chatGPT也可以看出来,基于AIGC的对话会是未来起重要作用的变革技术。

热榜/个性化推荐

我们在上半年基本就搞定了热榜的核心机制。就是前面提到的,使用内容标签分层权重体系来做混排。

而个性化推荐这里,我们在年末的时候开始从工程上处理个性化推荐项目。将工程梳理清楚后,再逐渐让数据驱动的部分起作用,做了一系列低质量数据的过滤。和所有的数据一样,过滤掉低质量的数据,把机会留给高质量数据。

  • 负反馈功能的修正
  • 标题党过滤
  • 软文过滤
  • 低质量分过滤
  • 垃圾数据标签过滤
  • 黑名单过滤
  • 禁言用户过滤
  • 封面违规图过滤
  • 过滤掉日均发帖过高数据

这个工作还在持续改进。会进一步结合机器学历来做个性化推荐。

结构化数据挖掘

在结构化数据上,我们也持续做了很多工作。

  • 上半年将技能树做到了20个
  • 针对常见领域做了速查手册 https://bbs.csdn.net/forums/studyvip?typeId=1621346
  • 针对统一标签做了落地页:https://bbs.csdn.net/forums/csdnnews?typeId=148427

用户画像

在用户画像这块,要刻画有用的用户画像还是存在很多困难。一个结论是,如果基于模糊的数据做推导,得到的只会是更模糊的不可用的数据。因此,用户画像本质上是在挑少数有效的数据来做划分。

我们做了机器学历的计算。希望机器学历数据能真正帮助到技术学习者获得需要的内容推荐。基于用户的半自动化标注,我们使用机器学习的方式逐渐在改进。

结合用户的内容标签,我们也计算出了用户的机器标签。请访问你的个人学习成就页:edu.csdn.net/me 基于内容标签推理的用户标签实际上是一个比较有效的方式。但是也存在一些困难,这部分也需要再有一些方式来改进。

AI数据处理

挖掘和改进全站的内容质量是NLP技术运用的一大目标。我们在全站针对不同内容做了这些工作

  • 支持文库的标题生成、摘要提取
  • 支持CSDN技术IT词库提取
  • 支持博客的高亮词库新版

通用AI+

每个产品都逐渐地在底层内置的AI能力。实际上我们在将AI能力和社区、技能树、学习、个性化推荐等在做深度的结合。2022年整体上AI组还是在内容数据处理上投入了更多时间,我们治理了很多数据分类问题,也打通了很多管道。所有这一切都为做惊艳功能准备,期待2023。

–end–

相关内容

热门资讯

原创 非... 联合国秘书长刚喊完话,中国对53个非洲国家的零关税政策就冲上热搜。别以为这只是国际新闻——你家超市的...
视频丨机器人手术与传统手术的对... 专访嘉宾: 刘合利 中南大学湘雅医院胃肠外科主任 医学博士 主任医师 博士研究生导师 Q:机器人手术...
当AI入驻春晚,红包、技术、场... 每经记者:毕媛媛 每经编辑:魏官红 "" 除夕夜,白酒广告还在,手机厂商也没有缺席。但和往年不同,今...
港股除夕交易日人工智能大爆发,... 极目新闻记者 吕少峰 爆竹声中一岁除,春风送暖入屠苏。丙午马年春节的脚步越来越近,港股也迎来了春节前...
除了自嗨锅,其他自热火锅品牌如... 来源:新浪财富汇 随着自嗨锅的破产清算成为行业收缩的缩影,自热火锅市场正经历深度调整,而颐海国际作为...
重阳投资董事长王庆:“四辩”股... 岁序更迭,骏马奔腾。值此丙午马年新春佳节来临之际,我谨代表上海重阳投资管理股份有限公司,向中国基金报...
龙建路桥股份有限公司 关于控股... 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、...
原创 1... 曾几何时,高耸入云的高层住宅,无论是对于精打细算的开发商,还是追求生活品质的普通居民,都曾是令人心驰...
超级干货!谁在定义黄金的价格 人类最早发现黄金的历史,可以追溯到新石器时代晚期。截至目前,我们花了几千年的时间,总共收集了22万吨...
《求是》杂志编辑部:开局之年经... 开局之年经济工作怎么干 《求是》杂志编辑部 过去的2025年,面对国内外经济环境复杂变化,我国经济顶...
原创 中... 朋友们大家好!今天小界来和大家聊聊关于中国稀土的话题!七国联手发难,剑指中国稀土!美国、日本、英德法...
全线跳水,超11万人爆仓!金银... 加密货币全线跳水,黄金白银又跌了!2月16日,现货黄金、白银盘中再度下探。现货黄金盘中跌超1%,跌破...
和讯投顾盖祎楠:商业航天板块还... 商业航天什么时候会起第二波?目前来看得年后,而且我觉得时间不会短,因为它现在还在缩量。好就好在量能缩...
截至2025年末我国境内公募基... > > 截至2025年末我国境内公募基金规模达37.71万亿元 新华社 2026-02-15 1...
重大预警!850%!这一数值,... 达利欧(Ray Dalio)最新观点和持仓都来了! 近日,全球最大的对冲基金桥水基金创始人、亿万富翁...
新房、二手房成交环比降幅扩大、... 本文来自中银证券研究部于2026年2月16日发布的报告《新房、二手房成交环比降幅扩大、同比由正转负;...
原创 法... 近年来,法国在对华经贸议题上一直活跃,特别是在电动汽车加关税的风波中,法国作为最早发声的国家之一,引...
原创 打... 你能相信吗?美国一直试图摆脱对中国稀土的依赖,然而,结果却出乎意料。当稀土终于对美国开放时,美国才发...
中邮创业基金总经理张志名:资管... 岁序更迭,华章日新。当2026年的第一缕晨光划破天际,我们带着对过去的感恩与对未来的期许,向每一位与...
冀中能源:股东邯矿集团累计质押... 每经AI快讯,冀中能源2月13日晚间发布公告称,公司于近日收到股东冀中能源邯郸矿业集团有限公司(以下...