|
基于人工智能的实时舆情监管 系统设计与研究时间:2024-05-14 基于人工智能的实时舆情监管 系统设计与研究流批一体的计算框架为实时舆情监管系统提供了高效处理实时数据流的能力,而先进的人工智能审核算法则赋予系统更为智能的舆情分析能力。 随着互联网的普及和社交媒体的兴起,舆情监管成为社会治理中一项极为重要的任务。舆情的传播渠道之多、速度之快、影响之深,使得监管工作变得更为复杂和迫切。为了应对上述需求及挑战,舆情监管系统的设计和研究成为大数据领域的一大热点。传统的舆情监管研究方法存在评估方式表浅和获取信息滞后等缺陷,由于部分待监管媒体并不会对监管机构开放数据,因此,在数据方面,越来越多的系统基于爬虫技术实现对媒体数据的获取。同时,为了追求更加准确且深层次的媒体监管评估,基于指标体系计算的量化评估研判体系成为当前舆情评估的主流。 本文提出的实时舆情监管系统的设计理念是通过建立全面的指标体系,对媒体信息进行综合评估。流批一体的计算框架为系统提供了高效处理实时数据流的能力,而先进的人工智能(AI)审核算法则赋予系统更为智能的舆情分析能力。这一系统在提高监管效率的同时,也注重降低人工审核的工作负担,为监管部门提供了一种更为先进、精准的手段。实时舆情监管系统的设计和研究过程包括流批一体计算框架下指标实时计算的实现、指标体系的建立以及人工智能审核算法的整合。通过在贵州某监管部门的实际应用,该系统在舆情管理、信息采集和实时评估方面的显著优势得以证明,为舆情监管领域的进一步研究和实践提供有价值的参考。 平台设计 系统架构设计 系统由媒体管理、数据采集、消息中间件、实时计算、AI平台、指标评估六大模块构成,该系统架构,如图1所示。 ![]() 图1 系统架构图 各个服务模块具备如下功能: 媒体管理 媒体管理服务分为媒体基本信息管理和媒体渠道信息管理,媒体基本信息后续用于支撑预警信息的推送,媒体渠道信息用于支撑分布式大数据采集平台的采集数据源获取。 数据采集 分布式舆情大数据采集平台依据媒体管理中的媒体基本信息,自动生成数据采集任务,采集媒体发布的新闻数据。 实时计算 Kafka新闻消息中间件作为采集平台与实时计算平台的数据桥梁,由采集平台实时发布采集到的新闻数据,由计算平台实时消费新闻数据进行计算。 算法人员在AI平台上部署错别字识别、“标题党”识别、违禁词识别、内容审核、情感倾向分析等算法,并以API方式对外提供服务。 基于Flink的流批一体实时计算平台作为整个系统的计算基座,在其之上开发通用算法算子,接入AI算法API进行实时计算,得出每篇文章的审核结果。再由指标评估算子对审核结果与指标扣分项进行加权计算,得到媒体的评估扣分值。 指标评估 指标评估模块主要用于指标管理及计算结果的展示及推送,包含指标和扣分项的管理、违规内容的展示、危险预警消息推送。 数据流向设计 系统的主要输入内容为大数据平台采集的海量媒体新闻数据,将其存放至消息中间件后,经过实时计算平台处理后输出为指标模型的评估结果。 ·由大数据采集平台将从媒体官方网站、公众号、头条号、微博、数据库、API接口等渠道收集的新闻数据发布到Kafka消息中间件里面。 ·由Flink实时计算平台消费采集的媒体数据,对于每个指标项,Flink调用通用算法算子所对应的指标算法进行识别,并将识别结果再次发布到Kafka消息中间件里面。 ·由Flink实时计算平台消费算法识别结果数据,调用指标评估算子将识别结果与指标扣分数进行加权计算,得到评估结果。 系统功能设计 实时舆情评估系统以“简易配置、实时计算、智能识别、危险预警”为指导思想,构建满足指标计算、智能审核的实时舆情监管系统建设需要。系统分为媒体信息管理、数据采集、算法接口管理、指标管理和违规管理五部分。 媒体信息管理 媒体信息包含了媒体基本信息和媒体渠道信息,是数据采集和监管预警的信息来源,支撑数据自动采集和预警信息同步推送。媒体信息管理功能项,见表1。 表1 ![]() 数据采集 由分布式大数据采集平台作为采集底座,系统根据媒体渠道信息自动生成官网、微博、公众号、APP的采集任务,支持任务调度添加和采集日志查看。数据采集功能项,见表2。 表2 ![]() 算法接口管理 用于管理由AI平台提供的各类算法API接口,提供给Flink算法算子调用,接口内容包含请求类型、请求头、请求参数、请求体、返回参数。算法接口管理功能项,见表3。 表3 ![]() 指标管理 指标模型是整个系统的核心,是对媒体进行扣分及评估的依据,包括但不仅限于在报道中不能出现错别字、遵循《新华社新闻信息报道中的禁用词和慎用词》规范、不能出现“标题党”现象、不能出现政治类差错等。指标管理模块提供了对指标模型及其扣分值的新增、删除、修改、查询功能;同时,基于指标模型的新闻文稿评估需要借助AI算法来实现,指标管理与算法管理联动,提供选取与指标项对应的评估算法。指标管理功能项,见表4。 表4 ![]() 违规管理 对于经过指标项计算判定违规的新闻文稿、媒体排名,违规管理中会集中展示,支持按媒体、指标和核查结果模糊查询新闻违规结果。可视化大屏能展示媒体、指标、新闻、地域、采集数据等要素,便于更直观地呈现舆情现状。违规管理功能项,见表5。 表5 ![]() 系统应用 实时舆情监管系统现已在贵州省某媒体监管机构应用并取得了一定的成效。 首先,该系统在该监管机构得到了全面而深入的部署。监管机构的工作人员使用该系统配置了媒体信息,确保系统能够覆盖并监测各类媒体。这一步骤的灵活性使得系统可以根据监管机构的需求进行个性化设置,适应不同的监管任务。 其次,该系统通过自动采集媒体数据的方式,实现对广泛信息源的全面监测。这包括对新闻、社交媒体、论坛等多种形式的媒体内容进行即时的搜集和整合。自动采集不仅能够减轻工作人员的负担,也可以确保对于大规模信息的快速响应。 实时计算框架与AI审核算法紧密合作,按照预先设定的指标对媒体进行实时评估。这一过程通过深度学习和智能算法的应用,能有效提高评估的准确性和效率。系统不仅能够精准地计算评估分值,还能迅速识别分值较低的媒体,实现对可能引发舆情危机的媒体进行实时监测。 通过实际应用,该系统成功实现了实时预警功能。当系统检测到评估分值较低的媒体时,会立即发出预警信号,使监管机构能够在舆情问题进一步扩大之前采取适当的措施,有效遏制潜在风险。 总体而言,实时舆情监管系统在某监管机构的应用取得显著成果,为媒体管理和监管工作提供了强有力的支持。该系统实现了媒体数据的实时采集,减少了审核工作量及数据遗漏的情况,提高了工作效率。其成功经验为舆情监管系统的未来发展指明方向,也为其他监管机构提供有价值的借鉴。系统开发的下一步工作是在AI审核算法及指标模型方向深入研究,提高算法识别精准度及指标覆盖率,使媒体违规感知率及感知速度得到提高。 |