信息智能推荐算法是人工智能技术在信息传播领域的应用,它极大地提高了信息的生产和传播效率,带来了传播方式和传播活动的深刻变革,同时也引发了监管部门和用户对这一新技术运用中出现的内容质量和价值观问题、算法黑箱和信息茧房风险等多方面的关切和疑虑。面对这些关切和疑虑,学界进行了持续研究分析,互联网信息平台不断探索问题的解决和风险的防控,推动智能推荐技术的优化创新,以期把握算法的特点、价值和规律,促进人工智能时代信息传播的健康发展、安全发展。
算法不是信息传播中社会价值弱化的根源
媒体进入大众化和市场化时代以来,内容的低俗、低质和娱乐化倾向就开始显现,给主流价值的传播带来挑战。进入信息智能推荐算法时代,这一趋势还在延续,并有了新的表现形式。根本原因在于,大众偏好的内容往往不等同于优质的内容,而用户的需要、市场的要求是媒介技术发展的主要推动力,客观上助长了内容生态的低质化。
从算法设计的初衷看,其本身并不会提倡标题党、煽情和低俗化内容,但由于智能推荐算法要经由网上海量的数据来训练和生成,而在全网已经存在大量低质化信息和大众化审美品位没有得到根本提升的情况下,加之设计算法的工程师没有经过专业的新闻伦理训练,主要关注内容和用户兴趣的匹配度等指标,缺乏社会价值意识,在算法发展的初期也没有将对社会价值的导向要求和对低质信息的把关需要内化为算法的具体规则,在客观上呈现出推荐内容的低质化倾向。如果说在门户网站和社交网络时代,不符合用户偏好的信息还能经由编辑的专业推荐或关系链中其他人的转发推荐而有一定的传播空间,那么在算法时代,不同内容之间的“马太效应”更加凸显,符合偏好的内容可以经由算法的逐级放大有更广泛的影响,而其他内容则很难有生存空间。
算法并不必然助长内容生态的低质化。这要从算法设计的主要特征分析,分为个体、群体、整体三个层次的特征:对个体用户,算法一般通过对内容特征、人的特征、环境特征三个维度指标的分析,在特定人和特定内容之间做出力求精准的匹配。内容特征可能包括领域分类、主题词、实体词、来源、质量评分、相似文章等指标,人的特征包括兴趣、年龄、性别、职业、使用行为、机型等指标,环境特征包括时间、地点、天气和网络类型等。在群体层面,算法通过寻找不同用户在兴趣分类、主题、实体词和使用行为上的相似性,将一个用户感兴趣的内容推荐给另一个人,这已不是基于用户自己的历史行为,而是基于群体隐性关联之上的协同推荐。就网民整体,算法则基于内容的热度特征,包括全平台的热点文章或不同类别、主题和关键词的热点内容,在“冷启动”阶段对新用户进行初步推荐。
要扭转社交时代以来内容低质化的趋势,需要智能信息分发平台将社会责任意识主动地融入算法设计。算法的市场目标分为中短期目标和长期目标,中短期目标是几个小时、一两天之内用户的兴趣匹配,是为了提升点击率和收藏、转发、评论等行为,而长期目标是实现用户的稳定留存和活跃使用。很多时候,短期目标对实现长期目标并没有帮助,有时候反而起反作用。以标题党现象为例,劣质创作者通过噱头可以吸引用户点击,使点击率虚高,用户可能会留下负面评价,表面上提高了参与度,但却以牺牲用户体验和影响留存为代价,类似含水的点击率和负面的评论率,不符合信息平台的长远利益。
当前智能分发已成为新闻资讯客户端、浏览器等应用的“标配”手段,从行业实践看,居于头部领先位置的App更重视用户的长期留存,更倾向于主动避免内容低质化带来的社会舆论和监管风险。字节跳动公司最早将智能推荐算法应用在信息分发领域,在发展早期也存在内容质量问题和算法偏向市场化的问题,近年通过设置更多元的算法目标,综合分析用户浏览时长、评论情感倾向来打击标题党、煽情化等劣质内容,通过技术模型过滤有害信息和黄赌毒等违法违规内容,并基于正能量信息的模型训练来加强主流价值信息的推荐。例如,信息平台通过对上百万篇网信部门宣传报道指令、党报党刊要闻等正能量信息的人工标注,作为机器学习的模型训练集,模型经过不断优化,对新时代建设等主流价值观内容的识别率准确超过93%。算法对识别出的文章进行1.5-2倍的加权推荐,目前正能量模型识别范围已涵盖凡人善举、行业榜样、知识普惠、公益慈善等众多领域,平台内容日益多元优质,生态越来越有益健康。而一些“信息流”平台则表现出打擦边球的意愿和行动,以对低俗化内容的推荐来实现短期用户量的“冲高”,美女、大尺度、追星、偶像成为内容关键词,这些信息经推荐算法进一步放大了对用户,特别是青少年用户的影响。这已引发社会关切和监管层的关注,已督促改进。但效果尚不明显,需要加大监管力度。
在智能分发时代,要解决内容的低俗化低质化和社会价值弱化问题,要从两方面同时入手、同步加强。一要解决内容生产的低质化问题,压实社交平台、信息平台和创作者的社会责任,提升全体用户的道德素质和网络素养。社交网络极大赋能了用户的创作权、表达权、传播权,一个个用户需求和内容产出汇聚起来,越发影响着网上信息的议程设置和导向,如果此时的内容生态不健康,那么“没有一片雪花是无辜的”,而现实是大多数用户基于原始的本能,倾向于好玩的、娱乐的、低俗的内容。这不同于传统媒体时代,新闻机构有强大的社会影响力,但也负有高度的责任和使命。社交平台、信息平台的海量信息是推荐算法发挥作用的土壤,在个体赋权的同时,用户也需要权责平衡,要以多种方式有效提升普通人的道德素质、媒介素养、算法知识、责任意识和法纪观念,创作者要确保一开始就生产高质量的内容,平台更主动发挥自我监管的责任,才能从源头上建立优质的内容生态。
二要实现社会价值融入算法设计,发挥对内容生产和传播的“奖优罚劣”把关作用,尽快迈向智能管网治网。算法帮助用户以更智能、更高效的方式行使对内容的选择权利,客观上具有对内容创作的引导作用,商业媒体、自媒体等都会研究和分析不同平台的算法特点,谋求更多的内容推荐和传播。如果算法中融入了社会价值,就会促进内容生态向更健康的方向发展。如果说落实平台责任、提升用户素质是为了尽量减少网上的“淤泥”,而对算法的优化则是为了做到“出淤泥而不染”。之前是将价值坚守融入专业媒体人的工作,算法时代要将主流价值观念、信息传播伦理融入工程师的设计目标和流程,由于代码被认为是网络空间的“法律”,这样做可以将制度的宏观原则融入技术的微观建构之中。
美国等国家在几年前已开始加强工程师在技术研发和产品开发中的伦理责任教育,谷歌和脸书等信息平台也更加重视新闻传播的伦理问题。基于对重大主题宣传等主流价值信息的人工标注,依托机器学习训练正能量算法,并建立专门的色情、谩骂、低俗等风险识别和过滤模型,如何发挥人工智能在优质信息传播和不良信息治理上的作用、实现智能分发时代的智能管网治网值得进一步探索。而要实现全行业算法的持续优化,急需政府、协会指导行业制定信息智能推荐算法的价值标准和开发规范,对算法的目标、特征、流程、人在其中的作用发挥等作出明确的规定,并予以有力有效的执行。
防范算法黑箱的潜在风险,促进透明化
基于神经网络的深度学习,将抓取的数据分为数以千万计的变量来自动加权计算,并输出结果,对于其中极其复杂的计算过程,人们依据现有的科学知识和原理难以理解。因此,一些信息智能推荐算法也可能产生算法黑箱问题,这是信息传播领域的新现象。由深度学习自动生成的算法,不但对广大普通用户来说其中的很多细节难以理解,就是对专业的技术人员也难以分析和解释。
由于智能算法的不透明性,加之其实时动态的变化,可能使其在产生问题时难以及时被发现和监督,而算法来自于社会上大数据的训练,机器很容易习得既有的偏见,甚至滋生对输出结果的恶意利用,将负面的效应放大。特别是类型化、标签化是算法设计中的一个重要思想,在“人以群分”中就很容易固化社会偏见,如基于性别、种族、年龄对职业发展能力、犯罪概率做出预测,经由算法对社会“刻板印象”的清晰化和固化,就很容易对群体中的个体作出误判和伤害。
例如,一些社交网络为了减少对用户体验的干扰,在一定阶段内对信息流广告的数量有所控制,在一定时期内只选取比较高端的广告品牌,并基于智能算法的分析只对高端用户定推,这一做法还一度在网上成为网民的讨论热点,能看到推送广告的以自己“高端”而自得,没看到广告的自嘲自己是“低端用户”,还有自认为是高端用户的人抱怨为什么没有看到广告推送。这虽然只是网民的自我调侃,但也反映了推荐算法的分类思想可能带来的一些偏差。相比之下,基于算法的差别化定价就是一种价格歧视,这不限于实物商品,在信息付费、知识付费的时代,推荐算法对内容产品的歧视性定价也可能发生。
人们拥有着对“可解释性”的追求,欧盟《一般数据保护条例》就规定消费者有对自动化决策的“解释权”,在某些条件下有权利不接受完全由人工智能自动化系统做出的重大决定。难点是如何在现实场景中科学有效地实现。算法透明化作为一种可选方式被寄予希望,从当前国内外的实践看,算法原理的透明化比程序代码的透明化更切实可行。智能生成的算法代码复杂难懂并动态变化,一般认为,公布后无助于消除社会的担忧,副作用却很明显,如涉及企业的核心商业机密、损害企业知识产权,代码可能被别有用心的人利用,开展危害社会和企业安全的活动。
而算法原理透明化不纠缠于代码这一过程性的中间环节,体现了目标管理和结果导向的思想。虽然黑箱问题在信息传播领域是新现象,但在其他领域古已有之。我国传统的中医诊治和中医药就是典型的黑箱现象,古时候的大夫并不了解人体器官的内部细节,也不了解中草药的化学成分和分子结构,但仍可通过自身的“望闻问切”和不同药材的搭配,达到治病救人的目的。
防范算法黑箱的潜在风险,促进算法的透明化,需要目标设定的公平正义和公开透明,算法原理科学以实现正确的目标,在有人工训练的情况下,在社会价值指引下正确选取指标和行为特征,避免产生系统性偏见和歧视。对算法的输出结果要形成信息平台、用户、新闻媒体、专业机构、政府等内外部的监测体系,及时发现偏差并对算法进行优化改进,防止算法输出落入“自证正确”的错误循环。同时,对算法黑箱问题也可用人工智能辅助分析等方式来探索,在这方面国外已有一些研究和尝试,我们可以借鉴。(作者:袁祥、王一)