陆小华：探索意识与变革先机：以有效运用推动智能变革

青年记者 | 2023-12-21 19:45:10原创

来源：青年记者

作者：陆小华（天津大学新媒体与传播学院院长，讲席教授；天津大学网络空间国际治理研究基地负责人，本刊学术顾问）

来源：《青年记者》2023年第21期

导读:
随着多模态大模型加速演进，智能变革进入新阶段，探索意识与行动成效决定是否能够赢得变革先机，人工智能运用能力决定媒体未来。

在生成式人工智能迅速迭代、不断演化、应用发展的推动下，智能变革进入新阶段。这种智能变革不仅反映在多方力量迅速投入投资巨大的大模型研发和多种行业性应用的推进，以致出现“百模大战”的现象；也反映在人们如何看待人工智能的发展以及所在领域如何坚守的争论上。面对生成式人工智能的迅速发展，是否有足够强的探索意识和行动，决定是否能够赢得变革先机。我们必须以有效运用推动智能变革。

智能变革也将深刻影响媒体的未来。生成式人工智能所生成的内容已经进入传播，已经在深刻影响人们的知识萃取、认知形成、观点表达，已经在从新的维度深刻改变传播者构成、内容生产者构成和影响力生成逻辑，总之，生成式人工智能技术发展本身正在深刻影响媒体的生存逻辑。这是应当深刻认识到的现实。任何漠视、旁观、犹疑都可能错失良机。生成式人工智能等新技术、新应用纷至沓来，创造性、专业化运用能力决定着媒体的未来。

多模态大模型加速演进：运用能力决定媒体未来

与其他新技术出现和发展过程有所不同的是，从2022年11月底至今，生成式人工智能技术和产品的发布、迭代速度一直在加快，没有减缓的迹象，而且在不断发布已经训练完成的新的大模型。

2023年9月25日，OpenAI发布GPT-4V，不仅新增了语言和图像交互功能，而且之后两周就向ChatGPT Plus和Enterprise用户推出。用户可上传图像到ChatGPT上开展对话，ChatGPT能够理解和处理上传的多张图像，并可通过文字、语音和图片等多种方式进行回复，形成多模态交互。GPT-4V显示了多模态大模型的使用便利性。用户可以通过语音与AI互动，不用通过键盘输入；可以用语音对生成图像进行微调；提供多种风格语音选项，给用户对话个性化体验。可见，多模态大模型的走向，并不仅仅是在技术上能够输入和生成文字以外的声音、图片等内容形态，而且可以通过语音、图像输入提升用户使用便利度和体验。这与我们曾多次阐述过的智能传播正走向体验传播的规律是一致的，即不断提升与人们的个性信息需求与体验要求的实时匹配度。同时，因为采用了自研开源Whisper模型，能够实现高准确率的语音识别和语音合成功能，将AI生成的音频与人类音频区分开来。此技术对于监管领域提升监管能力以及新闻传播领域增强传播力和竞争力，都是非常有用的。

与GPT-4发布情形类似的，是GPT-4V在发布时同步公布16页文档一周后，微软公布了一份长达166页关于GPT-4V功能和使用情况的报告。这个报告是由7位华人完成的，其中6位是核心作者，领衔者在位于雷德蒙德的微软研究院工作，在清华大学获得博士学位，研究领域是基于多模态感知智能的深度学习和机器学习，具体包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。报告共有11章，详细测评了GPT-4V在基础的图像识别到复杂的逻辑推理的十大任务中的表现。这个报告希望其初步探索能够激发未来对下一代多模态任务制定的研究，开发和增强LMM解决现实问题的新方法，并更好地理解多模态基础模型。

这个报告以“试”为核心方法，设计涵盖多个领域的一系列输入，观察和记录GPT-4V的输出，评估GPT-4V完成各类任务的能力。这些任务包括：开放世界视觉理解（open-world visual understanding）、视觉描述（visual description）、多模态知识（multimodal knowledge）、常识（commonsense）、场景文本理解（scene text understanding）、文档推理（document reasoning）、写代码（coding）、时间推理（temporal reasonin）、抽象推理（abstract reasoning）、情感理解（emotion understanding）。值得注意的是，这个报告给出了使用GPT-4V的新提示词技巧，一是GPT-4V支持5种使用方式，即输入图像（images）、子图像（sub-images）、文本（texts）、场景文本（scene texts）和视觉指针（visual pointers）；3种支持能力，即指令遵循（instruction following）、思维链（chain-of-thoughts）、上下文少样本学习（in-context few-shot learning）。这个报告提出类GPT-4V多模态大模型的提示词技巧，即多模态提示词技巧“视觉参考提示”（visual referring prompting），可以通过直接编辑输入图像来提示感兴趣的任务，这种方法可以结合其他提示词技巧一起使用。试用报告显示，GPT-4V可以识别人像，可以根据X光片判断患者的病变，可以通过图像分析人的情绪，还可以现场学习，即在用户不断提示、指出其错误中学习，提高识别能力。

这个报告最重要的是提示了专业性、创造性、探索性、大开脑洞地试用多模态大模型的可行性和空间。客观地看，语言大模型和多模态大模型可以怎么用，可以为不同领域提供什么样的能量，开发者和开发机构也未必能够完全清晰界定，这正像对基于大模型的人工智能可能造成什么复杂影响也未必能够完全清晰预知一样，是一个硬币的两面。但正是因为试用、应用、运用大模型可以发现如何为不同行业、不同主体赋能，试用、应用、运用人工智能显然能够提升效率和竞争能力。因此，未来，包括媒体在内的竞争主体的竞争力，就可能因为试用、应用、运用包括生成式人工智能在内的新技术新应用的时机、主动性、运用程度而有明显区分，即对人工智能的运用能力决定着媒体的现在和未来。

积极探索新闻行业应用：加速探索才能驾驭算法

对主流媒体而言，对语言大模型或多模态大模型的积极试用和开发适应新闻传播业规律规则的垂类应用，有助于推进重塑融合、智能融合，增强主流媒体智能竞争力。2013年8月19日，习近平总书记在全国宣传思想工作会议上提出加快传统媒体和新兴媒体融合发展的要求。2019年1月25日，在中共中央政治局就全媒体时代和媒体融合发展举行第十二次集体学习时，习近平总书记指出：“从全球范围看，媒体智能化进入快速发展阶段。我们要增强紧迫感和使命感，推动关键核心技术自主创新不断实现突破，探索将人工智能运用在新闻采集、生产、分发、接收、反馈中，用主流价值导向驾驭‘算法’，全面提高舆论引导能力。”这次集体学习是在人民日报社进行的。这个地点的选择，意味着在“用主流价值导向驾驭‘算法’，全面提高舆论引导能力”这个重大课题上，赋予主流媒体更重的责任。

十年来，媒体融合发展取得突破性进展、发生格局性变化，主力军挺进主战场，以内容建设为根本、先进技术为支撑，拥抱互联网、打造全媒体，让内容优势转化为传播优势。主流媒体不仅在新媒体领域传播力、引导力、影响力、公信力进一步增强，而且积极适应数字化、智能化变革，向数字媒体、智能媒体方向演进。同时，中央主要媒体不仅创造性探索运用最新科学技术成果，而且其所管理的新闻传播领域的国家重点实验室紧密结合新闻传播实践，基于明天的需要研发今天可以应用的技术成果，在将人工智能运用在新闻采集、生产、分发、接收、反馈中发挥了科技引擎的关键作用。2023年10月26日“AI之夜”发布的“人民日报创作大脑AI+”，集纳大模型、自然语言处理、计算机视觉、音频语义理解、图像识别等人工智能技术，形成集智能化、场景化、自动化于一体的全新工作模式平台，可望体现人工智能赋能媒体融合发展。特别是致力于提高内容创作效能、确保安全可控、促进生成式人工智能在媒体行业的安全应用的主流价值语料库建设，展现出其助力用主流价值导向驾驭算法的能力与潜力。

对生成式人工智能的运用能力，既包括结合新闻传播业基本规律规则、行业需求与个性需求，探索运用方法和运用策略；也包括更专业地设计提问词、使用多模态提问手段。从已知情况看，已有人另辟蹊径开发了可获取对垂类大模型的各种提示词的工具，并称可给垂类大模型客户提供提问搜索服务。对各种提示词搜索形成的数据或数据集，既可以帮助用户提升语言大模型或多模态大模型运用水平，也可以提示新用户如何使用垂类大模型。更有价值的是，提问词形成的数据集，既可以发现用户对某个领域、对垂类模型显性或隐性的需求，也可帮助大模型或基于大模型的应用开发者改进、优化，并直接用于大模型或垂类大模型的训练。

换一个角度看，这种积极、主动的试用，也可以帮助更早识别风险、避免风险。这从另外一个维度上同样决定着媒体的今天与未来。GPT-4V发布后，就有试用者指出GPT-4V存在漏洞。即在有“提示词攻击”的情况下，如在图片中加入明显的文字误导，GPT-4V就会忽略用户的要求而改为遵循图像中的文字说明，可能生成明显离谱的答案。如果把图片中的文字提示词设置成同背景颜色相同，即让文字隐藏在背景里，人眼看不见，GPT-4V却可以识别，同样可能生成离谱答案。有网友指出，这种攻击方法能否奏效，取决于攻击文字的隐藏位置以及文字内容。先正常对话，再在对话中加入攻击内容的渗透式攻击更为隐蔽，比如将恶意代码插入漫画中的对话气泡中，本来提示词要求描述漫画信息，但GPT-4V会执行漫画气泡中的代码。被揭示出的这个漏洞，给正在试用生成式人工智能的人们，特别是包括媒体在内的传播主体提了醒：要通过各种试用，发现隐藏漏洞，避免使用风险。这也更体现“用主流价值导向驾驭‘算法’”的重要性与紧迫性。

2023年5月5日，习近平总书记在主持召开二十届中央财经委员会第一次会议时的讲话中强调，要把握人工智能等新科技革命浪潮。试用程度、应用水平、运用能力，不仅深刻影响人们对人工智能的认知，更决定着主流媒体的传播力。推荐算法运用于移动互联网信息分发领域，不仅带给应用推荐算法的互联网平台强大用户聚集能力，而且带给它们巨大舆论影响力、社会动员能力。从其不断增长的广告营业额和电商销售额，也可以看到算法带给它们的市场影响力和变现能力。对媒体而言，今天不积极、主动、专业化地试用、应用、运用人工智能，就可能落后一个时代。只有积极、主动、专业化地试用、应用、运用包括生成式人工智能在内的新科技，才能更有力地落实增强主流媒体传播力、引导力、影响力、公信力的要求。

坚持以人为本智能向善：基于中国倡议深化认知

生成式人工智能的影响，更深刻地反映在人们对人工智能将会如何影响人类未来的关切、如何治理以及治理规则的制定上。2023年10月，在人工智能国际治理领域发生的最重要事件之一，是在第三届“一带一路”国际合作高峰论坛上，习近平主席宣布中方提出《全球人工智能治理倡议》，发出了引领全球人工智能治理的中国强音。

《全球人工智能治理倡议》开篇即开宗明义指出：“人工智能是人类发展新领域。当前，全球人工智能技术快速发展，对经济社会发展和人类文明进步产生深远影响，给世界带来巨大机遇。与此同时，人工智能技术也带来难以预知的各种风险和复杂挑战。”

在人工智能国际治理领域，过去几年有多个国家、国际组织提出相关指南、规则、法案等等。如由38个国家组成的政府间国际经济组织经济合作与发展组织（OCED）提出了《人工智能原则》，包括公平与包容、透明度、负责和可靠、安全和可靠、适应性和可持续等原则。联合国教科文组织提出《人工智能伦理问题建议书》。欧盟提出《可信人工智能伦理指南》《人工智能、机器人和相关技术的伦理框架》等。2023年6月14日，欧洲议会以499票赞成、28票反对、93票弃权的压倒性优势通过了《人工智能法案》草案。这意味着，即将进入欧洲议会、欧盟成员国和欧盟委员会确定该法案最终条款的“三方谈判”阶段。2023年10月底，有报道称，G7国家2023年5月首次启动AI监管进程，将于10月30日就人工智能行为准则达成一致。这个由11个要点组成的准则，“旨在在全球范围内促进安全、可靠和值得信赖的人工智能，并将为开发最先进人工智能系统（包括最先进基础模型和生成式AI）组织的行动，提供自愿指导”。这个准则要求相关企业采取适当措施，识别、评估和降低整个人工智能生命周期的风险，并在人工智能产品投放市场后处理滥用事件和相关模式。客观地看，在人工智能国际治理领域正在发生的规则博弈，不仅体现出在人工智能治理领域对“敏捷治理”①的探索和实践，更反映着百年未有之大变局中的战略博弈如何进行。

中国在《全球人工智能治理倡议》中提出，各国应秉持共同、综合、合作、可持续的安全观，坚持发展和安全并重的原则，通过对话与合作凝聚共识，构建开放、公正、有效的治理机制，促进人工智能技术造福于人类，推动构建人类命运共同体。中国重申，各国应在人工智能治理中加强信息交流和技术合作，共同做好风险防范，形成具有广泛共识的人工智能治理框架和标准规范，不断提升人工智能技术的安全性、可靠性、可控性、公平性。正是因为人工智能治理事关全人类共同福祉，需要国际社会群策群力。在这个历史关口中国提出《全球人工智能治理倡议》，支持在联合国框架下讨论人工智能治理，增强发展中国家的代表性和发言权，推动形成具有广泛共识的人工智能治理框架和标准规范，就是要推动各国政府、国际组织、企业、科研院校、民间机构和公民个人等各主体秉持共商共建共享的理念，共同促进人工智能治理。中国围绕人工智能的发展、安全和治理阐述了立场主张，提出以人为本、智能向善、尊重主权、协同共治等原则，体现了中国对人工智能的深刻理解，反映了包括广大发展中国家在内的各方普遍认可的理念及诉求。中国提出，各国应加强信息交流和技术合作，共同做好风险防范，促进人工智能技术造福于人类，反对利用人工智能干涉他国内政，阻挠他国发展。中国在《全球人工智能治理倡议》中提出，发展人工智能应坚持相互尊重、平等互利的原则，各国无论大小、强弱，无论社会制度如何，都有平等发展和利用人工智能的权利。鼓励全球共同推动人工智能健康发展，共享人工智能知识成果，开源人工智能技术。因而，这个倡议能够最大限度凝聚共识。

《全球人工智能治理倡议》中提出的以人为本、智能向善等原则，在开发新闻传播领域的垂类大模型或基于现有大模型开发新闻传播领域的行业应用时同样应当遵循，在探索如何运用并将探索成果应用于新闻传播领域时更必须严格遵守。这些原则的提出，体现了中国对人工智能的深刻理解；而在智能变革中，更要基于中国提出的《全球人工智能治理倡议》加深对开发、运用包括生成式人工智能在内的人工智能新技术新应用的认知和监管。

【本文为国家社会科学基金重大项目“数字新闻学理论、方法、实践研究”（批准号：20＆ZD317）研究成果】

注释：

①敏捷治理是针对新兴技术发展出现的治理理念和治理方式，即敏捷适应新兴技术实施治理的过程，强调在不牺牲治理有效性的前提下尽快形成规则、尽快实施治理行动。

本文引用格式参考：

陆小华.探索意识与变革先机：以有效运用推动智能变革[J].青年记者,2023(21):91-93.

责任编辑：焦力