漫谈人工智能

今年春节前夕,我国的DeepSeek公司推出的开源人工智能模型如平地一声惊雷,引发了整个世界的高度关注与积极评价。春节晚会上,宇树科技公司的机器人惊艳亮相,跳着秧歌舞展目前亿万观众眼前。春节过后,人工智能、人形机器人等话题依然热度不减。三月结束的全国人大会议上,人工智能更是被写入了政府工作报告。许多人感概,2025年是人类迈向AI社会的元年。也有专家说,AI技术的广泛应用将开启人类第四次工业革命的帷幕。本文将从五个话题谈谈对于人工智能的认识与见解。

第一个话题:什么是人工智能。

要搞清人工智能,必须先了解智能这个概念。国内权威辞典——《现代汉语辞典》对智能的解释是智慧和能力。我们再往上追溯,继续了解什么叫智慧及能力。人类社会对这两个概念有许多相近或类似的解释。智慧在一般情况下特指人的智力。智力则是指高等生命体的精神层面的能力,列如对客观世界的感知互动的能力等。而人类的智力是人类的认识、理解客观事物并运用知识、经验等解决问题的能力,包括理解、判断、记忆、思考、语言、学习、肢体与大脑的协同性等多个方面。能力是指个体在完成某项任务或目标时体现出的综合素质。综合上面解释,我们清楚的了解到智能是人类及高等生命体专属名词。在多数语境中,智能专指人类的智能。到这里,我们可以推导出所谓的人工智能,就是人类用科技手段或方法在人类以外的世界创造的一个客观存在,该客观存在展现出与人类(高等生命体)智能近似或等效的能力。

解决了概念的问题,再谈谈人工智能的特征。我们先了解智能的特征。本文认为智能有四性,传承性、成长性、互动性和叠加性。

所谓传承性,就是说生命体的智能源自繁殖该生命体的上一代生命体的遗传基因。俗话说,脑瓜子是父母给的,就是这个道理。智能从来就不是无根之木,无源之水。从人类历史看,控制影响智能的遗传基因在数百万年间通过男女之间的繁衍活动从而在数以万代,数以亿计的个体中不断流传、扩散开来。在这一过程中,基因常常出现随机性的重组或变异,这就造成了人类个体之间智能的先天差异。因此智能的传承性不是原样复制,而是容许微小差异的传承。这就与临摹字画一样,在追求形似中坚守个人风格。

所谓成长性,就是说智能会跟随生命体的成长而不断变化发展,并非一成不变的状态。这个很好理解。一个婴儿的智能与一二十岁的大学生不能等量齐观。需要注意的是,成长性并不意味着智能发展的曲线永远向上,身心的变化、机体的衰老、情绪的波动、教育的失败、工作的挫折等外界因素都会影响智能的成长。列如部分怀孕期的女性会出现记忆力下滑的问题。又如,不少中年人的记忆力会比年轻时衰退,但因阅历增长其对复杂事物的推理能力反而可能不减反增。因此本文没有将增长性作为智能的特性。

所谓互动性,就是说智能不是隔绝在大脑里的内循环活动,他需要通过生命体的感官系统与客观世界保持着互动交流。剥夺交互性的智能,就会像没有续添柴火的炉子里的火焰,最后走向熄灭。举个例子,躺在重症监护室里的植物人,由于其感官系统与大脑的链接中断,脑中的智能就会衰退,甚至退回到婴儿时的水平。另一方面,互动性令人类感知和检验智能变成可能。有句俗话不开口就不知道是不是哑巴,说的就是只有互动才能令智能这个抽象概念转化成为可以度量的指标。最后互动性是成长性的前提条件。我们常说脑子越用越灵,就指出了智能在大脑与外界互动中逐步提高的朴素道理。

所谓叠加性(复合性)。就是说不同类别的智能没有隔离带,他们是以叠加状态指挥与控制生命体与外界建立联系,向外界输出信息。这个特性听上去有些绕口,但实际上也不难理解。举个例子,一个小孩看到超市的苹果,就跟身边的家长提出想吃苹果的诉求。他在这件事里就动用了他的视觉、味觉记忆力、语言表达力、逻辑关联能力(也许还不止这些)。小孩看到苹果的一瞬间,就会从他的视觉、味觉记忆中调取对苹果形象的记忆,确认眼前的物体就是苹果,同时调动逻辑关联力将眼前物体的概念指向苹果这个词语,最后通过语言表达力将苹果从口中说出。

目前我们再看看现阶段的人工智能是否达到四性。从传承性看,人工智能是高阶版本的电子计算机,内核模型的物理载体及工作平台是算力芯片及存储设备。如果没有人类预设或即时输入的指令以及通讯接口的通联,人工智能就像困锁在牢房内的囚徒无法从一台设备迁移到另一台设备。如前所述,基因的传承是与变异相伴的,而人工智能的复制在没有人为修改的情况下只能是原本百分百的克隆。

从成长性看,人工智能若没有人类工程师在后端不断改善与训练,其智能等级将维持恒定。虽然强化学习机制令人工智能初步具备自主学习改善的功能,但远达不到人类自主意识那样的深入及长久。智能成长性的根基在于生命体对外部信息自主实施获得、提取、消化等行为,而非人工智能那样等待人类的投喂。

从互动性看,人工智能被人类创造并服务于人类,与人类形成天然的互动关系。此外人工智能在执行一些复杂任务时,也可能与其他客体建立双向互动联系。如前所述,生命体的智能需要在与外界互动中得以巩固与发展,遵循用进废退的自然规律。与之相比,人工智能即便因某些因素断开了与外界的链接,也不会衰退。用通俗的的说,就算电子计算机关了机断了网,安装在该机上的智能模型也不会降级。

从叠加性看,面对复杂任务,人工智能需要调用不同种类的智能技术,而生命体则需要多个子类智能协同起效。因此人工智能与生命体智能在叠加性上比较近似。但智能的叠加性意味着生命体不同子类的智能可以在同一时间内碰撞从而产生思维的火花。人工智能调用不同种类的人工智能技术则仍需要建立逻辑次序,只是因巨大的算力和高效的算法将这个反应先后的时间控制在难以察觉的尺度。

第二个话题:人工智能的发展历史及技术演进路线

众所周知,人工智能是电子计算机发展到必定阶段的产物,因此谈人工智能的发展史就不能撇开电子计算机发展史。上世纪四十年代人类发明了电子计算机。彼时电子计算机庞大得要用十几个房间才能装下,人类就梦想能把人类的思维模式植入计算机的内核,将电子计算机的算力对标对表人类的智力。当时硬件技术比较简陋,不足以支持梦想的实现,于是人类第一开始了对人工智能理论的研究。

1950年,英国著名计算机科学家图灵在一篇论文中提出了“图灵测试”的开创性概念。图灵测试的目标是判断一个机器是否具有智能。此后图灵测试的基本方法与实践手段在图灵本人及其他科学家的接续研究下进一步得到丰富与拓展,最终成为世界检验人工智能的主流理论。图灵测试的伟大之处还在于挑战了意识为人类独有这一哲学论断,在当时的哲学界带来不小的震动。在图灵等科学家的推动下,1956年达特茅斯会议正式提出了人工智能的概念。

上世纪五十年代,一些非计算机领域的科学家也从其他角度研究智能模拟理论。他们意识到除了高度抽象的思考能力外,人类神经系统对五官、肌肉和骨骼的控制能力可以归入更广义的智能。换而言之,如果我们将内向化的思维能力定义为智能的高级阶段,那么外相化的运动控制能力就属于智能的低阶阶段。上述专家中最著名的是我国导弹之父钱学森。他在1954年编著的《工程控制论》,奠定了机器自动化的理论基石,直接影响了机器人产业的后续发展。从计算机学科最严格的定义上看,自动化不能算是智能化。但随着时代的发展,自动化与智能化的理论逐步交融,技术相互渗透。本文开头提到的宇树科技的人形机器人便是将自动化技术和智能化技术集于一身。

本文第一个话题说过,人工智能是通过技术手段对人类智能进行等效或近似的模拟和仿真,因此搞清楚人类智能形成及对外作用的机理对于人工智能的发展显得至关重大。理论上说,通过特定的数学工具将人类智能的底层机理转换成计算机可执行的二进制编码是人工智能最为可行的实现路径。而早在计算机发明之前,生命科学领域的专家就已开始探究人类智能的产生机制。20世纪初,西班牙神经解剖学家卡哈尔提出了著名的神经元学说。此后几十年,神经元学说在科学家的接续研究下日臻完善,并成为解释人类智能底层机理的关键性理论。

这些诞生于生命科学领域的观点被计算机研究者吸收借鉴,并发展成为了人工神经网络理论,学界一般认为,沃伦·麦卡洛克和沃尔特·皮茨于1943年率先提出人工神经网络概念及相关理论。随着更多专家加入研究,人工神经网络理论逐步发展成为人工智能技术的核心理论。2025年诺贝尔物理学奖获得者辛顿便是该理论的重大贡献者。

历史总是以螺旋形式向前推进。50年代末至80年代初的二十多年,计算机硬件技术虽然加速发展,但芯片算力远未达到可以模拟人类脑力的水平,这使得超前的人工智能理论只能止步在论文交流、思想交锋的阶段。人们在研究大脑过程中也认识到智能生成机制的复杂性远超预期。当时科学家及工程师们便将研究方向聚焦在了研发单一类型的人工智能技术,这就像农村包围城市的策略,从外围入局,逐步逼近核心。由于人类的视觉和听觉负责接受处理百分之九十的外界信息,因此这一阶段,在计算机上模拟人类的视觉、听觉(含发声)能力成为人工智能的热门研究领域。发展到今天,计算机视觉及听觉技术已成为应用最广泛的人工智能技术,涵盖了无人驾驶、语音图像合成、个人身份信息(指纹、脸部、声音)识别、图片提取文字等多个细分领域。

上世纪90年代,芯片算力加速提升,巨型计算机技术日益成熟。从硬件条件上看,计算机模拟人类部分深度思考能力不再是遥不可及,于是计算机专家学者重新开启了对通用人工智能的研究。1997年,加载了人工智能技术的电脑“深蓝”在人机对弈中一举战胜了人类世界冠军。这是人工智能领域的重大事件,它标志着人类在创造具有逻辑思考能力的人工智能的道路上实现了历史性突破。

进入二十一世纪以来,信息产业保持加速发展态势。高速无线通讯网络、云计算、智能手机、高清数字摄像、大数据分析等高新技术聚焦式爆发,并快速推广应用。这些技术直接或间接促进了人工智能的发展。从人工智能自身看,基础理论、软件技术、硬件技术三个方向同时迎来了飞越式突破。基础理论上,2017年美国谷歌公司研究人员在一篇名为《Attention is All You Need》的论文提出了名为Transformer的人工智能深度学习架构。这个开创性构想为智能大模型的构建奠定了坚实的理论基础。软件技术上,2022年美国OPENAI公司发布了首个人工智能语言大模型,轰动全世界,此后该公司又陆续发布了多模态模型、强推理模型等具有特定功能的智能大模型。我国互联网及计算机行业紧盯美国同业动态,加大资金人力投入,迅速开展模型自研工作。DeepSeek模型的横空出世一举打破了美方的技术封锁。而今年以来,DeepSeek、阿里等国内公司将自研模型开源,极大推动人工智能技术在世界各国的普及和推广。硬件技术方面,以英伟达、华为为代表的人工智能硬件开发企业,相继研发出人工智能算力芯片,初步解决人工智能算力不足的矛盾,也为大模型从构想走向现实提供了可靠载体和稳定环境。

第三个话题:人工智能的发展形势以及给人类社会带来的影响

关于人工智能的发展形势,我们可以用一句话来概况,势头可喜,挑战不少,未来可期。

势头可喜体目前下面几个方面。一是政界商界极度重点关注。美国和我国是人工智能产业最发达的两个国家。两国政界商界高层都不遗余力的对人工智能给予最大的支持。网络有人甚至将人工智能领域形容为事关两国国运的新战场。先看美国,近年来该国政府出台多部法案,推进本国人工智能产业规范健康发展。新上台的美国总统更加激进,到任第一天就宣布了名为“星际之门”的人工智能基础设施投资计划。如果该项计划得以顺利执行,美国人工智能产业将迎来前所未有的发展机遇。世界知名风险投资基金及跨国财团给美国人工智能产业提供海量资金支持。美国主要科技巨头纷纷入场参与人工智能技术研发。再看我国,人工智能写入政府工作报告,将成为今后一个时期各级政府重点支持产业。前两年全国各地推动建设的算力中心项目以及东数西算工程初见成效。上述前期落成项目为人工智能的大规模应用提供了富足的算力支持。今年以来,全国多个省市政府将人工智能模型嵌入内部信息系统。

二是应用场景不断丰富。本文在第二个话题上已经谈到,计算机视觉(听觉)技术得到了比较广泛的应用,列如刷脸进车站机场、刷脸在线办理政务事项、指纹打卡、声控家电、虚拟客服、语音导航等等,这里就不深入展开了。本文想重点说说大模型的主要应用场景,这是近期社会热议话题。第一,文字编辑。这是语言模型的专长与优势。也是大模型高频使用的场景。具体来看包括审查合同、制作文书、创作文学作品、撰写新闻稿件等等场合。相关媒体报道许多,本文就不再举例了。第二,虚构视频音频图像文件生成。这是多模态模型的特色功能。常见的场景有制作自媒体短视频、影视剧特技效果、图片或视频广告、根据照片生成虚构动态视频等。这里举个例子。我们可以去抖音或B站搜索一个名叫《兴安岭诡事》短剧。该剧于2025年2月19日首播,是我国首部纯AIGC(AI-Generated Content)技术制作并上线播出的网剧。第三,教育辅导。这是主要利用了语言模型和强推理模型的功能,主要用在制作考题、辅导解题、自动化评卷等场景。目前手机商店已上线了几个AI教辅软件,列如抖音公司的豆包爱学。家里有孩子的可以试试效果。第四,生活助手。列如提供旅行方案、分析家庭收支状况、购买票券等。相关例子许多。我们可以自行体验。

三是社会影响逐步扩大。人工智能对社会的影响是个循序渐进的过程。大模型走进寻常百姓家也不到一年的时间,其给社会造成的影响尚需时日观察,但通过媒体报道,我们可以观察到几个主要方向。第一是提升了工作学习效率。这点在行政办公领域表现尤为明显。大语言模型令起草格式文书、制作PPT、答复政务咨询的速度及质量显著提高。此外,人工智能可以强化学习的互动效果,让学生在交流中高效掌握知识本领。相关新闻报道许多,网上搜索便知。其次是提高了生活品质。人工智能技术将人们从重复性、程式化的脑力劳动中解脱出来,将会有更多时间去享受生活。近日有媒体报道一些民营企业在引入AI办公后,强制要求员工按点下班。高度内卷的职场环境有望因人工智能的应用而得到改善。第三,推进了国家治理能力现代化进程。列如,政府相关部门可使用人工智能技术对海量社会运行数据进行全方位深度分析,有助于提高决策部署的科学性。又如,人工智能技术引入公安监察审计等政府监管工作,有助于快速锁定问题线索,提升监管工作效率。本文举一个广东省的例子。2024年广东省纪委监委在查办广东交通厅原一级巡视员章权违法违纪案件,采用人工智能技术(机器学习分析技术)发现其经手的某个交通工程项目中混凝土标号变更频率超出合理值四倍多。又如近期美国知名企业家马斯克运用人工智能技术在美国政府系统掀起一场声势浩大的审计风暴。

说完良好的发展势头,接下来让我们看看人工智能给社会带来的挑战。本文认为,主要有以下几点需要重点关注。一是对就业岗位的冲击。语言类大模型已经开始侵蚀以产出文字与语言(编写程序代码本质也是文字工作)为谋生手段的办公室工作人员的职位。有媒体报道。2024年以来,互联网大厂因引入AI编程技术,普遍缩减了新入职员工人数。一些国际会议开始探索使用人工智能翻译工具取代同声传译人员。随着生成虚构视频图片的多模态模型的日益成熟,绘图、影视领域的生产企业也开始压降工作团队规模。社会上所谓的三十五岁危机有加剧扩散的苗头。二是对教育体系的冲击。大模型对语言文字类工作岗位的替代效应直接导致国内高校压缩文科生招生规模。有新闻报道,2024年全国高校撤销了1670个专业,其中大部分是哲学社会学科专业。今后高考招生留给文科生的选择空间将越来越小。三是对法治环境的冲击。人工智能技术中虚构视频生成、语音合成技术被不法之徒用于电信、网络诈骗活动。一些使用人工智能技术对影视剧人物进行恶搞的短视频在网络上流转,涉嫌侵犯个人名誉权及著作权。有的专业领域出现了用人工智能软件代写论文的问题,涉嫌学术造假。当然,人工智能引发的社会问题远不止于此,本文就不详细展开了。

话题的最后,我们再展望一下人工智能的未来。本文认为,只要运用有度,管控有序,人工智能是能够给未来的人类带来美好的生活。从技术变革看,人工智能与量子计算结合是大势所趋。未来人工智能的算力水平有望提升到一个全新的历史高度,通用人工智能(全面模拟人类智能)有望成为现实。从物理载体看,人工智能将深度接入机器人(含机器动物)及交通工具的控制系统,趋近人类外观和思维模式的机器人将有可能成为家庭、看护机构的常备工具,替代人类完成家务活动。汽车、飞机、船舶等交通载具将具备最高等级的无人驾驶功能。从应用场景来看。人工智能赋能各种生产设施,将令完全意义的无人化工厂变成现实。虚拟老师、医生和智能化医疗设备将彻底推动公共服务实现均等化。科研活动有了人工智能的助力,将在生物医药、地球科学等多个领域实现突破。人类将进入全面自由发展的阶段。本文预计这一变化过程将从目前开始,一直持续到本世纪末。

第四个话题:现阶段人工智能的科学原理以及固有缺陷

这个话题相当硬核。我们仔细梳理人工智能涉及的科学,可以清晰的看到数学居于核心位置。客观的讲,如果没有数学方法的优化创新,就不可能有人工智能今天的质变。因此本文要讲的人工智能的科学原理将聚焦在数学领域。我们都深知数学的深奥,因此本文的讲解将以大家比较关心的几个问题为切入口,用通俗的语言来解释问题背后的数学原理。

第一个问题:人工智能如何“理解”字词的含义。我们可以用“语言坐标”来理解这个问题。想象一下每个字词就是天空中的一颗星星,性质类似的词语的坐标就会靠近,就像聚集在同一片星域。列如“猫”和“狗”就会比“汽车”离得更近,而“快乐”和“开心”几乎是出双入对。计算机通过三个数学步骤达到让人工智能实现“理解”词义的效果。第一是建立词语档案。通过扫描海量(数十亿句)人类对话,记录下每个词的“邻居圈”。列如”吃”常和”饭””餐厅””筷子”结伴出现,”飞翔”总与”鸟儿””天空””翅膀”为伍。第二步,绘制坐标地图。给每个词分配300维坐标(类似GPS的经度纬度,但要复杂300倍)。通过特殊数学公式(如Word2Vec),调整这些坐标,让常结伴的词坐标接近。就像用磁铁把相关词语吸引到相邻位置。第三步,解锁语义魔法:当词语坐标形成稳定结构后,神奇的事情发生了——词语间可以算术运算!例如:国王坐标 – 男性坐标 + 女性坐标 ≈ 女王坐标。巴黎坐标 – 法国坐标 + 中国坐标 ≈ 北京坐标。这种数学结构的本质,是用数字捕捉人类语言中隐含的规律:词语含义=使用场景的统计特征。就像通过观察一个人的朋友圈能推测其性格,计算机通过统计词语的”邻居圈”来理解其含义。这个系统虽然不真正理解语义,但通过海量数据建立的坐标网络,已经能处理90%的语言任务。就像不懂物理的飞鸟也能精准滑翔,人工智能通过数学建模复现了人类语言的内在规律。

第二个问题,人工智能如何识别数码图片或现实生活中的文字。如果说第一个问题解决的是释义,那么第二个问题解决的是认字。没有将文字形态从纷乱的图像中识别出来,就谈不上后续对文字含义的理解了。我们可以把图像识别想象成搭建”特征拼图”的过程。AI通过三个层次逐步拼出答案:第一层:像素扫描仪。计算机把图片切成数百万个小格子(像素),每个格子记录明暗数值。就像用放大镜观察十字绣,先看到密密麻麻的色块,这时还看不出任何图案。第二层:特征捕手。AI带着数千种特征滤网扫描图片:初级滤网捕捉基础线条:横线滤网能识别”E”的横杠,斜线滤网能发现”Z”的折角;中级滤网组合线条特征:圆形滤网拼出”O”,十字滤网构成”十”;高级滤网识别完整部件:发现”口”字框、”三点水”等偏旁部首。第三层:文字侦探。将捕捉到的特征送入推理网络,像侦探查案般层层比对:1. 根据部件组合推测可能文字(看到”三点水”+”工”≈”江”);2. 参考上下文修正判断(”青口江”中,”口”更可能是”日”的连笔);3. 综合所有线索投票表决,输出概率最高的文字。这一过程中使用了几种核心数学工具:一是卷积运算:用数字滤网(卷积核)扫描图片,像用透明描红纸匹配图案;二是反向传播:每次识别错误就逆向调整滤网参数,如同老师批改作业;三是概率建模:每个判断都附带置信度,当”木”和”术”特征类似时,结合相邻字提高准确率。这套系统通过海量试错训练,最终能让AI即使面对潦草字迹、模糊照片,也能通过特征组合推理出正确文字。本质是把视觉信息转化为数学特征的概率游戏。

第三个问题,人工智能如何回答人类的问题。我们可以把AI问答系统想象成一个运转精密的知识加工厂,整个过程像制作定制蛋糕。第一步:问题解码(文字转数学配方)。 AI把问题拆解成”意义坐标”,列如”北京天气”会被转译成[首都编码+气象编码+时间编码]。就像顾客说”想要草莓味”,糕点师立即在脑中调出对应的原料配比。第二步:知识捕捞(在记忆海洋撒网)。带着问题坐标,AI在训练时记住的万亿字资料中快速打捞:先用注意力渔网捕捉关键信息(重点捕捞”北京””气温””降水概率”)。再用关联度筛子过滤杂质(自动忽略”北京烤鸭”的历史资料)。最后用概率浮标标记可信信息(气象局数据权重>论坛讨论)。第三步:答案塑形(语言乐高拼接)。将捕捞到的信息块组装成人类能理解的句子:1. 语法模具确保句子结构正确(主谓宾顺序,时态搭配);2. 连贯黏合剂连接逻辑关系(”虽然今天晴朗,但明天气温将下降”)3. 人性化涂层添加礼貌用语(”您好!根据天气预报显示…”)这一过程中使用了几种核心数学工具:一是Transformer架构:像千层蛋糕般逐层提取语义,每层专注不同抽象级别的理解;二是概率预测:每个词语选择都像轮盘赌,但受过专业训练的轮盘会让”摄氏度”比”恐龙”的命中率高10万倍;三是对抗训练:通过”提问精灵”和”纠错恶魔”的对抗博弈,持续优化回答质量。这套系统本质是建立词语间的概率桥梁——当你说”饿”,AI根据数十亿次”饿”后接”餐馆””外卖””吃饭”的统计规律,自动铺设通向最可能答案的路径。就像不会真正思考的自动导航,却能靠着海量路线图带你抵达目的地。

前面说了人工智能许多的强劲之处,但事物总是矛盾的共生体,人工智能同样存在缺陷与不足。我们可以把现阶段的AI想象成天赋异禀但心智不全的”超级学童”,存在五个根本性短板:一是只会组合拼接文字,缺少真情实感。AI的回答本质是将训练时”吃”过的数据分解组合,就像学舌的鹦鹉。AI没有人类那样的对事情的亲历感受,就不会输出有感而发的绝句和拍案叫绝的奇思妙想。那些看似精彩绝伦的句子不过是排列组合的优化答案。二是只会没有条件的接纳训练数据,没有是非判断。AI的认知水平完全取决于投喂的数据。人类虽然也是通过外部教育获取知识,但在道德的规范、法律的约束、逻辑的推理下,会渐渐辨别出哪些是客观的真理,哪些是人为的谬误。而AI从来都是照单全收。后端低质混乱的训练语料,直接导致前端回答时可能胡编乱造,造成所谓的人工智能幻觉。三是只会应答人类的诉求,做不到临机决断。面对试卷题库游刃有余,但遇到现实突发状况就死机。AI可以分析十万张火灾照片,但无法取代消防员冲进真实火场做临场判断。四是以完成任务为目的,没有道德立场。AI分不清善恶边界,容易沦为”工具恶魔”。在人类的驱动下,它能写出激化种族仇恨的演讲稿,生成夸大其词的医疗广告,篡改他人的原始创作。五是回答的问题转瞬就忘,没有长期记忆。人类可以对几十年前的往事侃侃而谈,而AI每次开启新的对话,则像初次相遇。告知AI你对芒果过敏,十分钟后它可能推荐芒果布丁食谱。这不是健忘,而是根本不会形成长期记忆。

这些缺陷的根源,在于人工智能的本质是”概率编织机”而非”思维生命体”。它像用乐高积木搭建的埃菲尔铁塔模型,虽然能精准复现外形,但敲开任何一块积木,里面都没有钢铁骨架支撑。不过这些短板正在被攻克,就像人类的飞行器从风筝演进到宇宙飞船,AI也终将跨越当前的认知鸿沟。

第五个话题:国内人工智能应用程序的基本功能与使用方法

本文将分两个部分对这个话题进行讲解。第一部分是国内主要人工智能应用程序的基本情况,了解一下网络上有哪些人工智能软件工具可供我们使用,它们各自有哪些功能,可以解决什么问题。第二部分是DeepSeek大模型的使用办法。本文所介绍的内容也只是走马观花。要想人工智能成为我们工作学习生活的利器,还需我们持续学习、常常操作。

下面先说说基本情况。人工智能技术在许多场景下得到深度应用,因此包含人工智能技术的应用程序可谓名目繁多。就连我们常用的导航软件也使用人工智能领域的语音合成技术。今天我想跟大家讲的是应用了大模型技术的应用程序。大模型应用程序是人们一般谈论并一般指向的人工智能工具。国内社会上首个公开报道并在互联网上投入应用的大模型是百度公司的文心大模型,加载该模型的应用程序是名称为文心一言(目前叫文小言)的手机APP。由于部分大模型应用程序除了提供手机APP版本,还提供网页(浏览器)版本。为简化叙述,下面一律将大模型应用程序简称为AI工具。

目前国内主流AI工具从研发企业看,大致可以分为两派。一派是互联网初创企业,另一派是大家耳熟能详的互联网大厂。互联网初创企业的代表首推DeepSeek公司。这家注册地在杭州的企业与同城的其他5家科创企业并称为“杭州六小龙”。公司创始人梁文锋,今年刚满四十周岁,可谓中国民营企业家的新贵。此外,同为初创企业的北京月之暗面公司研发的Kimi也是一款功能强劲的工具。公司创始人杨植麟与梁文锋被网友封号AI三杰,剩下一人则是在美国教书的何恺明。关于三人的过往经历,媒体多有报道,本文不再赘述。互联网大厂的AI工具中,许多人都用过字节跳动公司的豆包,该款AI工具功能较多,可生文生图生音乐。

从工具的功能来看,也可分为两派。一派是单功能类工具,专攻精炼一个功能,另一派是多功能类工具。单功能类工具首推的还是DeepSeek公司推出的AI工具(以下简称DeepSeek)。Deepseek的特点就是基座模型为语言类大模型,不具备图片视频生成功能。DeepSeek专攻文字对话,并做到了目前国内AI工具的最顶级水准。DeepSeek输出的文字质量极高,基本没有被人诟病的AI味,并且文字风格可根据使用人的要求灵活转换,既可提供逻辑周密、用词专业的论文提纲,也可创作情节曲折、文采飞扬的文学作品。DeepSeek最惊艳的表现是其古典诗词的生成能力。我们在自媒体平台随意一搜便可查到DeepSeek编写的古典诗词,质量之高直追唐宋名家。

再看多功能类工具。此类工具的基座模型是多模态模型或是多模态模型与语言类大模型的结合体。刚才提到的豆包、kimi以及阿里公司的通义千问都属于多功能类工具,具备文字对话、图片生成、不同类文字互译等功能,文字输出质量虽比DeepSeek逊色,但足可满足日常需要。此外,字节跳动公司推出的即梦、快手公司推出的可灵是国内短视频生成及编辑类AI工具的佼佼者,他们的基座模型是与Sora类似的多模态模型。

讲完基本情况,再重点谈谈今年春节一举成名的DeepSeek模型。由于DeepSeek公司对公众开放大模型源代码,因此今天的DeepSeek除了有官方版本外,其基座模型还被嵌入其他公司的AI工具中。列如我们熟悉的腾讯公司便把DeepSeek大模型接入该公司的元宝APP里。目前元宝APP采取的是腾讯自研的混元大模型与DeepSeek大模型切换运行的模式。这些第三方公司一般会根据公司的实际情况对DeepSeek模型的参数进行了调节,并对接公司自营业务。列如元宝APP里的DeepSeek模式开启联网搜索时,就能查询微信公众号相关文章。而官方版本的DeepSeek则无此功能。我用过DeepSeek官方APP和元宝APP里的DeepSeek模式,感觉官方APP的文字输出质量要高于元宝的DeepSeek模式,但答复规则要比元宝严格,会拒绝答复某些敏感性问题。

本文重点讲解DeepSeek官方推出的APP的使用方法。其他第三方DeepSeek工具的使用方法与官方APP大同小异。当我们用手机或微信号注册账号后,会看到一个类似聊天窗口的界面,用起来和微信聊天差不多。列如你想规划周末出游,可直接输入”周六带父母在北京一日游,推荐三个适合老年人的方案,每个方案包含景点、餐厅和交通方式”,DeepSeek就会像旅行社顾问一样给你出主意。

用好DeepSeek的关键就是输入准确清晰的提示词。关于提示词的写法,各大自媒体平台上,许多自媒博主通过短视频或文章都做了比较全面的讲解,本文就不一一列举了。本文认为,提示词的编写,主要需要包含几个要素。一是说明用户的身份及使用场景。列如,我要让DeepSeek输出一篇工作总结,就应该讲明我目前是在哪个行业或哪种性质的单位上班,更明确一点则可以简述自己的岗位职责。使用场景方面则应当提示DeepSeek这篇文稿是给何人使用及使用的场合,列如单位领导使用和普通干部使用就不一样。二是文种。文种决定了文稿的基本格式。所以我们在要求DeepSeek输出公文时,提示词里必须明确文种。三是语言风格。语言风格是对句式用词特点、逻辑关系、框架结构的描述。句式用词方面可以用“多用短句、少用长句、用词朴实、语言通俗、适当使用专业术语”这样的说明内容。逻辑关系方面可以用“段落之间用过渡句连接,按照总分关系排列全文结构”等内容。框架结构方面可以用“不要一级、二级标题,段首要有一句话作为全段的观点”等内容。如果没有具体要求,也可以用举例子的方法,列如可以说“语言风格要庄重严谨,可以借鉴历年政府工作报告”。四是字数。这点比较简单,用于控制输出文字的篇幅。

我们需要注意的是DeepSeek对免费账户的文字输出数量有限制,因此我们如果想得到长篇文稿,就要切分任务,通俗的说就是分步聊天。列如想辅助写毕业论文,不要一次性要求写完整篇,可以像导师带学生那样分阶段操作。先让模型帮忙列大纲,列如说”帮我拟定新能源汽车发展趋势分析的论文框架,包含五个章节”,得到结构后再逐个章节完善:”请扩展第三章技术突破部分,添加三个国内企业的案例”。用这个方法,就可以原需一周的资料收集工作缩短到三天完成。遇到需要修改的地方,可以直接说”第二个案例换成比亚迪的数据””把这段文字改得更口语化些”,就像和真人助手沟通一样方便。

除了单一的文字助手,DeepSeek还可以与其他AI工具协同完成生成图片、PPT、图表等任务。列如要做活动海报,可以先用DeepSeek生成宣传文案,然后把文字粘贴到作图工具里。反过来也可以把设计好的图片传给DeepSeek,让它帮忙想广告语。网上有许多应用案例,我们可以对照学习。总之,高手在民间,DeepSeek的用法会随着人们的研究变得越来越多。我们只要保持好奇心,主动尝试,积极思考,就必定会越用越好。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容