龙头三天两板！ChatGPT是如何获得理解力的？前景又如何？-梦马网络

《科创板日报》12月7日讯（编辑宋子乔） 能够“理解”输入信息的含义并输出内容，这类ai模型，在一定程度上拥有和人脑同样的能力——创造力。

近期大火的aigc（ai-generated content）和chatgpt都属于这类模型，即生成式ai。从广义上看，chatgpt是文字模态的aigc应用，负责生成自然语言，能够和使用者进行问答式对话。

其他形式还包括ai写诗、ai作曲、ai绘画、ai换脸……甚至有人认为，游戏中导入图片生成模型的“捏脸系统”都是aigc。相关热门应用也层出不穷，包括stable diffusion、qq小世界ai画匠/异次元的我、盗梦师、玩句等。

其中，chatgpt被称为ai里程碑式应用，它是明星公司open ai在2020年推出的自然语言生成式模型——gpt 3的衍生产品。此前也不是没有这类应用，ai客服、聊天机器人、语音工作助手、小说衍生器等都属于此类。

但chatgpt的智能化远远超出了这些“前辈”。与此前的模型相比，chatgpt亮点主要包括：

（1）新增代码理解和生成能力，对输入的理解能力和包容度高，能在绝大部分知识领域给出专业回答。

（2）加入道德原则。即chatgpt能够识别恶意信息，识别后拒绝给出有效回答。

（3）支持连续对话。chatgpt具有记忆能力，提高了模型的交互体验。

上线5天，chatgpt的用户突破100万。连特斯拉创始人马斯克也称：“许多人陷入了该死的疯狂chatgpt循环中。”

那么，作为生成式ai的代表，chatgpt是如何获得理解力的呢？

这一过程离不开大模型、大数据、大算力。整体技术路线上，chatgpt在效果强大的gpt 3.5大规模语言模型（llm，large language model）基础上，引入“人工标注数据+强化学习”来不断训练语言模型，主要目的是让gpt模型学会理解人类的命令指令的含义。

简单来说，就是基于优秀的机器学习算法和强劲的算力，通过海量的数据训练，让ai学会“思考”。open ai在2020年从微软取得gpt 3的独家授权后，一直在azure ai超算基础设施（由v100gpu组成的高带宽集群）上训练该模型，主要使用的公共爬虫数据集有着超过万亿单词的人类语言数据集。

国盛证券进一步认为，生成算法、nlp（自然语言处理）与算力决定aigc能否运行，而高质量的数据集决定了aigc质量与商业模式。相关公司包括：

另外，ai需要利用大量的标注语料进行训练和学习，标注数据的数量和质量对于模型的输出结果至关重要，数据标注/ ai训练数据因此也被视作增量需求。

汉王科技的自由书写文稿识别技术即依托于海量数据训练，本周一至今，该股三天内收获两个涨停板（分别为12月5日、12月7日）。

汉王科技k线图

a股公司中，从事数据训练业务的还有海天瑞声、四维图新等。在a股公司互动易上，已有投资者向ai 训练数据提供商海天瑞声提问：chatgpt方面应用方向？是否为人工智能+训练数据业务？

不过，海天瑞声的回复并没有提及chatgpt，仅表示将持续关注大模型领域新趋势，并根据客户的需求变化，适时推进公司产品创新、技术创新，满足更多客户、更新领域的ai训练数据需求。

▍下一目标：大规模商业化

对于这些ai工具的创造者们来说，下一步要考虑的是大规模商业化。

从gpt进化到gpt 3的过程相当烧钱——参数量从1.17亿增加到1750亿，预训练数据量从5gb增加到45tb，其中gpt 3训练一次的费用是460万美元，总训练成本达1200万美。高额投入使得b端变现更具可行性。

如今很多c端应用均为免费版，国泰君安表示，当前ai绘画的用户付费意愿不强，60%的用户从未在ai绘画相关方面付费，在c端付费形式刺激度较低的情况下，未来b端或将成为ai绘画软件的核心客户。

并非没有愿意掏钱的消费者。chatgpt不限于普通聊天，还可解决具体难题，比如协助写代码等，部分用户在社交媒体上表达了对chatgpt的付费意愿，ai绘画小程序“盗梦师”从10月1号开始商业化后，已经有很多用户付费，该产品负责人表示，目前次日留存率大概40%，七日留存率接近30%。

另外，版权问题是生成式ai绕不开的一道坎，绝大多数原创作品的版权拥有者会介意ai提取自身作品的部分元素。

龙头三天两板！ChatGPT是如何获得理解力的？前景又如何？

相关推荐

热门标签

随机推荐

切换注册登录

切换登录注册