2023年4月的一天,印度的数字艺术家戈库尔·皮莱(Gokul Pillai),在社交网站上发布的“贫民窟的亿万富翁”的人工智能(AI)画作。特朗普、马斯克和比尔·盖茨等亿万富豪们变成了贫民窟居民,衣衫褴褛,蓬头垢面,与周围环境毫无违和感,看起来非常真实。戈库尔·皮莱是从电影《贫民窟的百万富翁》获得灵感,他用Midjourney工具制作了图像,并在Photoshop软件里进行调整,前后花了两天的时间。
这两年,逼真,真实,或者说像真的一样,成为了AI作画生图是否成功的一个重要标准。就像人会有记忆混乱和错觉的时候,人工智能生成图片时,想要一张爱因斯坦的,结果脸是濮存昕的,这就离了个大谱。
过去24个月大模型基本消除了幻觉,一个解决方案浮出水面
准确性是评估AI生成图像效果的首要标准。但人有错觉,AI也有幻觉。用一个开源模型生成北京天坛的图,游览过的人甚至古建筑专家看出了问题,原来真正的天坛是3层建筑,却生成了4层。
这种“一眼假”是怎么回事呢?在大模型进化过程中,人类世界很快解决了文生文的生成式人工智能迭代,但是文生图遇到了AI幻觉问题,生成的图片给人明显不够逼真的感觉。检索增强生成,也就是RAG(Retrieval-augmented Generation)技术,是业内解决大模型幻觉的一种有效方法,它是结合检索和生成的技术方法,可以提升生成内容的可靠性和准确性。
很多基于大语言模型的文生图系统,目前生成的图片还不够真实,甚至不符合逻辑。这很大程度上限制了多模态大模型的规模化应用。2024年年初,百度决定解决图像生成的幻觉问题,自研了文心iRAG技术。
文心iRAG技术作为解决方案浮出水面,百度还确实有一点优势。那就是百度搜索收录了海量特定事物的可信图片资源。大模型的生成能力与这个“外挂知识库”相结合,iRAG就可以做到在生成特定物品、特定人物以及特定人物与任意背景结合的图像时,提高生成图像的准确率,减少幻觉无限接近真实感。现在,中国有模型可以代表人工智能世界说,过去24个月大模型基本消除了幻觉。
文心iRAG,专为去AI味儿
在文心iRAG技术的支持下,大模型生成一套“让爱因斯坦环游世界”的图片,悉尼歌剧院、巨石阵、万里长城、鸟巢、南极……和爱因斯坦这个特定人物,生成融合的非常逼真。尽管鸟巢是爱因斯坦去世后才有的建筑,但是文心iRAG技术处理得没有违和感。
将百度搜索的亿级图片资源跟强大的基础模型能力相结合,生成各种超真实的图片,整体效果远远超过文生图的原生系统,去掉了那一股AI味儿。这里面就包括了特定人物精准生成的选项。用文心iRAG,生成一张奥黛丽赫本写书法的图,会发现连赫本身上的衣服都很中式,颜色与书法艺术、环境都很搭,简直就像真的一样。
2023年初,人们刚开始了解ChatGPT或者文心一言时,最大的担忧就是模型的幻觉,很多人无法相信AI给出的答案。现在这个问题已经基本得到解决。今天,跟文心大模型交流,有了iRA技术,可以很大程度或者基本相信它给出的答案。特别是生成式的图片,非常靠谱的满足了用户的文本需求,这是人类社会人工智能进化的一个巨大的标志。
“超级有用”的行业应用降本增效,解放人类生产力
随着iRA技术的日益成熟和稳定,AI生成图片的可用性大大提高,那么iRA技术的最大价值在哪里呢?答案清晰的:落地应用。在某个品牌宣传场景,以前拍一组海报动辄需要一二十万,甚至大几十万,但是现在使用iRA技术的大模型,创作的成本接近于零。广告行业、品牌传播、影视娱乐、公司文化……一系列的行业,会在iRA技术的加持下优化作品和提升效率。
如果要总结iRAG的优点,那就主要是四项:无幻觉、超真实、没成本,立等可取。印度的数字艺术家戈库尔·皮莱创作看起来逼真的AI画作需要两天,文心iRAG只需要几十秒。而在地球上,这才过去了18个月,人类让大模型技术再次进化。
在李彦宏看来,中国AI的发展特色是应用驱动。这也是中国与全球人工智能行业市场最明显的区别。中国市场上有数百种基础大模型,但人们更关心产品与市场的契合度(PMF),更关心哪些应用将从大模型中获益,许多初创公司都在研究如何运用大模型能力。
实用主义的视野下,这也是解放了人类生产力的iRA技术会产生的贡献。人类社会就是在一直进行降本增效的各种探索与创新,从未间断。iRA技术推动“超级有用”的行业应用出现,AI就会更充分更好的为人类所利用。这应该是未来世界科学技术的一条应用正道。