2025-11-20 06:03:51
合成软件分两大类,一类是生成语音的,比如把文章念出来变声音;另一类是生成图片或视频的,比如把文字转成卡通动画。这两类软件解决的问题不一样,一个让机器会说话,一个让机器会画画。
为什么这样分呢?因为这两类软件的技术原理和用户需求完全不同。语音合成主要依赖声学模型和发音参数,像微软Azure的语音合成服务就能把文字转成不同口音的语音,前年全球市场规模已达15亿元。而图像生成用的是扩散模型和风格迁移技术,比如Stable Diffusion能让用户输入“一只穿西装的熊猫”就能生成图片,这类软件用户增长率在2022到前年之间达到了120%。虽然两类都叫合成软件,但一个主要处理声音数据,一个处理视觉数据,就像手机里的计算器和小视频剪辑功能不能混为一谈一样。
本题链接: