这个博客已经好久没更新了,一来生活上的琐事比较繁忙,二来随着AI技术的革新,沉迷于AI的二次创作。不过现在好不容易终于有了点闲暇时间,会继续更新音声评测。不过在这之前,还是总结一下我发现可能会改变ACG领域的一些AI技术。(本篇文章多数为个人的一些浅见)
说起AI革新,2022年以来,有3个方向比较令人在意:AI绘图,AI语音识别,和AI文字生成
AI 绘图
先说AI绘图,一般来说AI绘图指的是利用人工智能技术来生成艺术图像的过程。它使用深度学习模型学习大量图像数据,然后利用这些数据生成新的图像。而对于我目前的研究,发现大致上绘图使用的都是Pre-train预训练好的模型,然后在其基础之上进行Fine-tune微调。
其中最有代表性的就是Stable-Diffusion (简称SD). Stable-Diffusion是一种用于生成高质量图像的生成模型。它利用扩散过程来平滑噪声图像,并逐渐增强图像的细节,从而生成逼真的图像。这种方法在处理高分辨率图像和动态图像时表现出色,已经被广泛应用于计算机视觉和计算机图形学领域。
其优点包含:
- 生成的图像质量高,细节丰富,视觉效果逼真。
- 支持生成高分辨率的图像,可以生成256×256、512×512甚至更大的图像。
- 生成的图像具有多样性,可以通过调整生成过程中的参数来获得不同的结果。
- Stable-Diffusion使用基于扩散过程的方法生成图像,相对于传统的生成模型,它在处理高分辨率和动态图像时表现更好。
并且其支持多种常见模型,包含:
- Gaussian Diffusion Process (GDP)模型,是最基础的模型,采用了随机噪声和扩散过程生成图像。
- Denoising Diffusion Probabilistic Models (DDPM)模型,在GDP模型的基础上引入了去噪过程,使得生成的图像更加平滑和真实。
- Score-Based Generative Modeling (SBGM)模型,采用可微分的评分函数来生成图像,可以更好地控制生成图像的质量和多样性。
- Diffusion Autoencoder (DAE)模型,结合了自编码器和扩散过程,可以在保持图像质量的同时,更好地保留图像的语义信息。
虽从学术领域来讲,这个技术已经不是新鲜事,但众多网友和爱好者不断完善,创建了许多许多免费的开源框架。例如https://github.com/AUTOMATIC1111/stable-diffusion-webui
玩家可以自己在本地或者云端搭建Stable Diffusion服务器,然后通过网页端进行AI模型调试于绘图。其中的效果在各大AI预训练模型上有显著应用。例如https://civitai.com/,AI绘图爱好者可以很容易找到自己喜欢的模型(.ckpt, .safetensors),然后安装在SD上进行绘图。
不过毕竟是深度学习模型,许多参数和模型内部原理属于(Black-box)黑匣子模型,所以很难直接解释原理。因此需要玩家不断通过给AI下达指令(Prompt)然后通过调参去生成对应图像。其中也不乏诞生出“Prompt Engineer”这样的新岗位,玩家不断修改对应正负提示词(Prompt Keywords)让AI产生自己想要的图片。所以很多人自称自己是“AI融合师”,“AI炼金术士”。
不过AI做图的几个难点在于:
1. 时间成本。调参经常花费大量时间,而AI生成的图片,往往不尽如人意(视角问题、错位、手指等),此类问题虽然可以通过调整Negative Prompt参数应对,但依然没有一个可以快捷高效的办法,一旦模型更换,对应的参数和关键词也要更换。
2. 金钱成本。深度学习(Deep Learning)部署服务器对显卡(GPU)要求比较高,而在矿潮消退之后,算力高的显卡依然价位走高,让一般玩家望而却步,而云端GPU、TPU往往使用共享资源,价格不菲的情况下,有些公司还会检测实验项目的道德与法律因素,因此账号被禁时有发生。
所以,不管怎么说,这是一个对于新时代的玩家的一个十分有趣的技术革命(DLsite上面已经有大量用AI生成图片的游戏了),我也十分期待今后有越来越多的人开发更高效的模型并提高作图体验。
AI语音识别
语音识别技术其实已经十分成熟,各大语言的识别准确率已经非常优秀。不过以前都是商业领域的范畴,很多公司并不会免费提供API端口让用户体验高质量的音频识别。不过自从OpenAI的崛起,让普通用户得以免费的使用这个技术。我所推荐的是大名鼎鼎的Whisper (https://github.com/openai/whisper)。可以通过预训练模型,结合GPU显卡加速,实现智能识别视频、音频中的文字,然后生成文本。
这里我推荐的是:WhisperDesktop:https://github.com/Const-me/Whisper
这个免费开源工具提供了一个可以本地部署的图形界面(GUI),然后用户可以自定义识别语言(中文、英文、日文、韩文等等)和模型(可以自行下载.bin格式GGML模型),然后AI就可以自动生成带时间轴的字幕文字(.srt、.txt格式)。除了可以提高自媒体时代挂载字幕的问题,还可以应用到音声领域:
- 可以生成日语或者英语字幕,然后通过其他AI工具进行翻译,这样可以使得许多听不懂外语的玩家,也能很好的享受到高质量音声。
- 生成的字幕文件准确率比较高,我个人测试了一下,准确率大约85%左右。因此对于音声制作者或者汉化组来说,可以很方便的提取文本,进行校对润色或者二次创作。
- 接下来,也可以尝试使用TTS(Text-to-Speech)文本转语音技术,让AI读出文字,可以聆听部分对于声优演出要求不那么苛刻的作品。
- 也可以通过AI技术,让AI训练好自己喜欢的声优作品,然后克隆(Clone)音声。不过这个技术目前有些瑕疵,并且各大网站由于道德和法律原因,这个技术被禁用。(暂时按下不表)
总而言之,新技术当然也带来除开道德法律问题,与之对应的商业纠纷也会越来越严重。例如版权、洗稿等问题(律师函发送中……)
总而言之,如果是非盈利使用,我个人还是十分推荐各大ACG爱好者尝试这个工具!
AI文字生成
2022年最大的革命技术,毋庸置疑是ChatGPT!简单来说,ChatGPT是一种基于自然语言处理技术的对话系统,它是由OpenAI公司开发的一个大型语言模型,基于GPT(Generative Pre-trained Transformer)系列模型架构,采用海量语料的无监督学习方式进行训练。这种“大力出奇迹”般的语言模型标志着AI时代,变成了各大公司拼算力、财力的新纪元。不够对于一般消费者,这个已经训练好的语言模型非常好用。各大网站和技术爱好者都在不断挑战这个文字AI,其中不乏相关从事人员用其进行工作与生产(写代码、改文章、查资料等)。
对于ACG领域而言,许多工作已经变得十分轻松。不论是文字总结、润色、翻译,都已经相当程度的以假乱真。更不用说衍生而来的文字创作,例如续写小说、文字游戏、角色扮演等。
以翻译为例,ChatGPT的翻译水品已经比当年爆火的DeepL还要优秀,其中可以调整翻译的风格和语言流派,不禁让人震惊!很多游戏和动漫作品已经开始使用ChatGPT进行辅助,效率大幅度提高!
此外,很多网友也尝试用ChatGPT进行R18内容的创作,包括小说创作、续写、角色扮演。虽然说OpenAI已经开始限制R18内容的生成,但众多网友还是找到各种方法绕开检验。其中许多方法不禁让人慨叹网友的智慧!!!
不过,对于这个博客的初衷是音声评测,我个人发现许多可以帮助音声制作者和爱好者的用法。除了之前提到的翻译功能,台本生成其实也是可行的。只不过由于免费ChatGPT的Token限制,使得许多文字的上下文记忆受限,因此还是推荐使用付费版本,自行调用API。此外,即使是付费API,很多文字或者台本的生成也是十分生涩。需要人工修正与后期校对。不过自从我个人沉迷于AI之后,发现生成的作品有时候确实实用度非常高,如果有一个非常良好的台本规划与Prompt关键词设置,其作品的质量应该已经可以达到DLsite的高分水准。更何况,有时候看AI天马行空的创作,对制作者本身,也有许多启发。
不过,使用ChatGPT终究是把自身的需求和数据偏好送给其他公司,不是长远之计。最可靠的方法还是通过用户自身的已有数据集,进行训练。或者根据已经开源的LLaMa模型(https://www.datacamp.com/blog/12-gpt4-open-source-alternatives和https://ai.facebook.com/blog/large-language-model-llama-meta-ai/),进行微调。让用户有属于自己个人偏好的GPT平台。这样一来可以避免道德法律等问题,二来作品的风格会随着自己的调试与长时间的训练,变得越来越好,越来越有个性。
最后
以上是我个人的一些拙见,尽管AI必将带来许多社会的风险,但风险与收益并存。许多想法还是需要不断实践,才能发掘更多的乐趣。今后或许也会找机会分享一下自己的平台搭建、模型选择等等的心得。也希望众多ACG爱好者也会分享自己的经验,让AI变得更有趣。