我在大厂教AI写小说,先杀死自己的文采
●图文无关。图源 视觉中国
我本科学采矿专业,不像他们长期写固定文体,反而适应得很快。做了几天,就从标注员提拔成了质检员——流水线的下一道工序。两者工资一样,但质检员负责修改标注员数据,也有权力退回去让标注员重写。
比起“类正文”,我更头疼的是各种语病。一千字的章节,细纲不能超过350字,又不能漏情节,标注员会大量省略,比如把几个人的动作压缩到一个极长的句子里,还全部用“他”来指代。把人名都改成“他”,可以省下几十个字。省到最后,句子压根不通顺,还得给它加回去。
项目经理说,严格限制字数既是因为模型单次能够处理的token(大模型处理信息的最小信息单元)有限,也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字,另一个写了五百字,模型可能会以为后者需要详写,但也许字数多的原因只是情节细碎。
小说标注项目一共有两个组。除了“细纲”组,还有另一个组,活更杂一些,要写“灵感”、“小标题”,给人物贴上各种标签。大家都是“拆文”,只是拆的东西不一样。
“灵感”是整篇小说的梗概,“小标题”是段落的大意和作用。公司文档提供了段落的九个基本功能:开端、发展、高潮、反转、结尾,等等。我们从里面挑着用,再补充上“提供爽点”之类的其他作用。我们还要给人物写小传,用几个形容词,比如敏感、嚣张跋扈,以及绿茶一类的“人设”,去概括人物。这是让模型学习,什么样的性格会做出什么样的行为。
做这份工作前,我没完整看过一篇网文。但看多了就能发现,即便网络小说里的人物比较刻板化,也远不是规则文档里那二三十个人设标签能概括的。
比如我们经常用到“绿茶”这个标签,但网文中“绿茶”的变体其实很多。有的人物真的喜欢男主角,没有恶意,只是说话软一点,在我看来这算不上“绿茶”,可还是会被同事贴上这个标签。
我们经常感到,规则文档里的标签不够用。比如一个人前期很窝囊,后期觉醒了,那“窝囊废”就很难概括这个人物的弧光。这时候,我会向AI描述这个人物,让它提供几个标签,再从里面选。就这样我们自己编出了“逆袭者”“反抗者”之类的新标签。但也有标注员不认可,觉得网文世界里没有这种人设。
算法人员给我们介绍过大模型的基本原理,说是通过预测下一个词的方式来生成文本。但我还是不明白,AI能不能理解什么是“爽点”,什么是“绿茶”,或者说,它是怎么通过数学化的方式去理解的。
(注:早在2020年,北京大学中文系一个研究项目,曾用人工标注赘婿文的方法,让AI学习识别“赘婿文”中的“打脸”结尾,初步证明了将抽象情节转化为具体数据标签的可行性。)
我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧,比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了,我们把它套进模板里。作者可能并不是按这个模板写的,比如并没有以刻板印象中的“绿茶”为目标塑造人物,但我们却要在标注的时候给它做模板化的处理。
后来做评测的时候,我们都有明显感受,AI生成的小说比较刻板化,很难有真人写作的厚度。

网上对数据标注有个评价:“赛博流水工”。
我们公司属于驻场外包,服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里,整个标注团队有几百人,都给这家大厂的AI产品标数据。文本标注大类下,还有通用写作、剧本对话等其他小组。
[加西网正招聘多名全职sales 待遇优]
无评论不新闻,发表一下您的意见吧
我本科学采矿专业,不像他们长期写固定文体,反而适应得很快。做了几天,就从标注员提拔成了质检员——流水线的下一道工序。两者工资一样,但质检员负责修改标注员数据,也有权力退回去让标注员重写。
比起“类正文”,我更头疼的是各种语病。一千字的章节,细纲不能超过350字,又不能漏情节,标注员会大量省略,比如把几个人的动作压缩到一个极长的句子里,还全部用“他”来指代。把人名都改成“他”,可以省下几十个字。省到最后,句子压根不通顺,还得给它加回去。
项目经理说,严格限制字数既是因为模型单次能够处理的token(大模型处理信息的最小信息单元)有限,也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字,另一个写了五百字,模型可能会以为后者需要详写,但也许字数多的原因只是情节细碎。
小说标注项目一共有两个组。除了“细纲”组,还有另一个组,活更杂一些,要写“灵感”、“小标题”,给人物贴上各种标签。大家都是“拆文”,只是拆的东西不一样。
“灵感”是整篇小说的梗概,“小标题”是段落的大意和作用。公司文档提供了段落的九个基本功能:开端、发展、高潮、反转、结尾,等等。我们从里面挑着用,再补充上“提供爽点”之类的其他作用。我们还要给人物写小传,用几个形容词,比如敏感、嚣张跋扈,以及绿茶一类的“人设”,去概括人物。这是让模型学习,什么样的性格会做出什么样的行为。
做这份工作前,我没完整看过一篇网文。但看多了就能发现,即便网络小说里的人物比较刻板化,也远不是规则文档里那二三十个人设标签能概括的。
比如我们经常用到“绿茶”这个标签,但网文中“绿茶”的变体其实很多。有的人物真的喜欢男主角,没有恶意,只是说话软一点,在我看来这算不上“绿茶”,可还是会被同事贴上这个标签。
我们经常感到,规则文档里的标签不够用。比如一个人前期很窝囊,后期觉醒了,那“窝囊废”就很难概括这个人物的弧光。这时候,我会向AI描述这个人物,让它提供几个标签,再从里面选。就这样我们自己编出了“逆袭者”“反抗者”之类的新标签。但也有标注员不认可,觉得网文世界里没有这种人设。
算法人员给我们介绍过大模型的基本原理,说是通过预测下一个词的方式来生成文本。但我还是不明白,AI能不能理解什么是“爽点”,什么是“绿茶”,或者说,它是怎么通过数学化的方式去理解的。
(注:早在2020年,北京大学中文系一个研究项目,曾用人工标注赘婿文的方法,让AI学习识别“赘婿文”中的“打脸”结尾,初步证明了将抽象情节转化为具体数据标签的可行性。)
我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧,比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了,我们把它套进模板里。作者可能并不是按这个模板写的,比如并没有以刻板印象中的“绿茶”为目标塑造人物,但我们却要在标注的时候给它做模板化的处理。
后来做评测的时候,我们都有明显感受,AI生成的小说比较刻板化,很难有真人写作的厚度。

网上对数据标注有个评价:“赛博流水工”。
我们公司属于驻场外包,服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里,整个标注团队有几百人,都给这家大厂的AI产品标数据。文本标注大类下,还有通用写作、剧本对话等其他小组。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
我在大厂教AI写小说,先杀死自己的文采