我在大厂教AI写小说,先杀死自己的文采

2026-05-06 | 来源: 极昼story | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

●图文无关。图源视觉中国

我本科学采矿专业，不像他们长期写固定文体，反而适应得很快。做了几天，就从标注员提拔成了质检员——流水线的下一道工序。两者工资一样，但质检员负责修改标注员数据，也有权力退回去让标注员重写。

比起“类正文”，我更头疼的是各种语病。一千字的章节，细纲不能超过350字，又不能漏情节，标注员会大量省略，比如把几个人的动作压缩到一个极长的句子里，还全部用“他”来指代。把人名都改成“他”，可以省下几十个字。省到最后，句子压根不通顺，还得给它加回去。

项目经理说，严格限制字数既是因为模型单次能够处理的token（大模型处理信息的最小信息单元）有限，也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字，另一个写了五百字，模型可能会以为后者需要详写，但也许字数多的原因只是情节细碎。

小说标注项目一共有两个组。除了“细纲”组，还有另一个组，活更杂一些，要写“灵感”、“小标题”，给人物贴上各种标签。大家都是“拆文”，只是拆的东西不一样。

“灵感”是整篇小说的梗概，“小标题”是段落的大意和作用。公司文档提供了段落的九个基本功能：开端、发展、高潮、反转、结尾，等等。我们从里面挑着用，再补充上“提供爽点”之类的其他作用。我们还要给人物写小传，用几个形容词，比如敏感、嚣张跋扈，以及绿茶一类的“人设”，去概括人物。这是让模型学习，什么样的性格会做出什么样的行为。

做这份工作前，我没完整看过一篇网文。但看多了就能发现，即便网络小说里的人物比较刻板化，也远不是规则文档里那二三十个人设标签能概括的。

比如我们经常用到“绿茶”这个标签，但网文中“绿茶”的变体其实很多。有的人物真的喜欢男主角，没有恶意，只是说话软一点，在我看来这算不上“绿茶”，可还是会被同事贴上这个标签。

我们经常感到，规则文档里的标签不够用。比如一个人前期很窝囊，后期觉醒了，那“窝囊废”就很难概括这个人物的弧光。这时候，我会向AI描述这个人物，让它提供几个标签，再从里面选。就这样我们自己编出了“逆袭者”“反抗者”之类的新标签。但也有标注员不认可，觉得网文世界里没有这种人设。

算法人员给我们介绍过大模型的基本原理，说是通过预测下一个词的方式来生成文本。但我还是不明白，AI能不能理解什么是“爽点”，什么是“绿茶”，或者说，它是怎么通过数学化的方式去理解的。

（注：早在2020年，北京大学中文系一个研究项目，曾用人工标注赘婿文的方法，让AI学习识别“赘婿文”中的“打脸”结尾，初步证明了将抽象情节转化为具体数据标签的可行性。）

我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧，比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了，我们把它套进模板里。作者可能并不是按这个模板写的，比如并没有以刻板印象中的“绿茶”为目标塑造人物，但我们却要在标注的时候给它做模板化的处理。

后来做评测的时候，我们都有明显感受，AI生成的小说比较刻板化，很难有真人写作的厚度。

网上对数据标注有个评价：“赛博流水工”。

我们公司属于驻场外包，服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里，整个标注团队有几百人，都给这家大厂的AI产品标数据。文本标注大类下，还有通用写作、剧本对话等其他小组。

[加西网正招聘多名全职sales 待遇优] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

我在大厂教AI写小说,先杀死自己的文采

意见