我在大廠教AI寫小說,先殺死自己的文采

2026-05-06 | 來源: 極晝story | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

●圖文無關。圖源視覺中國

我本科學采礦專業，不像他們長期寫固定文體，反而適應得很快。做了幾天，就從標注員提拔成了質檢員——流水線的下壹道工序。兩者工資壹樣，但質檢員負責修改標注員數據，也有權力退回去讓標注員重寫。

比起“類正文”，我更頭疼的是各種語病。壹千字的章節，細綱不能超過350字，又不能漏情節，標注員會大量省略，比如把幾個人的動作壓縮到壹個極長的句子裡，還全部用“他”來指代。把人名都改成“他”，可以省下幾拾個字。省到最後，句子壓根不通順，還得給它加回去。

項目經理說，嚴格限制字數既是因為模型單次能夠處理的token（大模型處理信息的最小信息單元）有限，也是為了減少字數波動對大模型識別的影響。如果壹個章節的細綱是叁百字，另壹個寫了伍百字，模型可能會以為後者需要詳寫，但也許字數多的原因只是情節細碎。

小說標注項目壹共有兩個組。除了“細綱”組，還有另壹個組，活更雜壹些，要寫“靈感”、“小標題”，給人物貼上各種標簽。大家都是“拆文”，只是拆的東西不壹樣。

“靈感”是整篇小說的梗概，“小標題”是段落的大意和作用。公司文檔提供了段落的九個基本功能：開端、發展、高潮、反轉、結尾，等等。我們從裡面挑著用，再補充上“提供爽點”之類的其他作用。我們還要給人物寫小傳，用幾個形容詞，比如敏感、囂張跋扈，以及綠茶壹類的“人設”，去概括人物。這是讓模型學習，什麼樣的性格會做出什麼樣的行為。

做這份工作前，我沒完整看過壹篇網文。但看多了就能發現，即便網絡小說裡的人物比較刻板化，也遠不是規則文檔裡那贰叁拾個人設標簽能概括的。

比如我們經常用到“綠茶”這個標簽，但網文中“綠茶”的變體其實很多。有的人物真的喜歡男主角，沒有惡意，只是說話軟壹點，在我看來這算不上“綠茶”，可還是會被同事貼上這個標簽。

我們經常感到，規則文檔裡的標簽不夠用。比如壹個人前期很窩囊，後期覺醒了，那“窩囊廢”就很難概括這個人物的弧光。這時候，我會向AI描述這個人物，讓它提供幾個標簽，再從裡面選。就這樣我們自己編出了“逆襲者”“反抗者”之類的新標簽。但也有標注員不認可，覺得網文世界裡沒有這種人設。

算法人員給我們介紹過大模型的基本原理，說是通過預測下壹個詞的方式來生成文本。但我還是不明白，AI能不能理解什麼是“爽點”，什麼是“綠茶”，或者說，它是怎麼通過數學化的方式去理解的。

（注：早在2020年，北京大學中文系壹個研究項目，曾用人工標注贅婿文的方法，讓AI學習識別“贅婿文”中的“打臉”結尾，初步證明了將抽象情節轉化為具體數據標簽的可行性。）

我也懷疑這種訓練方式能否寫出好小說。人類創作者也會學習創作技巧，比如很有名的《救貓咪》。但數據標注是反過來的。小說已經寫好了，我們把它套進模板裡。作者可能並不是按這個模板寫的，比如並沒有以刻板印象中的“綠茶”為目標塑造人物，但我們卻要在標注的時候給它做模板化的處理。

後來做評測的時候，我們都有明顯感受，AI生成的小說比較刻板化，很難有真人寫作的厚度。

網上對數據標注有個評價：“賽博流水工”。

我們公司屬於駐場外包，服務的互聯網大廠在壹線城市有整片園區。我們在其中壹棟樓裡，整個標注團隊有幾百人，都給這家大廠的AI產品標數據。文本標注大類下，還有通用寫作、劇本對話等其他小組。

[物價飛漲的時候這樣省錢購物很爽] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁 123 4 5 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

我在大廠教AI寫小說,先殺死自己的文采

意見