我在大廠教AI寫小說,先殺死自己的文采
●圖文無關。圖源 視覺中國
我本科學采礦專業,不像他們長期寫固定文體,反而適應得很快。做了幾天,就從標注員提拔成了質檢員——流水線的下壹道工序。兩者工資壹樣,但質檢員負責修改標注員數據,也有權力退回去讓標注員重寫。
比起“類正文”,我更頭疼的是各種語病。壹千字的章節,細綱不能超過350字,又不能漏情節,標注員會大量省略,比如把幾個人的動作壓縮到壹個極長的句子裡,還全部用“他”來指代。把人名都改成“他”,可以省下幾拾個字。省到最後,句子壓根不通順,還得給它加回去。
項目經理說,嚴格限制字數既是因為模型單次能夠處理的token(大模型處理信息的最小信息單元)有限,也是為了減少字數波動對大模型識別的影響。如果壹個章節的細綱是叁百字,另壹個寫了伍百字,模型可能會以為後者需要詳寫,但也許字數多的原因只是情節細碎。
小說標注項目壹共有兩個組。除了“細綱”組,還有另壹個組,活更雜壹些,要寫“靈感”、“小標題”,給人物貼上各種標簽。大家都是“拆文”,只是拆的東西不壹樣。
“靈感”是整篇小說的梗概,“小標題”是段落的大意和作用。公司文檔提供了段落的九個基本功能:開端、發展、高潮、反轉、結尾,等等。我們從裡面挑著用,再補充上“提供爽點”之類的其他作用。我們還要給人物寫小傳,用幾個形容詞,比如敏感、囂張跋扈,以及綠茶壹類的“人設”,去概括人物。這是讓模型學習,什麼樣的性格會做出什麼樣的行為。
做這份工作前,我沒完整看過壹篇網文。但看多了就能發現,即便網絡小說裡的人物比較刻板化,也遠不是規則文檔裡那贰叁拾個人設標簽能概括的。
比如我們經常用到“綠茶”這個標簽,但網文中“綠茶”的變體其實很多。有的人物真的喜歡男主角,沒有惡意,只是說話軟壹點,在我看來這算不上“綠茶”,可還是會被同事貼上這個標簽。
我們經常感到,規則文檔裡的標簽不夠用。比如壹個人前期很窩囊,後期覺醒了,那“窩囊廢”就很難概括這個人物的弧光。這時候,我會向AI描述這個人物,讓它提供幾個標簽,再從裡面選。就這樣我們自己編出了“逆襲者”“反抗者”之類的新標簽。但也有標注員不認可,覺得網文世界裡沒有這種人設。
算法人員給我們介紹過大模型的基本原理,說是通過預測下壹個詞的方式來生成文本。但我還是不明白,AI能不能理解什麼是“爽點”,什麼是“綠茶”,或者說,它是怎麼通過數學化的方式去理解的。
(注:早在2020年,北京大學中文系壹個研究項目,曾用人工標注贅婿文的方法,讓AI學習識別“贅婿文”中的“打臉”結尾,初步證明了將抽象情節轉化為具體數據標簽的可行性。)
我也懷疑這種訓練方式能否寫出好小說。人類創作者也會學習創作技巧,比如很有名的《救貓咪》。但數據標注是反過來的。小說已經寫好了,我們把它套進模板裡。作者可能並不是按這個模板寫的,比如並沒有以刻板印象中的“綠茶”為目標塑造人物,但我們卻要在標注的時候給它做模板化的處理。
後來做評測的時候,我們都有明顯感受,AI生成的小說比較刻板化,很難有真人寫作的厚度。

網上對數據標注有個評價:“賽博流水工”。
我們公司屬於駐場外包,服務的互聯網大廠在壹線城市有整片園區。我們在其中壹棟樓裡,整個標注團隊有幾百人,都給這家大廠的AI產品標數據。文本標注大類下,還有通用寫作、劇本對話等其他小組。
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
我本科學采礦專業,不像他們長期寫固定文體,反而適應得很快。做了幾天,就從標注員提拔成了質檢員——流水線的下壹道工序。兩者工資壹樣,但質檢員負責修改標注員數據,也有權力退回去讓標注員重寫。
比起“類正文”,我更頭疼的是各種語病。壹千字的章節,細綱不能超過350字,又不能漏情節,標注員會大量省略,比如把幾個人的動作壓縮到壹個極長的句子裡,還全部用“他”來指代。把人名都改成“他”,可以省下幾拾個字。省到最後,句子壓根不通順,還得給它加回去。
項目經理說,嚴格限制字數既是因為模型單次能夠處理的token(大模型處理信息的最小信息單元)有限,也是為了減少字數波動對大模型識別的影響。如果壹個章節的細綱是叁百字,另壹個寫了伍百字,模型可能會以為後者需要詳寫,但也許字數多的原因只是情節細碎。
小說標注項目壹共有兩個組。除了“細綱”組,還有另壹個組,活更雜壹些,要寫“靈感”、“小標題”,給人物貼上各種標簽。大家都是“拆文”,只是拆的東西不壹樣。
“靈感”是整篇小說的梗概,“小標題”是段落的大意和作用。公司文檔提供了段落的九個基本功能:開端、發展、高潮、反轉、結尾,等等。我們從裡面挑著用,再補充上“提供爽點”之類的其他作用。我們還要給人物寫小傳,用幾個形容詞,比如敏感、囂張跋扈,以及綠茶壹類的“人設”,去概括人物。這是讓模型學習,什麼樣的性格會做出什麼樣的行為。
做這份工作前,我沒完整看過壹篇網文。但看多了就能發現,即便網絡小說裡的人物比較刻板化,也遠不是規則文檔裡那贰叁拾個人設標簽能概括的。
比如我們經常用到“綠茶”這個標簽,但網文中“綠茶”的變體其實很多。有的人物真的喜歡男主角,沒有惡意,只是說話軟壹點,在我看來這算不上“綠茶”,可還是會被同事貼上這個標簽。
我們經常感到,規則文檔裡的標簽不夠用。比如壹個人前期很窩囊,後期覺醒了,那“窩囊廢”就很難概括這個人物的弧光。這時候,我會向AI描述這個人物,讓它提供幾個標簽,再從裡面選。就這樣我們自己編出了“逆襲者”“反抗者”之類的新標簽。但也有標注員不認可,覺得網文世界裡沒有這種人設。
算法人員給我們介紹過大模型的基本原理,說是通過預測下壹個詞的方式來生成文本。但我還是不明白,AI能不能理解什麼是“爽點”,什麼是“綠茶”,或者說,它是怎麼通過數學化的方式去理解的。
(注:早在2020年,北京大學中文系壹個研究項目,曾用人工標注贅婿文的方法,讓AI學習識別“贅婿文”中的“打臉”結尾,初步證明了將抽象情節轉化為具體數據標簽的可行性。)
我也懷疑這種訓練方式能否寫出好小說。人類創作者也會學習創作技巧,比如很有名的《救貓咪》。但數據標注是反過來的。小說已經寫好了,我們把它套進模板裡。作者可能並不是按這個模板寫的,比如並沒有以刻板印象中的“綠茶”為目標塑造人物,但我們卻要在標注的時候給它做模板化的處理。
後來做評測的時候,我們都有明顯感受,AI生成的小說比較刻板化,很難有真人寫作的厚度。

網上對數據標注有個評價:“賽博流水工”。
我們公司屬於駐場外包,服務的互聯網大廠在壹線城市有整片園區。我們在其中壹棟樓裡,整個標注團隊有幾百人,都給這家大廠的AI產品標數據。文本標注大類下,還有通用寫作、劇本對話等其他小組。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



