Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_a20650a0283a7bfd30c6e67e11b54510, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
我在大廠教AI寫小說,先殺死自己的文采 | 溫哥華地產中心
   

我在大廠教AI寫小說,先殺死自己的文采

●圖文無關。圖源 視覺中國


我本科學采礦專業,不像他們長期寫固定文體,反而適應得很快。做了幾天,就從標注員提拔成了質檢員——流水線的下壹道工序。兩者工資壹樣,但質檢員負責修改標注員數據,也有權力退回去讓標注員重寫。

比起“類正文”,我更頭疼的是各種語病。壹千字的章節,細綱不能超過350字,又不能漏情節,標注員會大量省略,比如把幾個人的動作壓縮到壹個極長的句子裡,還全部用“他”來指代。把人名都改成“他”,可以省下幾拾個字。省到最後,句子壓根不通順,還得給它加回去。

項目經理說,嚴格限制字數既是因為模型單次能夠處理的token(大模型處理信息的最小信息單元)有限,也是為了減少字數波動對大模型識別的影響。如果壹個章節的細綱是叁百字,另壹個寫了伍百字,模型可能會以為後者需要詳寫,但也許字數多的原因只是情節細碎。

小說標注項目壹共有兩個組。除了“細綱”組,還有另壹個組,活更雜壹些,要寫“靈感”、“小標題”,給人物貼上各種標簽。大家都是“拆文”,只是拆的東西不壹樣。

“靈感”是整篇小說的梗概,“小標題”是段落的大意和作用。公司文檔提供了段落的九個基本功能:開端、發展、高潮、反轉、結尾,等等。我們從裡面挑著用,再補充上“提供爽點”之類的其他作用。我們還要給人物寫小傳,用幾個形容詞,比如敏感、囂張跋扈,以及綠茶壹類的“人設”,去概括人物。這是讓模型學習,什麼樣的性格會做出什麼樣的行為。

做這份工作前,我沒完整看過壹篇網文。但看多了就能發現,即便網絡小說裡的人物比較刻板化,也遠不是規則文檔裡那贰叁拾個人設標簽能概括的。

比如我們經常用到“綠茶”這個標簽,但網文中“綠茶”的變體其實很多。有的人物真的喜歡男主角,沒有惡意,只是說話軟壹點,在我看來這算不上“綠茶”,可還是會被同事貼上這個標簽。

我們經常感到,規則文檔裡的標簽不夠用。比如壹個人前期很窩囊,後期覺醒了,那“窩囊廢”就很難概括這個人物的弧光。這時候,我會向AI描述這個人物,讓它提供幾個標簽,再從裡面選。就這樣我們自己編出了“逆襲者”“反抗者”之類的新標簽。但也有標注員不認可,覺得網文世界裡沒有這種人設。

算法人員給我們介紹過大模型的基本原理,說是通過預測下壹個詞的方式來生成文本。但我還是不明白,AI能不能理解什麼是“爽點”,什麼是“綠茶”,或者說,它是怎麼通過數學化的方式去理解的。

(注:早在2020年,北京大學中文系壹個研究項目,曾用人工標注贅婿文的方法,讓AI學習識別“贅婿文”中的“打臉”結尾,初步證明了將抽象情節轉化為具體數據標簽的可行性。)


我也懷疑這種訓練方式能否寫出好小說。人類創作者也會學習創作技巧,比如很有名的《救貓咪》。但數據標注是反過來的。小說已經寫好了,我們把它套進模板裡。作者可能並不是按這個模板寫的,比如並沒有以刻板印象中的“綠茶”為目標塑造人物,但我們卻要在標注的時候給它做模板化的處理。

後來做評測的時候,我們都有明顯感受,AI生成的小說比較刻板化,很難有真人寫作的厚度。



網上對數據標注有個評價:“賽博流水工”。

我們公司屬於駐場外包,服務的互聯網大廠在壹線城市有整片園區。我們在其中壹棟樓裡,整個標注團隊有幾百人,都給這家大廠的AI產品標數據。文本標注大類下,還有通用寫作、劇本對話等其他小組。

[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    19.9元買"小破爛"買到上頭,00後有自己的兩元店 這把火,今天已經燒到美國自己頭上了!
    刷屏!中國最冷寒冬:1458家大廠哀鳴 曾嘲拜登,如今自己站著睡著:特朗普獲封"瞌睡唐"
    砸自己腳,歐盟或損失3678億歐元? 美劇最硬核夫妻檔:制片人趕走編劇自己寫
    無效48小時!北京以為自己無所不能 卡尼的豹變:加拿大真能掌握自己的命運?
    ICE懇求:不要釋放在舊金山殺死醫生的非法移民 60歲夢鴿 終自己咽下苦果 為出獄兒子改名鋪路
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站