世界杯回放在線觀看平臺(世界杯回放在線觀看平臺下載)
2022-12-02
更新時間:2022-03-18 09:04:22作者:佚名
品牌型號:lenovo ThinkPad X250
系統(tǒng):Windows 10
軟件版本:
屬于機器學習常見流程的是數(shù)據(jù)獲取、特征提取、模型訓練和驗證、線下測試、線上測試。
1、數(shù)據(jù)獲?。菏紫葟木€上拉取用戶真實數(shù)據(jù),用現(xiàn)有模型過一遍這些數(shù)據(jù)得到一些有用的信息作為標注人員的一個參考,加快標注速度;標注完成后,數(shù)據(jù)入庫并解決沖突,沖突即是同一個query,兩次標注結果不一致,解決沖突的辦法一般是人工check,得到一個更準確的標注;
2、特征抽?。篘LP任務一般需要抽取數(shù)據(jù)的特征,如ngram、詞典特征、詞向量特征、上游模塊的輸出等。一般離線和在線均需要特征抽取,所以離在線的這部分代碼是共用的,避免在線特征抽取和離線不一致。抽取特征時有個小技巧是把能想到的特征均抽取出來,并保存成文本文件,避免重復的執(zhí)行特征抽取的步驟,在實驗的時候用mask的方式去屏蔽掉那些對模型沒用的特征,因為針對神經(jīng)網(wǎng)絡這樣的模型,值為0的特征一般不影響最終結果(如tanh/ReLU等,但sigmoid激活層可能會影響)。這樣抽取出來的特征的格式一般還不能滿足機器學習框架的要求,通過腳本轉化成機器學習框架要求的格式即可。
3、模型訓練和驗證:常用的模型訓練和驗證步驟是:首先以一個簡易的算法開始,快速的進行實現(xiàn),并在交叉驗證集上進行驗證;然后畫出它的學習曲線,通過學習曲線確定是否更多的數(shù)據(jù)或者更多的特征會對模型的優(yōu)化有幫助。接著人為地檢測交叉驗證集中被錯誤的進行分類的或者預測的樣本的共同特征,從實際入手對模型進行調整,不斷調整并驗證在交叉驗證集上的誤差,尋找最優(yōu)的結果,優(yōu)化模型。
4、線下測試:指在模型驗證有提升后,在測試集上測試模型的性能指標。線下測試可以將模型集成在應用程序里測試,也可以單獨測試模型。線下測試的指標一般跟具體的業(yè)務需求相關,包括:準確率(accuracy)、精確率(precesion)、召回率(recall)、F1值等。
5、線上測試:是模型上線后的測試,是跟業(yè)務緊密相關的一個指標。在實際工作中,一般先將版本上線至一個復制小流量環(huán)境,打到這個環(huán)境的流量同時也打到線上環(huán)境,然后同時取出線上環(huán)境的結果和復制小流量環(huán)境的結果,抽出兩者的diff,人工做gsb(good bad same),即針對有diff的case,人工標注小流量好(good),還是線上好(bad),或者兩者打平(same),如果good多于bad,說明gsb通過,可以上線供用戶體驗。這種方法與A/B testing類似。模型上到線上后,可以通過用戶行為反饋模型的好壞,如用戶點擊、pv等。