本報記者 張衛海 通訊員 劉宜文
稅收大數據具有覆蓋經濟領域“全”、反映經濟活動“快”、數據顆粒度“細”等特點。但是,基層稅務部門存在基礎數據質量不高、運用分析能力不強等問題。如何讓數據“寶庫”更好地為基層稅收征收管理賦能?
國家稅務總局青島市城陽區稅務局的做法是,升級智稅應用體系,通過夯實內外部數據深度整合和科學清洗后形成的“數據基礎”、完善涵蓋100個智稅模型的“模型基礎”、強化由100名智稅分析人才組成的“人才基礎”,提高征管效能。不久前,其相關做法獲評山東省“大數據創新應用典型應用場景”。
“數據基礎”:從各類數據到關鍵數據庫
如何以數據的深度應用推動稅務管理?城陽區稅務局做的第一步是打牢“數據基礎”。那么,基礎數據從何而來?
日版次:03作者:本報記者 張衛海
稅收大數據具有覆蓋經濟領域“全”、反映經濟活動“快”、數據顆粒度“細”等特點。但是,基層稅務部門存在基礎數據質量不高、運用分析能力不強等問題。如何讓數據“寶庫”更好地為基層稅收征收管理賦能?
國家稅務總局青島市城陽區稅務局的做法是,升級智稅應用體系,通過夯實內外部數據深度整合和科學清洗后形成的“數據基礎”、完善涵蓋100個智稅模型的“模型基礎”、強化由100名智稅分析人才組成的“人才基礎”,提高征管效能。不久前,其相關做法獲評山東省“大數據創新應用典型應用場景”。
“數據基礎”:從各類數據到關鍵數據庫
如何以數據的深度應用推動稅務管理?城陽區稅務局做的第一步是打牢“數據基礎”。那么,基礎數據從何而來?
城陽區稅務局黨委書記、局長馬政瑞說:“城陽區稅務局從三個方面獲取基礎數據資源,包括稅收征管系統發票等數據、對外公開的官方數據和外部門傳遞數據。”除了稅務系統中關于登記、申報、征收等各類稅費數據,以及跨地區、上下游等各類關聯數據等內部數據外,城陽區稅務局使用Python技術收集獲取網絡公開的各類官方信息,累計圍繞35類數據分析主題,收集各類官方數據百萬余筆。同時,深化協同共治,與財政、統計、工信、發改等12個政府職能部門建立數據交換共享機制,獲取關鍵信息。
海量數據匯集后,為了保障數據質量,還需對它們進行預處理。
據介紹,所謂預處理,就是剔除無效數據、填補缺失數據、修正異常數據。隨后,按照征管邏輯和規則,對預處理后的數據進行標準化、關聯化和標簽化處理,按照稅種、人群、行業、行為特征等維度進行分類篩選、數據重組、清洗轉換和規則計算,形成可以支撐后續分析和判定的關鍵數據庫或數據表。
“模型基礎”:從分析預測到長效長治
打好“數據基礎”后,如何將紛雜龐大的數據,用于稅務監管?城陽區稅務局做的第二步是打造“模型基礎”。
馬政瑞介紹,通過卷積神經網絡、BP神經網絡、支持向量機、主成分回歸、Lasso回歸、Logistic回歸、聚類算法等機器學習算法,結合稅種、行業、行為、人群特征等不同維度,他們將數據轉變為指標、形成體系,最終經實踐應用打磨成100個智稅模型。這些模型已經成為城陽區稅務局將稅收大數據應用于稅務監管的“武林秘籍”。
例如,針對流轉稅、財產稅,主管稅務部門根據稅種搭建了虛開發票風險模型、留抵退稅異常進項等模型,對全區15萬余戶正常狀態納稅人開展實時風險監測和預測。再如,在物業企業管理過程中,基層稅務所針對服務型合同等疑點搭建了物業行業風險模型,其數據分析結果在防范稅收流失方面發揮了重要作用。
通過風險模型進行分析預測只是智稅應用的第一步。通過“分析預測—動態監控—更新迭代”的三級遞進工作模式,城陽區稅務局使智稅應用不斷“進化”,持續保持生命力。
對于模型導出的結果,該局通過企業畫像等技術,直觀展示相關關系和風險疑點,通過分類算法劃分風險等級,進行分色預警,同時繪制風險熱力圖,動態監控稅收風險動態,輔助迅速決策及有效應對。隨著數據資源的不斷豐富和風險應對經驗的不斷積累,該局依托實時加權算法賦分、強化高發生概率事項學習等方法,實現現有應用的更新迭代,確保數據應用的長效長治。
“人才基礎”:從人為數據賦能到數據為人賦能
馬政瑞介紹,模型從何而來,又用到哪里去?其中發揮重要作用的是“人”,“人機結合”在基層稅收征管效能提升中的探索與實踐不可或缺。
城陽區稅務局在全局范圍內優選智稅分析團隊,在數字化專業技術培訓的基礎上,再由團隊成員立足本職崗位,聚焦重點行業、重點人群、重點工作等領域,緊盯流轉稅、所得稅、資源稅等類別,通過精細化指標和數理化算法,對不同風險場景建立8大主題智能化模型,實現風險疑點正列舉、關聯關系可視化展示、業務流向模擬推演、分色預警自動監測等稅收大數據的賦能應用,推動基層稅收征收管理效能提升。
“數據模型由人從實踐中提煉總結出來,經過審核打磨固定下來,編寫形成智稅分析手冊進行推廣應用,最終再反哺于基層稅收征收管理,實現了‘人為數據賦能、數據為人賦能’的有效閉環。”馬政瑞說。
據了解,城陽區稅務局將機關整體的“數字化轉型”與干部的數字化能力提升同步推進,優化“常態推進”與“有效激勵”兩個機制,一方面,常態開展專題推進、項目講評,定期舉行“稅收檢查大比武”“干部智稅分析大比武”;另一方面,優化“激勵機制”,通過多種機制強化“智稅”成效的結果運用。
城陽區稅務局黨委書記、局長馬政瑞說:“城陽區稅務局從三個方面獲取基礎數據資源,包括稅收征管系統發票等數據、對外公開的官方數據和外部門傳遞數據。”除了稅務系統中關于登記、申報、征收等各類稅費數據,以及跨地區、上下游等各類關聯數據等內部數據外,城陽區稅務局使用Python技術收集獲取網絡公開的各類官方信息,累計圍繞35類數據分析主題,收集各類官方數據百萬余筆。同時,深化協同共治,與財政、統計、工信、發改等12個政府職能部門建立數據交換共享機制,獲取關鍵信息。
海量數據匯集后,為了保障數據質量,還需對它們進行預處理。
據介紹,所謂預處理,就是剔除無效數據、填補缺失數據、修正異常數據。隨后,按照征管邏輯和規則,對預處理后的數據進行標準化、關聯化和標簽化處理,按照稅種、人群、行業、行為特征等維度進行分類篩選、數據重組、清洗轉換和規則計算,形成可以支撐后續分析和判定的關鍵數據庫或數據表。
“模型基礎”:從分析預測到長效長治
打好“數據基礎”后,如何將紛雜龐大的數據,用于稅務監管?城陽區稅務局做的第二步是打造“模型基礎”。
馬政瑞介紹,通過卷積神經網絡、BP神經網絡、支持向量機、主成分回歸、Lasso回歸、Logistic回歸、聚類算法等機器學習算法,結合稅種、行業、行為、人群特征等不同維度,他們將數據轉變為指標、形成體系,最終經實踐應用打磨成100個智稅模型。這些模型已經成為城陽區稅務局將稅收大數據應用于稅務監管的“武林秘籍”。
例如,針對流轉稅、財產稅,主管稅務部門根據稅種搭建了虛開發票風險模型、留抵退稅異常進項等模型,對全區15萬余戶正常狀態納稅人開展實時風險監測和預測。再如,在物業企業管理過程中,基層稅務所針對服務型合同等疑點搭建了物業行業風險模型,其數據分析結果在防范稅收流失方面發揮了重要作用。
通過風險模型進行分析預測只是智稅應用的第一步。通過“分析預測—動態監控—更新迭代”的三級遞進工作模式,城陽區稅務局使智稅應用不斷“進化”,持續保持生命力。
對于模型導出的結果,該局通過企業畫像等技術,直觀展示相關關系和風險疑點,通過分類算法劃分風險等級,進行分色預警,同時繪制風險熱力圖,動態監控稅收風險動態,輔助迅速決策及有效應對。隨著數據資源的不斷豐富和風險應對經驗的不斷積累,該局依托實時加權算法賦分、強化高發生概率事項學習等方法,實現現有應用的更新迭代,確保數據應用的長效長治。
“人才基礎”:從人為數據賦能到數據為人賦能
馬政瑞介紹,模型從何而來,又用到哪里去?其中發揮重要作用的是“人”,“人機結合”在基層稅收征管效能提升中的探索與實踐不可或缺。
城陽區稅務局在全局范圍內優選智稅分析團隊,在數字化專業技術培訓的基礎上,再由團隊成員立足本職崗位,聚焦重點行業、重點人群、重點工作等領域,緊盯流轉稅、所得稅、資源稅等類別,通過精細化指標和數理化算法,對不同風險場景建立8大主題智能化模型,實現風險疑點正列舉、關聯關系可視化展示、業務流向模擬推演、分色預警自動監測等稅收大數據的賦能應用,推動基層稅收征收管理效能提升。
“數據模型由人從實踐中提煉總結出來,經過審核打磨固定下來,編寫形成智稅分析手冊進行推廣應用,最終再反哺于基層稅收征收管理,實現了‘人為數據賦能、數據為人賦能’的有效閉環。”馬政瑞說。
據了解,城陽區稅務局將機關整體的“數字化轉型”與干部的數字化能力提升同步推進,優化“常態推進”與“有效激勵”兩個機制,一方面,常態開展專題推進、項目講評,定期舉行“稅收檢查大比武”“干部智稅分析大比武”;另一方面,優化“激勵機制”,通過多種機制強化“智稅”成效的結果運用。