8月2日,蘇州美能華智能科技有限公司在2019全國知識圖譜和語義計算大會(CCKS2019)組織的系列評測中,一舉奪得“公衆公司公告信息抽取”評測競賽冠軍。
業内人士表示,構建中文知識圖譜是自然語言處理領域的重要環節,也是當前學術界和企業界的研究熱點。中文知識圖譜的構建對于中文領域的自然語言處理具有重要的價值。美能華能夠獲得這一單項賽事的冠軍,意味着該企業構建知識圖譜的技術能力已處于國内領先水準。

                                                                       美能華參賽團隊
       據介紹,本次競賽非常激烈,共有92支參賽隊伍256名參賽隊員報名參賽,其中包括達觀數據、北京理工大學、大連理工大學、深圳證券等一批強勁對手。最終在評測環節共有43支隊伍提交接口參與角逐,美能華公司由侯紹東領銜的參賽隊伍最終憑借強勁的實力拔得頭籌。當天,CCKS2019組委會特意給美能華公司發來郵件表示祝賀并稱:“我們對您和隊員的表現緻以崇高的敬意。”CCKS是國内最大的自然語言處理專家學者的學術類社團團體——中國中文信息學會主辦的前沿學術會議,今年的大會将于今年8月下旬在杭州召開,主題是“知識計算與語言理解”。

      根據慣例,在大會開幕前, CCKS2019組委會經過前期征集和篩選,公布并開展了6個相關主題評測任務,除了蘇州美能華公司參加的公衆公司公告信息抽取評測以外,其餘五項評測任務還包括面向中文電子病曆的命名實體識别、面向中文短文本的實體鍊指任務、人物關系抽取、面向金融領域的事件主體抽取以及開放領域的中文問答等。根據CCKS2019發布的官方公告,美能華公司參加的“公衆公司公告信息抽取”評測任務,主要目的是增強金融科技的智能分析和監管能力。
       據了解,随着金融科技的發展和全球資本市場的不斷擴大,在金融領域,每一天都有海量的數據産生,而與之形成強烈對比的是有限的人力以及人腦所能處理信息的極限能力。因此,依靠傳統的人工方式已經無法應對投研分析、風險控制、金融監管和事件關聯等需求,而亟需引入新的技術來提高信息處理效率,包括大數據分析、自然語言處理、知識圖譜等技術,都已經開始被積極用于金融分析和金融監管領域。在監管方面,每一家公衆公司都具有相關信息披露義務,由此也産生了大量的公告閱讀和信息抽取需求。

       據不完全統計,以滬深股市為例,2017年共披露公告44萬餘篇,2018年共27萬餘篇,并且随着上市公司數量的增加這一數字也在逐年增加。每年3月底、4月底、8月底、10月底為定期報告披露高峰期,最多的一天所發布公告達 10297 篇。本次評測競賽的主要目标是針對公告文件(均以PDF或掃描件的方式發布)中的信息抽取。作為知識圖譜構建的基礎,結構化數據是必不可少的。由此,如何通過自動化的技術來從各類公告中抽取信息,将非結構化數據轉化為結構化數據是知識圖譜領域所面臨的一大挑戰。此次評測包括了兩個任務:一是公衆公司定期報告表格中的信息點提取,二是文本段落中的信息點提取。

                                                     蘇州人工智能産業園(蘇州國際科技園載體)
       美能華是首批入駐蘇州國際科技園(SISPARK)旗下載體——蘇州人工智能産業園的高科技企業,公司目前專注于自然語言處理方面的研究和相關産品的研發及推廣,緻力于用自然語言處理技術賦能客戶,使之成為智慧企業。公司創始人童先明是原微軟AI和研究院事業部首席研發總監,原微軟蘇州研究院副院長,在自然語言處理、大數據、大規模系統工程方面有深入的行業經驗,曾參與主導微軟人工智能在中國的應用落地,微軟搜索廣告平台,微軟在線支付平台,雅虎電郵系統,KLA半導體芯片良率大數據分析平台等産品。
      “我們目前要做的是以自然語言處理為基礎,讓每一個企業都能更快速和高效的擁抱AI技術。”童先明表示,與計算機視覺相比,目前自然語言處理技術領域蘊含着巨大的市場機遇,特别是在文本理解挖掘這一塊。

                                           2019年7月24日,美能華與中科大共建“自然語言處理聯合實驗室”
       據了解,美能華推出的第一個産品——智能文本信息抽取已經在金融和财會領域實現了文檔和表格信息的自動抽取,目前正在擴展到更多領域。業内人士表示,自然語言處理涉及跨學科協同,難度極大,被譽為“人工智能皇冠上的明珠”。目前在蘇州國際科技園周邊,已經集聚了包括微軟、科大訊飛、美能華、思必馳等一批在國内自然語言處理領域處于領先地位的高科技企業。