據(jù)了解,達(dá)觀數(shù)據(jù)最近研發(fā)的文檔智能審閱系統(tǒng),是國(guó)內(nèi)第一款能夠替代人類(lèi)完成文檔智能化處理的一個(gè)合同管理產(chǎn)品。審閱處理分析的精度現(xiàn)在已經(jīng)接近普通白領(lǐng)的水平,現(xiàn)在一臺(tái)系統(tǒng)差不多可以代替專(zhuān)業(yè)人員接近20個(gè)的合同處理,效率大幅提升。針對(duì)于此,CIO時(shí)代記者于近日對(duì)達(dá)觀數(shù)據(jù)創(chuàng)始人&CEO 陳運(yùn)文進(jìn)行了深度人物專(zhuān)訪。
達(dá)觀數(shù)據(jù)創(chuàng)始人&CEO陳運(yùn)文接受采訪現(xiàn)場(chǎng)
文本智能分析在不同行業(yè)的應(yīng)用場(chǎng)景及影響
陳運(yùn)文表示,在各行各業(yè)的日常工作中都離不開(kāi)文字,比如醫(yī)療機(jī)構(gòu)的病歷處方、金融機(jī)構(gòu)各種各樣交易的合同票據(jù)等,每天的工作記錄差不多有1/3的時(shí)間在和文字打交道。能不能把這些大量的耗費(fèi)在文字上面的工作自動(dòng)化,讓計(jì)算機(jī)代替人去做,這件事情會(huì)特別有價(jià)值。
像金融、醫(yī)療、人事、財(cái)稅、教育領(lǐng)域等等,用達(dá)觀的智能化處理系統(tǒng),能夠把這些工作自動(dòng)化找出其中的規(guī)律。讓計(jì)算機(jī)去模擬人日常工作的處理過(guò)程。比如在做一個(gè)文檔審核的時(shí)候,有很多審核的標(biāo)準(zhǔn)和要求,人按照要求去完成,給出批改意見(jiàn),生成一個(gè)新的文檔。那么我們讓計(jì)算機(jī)學(xué)習(xí)輸入和輸出,輸入的是一個(gè)原始的文檔,輸出的是一個(gè)修改過(guò)的一個(gè)結(jié)果。學(xué)習(xí)人的過(guò)程,反復(fù)強(qiáng)化訓(xùn)練以后,計(jì)算機(jī)就可以代替人來(lái)完成同樣的這些工作。達(dá)觀的技術(shù)在未來(lái)將會(huì)大幅度的被應(yīng)用。甚至在軍事情報(bào)領(lǐng)域,計(jì)算機(jī)保密程度比人要高得多,而且可以更高效率地處理這些文字內(nèi)容。
機(jī)器自動(dòng)識(shí)別與人工處理的關(guān)系
書(shū)面文本在文字糾錯(cuò)方面,和人相比,機(jī)器有兩個(gè)優(yōu)勢(shì):一是機(jī)器閱讀文字的速度比人要快得多,測(cè)算過(guò)現(xiàn)在一臺(tái)計(jì)算機(jī)的閱讀速度是人的500倍;二是有很多的工作是特別重復(fù)性的,這些工作讓人來(lái)做非常的辛苦,費(fèi)時(shí)費(fèi)力。那么可以讓計(jì)算機(jī)去承擔(dān)一些繁瑣、機(jī)械的文字處理,讓人去做那些更有創(chuàng)造性的工作。
糾錯(cuò)是其中一個(gè)比較典型的應(yīng)用場(chǎng)景,比如在文章中找錯(cuò)誤,人來(lái)做這件事情效率很低。2000字的文章,人類(lèi)反復(fù)可以看十幾遍,沒(méi)有任何一個(gè)人能把十個(gè)錯(cuò)別字完完整整的找出來(lái)。但是計(jì)算機(jī)在找錯(cuò)誤這件事情上,一秒鐘就可以全部找齊。人和計(jì)算機(jī)相比,在做這些重復(fù)的機(jī)械審閱上有一個(gè)巨大的差異所在。
達(dá)觀數(shù)據(jù)在文本處理領(lǐng)域的核心競(jìng)爭(zhēng)力
達(dá)觀數(shù)據(jù)的核心競(jìng)爭(zhēng)力主要體現(xiàn)在三個(gè)方面:一是在書(shū)面文字的自動(dòng)化處理,其技術(shù)是中國(guó)最強(qiáng)的。文字處理看上去不難,但深入進(jìn)去做其實(shí)特別難,因?yàn)槲淖值囊馑际菨饪s的,讓計(jì)算機(jī)去理解符號(hào)背后表達(dá)的含義,需要做非常多的技術(shù)攻關(guān);二是產(chǎn)品化程度非常高,因?yàn)橐粋€(gè)底層的技術(shù),到客戶(hù)的真正想要用的一個(gè)系統(tǒng),中間的跨越很大,達(dá)觀有很好的產(chǎn)品去縫合它,能讓客戶(hù)直接拿來(lái)用。比如開(kāi)發(fā)的系統(tǒng)能夠代替人工做信息的抽取,自動(dòng)幫他們填表,開(kāi)箱即用;三是在新技術(shù)研發(fā)方面做了非常多的工作,聯(lián)合復(fù)旦大學(xué)、中國(guó)計(jì)算機(jī)學(xué)會(huì),做了很多產(chǎn)學(xué)研的合作課題。
文字在不同的情景下,它的詞性也不一樣,要怎么處理靈活性?人閱讀文字和理解文字的各個(gè)方面都不一樣,怎么統(tǒng)一去標(biāo)準(zhǔn)?今天達(dá)觀是教計(jì)算機(jī)用同樣的方式去理解文字,構(gòu)建了知識(shí)圖譜,讓計(jì)算機(jī)去理解各種各樣的知識(shí)點(diǎn)以及概念之間的關(guān)系??梢哉嬲斫饬宋淖謨?nèi)容以后,它就可以代替一些人來(lái)完成日常的工作。
智能文檔取代人工,白領(lǐng)會(huì)失業(yè)嗎?
政府有大量的文檔資料,用文檔智能化處理器代替公務(wù)員去完成這些工作,將來(lái)公務(wù)員是否會(huì)失業(yè)?對(duì)此,陳運(yùn)文說(shuō)到:“在一百多年以前當(dāng)汽車(chē)剛剛發(fā)明時(shí),最著急的是當(dāng)時(shí)的馬車(chē)司機(jī),因?yàn)楫?dāng)時(shí)覺(jué)得汽車(chē)有了,就不要馬車(chē)了,那這些馬夫就沒(méi)用了。但今天全世界跑的到處都是汽車(chē),已經(jīng)沒(méi)有馬車(chē)了。那個(gè)時(shí)候,馬車(chē)司機(jī)去做一些更有意思的事情。這些真的是人擅長(zhǎng)做的事情,不用擔(dān)心,當(dāng)有一些繁瑣的文檔處理工作消失以后,未來(lái)將會(huì)出現(xiàn)更多真正有意義的工作。”
陳運(yùn)文向記者說(shuō)到,現(xiàn)在積極地把達(dá)觀的技術(shù)和各行各業(yè)的文檔處理需求結(jié)合在一起,讓計(jì)算機(jī)能夠更快的代替或者減輕人的工作負(fù)擔(dān)。在接下來(lái)的五年之內(nèi),希望能夠在更多的行業(yè)里面,部署上達(dá)觀的文檔智能處理器,讓更多的更智能的系統(tǒng)去解放人類(lèi)的雙手和大腦。術(shù)業(yè)有專(zhuān)攻,圖片、語(yǔ)音、文字其實(shí)相當(dāng)于人的眼睛、耳朵、大腦等等,達(dá)觀聚焦在文字的自動(dòng)化處理,未來(lái)延伸也會(huì)圍繞文字展開(kāi)。比如說(shuō)各種行業(yè)的問(wèn)題,各種承載文字的方式,不管是一個(gè)word或pdf,還是一個(gè)紙質(zhì)的掃描件,都可以自動(dòng)化處理。
NLP在AI以及大數(shù)據(jù)分析領(lǐng)域的發(fā)展趨勢(shì)
最近幾年, 自然語(yǔ)言處理技術(shù)在學(xué)術(shù)界非?;穑l(fā)展速度非???。達(dá)觀也是追趕全世界最前沿的技術(shù),把它引入到中文的文檔中。達(dá)觀最近剛剛參加了最高人民法院舉辦的中國(guó)司法裁判文書(shū)的智能化處理的比賽,在比賽里面取得了非常優(yōu)異的成績(jī)。讓計(jì)算機(jī)去閱讀這些案件的案情描述,閱讀完了以后,計(jì)算機(jī)就像一個(gè)法官的助理一樣,可以告訴你,案件匹配哪些條款,案件歷史上面類(lèi)似的案件是怎么樣的一個(gè)判罰結(jié)果。根據(jù)相應(yīng)的法律法規(guī)的條款,關(guān)于案件的最終判罰給出一個(gè)建議。計(jì)算機(jī)的系統(tǒng)是站在一個(gè)非常公平公正的角度,客觀的去評(píng)價(jià)它,盡可能多的排除了個(gè)人因素的干擾。
對(duì)于一個(gè)白領(lǐng),一個(gè)業(yè)務(wù)來(lái)了,計(jì)算機(jī)可以給你各種建議,合同哪個(gè)地方可能有點(diǎn)風(fēng)險(xiǎn),哪個(gè)地方可能要改,歷史上以前是怎么寫(xiě)的,其實(shí)都是計(jì)算機(jī)來(lái)做的事情。以后可能媒體記者在遣詞造句的時(shí)候,計(jì)算機(jī)可以給你很多建議。這些都是計(jì)算機(jī)幫你來(lái)更好地運(yùn)用文字。很多政府的公務(wù)員工作當(dāng)中行政審批審核等,可以讓計(jì)算機(jī)作為一個(gè)助理來(lái)發(fā)揮作用,它可以按照規(guī)章辦事,給出客觀公正的一個(gè)標(biāo)準(zhǔn)。
文字和各行各業(yè)的知識(shí)緊密結(jié)合在一起的,每個(gè)行業(yè)都有自己沉淀下來(lái)的一些知識(shí)結(jié)構(gòu)。達(dá)觀的系統(tǒng)在部署到各行各業(yè)的時(shí)候,首先會(huì)去挖掘行業(yè)的歷史上面的資料,讓計(jì)算機(jī)去做閱讀分析,構(gòu)建出行業(yè)領(lǐng)域?qū)S玫闹R(shí)圖譜。之后結(jié)合算法技術(shù),就可以像行業(yè)里面的專(zhuān)業(yè)員工一樣去采集,訓(xùn)練出來(lái)各個(gè)行業(yè)專(zhuān)用的文字資料,然后去處理。處理枯燥的工作,人的效率會(huì)急劇的下降,比如說(shuō)寫(xiě)文章就一個(gè)要求,不能出錯(cuò)別字,全身貫注的時(shí)候可以,但是一旦疲勞了,絕對(duì)會(huì)寫(xiě)錯(cuò)的。計(jì)算機(jī)的狀態(tài)比人要穩(wěn)定得多,特別適合來(lái)做重復(fù)繁瑣的這些工作。7×24小時(shí)工作,白天干出來(lái)的活,晚上同樣能干,人不一樣。
專(zhuān)注做好一件事,本身就是一件很酷的事
目前,文檔智能審閱系統(tǒng)是一個(gè)新的系統(tǒng)。以前并沒(méi)有,達(dá)觀需要告訴客戶(hù)今天有這樣的一個(gè)技術(shù),它能夠代替人來(lái)進(jìn)行文檔資料的閱讀理解和后面的處理工作。作為開(kāi)拓者,就必須要披荊斬棘去做很多工作,引領(lǐng)市場(chǎng),就像世界上第一個(gè)賣(mài)手機(jī)的廠商。很多時(shí)候需要告訴客戶(hù),原來(lái)幾百號(hào)員工干的這些活,現(xiàn)在幾臺(tái)服務(wù)器就能都幫你干了,達(dá)觀數(shù)據(jù)在不斷告訴大家新系統(tǒng)是干什么的,有什么用,可以做到什么樣。陳運(yùn)文認(rèn)為,在中國(guó),企業(yè)服務(wù)是一個(gè)慢工出細(xì)活的事情,它和像火箭一樣、爆發(fā)式增長(zhǎng)的很多行業(yè)還不太一樣,要小火慢燉,慢慢把一個(gè)產(chǎn)品從無(wú)到有地打造出來(lái)。很多的大型企業(yè),也需要一點(diǎn)一點(diǎn)的接受新的技術(shù)的變革,給他們新的產(chǎn)品、運(yùn)營(yíng)方式。要耐得住寂寞,能夠扎扎實(shí)實(shí)的把技術(shù)做好,讓市場(chǎng)慢慢的成長(zhǎng)起來(lái)。
他最后表示,CIO其實(shí)是很多企業(yè)里面直接決策或真正了解企業(yè)需求的人。達(dá)觀數(shù)據(jù)的文本智能系統(tǒng),和前20年的ERP管理信息系統(tǒng)還不太一樣,希望把達(dá)觀的理念和帶有智能化技術(shù)的新系統(tǒng)傳達(dá)給CIO,讓其能夠在企業(yè)里面發(fā)揮作用。
一名理科男的情懷
陳運(yùn)文的性格是一個(gè)比較和善、儒雅、有親和力的人。公司取名達(dá)觀有兩個(gè)原因:一是寓意通達(dá)樂(lè)觀,第二,公司的英文名稱(chēng)Datagrand就是大數(shù)據(jù)的英文。
公司的基因跟創(chuàng)始人還是密不可分的,作為CEO,陳運(yùn)文也是技術(shù)出身?,F(xiàn)在公司有200多人的規(guī)模,達(dá)觀數(shù)據(jù)有超過(guò)六成的都是研發(fā)工程師??偛吭谏虾5膹埥呖萍紙@區(qū),也是計(jì)算機(jī)人才非常聚集的地方。除了在華北地區(qū)有分布,在深圳也有華南地區(qū)的分布,在成都有西南地區(qū),馬上在西安會(huì)有西北地區(qū)的分布,在中國(guó)五個(gè)區(qū)域都有了分公司。
陳運(yùn)文表示,創(chuàng)業(yè)的初衷也是因?yàn)橐恢痹谧鑫谋就诰蛳嚓P(guān)的技術(shù),最早在復(fù)旦大學(xué)讀的博士,畢業(yè)以后在百度、盛大、騰訊工作,一直是做核心技術(shù)的研發(fā)工作。文字自動(dòng)化處理是一件非常有價(jià)值的事情,但是在中國(guó)大量的企業(yè)里面,直到今天為止都沒(méi)有很好。所以有很大的需求和很好機(jī)會(huì),創(chuàng)辦達(dá)觀也是希望能夠用尖端的技術(shù),更好地服務(wù)中國(guó)企業(yè),讓企業(yè)的運(yùn)營(yíng)效率能夠大幅度提高,把繁瑣的一些文字相關(guān)的工作實(shí)現(xiàn)自動(dòng)化。在2015年的時(shí)候,毅然放棄了大公司的優(yōu)厚待遇,堅(jiān)定的選擇了創(chuàng)業(yè)這條路。
人物鏈接
陳運(yùn)文,觀數(shù)據(jù)創(chuàng)始人& CEO。復(fù)旦大學(xué)博士,知名計(jì)算機(jī)技術(shù)專(zhuān)家,國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)和電子電器工程師學(xué)會(huì)(IEEE)會(huì)員,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,上海浦東“百人計(jì)劃”專(zhuān)家和政協(xié)委員,上海市優(yōu)秀博士論文獎(jiǎng)獲得者;在人工智能領(lǐng)域有30余項(xiàng)國(guó)家發(fā)明專(zhuān)利,多次參加國(guó)際數(shù)據(jù)挖掘競(jìng)賽并獲得冠軍榮譽(yù),譯著有人工智能教材《智能Web算法》;曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級(jí)總監(jiān)、百度核心技術(shù)研發(fā)工程師。在機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、搜索推薦等領(lǐng)域有豐富的研究和工程經(jīng)驗(yàn)。
第三十四屆CIO班招生
國(guó)際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:pingxiaoli
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。