• 萬頁文體分析系統簡介

    發布者:劉峰發布時間:2020-11-19瀏覽次數:10

    萬頁文體分析系統簡介

     

     

    萬頁公司,一家以機器學習為基礎,結合國內頂尖算法工程師、專業作家與編輯,經過近多年的努力,開發了人工智能處理文本模型,為文本的海量學習、研究提供專業化、技術化的服務機構?;跀底秩宋牡睦砟?,搭建人工智能模型處理人文學科文本,從源頭解決閱讀、學習、教學、研究的效率、質量、方法問題。開發了國內首個用于人文學科文本研究的人工智能文本分析系統。

    《萬頁文本分析系統》包含兩大文本處理軟件工具『 知識眼 』和『 小簡 』。本系統采用NLP自然語言處理、句法分析、語義依賴分析、無監督學習算法,數百萬字長篇秒讀,5秒鐘繪制情節曲線,掌握故事大致脈絡與情節走向;迅速掌握故事關鍵詞云、人物、地點、場景TOP分布、人物占比與羈絆關系;重要場景、情節曲線、情節競爭力事件,華彩章節,一目了然??焖匍喿x與精準分析,既能幫助實現千百萬字網文的快速閱讀,也能迅速實現各類文學作品的判斷評估。能在10分鐘內迅速按需求數量提取主要情節,大大提高閱讀速度。從源頭解決文科院系師生閱讀、研究的質量與效率問題,為論文寫作提供更便捷的研究手段,更多元的研究角度,是人文學科研究領域方法論的重大變革。


     

    一、研發背景

    20世紀90年代以來,隨著數字技術和信息技術的不斷發展,計算方法逐漸深入人文學科領域,并逐漸改變其研究范式,對人文學科未來發展以及文學研究轉型具有重要啟示意義。各種電子資料庫、數據庫等的建立和閱覽檢索方式的改變,正逐漸改變傳統意義上的紙質媒體為主要對象、文本細讀為主要方法的人文學科研究。

    近幾年“數字人文”正逐漸成為人文學科研究領域中的嶄新的方法論,為人文學科的研究提供了一個前所未有方法,應用主要體現在如下兩個方面:

    一是,利用AI技術幫助研究人員從海量的文字中發現那些單純依靠人工無法發現,但又客觀存在的事實。主要通過文本挖掘、主體建模、智能分析等分析工具可視化、系統化、規范化地呈現研究對象。這種文本分析方式,較之于傳統的研究方法,促進了人文學科研究工具的革新,正逐漸開辟出一條突破時空界限、實現“技術-藝術-文學”合一、量化研究與質性研究交織的人文研究路徑。

    二是,依靠人工智能的方式,為研究者預測那些我們不知道的信息,用科學的方法來驗證研究者的設想,為研究者提供研究方向。通過深度分析文本,可得出研究者所期望預測研究文本的主題情感、人物形象或故事情節。這一研究路徑突破了傳統文學研究的局限,利于人文研究學者發現新的問題,并對某一重要問題進行相關預測性研究。

    總之,“數字人文”的誕生使得傳統的人文學科研究帶有科學的方法論和科學的精神,并且在這場新的革命性變革中,研究者得以使用當代計算機科學技術更新傳統的人文學科研究范式,為人文研究者帶來了便利、實現了新的“創新”和“建造”;另一方面,數字技術的介入為文學研究構建了新的認知方式、新的研究范式以及新的實踐方式。數字人文在認識論和方法論上的學術價值及發展前景。

    二、產品介紹

    基于“數字人文”的廣闊應前景,充分利人工智能先進技術,團隊集結頂尖算法工程師與專業作家、編輯,開發了《文本分析系統》,旨在從源頭解決學術研究的方法、效率、質量問題?!段谋痉治鱿到y》主要包括「知識眼」文本結構分析模塊和「小簡」文本精華提取模塊。

     

     

    功能模塊如下圖:

     

     

     

     

    1、『 知識眼 』

    利用AI技術將文本數據化、可視化,將文學作品中的高頻詞、人物、地點等,以數值、圖表、詞云等更直觀的形式體現,實現質化研究和量化研究的完美結合,提高學習效率,為科研、論文寫作提供全新的角度;數百萬字長篇秒讀,5分鐘繪掌握情節走向,提取高頻詞、人物、地點等相關重要因素,并分析其關系。

     

    2、『 萬頁小簡』

    運用NLP自然語言處理、句法分析、語義依賴分析、無監督學習算法……能在10分鐘內迅速按需求數量提取主要情節;客觀公正,無任何人為解讀,人工智能按比例濃縮提取全書精華,不增加、不修改原文;保留全書知識結構框架,避免斷章取義,形成脈絡清晰的知識導讀;可調整模型中各項的權重,實現在不同粒度、不同壓縮比下對文本的壓縮,適應各類場景的不同需要;大大提高閱讀速度。

    通過對模型輸入層和輸出層的優化,秒速、按需壓縮幾十萬字中文出版物,提取全書精華,提取內容綱要,讓您1年讀完1800本書成為可能!

    三、技術簡介

    1.知識眼:文本結構分析軟件

    「知識眼」的題材分析工具,「關系分析模型」采用了語義分析和統計分析相結合的方式來分析元素間的關聯強弱。首先,模型找到文中當前關鍵詞指向的語義元素所在的全部位置,然后逐對進行語義分析,比如“小明和小紅是中學同學”就會加強“小明”和“小紅”之間的關聯,最終模型統計全部的結果,進行后置處理,并繪制關系圖。

    模型兼顧短距關聯和長距關聯,也不限于人物、地點等元素類型,比如對于學術類內容的抽象概念,也可以進行類似分析。

    部分分析結果示例圖:

     

     

    「知識眼」的沖突曲線模型包含了公司獨創的研究成果。

    我們發現,如果想用一條簡單的線條描繪一個故事的“形狀”,那么其中需要包含情緒情感、結構意義、節奏節拍等幾個維度的特征。

    我們使用了當前自然語言處理領域多項前沿的模型,來分別刻畫文本在這些維度上的特征,比如基于深度學習的情感極性分析等。然后,為了綜合這些特征并視覺化成符合人類心理預期的形狀,我們通過采集讀者/觀眾微表情的實證研究方法,進行了大量的實驗,最終找到了目前使用的模型算法和曲線數學表示。

    我們深知,優秀的基礎模型只是好產品的基礎,為了讓曲線模型真正成為一個好用的研究工具,我們在性能優化和產品交互上進行了大量投入,開發了諸如曲線文本雙向對應跳轉、關鍵文本位置標記、曲線粒度調節等多項便捷功能。

    作品情緒曲線示例圖:

     

     

    2、小簡:文本精華提取軟件

    「小簡」是萬頁在文摘領域的研究創新。

    小簡的模型承襲了學界多年的研究成果,并對文摘技術在商業場景進行應用的多項弱點進行了針對性的強化。

    首先,模型對文本進行分句和分詞處理,然后將文本并行輸送到幾個分析單元進行不同側重的語義分析,其中有的側重語法層面的統計特征,有的側重語義特征,有的側重文本的高層次結構特征等。經這些分析單元處理之后,文本變成了一系列的“語義權重矩陣”,然后由一個加權單元綜合這些結果,得到統一的語義矩陣,并最終輸送到最后的排序器,使用萬頁改良過的圖排序(Graph-ranking)算法進行最終的選擇和輸出。

    另外由于加權單元的存在,小簡還可以“動態”調整自己的“理解側重”,來更好適應特定類型的內容,比如新聞、學術著作等,從而得到更好的結果。

        文本精華提取示例圖:

     

    四、應用案例

    (一)部分典型用戶及成果

    1、復旦大學、南京大學、同濟大學、上海大學、杭州師范大學、巴金故居研究會

    ······

    2、利用本秕已發表的部分成果:

    《?收獲?刊載小說的數據性考察(1979--2018)》,發表于《中國現代文學研究(從刊)》

    《網絡小說的數據法與類型論--2018年的749部中國網絡小說為考察對象》,發表于《揚子江評論》

    《數據分析視角下的茅盾文學獎研究》,預計發表在2020《中國比較文學》第二期;

    ······     

    (二)用戶利用系統正在進行的部分研究課題

    1、北京師范大學張教授共同完成127位中國當代新銳男女作家以及10位著名作家“我們時代的性別觀”詞頻統計,觀察作家不同性別、不同代際的用詞變化(預計2020.5月出書);

    2、華東師范大學項教授共同完成2000-2019中國作家地域空間變遷研究(預計2020年完成該課題);

    3、北京大學邵教授共同完成路遙《平凡的世界》對網絡文學逆襲模式的敘事結構影響;

    4、上海戲劇學院陸教授共同完成論文《用科技手段促進戲曲創作新發展——人工智能助力新時代的新戲曲》,預計2020年發表;

    5、巴金故居合作完成《2009-2019年巴金研究狀況的數據統計》,已于2019.10.19-20,第十三屆巴金國際學術研討會上印行推出;

    6、華東師范大學宣傳部合作完成《2009-2019高校教師輿情監控研究狀況的數據統計》,預計2019年底完成;

    五、服務方式

    1、SAAS系統服務,免除您維護之憂

       IP控制,遠程訪問,按年付費                                  

    2、不斷升級增加新功能

       系統不斷升級中,更多功能給您帶來更多驚喜

                                              

    六、試用帳號

    訪問地址

    https://read.laixi.pro

    用戶名

    Test10

    Test11

    密碼

    Test1600

    Test1944

    有效期限

    202011

    20211

     

     

    大赢家棋牌