# Fileset

[JOSS2018TDM_公開用.pdf](https://mdr.nims.go.jp/filesets/f3193a74-ab43-4202-811e-b3528dcad1bc/download)

## Creator

[石井 真史](https://orcid.org/0000-0003-0357-2832)

## Rights



## Other metadata

[物質・材料研究におけるテキストデータマイニング：効率的文献データ利活用](https://mdr.nims.go.jp/datasets/79a31c68-627d-4acf-b016-d68249198b51)

## Fulltext

材料科学分野における データ利用のライセンスの考え方  - 図書館からの視点物質・材料研究におけるテキストデータマイニング：効率的文献データ利活用国立研究開発法人 物質・材料研究機構石井 真史革新的材料開発力強化（M3）プログラムを構成するMaterial Research Bank材料R&Dデータの入り口（収集）から出口（サービス）までデータ収集→ 処理→ 解析→ 蓄積→ 管理→ 公開1→ 駆動→ 協調的利用→ 競合的活用❖情報の爆発的増加❖学術論文を出典とするデータベースの維持・運用の進め方❖機械学習や人工知能を駆使した効率化データ収集と高付加価値化⚫ 文献からのデータマイニング⚫ 機械学習手法を取り入れた先進的データベース物質・材料データベース解析サーバ材料情報統合データプラットフォームツールやアプリケーション連携・共同研究民間利用Physical model of micro-structureVisualization of materials information2Selection of candidate materialsMaterials Research Bank (MRB)– 材料データプラットフォームセンターのミッション–先進データベース⚫ 実験装置、計測機器、ＩｏＴ⚫ 日本の大型研究施設から⚫ メタ情報とトレーサビリティを担保⚫ 信頼性のあるデータ、標準データSIP-MI統合システムによる利用技術の活用学術利用公開＋利用協調利用→競争活用データ駆動型データパブリッシュ3NIMSの保有する材料基礎物性データベース群学術論文からのデータ抽出NIMS MatNavi名称 内容 データ数PoLyInfo 高分子 299,258AtomWork 無機材料 55,000Kakusan 拡散係数 4,242SuperCon 超電導材料 32,791http://mits.nims.go.jp/学術論文からデータを人手で抽出材料開発、教育、マテリアルズ・インフォマティクスでの利用NIMSが誇る材料データベースmatnavi41843 Il Cimento (Italy)以来、学術雑誌数の指数関数的増加テキストデータマイニングの必要性科学技術における情報量の増大雑誌数=Scopus掲載数で近似論文数PRLページ数Macromoleculesページ数第二次大戦以降の雑誌数の増加10倍/50年人手によるデータベース構築の限界論文のページ数の増加×10倍/50年トータル=100倍/50年5人手でＤＢ化論文 高速・低コスト・自動収集ＡＩでＤＢ化膨大な時間・費用・労力テキストデータマイニングによる論文からの自動データ抽出alpha,omega-PS-(Rf)2,Rfcom. H-PSD1D2D3, D4 and D5fluoroalkylsilylHome H-PShPSL18L27L9linear polystyreneLinear PSomega-lithium sulfonatopolystyrene (PSsul)omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.3)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.4)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.5)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.6)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.7)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.8)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC(0.9)]omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.3omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.4omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.5omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.6omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.7omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.8omega-lithium sulfonatopolystyrene//trimethylstearylammonium chloride  [PSsul-TMSAC];0.9polystyreneprotiopolystyrene (h-PS)PSPS (hPS)PS latex (micro-PS-SDS, PS-SDS-alpha, micro-PS-OP, conv-PS and r-PS)PS/washed carbon fiber composite(CH2Cl2 soln. impregnation)PS/washed carbon fiber composite(cyclohexane soln. impregnation)PS/washed carbon fiber composite(molten PS impregnation)PS-111PS1-BrPS-2.5MPS2-BrPS-37PS-600KPS-950PS-BrPS-HPStテクニカルな課題・「物質名」の表記ゆれ・「特性名」の表記ゆれ・「単位」の表記ゆれ・「物性名」-「物性名」-物性値-「単位」の関係づけ201個の”polystyrene”試料に46の違う名前。でもみんな”Polystyrene”6テクニカルな課題・人が読易い文献 ≠ 機械が読易い論文XML文献（タグ付き）• コンテンツが分けやすく• 本文・表の区別がしやすく• 数式、特殊記号が可読化しやすく• 表の構造を再構築しやすく• 文献情報が得やすく• テキストをパースし易くpdf文献• 人が読みやすく• 入手が比較的容易• 表現のゆれが少なく（機械が読みやすい）文献リソースの確保7人手でＤＢ化論文 高速・低コスト・自動収集ＡＩでＤＢ化-200 -100 0 100 200 300 400-1000100200300400500600700  PoLyInfo ACS+Elsevier TDMTm (C)Tg (C)共同研究機関膨大な時間・費用・労力X論文から・X点のガラス転移温度・X点の融点の自動抽出に成功！自動抽出成功例：・平均分子量X点・結晶化度X点・熱分解温度X点・溶融熱X点・・・・他マテリアルズ・インフォマティクスのためのデータ源テキストデータマイニングによる論文からの自動データ抽出8まとめ情報爆発が起きている現代で、NIMSの材料データベースを維持発展させる方法→AI＋自然言語処理による文献からの自動データ抽出→データ蓄積中！論文からの自動データ抽出のカギ• 物質名・物性名などの表記ゆれを吸収する辞書あるいはAIの作成• 人手による抽出済データの活用（単語集や教師データとして）• 機械が読みやすいリソースの確保