基于nlp的多领域异构信息处理 -...
TRANSCRIPT
中国中文信息学会2014战略研讨会
基于NLP的多领域异构信息处理
王晓龙
哈尔滨工业大学
2014/4/21
2
概述
问答系统与知识服务
跨语言分析
生物医药
金融信息处理
主要内容
未来十年中文信息处理的主要着眼点和着力点应该在哪里?
国际上自然语言处理领域近年来有哪些最新的前沿进展?
中文信息处理的重要原始创新可能在哪里?
中文信息处理相关产业发展的重要方向是什么?
如何推动中文信息处理进入国家重大科研计划?
… …
破题: 自顶向下 VS 自底向上
基础资源建设
大规模知识图谱(Knowledge Graph)
实现语义理解资源
相关的构建和管理方法
新方法
深度学习
词的分布式语义表示
并行自然语言处理算法
处理大数据
新应用领域
社会网络
用户兴趣建模
生物、医药
Watson可以进行辅助医疗
国家安全
美国棱镜项目
前沿进展
中文知识图谱资源建设
基于知识的语义理解方法
信息处理信息理解
可并行的自然语言处理方法
应对大数据的挑战
能够造福民生的应用领域
医疗等
自然人机界面
未来十年中文信息处理的着眼点、着力点
自然人机界面
计算机将发展成个人生活助手
交互式问答
智能家电
自然语言控制
交叉应用领域
健康信息学…
中文信息处理相关产业发展的重要方向
中文本身:语义表示与推理
资源、方法
中文扩展:异构信息处理
文本+数据+语音+图像+…
领域扩展:交叉领域的中文信息处理
该领域本体知识
金融、生物、医药、国家安全、…
语言扩展:多语言、跨语言
中文信息处理的重要原始创新可能在哪里
8
概述
问答系统与知识服务
跨语言分析
生物医药
金融信息处理
主要内容
9
2013年4月23日:一条据称来自美联社的推特消息23日下午13时07分50秒说,“白宫发生两起爆炸,美国总统奥巴马受伤”。这条推文发出几分钟后就令美国股指如“疯狂过山车般”暴跌,美国股市市值短时间蒸发了2000亿美元。美联社几乎立刻暂停“推特”线路,撤掉了这条消息。13时10分,第一条澄清信息出现。
实例1
10
2013年1月24日,微博注册ID为“资深金融小邪女”的一条31字微博:“处长今日下午告诉@资深金融小邪女一个重大消息: IPO近期开闸!立此帖为证!”在发出后十多分钟,在上午10时半之前还上涨超过40点的大盘,犹如过山车一般,从最高2362点一口气滑到2287点,落差达70点之多,引发A股动荡。
财联社称,“经调查发现,此账号为微博营销账号,主要以发耸人言论以吸引人关注然后发企业负面以删帖赚钱为业务。经过财联社进一步确认,IPO暂停仍延续。”
实例2
2012年12月5日,有博客上发消息指贵州茅台检测结果已经出炉,贵州茅台股价应声一度跌逾6%,并带动板块内其他个股回落;但随后又有消息称香港检测结果不含塑化剂,贵州茅台随后反弹,尾盘跌幅收窄,最终收跌1.24%。据新浪财经报道,经证实,网传茅台检测结果系造假。中国香港负责食品安全检查的机构是食物环境卫生署和香港食物安全中心(负责检测),并无香港特区食品安全监管检测局一机构。
11
文本消息-〉数据突变
因果关系
数据突变-〉消息来源
诊断关系
文本数据的可信性和时间紧迫性
金融本体知识和NLP的结合
研究内容
12
概述
问答系统与知识服务
跨语言分析
生物医药
金融信息处理
主要内容
Q & A
Waston
-Named after the founder of IBM --Thomas J. Waston
-Won $1,000,000 in Game Jeopardy in 2011, defeated 2 human competeters
-Source : encyclopaedia, wikipedia, webpages, structural data
-100 algorithms, 90 servers, 3s response time
Jeopardy Game Rules:
-Get points for correct answers
-Lose points for incorrect ones
问答的启示:
购物机器人
淘宝:600万厂家,需要1-n个服务员,不能24小时工作;
其他网点
客服机器人
各类领域如:银行、电信等
聊天机器人
服务业
专家系统
提供专家知识服务
未来着眼点
基于异构信息的交互式问答
基于时间敏感的问句检索
基于数据计算的答案生成
基于上下文语境的连续问句理解
基于用户意图多样化的问句推荐
研究内容
16
概述
问答系统与知识服务
跨语言分析
生物医药
金融信息处理
主要内容
17
09-6-26
09-6-27
ئىيۇن –شىنخۇا ئاگېنتلىقى ، شىنجاڭ پىچان ،5ئىيۇن سەھەر سائەت –26: تېلېگراممىسى
مىنۇت ئۆتكەندە، شىنجاڭ تۇرپان 50تىن ىرىدا ۋىاليىتىنىڭ پىچان ناھىيەسى لۈكچۈن باز
زوراۋانلىق، تېررورلۇق ھۇجۇم قىلىش –ىرىدېلوسى يۈز بېرىپ، توپىالڭچىالر ئىلگ
كېيىن
以广东韶关“6·26”事件为主题在“Xabnam,Diyarim”等维吾尔文主流网站,BBS,个人博客等空间传播虚假信息,散发谣言,制造民族矛盾,大肆煽动民族仇视
09-7-5
乌鲁木齐“7.5”暴力犯罪事件,造成197人死亡,1700余人受伤,直接经济损失达6千多万,间接损失难以统计
1763270http://www2009-07-062009-07-06七·五暴力gn1763270http://www2009-07-062009-07-06七·五暴力gn
新疆“7.5暴乱”的跨语言舆情演化
18
跨语言:多种语言之间的互动更加频繁,不同语言
的舆情表现特征不一,舆情的关联与对比综合是一
大难题
跨地域:一般不局限于单个空间,跨度极大,需要
地域的综合演化分析
跨社群:涉及不同语种不同民族的社会群体,舆情
与不同群体的互动机制尚缺乏研究
研究内容
19
概述
问答系统与知识服务
跨语言分析
生物医药
金融信息处理
主要内容
NLP 与生命科学
人类对生命的认识水平
系统 器官 组织 细胞 分子
医学及医学信息技术 生物科学及生物信息技术
基于NLP 的生物信息处理技术分子水平对生命的认识
染色体:遗传物质的主要载体;
DNA:主要遗传物质,双螺旋结构,遗传信息的载体;
基因:遗传物质的功能单位和结构单位,基因是DNA片段;
蛋白质:特定的决定人体的特定细胞和器官的形成与运转
NLP 与生命科学
人类对生命的认识水平
系统 器官 组织 细胞 分子
医学及医学信息技术 生物科学及生物信息技术
23
交叉应用领域某一产业的发展是多个交叉领域共同发展的结果。如在医药、医疗等方面,就涉及以下几个领域:
1. 生物学
2. 医学
3. 化学
4. ……
?如何融合多个交叉领域的信息以促进某一产业的发展
――― NLP技术,为什么?
企业中,80%左右的信息是非结构化的,其中绝大部分以文本的形式存在。
人类历史上,以语言和文字记载和流传的知识占知识总量的80%以上。
医学相关领域:生物医学文献、化学医学文献、电子健康档案(即电子病历)、药物研制报告、药物说明书、药物监督管理局文档、蛋白质结构、分子结构、化学结构(结构化数据)等。
24
临床前研究和开发
临床研究和开发
新药申请 上市后检测
药物合成和特性研究
动物实验
副作用报告调查/抽样实验
检查
平均6.5年 平均7年 平均1.5年
短期
长期
I期
II期
III期
FDA(食品药品管理局)30天审核
新药申请核准
平均耗时15年,65种合成物中仅5种可以进入临床实验,20个候选药物中仅1个能批准上市,耗费13亿美元
传统的新药开发过程
25
临床前研究和开发
临床研究和开发
新药申请 上市后检测
从医学相关文献中发现新的合成化合物+生物结构+化学结构
动物实验
副作用报告调查/抽样实验
电子病历文本挖掘
检查
时间大量缩短 平均7年 平均1.5年
短期
长期
I期
II期
III期
FDA(食品药品管理局)30天审核
新药申请核准
大量缩短临床前研究和开发时间,大幅度提高合成物准确率,提高药物上市率,减少药物开发费用
NLP技术对新药开发的影响
老药新疗效发现药物副作用发现
26
NLP技术在新药开发产业的应用现状 Linguamatics公司研发的I2E文本挖掘软件已成功应用于全球排名前10制药公司中的8家。
老药新用(疗效)案例:(1) 西地那非(也就是“伟哥”),原来是用来治疗高血压的药物;(2)阿司匹林,在80年是头疼脑热的居家良药,目前它的使用范围已经逐步扩大到了预防心肌梗死、中风、静脉血栓,甚至一部分癌症和阿尔兹海默症;……
药物副作用案例:罗非考昔(一种在美国广泛使用的抗关节炎药物)因能增加心脏风险在2004年下市;…… 研究表明,该药物在临床前研究阶段就能被排除掉。
27
NLP技术用于药物相互作用信息抽取 药物相互作用(Drug Interation)是指两种或两种以上的药物同时
应用时所发生的药效变化。即产生协同(增效)、相加(增加)、拮抗(减效)作用。合理的药物相互作用可以增强疗效或降低药物不良反应,反之可导致疗效降低或毒性增加,还可能发生一些异常反应,干扰治疗,加重病情。作用增加称为药效的协同或相加,作用减弱称为药效的拮抗,亦称谓“配伍禁忌”。
如近几年来,许多抗过敏药如特非那定、阿司咪唑等,与咪唑类抗真菌药、大环内酯类抗生素(红霉素等)并用后发生严重的心脏毒性,少数人甚至致死。为此,要求生产厂家在说明中尽把“相互作用”严格注明。
如何获取药物相互作用信息来指导用药?
化学实验:药物组合数量庞大,难以实现
药品化学属性分析:如酸性药物和碱性药物不能同时服用
NLP技术:1)从医疗文献中挖掘;2)从电子病历中挖掘...
……
28
NLP技术辅助医疗 自动分诊
根据病人提交的症状描述,自动确定所需进入的科室(医导)
辅助诊断
根据病人电子病历中的症状、检测数据等信息,推荐几种治疗方案或者判定是否需要某一特殊处理(如抗感染治疗)。
疾病表型症状分析
根据病人电子病历中的症状和疾病数据等信息,提取出疾病的表型症状(具有指示作用),如肺癌的表型症状分析等。
同类病人自动筛选
临床实验过程中需要“召集”同类病人进行对比实验,从电子病历库中自动筛选同类病人。
……
创新点:
中文本身:语义表示与推理
中文扩展:异构信息处理
领域扩展:交叉领域的中文信息处理
语言扩展:多语言、跨语言
基于NLP的跨语言交叉领域异构信息处理
结论
谢谢!