自然语言处理 --- L01

基本概念

  • 自然语言理解, NLU, Understanding

    形式化(标准化)的数学符号、模型, 模拟人的语言能力

  • 计算语言学, Computational Linguistics

    数学模型

  • 自然语言处理, NLP

    更宽泛的概念。

    利用计算机, 对人类的书面和口头形式的自然语言的信息进行处理和加工

  • 语言

    一个符号系统, 意义(知识) + 规则(语法)

  • 第一系统 — 语音系统 Sound System

    第二系统 — 文字系统(书写系统) Writing System

  • 口头语和书面语

  • 语言和言语

  • 语言单位

    单个字符, 词(word), 短语(Phrase), 句子(Sentence), 语段, 篇章(Utterence)

  • 自然语言的作用

    思维的载体, 交流的工具

    人类历史以语言文字形式记载和流传的只是占总量的 80% 以上, 图表占的比例很小

  • 基本问题

    如何让计算机具有语言处理的能力,如何让计算机实现自动的或人机互助的语言处理功能

    如何利用计算机处理海量的语言信息,自动处理,知识挖掘,有效利用

  • 学科特点 — 交叉性学科

    语言学:形式语言文法,词典、语料库(标注、分词等)、知识库

    数学:概率论、统计学、信息论,自动机、Markov模型、HMM模型

    计算机科学:自动机器学习,自动人工智能,状态空间的图搜索算法

    心理语言学:研究人类理解自然语言的机制

  • 语言学基本知识:语言研究的基本范畴

例子

  • 英汉翻译

    Miss Smith put two books on this table

  • 形态分析

    词形还原, Lemmatization, 变成原型

    词汇符号化, Tokenization, 相当于中文分词

    Miss
    Smith
    put

    语法分析, Syntac, 主谓宾, 语音合成, 读的时候的节奏变化

    [Miss Smith] [put] [two books] [on the table]

    词汇转换(单词转换)

    短语转换(语序转换)

    优化

自然语言处理研究的不同层次

  • 应用系统(数字图书馆,电子商务,电子政务,自助服务,语言学习)

  • 应用技术研究(自动问答,机器翻译,信息检索,文本挖掘,自动校对,信息抽取)

  • 基础研究(分词,标注,切分)

  • 资源建设

  • 语言学知识库建设

自然语言处理的应用

  • 基于文本的应用

    关键词(同近义词,模糊,自动理解自然语言)搜索引擎

    翻译

    自动文摘,消息抽取

  • 基于对话的应用:

    问答系统

    教学系统

问题

  • 机器能处理自然语言,但机器能理解自然语言吗

  • 结构主义,理性主义:理解语言的步骤,但人自己可能也说不清自己理解语言的步骤

    经验主义,功能主义:机器的表现与人相同

    图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能

困难

  • 歧义 ambiguity

    语义,结构,词法,语音

    《施氏食狮史》

    石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

  • 大量位置语言现象

    新的词汇,术语,含义,用法,结构

NLP的研究内容

NLP的研究内容(应用)

语言分析的知识层次

    原文作者:FrozenMap
    原文地址: https://segmentfault.com/a/1190000019154308
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞