L1E6N0A2

NLP入门之事件抽取

发表于 2021-07-23
本文字数： 1.4k 阅读时长 ≈ 1 分钟

NLP信息抽取(Information Extraction)

信息抽取，即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）。

信息抽取主要包括三个子任务：关系抽取、命名实体识别、事件抽取。

命名实体识别：可以算是此法分析中未登录词识别的一种，是用来识别专有词、时间、地点、手机型号等等具有特定意义的实体。

关系抽取：为了抽取文本中包含的关系，主要用于抽取实体间的关系

阅读全文 »

NLP入门之命名实体识别

发表于 2021-07-19 更新于 2021-07-22
本文字数： 1.7k 阅读时长 ≈ 2 分钟

什么是命名实体识别

命名实体识别（Named Entity Recognition，简称NER）是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

“小明早上8点去学校上课。”

人名：小明，时间：早上8点，地点：学校。

命名实体识别只能识别名词短语或者是一些领域的专有名词，不适合识别“目的”“对象”这种。

阅读全文 »

论文积累（隐私）

发表于 2021-07-14 更新于 2021-07-19
本文字数： 5.1k 阅读时长 ≈ 5 分钟

原文作者：Adam Barth. Anupam Datta. John C. Mitchell. Helen Nissenbaum

原文标题：Privacy and contextual integrity: Framework and applications

原文来源： IEEE Symposium on Security and Privacy, May 2006

摘要

该论文在一个表达和推理个人信息传输规范的逻辑框架中形式化了一些上下文完整性的方面。规范可以是积极的，也可以是消极的，这取决于它们指的是允许或不允许的行为。模型具有足够的表现力，可以很自然地捕捉到立法中发现的许多隐私概念，包括那些在HIPAA、COPPA和GLBA中发现的隐私概念。

构建一个可以描述法律中隐私概念的模型

阅读全文 »

NLP入门（二）

发表于 2021-06-03 更新于 2021-07-15
本文字数： 1.3k 阅读时长 ≈ 1 分钟

zzzz准备实战，python，tensorflow，keras，Scikit-learn

第三天（《python自然语言处理实战》）

jieba分词
- 准确模式：最精确的分开，适合文本分析
- 全模式：把句子里的所有单词扫描出来，不能解决歧义
- 搜索引擎模式：在精准模式的基础上，对长词再次切分（会把所有可能的词输出）

阅读全文 »

NLP入门

发表于 2021-05-31 更新于 2021-06-03
本文字数： 2.7k 阅读时长 ≈ 2 分钟

一周速成自然语言处理

最近不忙，学一下机器学习和自然语言处理，主要是《自然语言处理入门》一书和斯坦福公开课吴恩达《机器学习》的学习笔记整理。

第一天（何晗自然语言处理入门）

第一章新手上路

语料库：人工标注的结构化文本（样本的集合，在机器学习领域称为数据集）
自然语言处理的层次

阅读全文 »

算法学习5.20

发表于 2021-05-20
本文字数： 367 阅读时长 ≈ 1 分钟

哈希表——两数求和

class Solution {
    public int[] twoSum(int[] nums, int target) {
        Map<Integer, Integer> hashtable = new HashMap<Integer, Integer>();
        for (int i = 0; i < nums.length; ++i) {
            if (hashtable.containsKey(target - nums[i])) {
                return new int[]{hashtable.get(target - nums[i]), i};
            }
            hashtable.put(nums[i], i);
        }
        return new int[0];
    }
}