技术标签: 读后感
背景介绍
今年以来,对于大数据十分感兴趣,故花了些钱报了个线上大数据培训课程。陆陆续续有老师和同学推荐数学之美这本书,看过之后确实不错,特别是将今年来的一些热点,如自然语言处理,语音识别等数学原理深入浅出的表述,使得像我们这些对数学不太懂又像了解的人大有裨益。
第一章 文字和语言 vs 数字和信息 第二章 自然语言处理 从规则到统计
第一章主要阐述了信息的重要性,语言和数字的产生都是为了记录和传播信息。这让我想到现代社会的本质就是信息的传播,人们在一起生活日常就是交流所见所闻,支付宝微信等就是收集人们的消费习惯和社交数据,所以信息的传播对于我们是十分重要的。我觉得文中的一个观点很有意思,即文字语言和数字都是一个编码和解码的过程。实际存在的物品或动作用抽象的符号文字来代替,这就是一个编码的过程。而人们能读懂就是应该在脑中进行了不自觉的解码。程序中也有一些为了信息安全的算法,之前一直觉得很深奥。通过这么一说,瞬间就把复杂难懂的算法和实际生活联系在一起,突然就觉得MD5在印象中就生动起来了。
第三章 统计语言模型 第四章 谈谈分词 第五章 隐含马尔可夫模型
第三章主要讲述了用数学的方法描述语言规律,贾里尼克对于自然语言处理的出发点为一个句子是否合理,就看它的可能性大小。而一个有意义的句子在文本中出现的概率也就是句中每个词出现位置的概率,而每个词出现的概率有和前面的每个词有关。这样导致十分难以计算。马尔科夫的观点为,任意一个词出现的概率之和前面一个词有关。该章同时讲到的统计语言模型的“不平滑”问题,这个需要特别注意。第四章讲到有一个词的粒度问题,就是汉语中词是表达意思的最基本单位,再小意思就变了。这解决了我高中的一个疑问,明明都有比分子更小的组成,为啥所分子是保持化学性质的最小单位。而且现在的中文分词已经是解决了的问题。
第五章 隐含马尔科夫模型
原来没太看懂,但是记住了隐含马尔科夫是解决大多数自然语言处理问题最为快捷和有效的方法。
第六章 信息的度量和作用
信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息。互信息是解决翻译中二义性最好的方法。
第七章 贾里尼克和现代语言处理
本章主要介绍的是贾里尼克的生平事迹,让我印象最深刻的是关于教育的看法,小学生和中学生没有必要花那么多时间读书,而他们的社会经验、生活能力以及在那时树立起的志向将帮助他们的一生 。
其次因为兴趣而读书的人往往成就更高。
第十三章 Google AK-47的设计者 阿米特 辛格博士
该章说到的辛格的做事的哲学,即先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,这种做法是工业界成功的秘诀之一。
许多失败并不是因为人不优秀,而是做事的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。
第十四章 余弦定理和新闻的分类
新闻的分类很大程度上依靠的是余弦定理。
第十五章 矩阵运算和文本处理中的两个分类问题
利用矩阵运算中的奇异值分解,能够快速的得到结果,因为他不需要一次次地迭代。
第十六章 信息指纹及其应用
所谓信息指纹,可以简单理解为将一段信息(文字、图片、音频、视频等)随机地映射到一个多维
二进制空间中的一个点(一个二进制数字),只要随机函数做的好,那么不同信息对应的这些点就不会重合。
第十七章 由电视剧《暗算》所想到的--谈谈密码邪恶的数学原理
目前最常用的家吗方法是公开密钥
第十八章 闪光的不一定是金子 -谈谈搜索引擎反作弊问题和搜索结果的权威性问题
作弊的本质是在网页排名信号中加入了噪音,因此反作弊的关键是去噪音。这里又用到了余弦定理
第十九章 谈谈数学模型的重要性
1,一个正确的数学模型应当在形式上是简单的。
2,正确的买模型也可能受到噪音干扰,而显得不正确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源
,这也许能找到重大的发现。
第二十章 不要把鸡蛋放到一个篮子里-谈谈最大熵模型
我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性;从形式上看,它非常的简单,非常优美;从效果上看,它是唯一一种
既能满足各个信息源的限制条件,又能保证平滑性的模型。
第二十一章 拼音输入法的数学原理
拼音转汉字用的算法是动态规划,
第二十二章 自然语言处理的交付马库斯和他的优秀弟子们
第二十三章 布隆过滤器
第二十四章 马尔科夫链的扩展-贝叶斯网络
贝叶斯网络就是一个加权的有向图。
第二十五章 条件随机场、文法分析及其他
第二十六章 维特比和他的维特比算法
维特比算法是现代数字通信中最常用的算法,是一个特殊但应用最广的动态规划算法。
第二十七章 期望最大化算法
第二十八章 逻辑回归和搜索广告
逻辑回归的好处是他的变量的范围是负无穷大到正无穷大,而值域在0到1间 。
第二十九章 各个击破算法和Google云计算的基础
MapReduce的思想
第三十章 Google大脑和人工神经网络
人工神经网络听上去很深奥,其实就是一种特殊的有向图,不要被深奥的名词吓到。Google大脑并不是一个什么都能思考的大脑,
而是一个很能计算的人工神经网络。
第三十一章 大数据的为例 --谈谈数据的重要性
大数据十分的重要,首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律。
其次,大数据的采集过程是一个自然的过程,有利于消除主观性的偏差。当然,更重要的是,只有多维度的大数据才能让那些原本有联系,但似乎联系又不太
紧密的时间反复出现,然后发现新的规律。最后,它可能是解决it行业之外的一些难题(比如医疗)的钥匙
常用的对称加密算法DES算法。在Java中有一个工厂类里面存放着各种常用的加密算法,我们通过实例化DES算法来实现DES加密。 Java代码示例:import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.SecretKey;import javax.crypto...
红宝书5500难点词必考词Unit1Unit2Unit3Unit4Unit5把每单元不太熟的词单独整理出来…必考词Unit1obligation 义务、责任oblige 强迫、迫使、使感激obscure 使变暗、遮蔽; 费解的、不分明的obsession 迷住、牵挂; 萦绕于心的事物或人idelogy 思想意识、观念形态identical 同一的、相同的identity 相同性、一致性therapy 疗法、理疗Unit2fabric 织物; 结构、组织fabricate 建造、
请问各位大神,我在页面上面加上 font-family: "微软雅黑"; 样式之后 我的排版就变了,如图:姓名中间的空格就变得非常大。我不想用英文的那个‘微软雅黑’ , 换了编码方式,还是一样。请问要怎么解决?回复讨论(解决方案)建议不要什么都在*{}上改,不然全部都变了就容易改动大直接打中文的“font-family: 微软雅黑;”不行吗?去掉中间多余的&nbsp,控制文字...
前言:前一阵子,之前安装的旧版本的IDEA过期了,然后重新去官网下载了一个最新版本的,结果一直双击打不开。后来,经过一阵子摸索后,终于解决了。So, 下面来记录一下,解决的方案.问题:卸载旧版IDEA后,安装新版的,双击一直没反应,也打不开。解决:去到当前用户的AppData目录下,找到Local 目录的JetBrains 目录下的旧版本的IDEA下的caches删除,于此同时,也要把Roaming 下的旧的 JetBrains 的文件删除。再重新双击IDEA就能用了Ro...
------- android培训、java培训、期待与您交流! ----------java语法基础:1、关键字:其实就是某种语言赋予了特殊含义的单词。保留字:其实就是还没有赋予特殊含义,但是准备日后要使用过的单词。 2、标示符:其实就是在程序中自定义的名词。比如类名,变量名,函数名。包含 0-9、a-z、$、_ ;注意:1)、数字不可以开头。2)、不可以使用关键字。
TP 相关引脚DTS中的定义我们这个项目TP复位引脚是GPIO158,中断引脚是GPIO1,由下图原理图知道我们的TP挂载在I2c0上,3.3v的供电电压是有PMIC 2.8V供电电压通过i2c电平转换过来的,所以供电电压需要配置pmic 2.8v/* TOUCH start */&touch { tpd-resolution = <800 1280&g...
本文实例讲述了java用接口、多态、继承、类计算三角形和矩形周长及面积的方法。分享给大家供大家参考。具体如下:定义接口规范:/*** @author vvv* @date 2013-8-10 上午08:56:48*/package com.duotai;/*****/public interface Shape {public double area();public double longer(...
这是今天早上刚来打卡上班时遇到的错误,一脸懵,昨晚还好好的为什么今天就不行了。然后果断重启电脑,哈哈。发现没和我开玩笑的确是出现问题了。然后想办法解决,找到度娘发现问题或许出现在nodejs中,也就是说我需要重新安装一个nodejs。我的nodejs出现问题了。。。。好吧好吧,重新安装一个熟悉一下操作也是一件好事。所以在https://nodejs.org/en/download/(官网)h...
TypeError: fit() missing 1 required positional argument: 'y'forgot the paranthesis "()"漏掉了 sklearn.preprocessing.LabelEncoder() 的括号转载于:https://www.cnblogs.com/forlenia/p/7755882.html...
目录回归分析代价函数 (损失函数)梯度下降法 ---一元线性回归sklearn ---一元线性回归回归分析用来建立方程模拟两个或者多个变量之间如何关联被预测的变量叫做:因变量,输出被用来进行预测的变量叫做:自变量,输入一元线性回归包含一个自变量一个因变量两个变量的关系用一条直线来模拟如果包含两个以上的自变量,则称作多元回归分析hθ(x) =θ0 +θ1x 这条直线称为回归线 θ1为回归线斜率θ0为回归线截距代价函数 (损失函数)方法:最小...
为什么80%的码农都做不了架构师?>>> ...
https://blog.csdn.net/huzhigenlaohu/article/details/42706601