西班牙语句子的主语和话题分析

subject-classification-spanish的Python项目详细描述


主题分类西班牙语

PyPI version

它是如何工作的?在

主题分类西班牙语是一个python库,它使用卷积神经网络来预测西班牙语句子的主题(政治、体育、健康…)。我用的是来自西班牙广播公司的模特儿。 这条新闻是通过项目news-scrapers-workers-go的网页抓取提取的

使用新闻中的标签,我们训练模型学习其中的语言。为此,我们使用了Keras、Tensorflow和sklearn库。 有关神经网络模型训练的更多详细信息,请查看reponews-scraper-subject-classifiers-model

为什么?在

我相信基于神经网络的西班牙语主题分类分析的解决方案并不多。在

安装和使用

首先安装程序包

pip install subject-classification-spanish

你还需要keras,tensorflow和sklearn

^{pr2}$

导入包

from subject_classification_spanish import subject_classifier

例如,本文摘自《政治新报》:

text_text_politics = "La entrada en el 2020 ha comportado cambios en la edad de jubilación y en el cálculo de los años cotizados que se tienen en cuenta para determinar la prestación. Las medidas son de carácter automático, ya que forman parte de la reforma de 2011 que hace que la edad para jubilarse se retrase paulatinamente hasta llegar a los 67 años.  ADVERTISING  Todo esto se da mientras resta pendiente saber cuál será la subida de las prestaciones en el 2020, ya que aunque el Gobierno en funciones ha prometido que se subirán el 0,9% y no perderán poder adquisitivo, la medida no se tomará hasta que esté formado un Ejecutivo. En diciembre de 2019 en España se contabilizaban 6.089.294 pensiones de jubilación, con una prestación media de 1.143,55 euros mensuales.   Pensiones en 2020 Los cambios en la edad de jubilación  Respecto a la edad de jubilación, cada año se va retrasando en virtud del régimen establecido en la reforma de 2011 aprobada durante el mandato de José Luis Rodríguez Zapatero. De esta forma, en 2020 la edad legal ordinaria será de 65 años y 10 meses. Esta edad se aplicará a aquellos que han cotizado menos de 37 años.  Si una persona llega a los 65 años en 2020 y ha cotizado 37 años o más, ya podrá jubilarse con 65 años.  En el caso de la jubilación parcial, en la que se combina trabajo y prestación, el mínimo será de 61 años y 10 meses con 35 años o más cotizados; o de 62 años y 8 meses con 33 años cotizados.  Con cada año que pasa es necesaria más edad para acceder a la jubilación, tanto si se ha cotizado por encima o por debajo de los periodos de referencia  Con cada año que pasa es necesaria más edad para acceder a la jubilación, tanto si se ha cotizado por encima o por debajo de los periodos de referencia Pensiones en 2020 Los cambios en el cálculo de la pensión  Por lo que respecta al cálculo de la pensión que se cobrará la momento de jubilarse, en 2020 se tendrán en cuenta los últimos 23 años cotizados. Estos años cotizados conforman la base reguladora, que es la suma de las bases de cotización en dicho periodo. Hay que tener en cuenta que cuantos más años se tengan en cuenta es posible que se recorte más la pensión, ya que en los últimos años de vida laboral es cuando mejores salarios se suelen cobrar.   Esta es otra de las reformas introducidas con los cambios en las pensiones de la década anterior, momento hasta el que se tenían en cuenta los últimos 15 años trabajados. La idea es que para 2022 ya se tengan en cuenta los últimos 25 años cotizados. De esta manera, en 2021 se computarán los últimos 24 años trabajados y en 2022 los últimos 25 años cotizados.  La base reguladora de la pensión se obtiene de dividir los meses de los años exigidos por el divisor correspondiente La base reguladora de la pensión se obtiene de dividir los meses de los años exigidos por el divisor correspondiente (LV) En 2023 El recorte de las pensiones que viene  Otra de las medidas que tendrán un fuerte calado en el sistema es la llegada del factor de sostenibilidad, que se aplicará a partir de 2023 e irá recortando las nuevas pensiones, teniendo en cuenta que los pensionistas vivirán más. Dicha medida en un principio debía aplicarse en 2019.  El conjunto de medidas se puede consultar al detalle en la guía para la jubilación del Ministerio de Trabajo, Migraciones y Seguridad Social."

创建新分类器:

classifier = SubjectClassifier()

运行主题分析:

classes_result = classifier.classify(text_text_politics)
print(classes_result)


您将看到它输出一个字典,其中包含检测到的主题及其概率

{'trabajo': 0.06324339, 'política laboral': 0.062398944, 'seguridad social': 0.04280818, 'pensiones': 0.033200286, 'sindicatos': 0.030516632, 'prestaciones': 0.026752898, 'sindicalismo': 0.02659354, 'empleo': 0.024692126, 'condiciones trabajo': 0.02205481, 'cc oo': 0.01712212}

例如,如果你这个新的足球

text_text_football =  "Buenas noticias para el Atlético de Madrid a expensas de que la crisis sanitaria provocada por el Covid19 permita volver a la actividad normal en todo el país y eso suponga también el regreso del fútbol. Sabiendo que ahora mismo no es lo más importante, la vuelta de la competición constataría que se ha podido superar esta pesadilla generada por el coronavirus. El caso es que, de momento, el Atlético de Madrid ya sabe que podrá contar con uno de sus hombres más importantes, con Álvaro Morata . El jugador ha aprovechado estas semanas de parón para recuperarse de la lesión que se produjo el pasado 11 de marzo en el partido que el equipo colchonero disputó ante el Liverpool en Anfield Road. Antes de esa cita, el futbolista se lesionaba 15 días antes del partido de ida de los octavos de final ante el Liverpool y tuvo que trabajar contrarreloj para recuperarse. Lo consiguió, claro, pero era evidente que estaba jugando con molestias. Encima, en el choque posterior ante el Sevilla se llevó varios golpes, uno en el glúteo y otro en una de sus piernas, que le hicieron ser seria duda para la cita de Anfield, a la que llegó mermado. De ahí que se acabase lesionando pese a marcar el gol de la victoria. Pues bien, el jugador ya cuenta con el alta médica, según explicó hace unos días el diario Marca. Eso quiere decir que ya está para entrenarse como el resto de compañeros, con algo más de intensidad, dentro del programa que el cuerpo técnico rojiblanco ha transmitido a los futbolistas. El futbolista se tuvo que recuperar en casa a cuenta del confinamiento, pero el club colchonero le puso a su disposición material de fisioterapia, presoterapia, crioterapia y electroestimulación para pasar este trance y cuenta con el seguimiento diario y asesoramiento de los profesionales del club, de los recuperadores del equipo así como del jefe de los servicios médicos."


运行主题分析:

classes_result = classifier.classify(text_text_football)
print(classes_result)

您将看到它输出:

{'atlético madrid': 0.36974072, 'real madrid': 0.25722897, 'fútbol': 0.075289354, 'deportes': 0.038075462, 'futbolistas': 0.029724792, 'baloncesto': 0.025478985, 'fc barcelona': 0.02337921, 'jugadores': 0.021244459, 'equipos': 0.015159458, 'primera división': 0.013489615}

定制

函数classify(text)允许输入default_threshold。这是您想要显示的主题的最低概率。默认值为0.001。在

输出和意义

函数classify(text)一个字典,它将所有主题作为键,概率值为0到1之间的数字。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
隐写术中随机lsb位的java访问   java如何使用GZIP压缩Http Post正文   java Mockito的when()不是stubing超类的方法   java安卓:片段中的Setter&在recycleServiceAdapter中获取字符串   用JDBC进行简单的客户端中间件仿真   JavaF:param返回null?   Java413语音错误   java获取子文档中的数据   启用持久性的java嵌入式HornetQ无法使用编程配置启动   运行spring引导jar工件时出现java“在METAINF/spring.factories中找不到自动配置类”错误   java如何格式化Spring引导的GET请求中的对象   swing Java填充自定义形状   Java仅在超类中处理序列化   在java应用程序中使用ftp4j库下载/上载时发生FTP错误   java准备语句作为sql参数