Newer
Older
---
annotations_creators:
- crowdsourced
- expert-generated
language_creators:
- crowdsourced
- expert-generated
- mit
multilinguality:
- monolingual
size_categories:
- 100K<n<1M
- 1M<n<10M
- 10M<n<100M
- 100M<n<1B
source_datasets:
- original
task_categories:
- text-classification
- question-answering
- zero-shot-classification
- text-generation
task_ids:
- natural-language-inference
- multi-class-classification
pretty_name: Russian SuperGLUE
language_bcp47:
- ru-RU
dataset_info:
- config_name: lidirus
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: knowledge
dtype: string
- name: lexical-semantics
dtype: string
- name: logic
dtype: string
- name: predicate-argument-structure
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': not_entailment
splits:
- name: test
num_bytes: 470306
num_examples: 1104
download_size: 47118
dataset_size: 470306
- config_name: rcb
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: verb
dtype: string
- name: negation
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': contradiction
'2': neutral
splits:
- name: train
num_bytes: 199712
num_examples: 438
- name: validation
num_bytes: 97993
num_examples: 220
- name: test
num_bytes: 207031
num_examples: 438
download_size: 136700
dataset_size: 504736
- config_name: parus
features:
- name: premise
dtype: string
- name: choice1
dtype: string
- name: choice2
dtype: string
- name: question
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
splits:
- name: train
num_bytes: 74467
num_examples: 400
- name: validation
num_bytes: 19397
num_examples: 100
- name: test
num_bytes: 93192
num_examples: 500
download_size: 57585
dataset_size: 187056
- config_name: muserc
features:
- name: paragraph
dtype: string
- name: question
dtype: string
- name: answer
dtype: string
- name: idx
struct:
- name: paragraph
dtype: int32
- name: question
dtype: int32
- name: answer
dtype: int32
- name: label
dtype:
class_label:
names:
splits:
- name: train
num_bytes: 31651155
num_examples: 11950
- name: validation
num_bytes: 5964157
num_examples: 2235
- name: test
num_bytes: 19850930
num_examples: 7614
download_size: 1196720
dataset_size: 57466242
- config_name: terra
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': not_entailment
splits:
- name: train
num_bytes: 1409243
num_examples: 2616
- name: validation
num_bytes: 161485
num_examples: 307
- name: test
num_bytes: 1713499
num_examples: 3198
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
download_size: 907346
dataset_size: 3284227
- config_name: russe
features:
- name: word
dtype: string
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: start1
dtype: int32
- name: start2
dtype: int32
- name: end1
dtype: int32
- name: end2
dtype: int32
- name: gold_sense1
dtype: int32
- name: gold_sense2
dtype: int32
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
splits:
- name: train
num_bytes: 6913280
num_examples: 19845
- name: validation
num_bytes: 2957491
num_examples: 8505
- name: test
num_bytes: 10046000
num_examples: 18892
download_size: 3806009
dataset_size: 19916771
- config_name: rwsd
features:
- name: text
dtype: string
- name: span1_index
dtype: int32
- name: span2_index
dtype: int32
- name: span1_text
dtype: string
- name: span2_text
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
splits:
- name: train
num_bytes: 132274
num_examples: 606
- name: validation
num_bytes: 87959
num_examples: 204
- name: test
num_bytes: 59051
num_examples: 154
download_size: 40508
dataset_size: 279284
- config_name: danetqa
features:
- name: question
dtype: string
- name: passage
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
splits:
- name: train
num_bytes: 2474006
num_examples: 1749
- name: validation
num_bytes: 1076455
num_examples: 821
- name: test
num_bytes: 1023062
num_examples: 805
download_size: 1293761
dataset_size: 4573523
- config_name: rucos
features:
- name: passage
dtype: string
- name: query
dtype: string
- name: entities
sequence: string
- name: answers
sequence: string
- name: idx
struct:
- name: passage
dtype: int32
- name: query
dtype: int32
splits:
- name: train
num_bytes: 160095378
num_examples: 72193
- name: validation
num_bytes: 16980563
num_examples: 7577
- name: test
num_bytes: 15535209
num_examples: 7257
download_size: 56208297
dataset_size: 192611150
tags:
- glue
- qa
- superGLUE
- NLI
- reasoning
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
---
# Dataset Card for [Russian SuperGLUE]
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** https://russiansuperglue.com/
- **Repository:** https://github.com/RussianNLP/RussianSuperGLUE
- **Paper:** https://russiansuperglue.com/download/main_article
- **Leaderboard:** https://russiansuperglue.com/leaderboard/2
- **Point of Contact:** [More Information Needed]
### Dataset Summary
Modern universal language models and transformers such as BERT, ELMo, XLNet, RoBERTa and others need to be properly
compared and evaluated. In the last year, new models and methods for pretraining and transfer learning have driven
striking performance improvements across a range of language understanding tasks.
We offer testing methodology based on tasks, typically proposed for “strong AI” — logic, commonsense, reasoning.
Adhering to the GLUE and SuperGLUE methodology, we present a set of test tasks for general language understanding
and leaderboard models.
For the first time a complete test for Russian language was developed, which is similar to its English analog.
Many datasets were composed for the first time, and a leaderboard of models for the Russian language with comparable
results is also presented.
### Supported Tasks and Leaderboards
Supported tasks, barring a few additions, are equivalent to the original SuperGLUE tasks.
|Task Name|Equiv. to|
|----|---:|
|Linguistic Diagnostic for Russian|Broadcoverage Diagnostics (AX-b)|
|Russian Commitment Bank (RCB)|CommitmentBank (CB)|
|Choice of Plausible Alternatives for Russian language (PARus)|Choice of Plausible Alternatives (COPA)|
|Russian Multi-Sentence Reading Comprehension (MuSeRC)|Multi-Sentence Reading Comprehension (MultiRC)|
|Textual Entailment Recognition for Russian (TERRa)|Recognizing Textual Entailment (RTE)|
|Russian Words in Context (based on RUSSE)|Words in Context (WiC)|
|The Winograd Schema Challenge (Russian)|The Winograd Schema Challenge (WSC)|
|Yes/no Question Answering Dataset for the Russian (DaNetQA)|BoolQ|
|Russian Reading Comprehension with Commonsense Reasoning (RuCoS)|Reading Comprehension with Commonsense Reasoning (ReCoRD)|
### Languages
All tasks are in Russian.
## Dataset Structure
### Data Instances
Note that there are no labels in the `test` splits. This is signified by the `-1` value.
#### LiDiRus
- **Size of downloaded dataset files:** 0.05 MB
- **Size of the generated dataset:** 0.49 MB
- **Total amount of disk used:** 0.54 MB
An example of 'test' looks as follows
```
{
"sentence1": "Новая игровая консоль доступна по цене.",
"sentence2": "Новая игровая консоль недоступна по цене.",
"knowledge": "",
"lexical-semantics": "Morphological negation",
"logic": "Negation",
"predicate-argument-structure": "",
"idx": 10,
"label": 1
}
```
#### RCB
- **Size of downloaded dataset files:** 0.14 MB
- **Size of the generated dataset:** 0.53 MB
- **Total amount of disk used:** 0.67 MB
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
An example of 'train'/'dev' looks as follows
```
{
"premise": "— Пойдём пообедаем. Я с утра ничего не ел. Отель, как видишь, весьма посредственный, но мне сказали,
что в здешнем ресторане отлично готовят.",
"hypothesis": "В здешнем ресторане отлично готовят.",
"verb": "сказать",
"negation": "no_negation",
"idx": 10,
"label": 2
}
```
An example of 'test' looks as follows
```
{
"premise": "Я уверен, что вместе мы победим. Да, парламентское большинство думает иначе.",
"hypothesis": "Вместе мы проиграем.",
"verb": "думать",
"negation": "no_negation",
"idx": 10,
"label": -1
}
```
#### PARus
- **Size of downloaded dataset files:** 0.06 MB
- **Size of the generated dataset:** 0.20 MB
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
- **Total amount of disk used:** 0.245 MB
An example of 'train'/'dev' looks as follows
```
{
"premise": "Женщина чинила кран.",
"choice1": "Кран подтекал.",
"choice2": "Кран был выключен.",
"question": "cause",
"idx": 10,
"label": 0
}
```
An example of 'test' looks as follows
```
{
"premise": "Ребятам было страшно.",
"choice1": "Их вожатый рассказал им историю про призрака.",
"choice2": "Они жарили маршмеллоу на костре.",
"question": "cause",
"idx": 10,
"label": -1
}
```
#### MuSeRC
- **Size of downloaded dataset files:** 1.26 MB
- **Size of the generated dataset:** 59.77 MB
- **Total amount of disk used:** 61.87 MB
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
An example of 'train'/'dev' looks as follows
```
{
"paragraph": "(1) Но люди не могут существовать без природы, поэтому в парке стояли железобетонные скамейки —
деревянные моментально ломали. (2) В парке бегали ребятишки, водилась шпана, которая развлекалась игрой в карты,
пьянкой, драками, «иногда насмерть». (3) «Имали они тут и девок...» (4) Верховодил шпаной Артемка-мыло, с
вспененной белой головой. (5) Людочка сколько ни пыталась усмирить лохмотья на буйной голове Артемки, ничего у
неё не получалось. (6) Его «кудри, издали напоминавшие мыльную пену, изблизя оказались что липкие рожки из
вокзальной столовой — сварили их, бросили комком в пустую тарелку, так они, слипшиеся, неподъёмно и лежали.
(7) Да и не ради причёски приходил парень к Людочке. (8) Как только её руки становились занятыми ножницами
и расчёской, Артемка начинал хватать её за разные места. (9) Людочка сначала увёртывалась от хватких рук Артемки,
а когда не помогло, стукнула его машинкой по голове и пробила до крови, пришлось лить йод на голову «ухажористого
человека». (10) Артемка заулюлюкал и со свистом стал ловить воздух. (11) С тех пор «домогания свои хулиганские
прекратил», более того, шпане повелел Людочку не трогать.",
"question": "Как развлекались в парке ребята?",
"answer": "Развлекались игрой в карты, пьянкой, драками, снимали они тут и девок.",
"idx":
{
"paragraph": 0,
"question": 2,
"answer": 10
},
"label": 1
}
```
An example of 'test' looks as follows
```
{
"paragraph": "\"(1) Издательство Viking Press совместно с компанией TradeMobile выпустят мобильное приложение,
посвященное Анне Франк, передает The Daily Telegraph. (2) Программа будет включать в себя фрагменты из дневника
Анны, озвученные британской актрисой Хеленой Бонэм Картер. (3) Помимо этого, в приложение войдут фотографии
и видеозаписи, документы из архива Фонда Анны Франк, план здания в Амстердаме, где Анна с семьей скрывались от
нацистов, и факсимильные копии страниц дневника. (4) Приложение, которое получит название Anne Frank App, выйдет
18 октября. (5) Интерфейс программы будет англоязычным. (6) На каких платформах будет доступно Anne Frank App,
не уточняется. Анна Франк родилась в Германии в 1929 году. (7) Когда в стране начались гонения на евреев, Анна с
семьей перебрались в Нидерланды. (8) С 1942 года члены семьи Франк и еще несколько человек скрывались от нацистов
в потайных комнатах дома в Амстердаме, который занимала компания отца Анны. (9) В 1944 году группу по доносу
обнаружили гестаповцы. (10) Обитатели \"Убежища\" (так Анна называла дом в дневнике) были отправлены в концлагеря;
выжить удалось только отцу девочки Отто Франку. (11) Находясь в \"Убежище\", Анна вела дневник, в котором описывала
свою жизнь и жизнь своих близких. (12) После ареста книгу с записями сохранила подруга семьи Франк и впоследствии
передала ее отцу Анны. (13) Дневник был впервые опубликован в 1947 году. (14) Сейчас он переведен более
чем на 60 языков.\"",
"question": "Какая информация войдет в новой мобильное приложение?",
"answer": "Видеозаписи Анны Франк.",
"idx":
{
"paragraph": 0,
"question": 2,
"answer": 10
},
"label": -1
}
```
#### TERRa
- **Size of downloaded dataset files:** 0.93 MB
- **Size of the generated dataset:** 3.44 MB
- **Total amount of disk used:** 4.39 MB
An example of 'train'/'dev' looks as follows
```
{
"premise": "Музей, расположенный в Королевских воротах, меняет экспозицию. На смену выставке, рассказывающей об
истории ворот и их реставрации, придет «Аптека трех королей». Как рассказали в музее, посетители попадут в
традиционный интерьер аптеки.",
"hypothesis": "Музей закроется навсегда.",
"idx": 10,
"label": 1
}
```
An example of 'test' looks as follows
```
{
"premise": "Маршрутка полыхала несколько минут. Свидетели утверждают, что приезду пожарных салон «Газели» выгорел полностью. К счастью, пассажиров внутри не было, а водитель успел выскочить из кабины.",
"hypothesis": "Маршрутка выгорела.",
"idx": 10,
"label": -1
}
```
#### RUSSE
- **Size of downloaded dataset files:** 3.88 MB
- **Size of the generated dataset:** 20.97 MB
- **Total amount of disk used:** 25.17 MB
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
An example of 'train'/'dev' looks as follows
```
{
"word": "дух",
"sentence1": "Завертелась в доме веселая коловерть: праздничный стол, праздничный дух, шумные разговоры",
"sentence2": "Вижу: духи собралися / Средь белеющих равнин. // Бесконечны, безобразны, / В мутной месяца игре / Закружились бесы разны, / Будто листья в ноябре",
"start1": 68,
"start2": 6,
"end1": 72,
"end2": 11,
"gold_sense1": 3,
"gold_sense2": 4,
"idx": 10,
"label": 0
}
```
An example of 'test' looks as follows
```
{
"word": "доска",
"sentence1": "На 40-й день после трагедии в переходе была установлена мемориальная доска, надпись на которой гласит: «В память о погибших и пострадавших от террористического акта 8 августа 2000 года».",
"sentence2": "Фото с 36-летним миллиардером привлекло сеть его необычной фигурой при стойке на доске и кремом на лице.",
"start1": 69,
"start2": 81,
"end1": 73,
"end2": 85,
"gold_sense1": -1,
"gold_sense2": -1,
"idx": 10,
"label": -1
}
```
#### RWSD
- **Size of downloaded dataset files:** 0.04 MB
- **Size of the generated dataset:** 0.29 MB
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
- **Total amount of disk used:** 0.320 MB
An example of 'train'/'dev' looks as follows
```
{
"text": "Женя поблагодарила Сашу за помощь, которую она оказала.",
"span1_index": 0,
"span2_index": 6,
"span1_text": "Женя",
"span2_text": "она оказала",
"idx": 10,
"label": 0
}
```
An example of 'test' looks as follows
```
{
"text": "Мод и Дора видели, как через прерию несутся поезда, из двигателей тянулись клубы черного дыма. Ревущие
звуки их моторов и дикие, яростные свистки можно было услышать издалека. Лошади убежали, когда они увидели
приближающийся поезд.",
"span1_index": 22,
"span2_index": 30,
"span1_text": "свистки",
"span2_text": "они увидели",
"idx": 10,
"label": -1
}
```
#### DaNetQA
- **Size of downloaded dataset files:** 1.36 MB
- **Size of the generated dataset:** 4.82 MB
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
- **Total amount of disk used:** 5.9 MB
An example of 'train'/'dev' looks as follows
```
{
"question": "Вреден ли алкоголь на первых неделях беременности?",
"passage": "А Бакингем-Хоуз и её коллеги суммировали последствия, найденные в обзорных статьях ранее. Частые случаи
задержки роста плода, результатом чего является укороченный средний срок беременности и сниженный вес при рождении.
По сравнению с нормальными детьми, дети 3-4-недельного возраста демонстрируют «менее оптимальную» двигательную
активность, рефлексы, и ориентацию в пространстве, а дети 4-6 лет показывают низкий уровень работы
нейроповеденческих функций, внимания, эмоциональной экспрессии, и развития речи и языка. Величина этих влияний
часто небольшая, частично в связи с независимыми переменными: включая употребление во время беременности
алкоголя/табака, а также факторы среды . У детей школьного возраста проблемы с устойчивым вниманием и контролем
своего поведения, а также незначительные с ростом, познавательными и языковыми способностями.",
"idx": 10,
"label": 1
}
```
An example of 'test' looks as follows
```
{
"question": "Вредна ли жесткая вода?",
"passage": "Различают временную жёсткость, обусловленную гидрокарбонатами кальция и магния Са2; Mg2, и постоянную
жёсткость, вызванную присутствием других солей, не выделяющихся при кипячении воды: в основном, сульфатов и
хлоридов Са и Mg. Жёсткая вода при умывании сушит кожу, в ней плохо образуется пена при использовании мыла.
Использование жёсткой воды вызывает появление осадка на стенках котлов, в трубах и т. п. В то же время,
использование слишком мягкой воды может приводить к коррозии труб, так как, в этом случае отсутствует
кислотно-щелочная буферность, которую обеспечивает гидрокарбонатная жёсткость. Потребление жёсткой или мягкой
воды обычно не является опасным для здоровья, однако есть данные о том, что высокая жёсткость способствует
образованию мочевых камней, а низкая — незначительно увеличивает риск сердечно-сосудистых заболеваний. Вкус
природной питьевой воды, например, воды родников, обусловлен именно присутствием солей жёсткости.",
"idx": 100,
"label": -1
}
```
#### RuCoS
- **Size of downloaded dataset files:** 56.62 MB
- **Size of the generated dataset:** 202.38 MB
- **Total amount of disk used:** 261.10 MB
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
An example of 'train'/'dev' looks as follows
```
{
"passage": "В Абхазии 24 августа на досрочных выборах выбирают нового президента. Кто бы ни стал победителем,
возможности его будут ограничены, говорят эксперты, опрошенные DW. В Абхазии 24 августа проходят досрочные выборы
президента не признанной международным сообществом республики. Толчком к их проведению стали массовые протесты в
конце мая 2014 года, в результате которых со своего поста был вынужден уйти действующий президент Абхазии Александр
Анкваб. Эксперты называют среди наиболее перспективных кандидатов находящегося в оппозиции политика Рауля Хаджимбу,
экс-главу службы безопасности Аслана Бжанию и генерала Мираба Кишмарию, исполняющего обязанности министра обороны.
У кого больше шансов\n\"Ставки делаются на победу Хаджимбы.\n@highlight\nВ Швеции задержаны двое граждан РФ в связи
с нападением на чеченского блогера\n@highlight\nТуризм в эпоху коронавируса: куда поехать? И ехать ли
вообще?\n@highlight\nКомментарий: Россия накануне эпидемии - виноватые назначены заранее",
"query": "Несмотря на то, что Кремль вложил много денег как в @placeholder, так и в Южную Осетию, об экономическом
восстановлении данных регионов говорить не приходится, считает Хальбах: \"Многие по-прежнему живут в
полуразрушенных домах и временных жилищах\".",
"entities":
[
"DW.",
"Абхазии ",
"Александр Анкваб.",
"Аслана Бжанию ",
"Мираба Кишмарию,",
"РФ ",
"Рауля Хаджимбу,",
"Россия ",
"Хаджимбы.",
"Швеции "
],
"answers":
[
"Абхазии"
],
"idx":
{
"passage": 500,
"query": 500
}
}
```
An example of 'test' looks as follows
```
{
"passage": "Почему и как изменится курс белорусского рубля? Какие инструменты следует предпочесть населению, чтобы
сохранить сбережения, DW рассказали финансовые аналитики Беларуси. На последних валютных торгах БВФБ 2015 года в
среду, 30 декабря, курс белорусского рубля к доллару - 18569, к евро - 20300, к российскому рублю - 255. В 2016
году белорусскому рублю пророчат падение как минимум на 12 процентов к корзине валют, к которой привязан его курс.
А чтобы избежать потерь, белорусам советуют диверсифицировать инвестиционные портфели. Чем обусловлены прогнозные
изменения котировок белорусского рубля, и какие финансовые инструменты стоит предпочесть, чтобы минимизировать риск
потерь?\n@highlight\nВ Германии за сутки выявлено более 100 новых заражений коронавирусом\n@highlight\nРыночные цены
на нефть рухнули из-за провала переговоров ОПЕК+\n@highlight\nВ Италии за сутки произошел резкий скачок смертей от
COVID-19",
"query": "Последнее, убежден аналитик, инструмент для узкого круга профессиональных инвесторов, культуры следить за
финансовым состоянием предприятий - такой, чтобы играть на рынке корпоративных облигаций, - в @placeholder пока нет.",
"entities":
[
"DW ",
"Беларуси.",
"Германии ",
"Италии ",
"ОПЕК+"
],
"answers": [],
"idx":
{
"passage": 500,
"query": 500
}
}
```
### Data Fields
#### LiDiRus
- `idx`: an `int32` feature
- `label`: a classification label, with possible values `entailment` (0), `not_entailment` (1)
- `sentence1`: a `string` feature
- `sentence2`: a `string` feature
- `knowledge`: a `string` feature with possible values `''`, `'World knowledge'`, `'Common sense'`
- `lexical-semantics`: a `string` feature
- `logic`: a `string` feature
- `predicate-argument-structure`: a `string` feature
#### RCB
- `idx`: an `int32` feature
- `label`: a classification label, with possible values `entailment` (0), `contradiction` (1), `neutral` (2)
- `premise`: a `string` feature
- `hypothesis`: a `string` feature
- `verb`: a `string` feature
- `negation`: a `string` feature with possible values `'no_negation'`, `'negation'`, `''`, `'double_negation'`
#### PARus
- `idx`: an `int32` feature
- `label`: a classification label, with possible values `choice1` (0), `choice2` (1)
- `premise`: a `string` feature
- `choice1`: a `string` feature
- `choice2`: a `string` feature
- `question`: a `string` feature with possible values `'cause'`, `'effect'`
#### MuSeRC
- `idx`: an `int32` feature
- `label` : a classification label, with possible values `false` (0) , `true` (1) (does the provided `answer` contain
a factual response to the `question`)
- `paragraph`: a `string` feature
- `question`: a `string` feature
- `answer`: a `string` feature
#### TERRa
- `idx`: an `int32` feature
- `label`: a classification label, with possible values `entailment` (0), `not_entailment` (1)
- `premise`: a `string` feature
- `hypothesis`: a `string` feature
#### RUSSE
- `idx`: an `int32` feature
- `label` : a classification label, with possible values `false` (0), `true` (1) (whether the given `word` used in the
same sense in both sentences)
- `word`: a `string` feature
- `sentence1`: a `string` feature
- `sentence2`: a `string` feature
- `gold_sense1`: an `int32` feature
- `gold_sense2`: an `int32` feature
- `start1`: an `int32` feature
- `start2`: an `int32` feature
- `end1`: an `int32` feature
- `end2`: an `int32` feature
#### RWSD
- `idx`: an `int32` feature
- `label` : a classification label, with possible values `false` (0), `true` (1) (whether the given spans are
coreferential)
- `text`: a `string` feature
- `span1_index`: an `int32` feature
- `span2_index`: an `int32` feature
- `span1_text`: a `string` feature
- `span2_text`: a `string` feature
#### DaNetQA
- `idx`: an `int32` feature
- `label` : a classification label, with possible values `false` (0), `true` (1) (yes/no answer to the `question` found
in the `passage`)
- `question`: a `string` feature
- `passage`: a `string` feature
#### RuCoS
- `idx`: an `int32` feature
- `passage`: a `string` feature
- `query`: a `string` feature
- `entities`: a `list of strings` feature
- `answers`: a `list of strings` feature
[More Information Needed]
### Data Splits
#### LiDiRus
| |test|
|---|---:|
|LiDiRus|1104|
#### RCB
| |train|validation|test|
|----|---:|----:|---:|
|RCB|438|220|438|
#### PARus
| |train|validation|test|
|----|---:|----:|---:|
|PARus|400|100|500|
#### MuSeRC
| |train|validation|test|
|----|---:|----:|---:|
|MuSeRC|500|100|322|
#### TERRa
| |train|validation|test|
|----|---:|----:|---:|
|TERRa|2616|307|3198|
#### RUSSE
| |train|validation|test|
|----|---:|----:|---:|
|RUSSE|19845|8508|18892|
#### RWSD
| |train|validation|test|
|----|---:|----:|---:|
|RWSD|606|204|154|
#### DaNetQA
| |train|validation|test|
|----|---:|----:|---:|
|DaNetQA|1749|821|805|
#### RuCoS
| |train|validation|test|
|----|---:|----:|---:|
|RuCoS|72193|7577|7257|
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
All our datasets are published by MIT License.
### Citation Information
```
@article{shavrina2020russiansuperglue,
title={RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark},
author={Shavrina, Tatiana and Fenogenova, Alena and Emelyanov, Anton and Shevelev, Denis and Artemova, Ekaterina and Malykh, Valentin and Mikhailov, Vladislav and Tikhonova, Maria and Chertok, Andrey and Evlampiev, Andrey},
journal={arXiv preprint arXiv:2010.15925},
year={2020}
}
@misc{fenogenova2022russian,
title={Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP models},
author={Alena Fenogenova and Maria Tikhonova and Vladislav Mikhailov and Tatiana Shavrina and Anton Emelyanov and Denis Shevelev and Alexandr Kukushkin and Valentin Malykh and Ekaterina Artemova},
year={2022},
eprint={2202.07791},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Thanks to [@slowwavesleep](https://github.com/slowwavesleep) for adding this dataset.